Dom Nieświeży oddech Analityk danych, gdzie studiować. Czym jest analityka danych i jak działa? Wideo: Nowa specjalizacja „Big Data” - Michaił Levin

Nieświeży oddech

Analityk danych, gdzie studiować. Czym jest analityka danych i jak działa? Wideo: Nowa specjalizacja „Big Data” - Michaił Levin

Czy od dawna chciałeś dowiedzieć się, jak zostać analitykiem danych, studiować analitykę danych, ale nie wiedziałeś od czego zacząć? Zatem ten artykuł jest dla Ciebie.

Kto z nas nie słyszał o „big data”? Jest mało prawdopodobne, że będzie przynajmniej jeden. W ostatnie lata zainteresowanie pracą z danymi znacznie wzrosło, gdyż duże firmy IT muszą wymyślać coraz to nowe rozwiązania w zakresie analizy, przetwarzania i późniejszego wykorzystania danych. Niektórzy nawet startują programy szkoleniowe wspólnie z uniwersytetami. Jednak większość ludzi nie ma pojęcia, kim są analitycy danych. Jeśli jesteś jedną z takich osób i chcesz zostać analitykiem danych, to ten artykuł jest dla Ciebie. Wybraliśmy tylko bezpłatne narzędzia szkoleniowe, z których możesz korzystać niezależnie od lokalizacji.

Czym zajmują się analitycy danych?

Tak zwani analitycy danych zajmują się pozyskiwaniem informacji i analizą w celu uzyskania wizualnych, dostrzegalnych przez człowieka wyników. Do takich osób zaliczają się zazwyczaj specjaliści od big data, eksploracji danych, uczenia maszynowego, analizy systemów i analitycy biznesowi.

Co obejrzeć

Wykłady „Szkoła analizy danych” od Yandex

SHAD - kursy z analizy danych prowadzone przez pracowników Yandex. Wejście tam jest dość trudne; minimum wymagane dla kandydatów to podstawowe sekcje wyższej algebry,analiza matematyczna, kombinatoryka, teoria prawdopodobieństwa, a także podstawy programowania. Na szczęście kursy są nagrywane, dzięki czemu każdy może uczyć się z wykładów wideo.

Kurs uczenia maszynowego

Kurs uczy stosowania teorii prawdopodobieństwa i statystyki, omawia podstawy uczenia maszynowego oraz uczy budowania algorytmów

Kurs „Wyszukiwanie algorytmów i struktur danych”

Wykłady obejmują algorytmy wyszukiwania i sortowania dużych ilości danych, algorytmy i manipulację ciągami znaków, algorytmy z teorii grafów, konstrukcję i analizę struktur danych.

Kurs „Przetwarzanie równoległe i rozproszone”

Dla tych, którzy od dawna chcieli zapoznać się z programowaniem wielowątkowym i równoległym oraz MapReduce.

Kurs „Analiza dyskretna i teoria prawdopodobieństwa”

Kurs omawia podstawowe pojęcia i metody analizy kombinatorycznej, dyskretnej i asymptotycznej, teorii prawdopodobieństwa, statystyki, a także demonstruje ich zastosowanie.

Kurs „Złożoność obliczeniowa”

Po obejrzeniu kursu poznasz klasy złożoności probabilistycznej oraz podstawowe techniki analizy i konstruowania danych.

Wykłady Grupa Technostream Mail.ru

Programy kursów są przeznaczone dla studentów kilku moskiewskich uniwersytetów, ale są dostępne dla każdego. Przyszłym analitykom polecamy następujące zbiory wykładów:

Wykłady Uniwersytet Big Data

Uniwersytet Big Data - kurs internetowy, stworzony wspólnie z IBM dla początkujących i osób bez przygotowania matematycznego. Wykłady pomagające zapoznać się z podstawami pracy z danymi są nagrywane w zrozumiałym języku angielskim.

Laboratoria Welcha

Na tym kanale znajdują się wykłady z matematyki, informatyki, programowania i uczenia maszynowego. W trakcie tego procesu podawane są przykłady zastosowania przedmiotów, których się uczymy prawdziwe życie. Wykłady prowadzone są w języku angielskim, ale są doskonałe rosyjskie napisy.

Dobrze " Uczenie się na podstawie danych strukturalnych: wprowadzenie do probabilistycznych modeli graficznych”Wydział Informatyki, Państwowa Uczelnia Badawcza Wyższa Szkoła Ekonomiczna

Kurs koncentruje się na dogłębnym wprowadzeniu w teorię i zastosowania jednego z najpopularniejszych obecnie podejść do rozwiązywania tego typu problemów - probabilistyki dyskretnej modele graficzne. Językiem kursu jest język angielski.

Kanał senddex

Kanał jest w całości poświęcony pracy z danymi. Co więcej, nie tylko osoby zainteresowane matematyką znajdą tu przydatne rzeczy dla siebie. Dostępne są filmy dotyczące analizy i programowania dla analityków finansowych oraz robotyki wykorzystującej Rasperri Pi.

Kanał Siraja Ravala

Facet opowiada nowoczesne technologie i jak z nimi pracować. Kursy z zakresu głębokiego uczenia się, analityki danych i uczenia maszynowego pomogą Ci nauczyć się pracować z danymi.

Kanał szkoły danych

Jeśli dopiero słyszałeś coś o uczeniu maszynowym, ale już jesteś zainteresowany, to ten kanał jest dla Ciebie. Autor na zrozumiałym poziomie wyjaśni na przykładach, co to jest, jak działa i gdzie jest stosowane.

Gdzie ćwiczyć

Dla tych, którzy oglądając wykłady nie są pewni, czy są gotowi na całkowicie samodzielną naukę, dostępne są kursy online z zadaniami z weryfikacją.

Kursy nauki o danych na Coursera

Nie trzeba wyjaśniać, jaki to rodzaj platformy. Musisz wybrać kurs i rozpocząć naukę.

Stepik.org

Analiza danych w R

Pierwsza część obejmuje wszystkie główne etapy analizy statystycznej w R, odczytywania danych, wstępnego przetwarzania danych, stosowania podstawowych metod statystycznych i wizualizacji wyników. Studenci poznają podstawowe elementy programowania w języku R, co pozwoli im szybko i sprawnie rozwiązywać szeroką gamę problemów pojawiających się podczas przetwarzania danych.

Druga część obejmuje kilka zaawansowanych tematów, które nie zostały poruszone w pierwszej: wstępne przetwarzanie danych z wykorzystaniem pakietów data.table i dplyr, zaawansowane techniki wizualizacji, praca w R Markdown.

Wprowadzenie do baz danych

Zanurz się w DBMS

Kurs przeznaczony jest dla tych, którzy mają pewne doświadczenie z relacyjnym systemem DBMS i chcą dowiedzieć się więcej o jego działaniu. Kurs obejmuje:

projektowanie schematu bazy danych;
zarządzanie transakcjami;
optymalizacja zapytań;
nowe funkcje relacyjnego systemu DBMS

Hadoop. System do przetwarzania dużych ilości danych

Kurs poświęcony jest sposobom przetwarzania dużych ilości danych z wykorzystaniem systemu Hadoop. Po ukończeniu kursu zdobędziesz wiedzę na temat podstawowych metod przechowywania i przetwarzania dużych wolumenów danych, zrozumiesz zasady działania systemów rozproszonych w kontekście frameworku Hadoop oraz opanujesz praktyczne umiejętności tworzenia aplikacji z wykorzystaniem modelu programowania MapReduce.

Wielu pracodawców aktywnie poszukuje obecnie analityków danych. Jednocześnie zależy im na przyciągnięciu tych „naukowców”, którzy posiadają odpowiednie wykształcenie. Jednocześnie trzeba wziąć pod uwagę wszystkie dezinformacje, jakich pełno jest na rynku. Opowiemy Ci o największych błędnych przekonaniach na temat analityki danych i analityków danych, umiejętnościach, jakie muszą posiadać oraz kim właściwie jest ta rzadka rasa.

Nauka o danych(Data Science) to dziedzina informatyki zajmująca się problematyką analizy, przetwarzania i prezentacji danych w postaci cyfrowej. Data science łączy metody przetwarzania danych w dużych ilościach i przy wysokim poziomie równoległości, metody statystyczne, metody eksploracji danych i zastosowania sztucznej inteligencji do pracy z danymi, a także metody projektowania i rozwijania baz danych. Traktowana jako dyscyplina naukowa. Od początku 2010 roku pozycjonowany jest jako praktyczny, międzysektorowy obszar działania. Od początku 2010 roku specjalizacja „data science” uznawana jest za jeden z najlepiej opłacanych, atrakcyjnych i perspektywicznych zawodów.

Błędne przekonania związane z nauką o danych

1. Big data to statystyki i analityka biznesowa zawierająca dużą ilość danych. Nie ma tu nic nowego

Opinię tę podzielają głównie osoby, które mają ograniczone doświadczenie w tworzeniu oprogramowania lub nie są obciążone żadnym doświadczeniem. Chcesz analogii? Proszę. Weźmy na przykład lód. Można ją nazwać bardzo zimną wodą. Co nowego tutaj? Jednak woda chłodząca nie tylko zmienia swoją temperaturę, ale radykalnie zmienia swoje cechy jakościowe, przekształcając ciecz w ciało stałe. To samo można powiedzieć o dużych ilościach danych. Duże ilości danych ostatecznie przełamują stare paradygmaty obliczeń, obliczeń i obliczeń. Podczas używania tradycyjne metody Analitykom biznesowym przeprowadzenie pewnych obliczeń może zająć lata. Równoległość i przetwarzanie rozproszone to oczywiste odpowiedzi na pytanie o skalowanie. Nie zawsze jest to jednak takie proste, nawet przy użyciu tak prostego narzędzia statystycznego, jak analiza regresji logistycznej. Rozproszone obliczenia statystyczne różnią się od tradycyjnych analiz biznesowych tak samo, jak lód od wody.

2. Analitycy danych po rebrandingu są tymi samymi inżynierami oprogramowania

Czasami inżynierowie z dużym doświadczeniem w tworzeniu oprogramowania przechodzą przekwalifikowanie i zostają analitykami danych w celu doskonalenia wynagrodzenie. Jednak praktyka ta często prowadzi do niezadowalających rezultatów. Rzeczywiście, w dziedzinie big data debugowanie błędów statystycznych nawet na najprostszym poziomie wydaje się zadaniem dość trudnym. Inżynierowie są przeszkoleni w wykrywaniu i naprawianiu błędów oprogramowania. Ale bez solidnej wiedzy z teorii prawdopodobieństwa i statystyki nawet fajny programista nie będzie w stanie skutecznie wyeliminować prostego błędu statystycznego.

Inżynierowie wyższego szczebla są w stanie budować proste, dyskretne modele oparte na regułach. Jednak takie modele nie nadają się do uzyskiwania bardziej szczegółowych wniosków z danych. Stąd utrata korzyści finansowych. Dlatego też, aby uzyskać odpowiedzi na „pytania związane z big data”, potrzebna jest wysoko wykwalifikowana i wysoce wyspecjalizowana kadra, która będzie podstawą kolejnej generacji modelowania predykcyjnego.

3. Analitycy danych nie muszą rozumieć biznesu – dane powiedzą im wszystko

Tej pokusie często ulegają osoby posiadające wykształcenie i doświadczenie jako programista. I tak naprawdę, dlaczego muszą rozumieć biznes, skoro mają tak potężną bazę? Potężny, ale nie wszechmocny. Znalezienie wszystkich możliwych korelacji jest niezwykle pracochłonne i czasochłonne, nie mówiąc już o problematyce statystycznej. Analitycy danych muszą po prostu wykorzystać swoją intuicję biznesową, aby skutecznie odróżnić korelacje fałszywe od rzeczywistych. Brak specjalistycznej wiedzy w danym obszarze może prowadzić do bezpodstawnych wniosków. Jak ci się podoba? Wzrost liczby funkcjonariuszy Policji prowadzi do wzrostu przestępczości, co oznacza konieczność ograniczenia liczby funkcjonariuszy organów ścigania na terenach o niesprzyjającej sytuacji przestępczej. Wreszcie, posiadanie intuicji biznesowej jest również ważne dla przekonania kluczowych interesariuszy: mówiąc o korelacjach w języku zrozumiałym dla ludzi biznesu, analityk danych odniesie większy sukces niż kolega bez zmysłu biznesowego.

Big data i data science to wiedza o tym, jak zbudować optymalny model, który łączy w sobie odpowiednie umiejętności inżynieryjne, statystyczne i biznesowe. Bez tego analityk danych nie będzie w stanie osiągnąć wszystkiego, co sobie zamierzy.

Kim zatem są badacze danych?

Analitycy danych są produktem ewolucji analityków biznesowych i danych. Formalne kształcenie takich specjalistów obejmuje informatykę, statystykę, analitykę i matematykę. Co wyróżnia najwyższej klasy analityka danych? Silna świadomość biznesowa połączona z umiejętnością komunikowania się z liderami biznesu i IT w sposób, który pomaga wpływać na rozwój firmy. Anjul Bambra, wiceprezes ds. dużych zbiorów danych w IBM, twierdzi, że badacze danych są „po części analitykiem, a po części artystą”. To bardzo ciekawscy ludzie, którzy potrafią przeglądać dane i dostrzegać trendy. Można ich porównać do artystów renesansu, którzy chcieli nie tylko uczyć się, ale także zmieniać otaczający ich świat.

Podczas gdy tradycyjny analityk analizuje dane z jednego źródła (np. Systemy CRM), analityk danych koniecznie bada dane z kilku różnych źródeł. Będzie agresywnie przeglądać wszystkie przychodzące dane, aby odkryć ukryte wcześniej informacje, które mogą dostarczyć przewagę konkurencyjną. Analityk danych nie tylko zbiera i analizuje dane, ale przygląda się im pod różnymi kątami i analizuje je w różnych kontekstach, określa, co dane oznaczają dla marki, a następnie wydaje rekomendacje, jak wykorzystać dostępne informacje.

Analitycy danych to ludzie, którzy nieustannie prowadzą badania, zadają miliony pytań, przeprowadzają analizy „co by było, gdyby…”, kwestionują istniejące założenia i procesy, identyfikują bogate źródła danych i łączą słabe zbiory danych… W konkurencyjnym środowisku, w którym zadania są stale powtarzane zmiany, a szybki przepływ danych nigdy się nie kończy, badacze danych pomagają w zarządzaniu podejmować decyzje. I to jest ich najcenniejsza cecha.

Dlaczego „naukowcy”?

Wielu twierdzi, że nazywanie analityka danych „naukowcem zajmującym się danymi” jest bardzo, bardzo pretensjonalne. Jeśli jednak spróbujesz spojrzeć na korzeń, to sformułowanie ma sens. Na przykład fizycy doświadczalni muszą projektować i budować sprzęt, gromadzić dane, przeprowadzać eksperymenty i podsumowywać wszystkie ustalenia w raportach. Analitycy danych robią to samo. Dlatego za najbardziej wykwalifikowanych analityków danych uważa się osoby z wyższym stopniem naukowym w dziedzinie fizyki lub nauk społecznych.

Najlepsi badacze danych na świecie to naukowcy z doktoratami z dziedzin ezoterycznych, takich jak ekologia i biologia systemów. Uderzający przykład– George Roumeliotis, który kieruje zespołem analityków danych w Intuit w Dolinie Krzemowej. Uzyskał doktorat z astrofizyki. Wielu analityków danych jest właścicielami stopnie naukowe w informatyce, matematyce i ekonomii. Ale niech tak będzie, dobry specjalista, specjalizujący się w analizie danych, może pochodzić z dowolnej dziedziny.

Podstawowe umiejętności, bez których analityk danych nie może się obejść

Podstawowe narzędzia. Niezależnie od misji firmy, analityk danych musi wiedzieć, jak posługiwać się podstawowymi narzędziami: językiem programowania R do analityki danych statystycznych i grafiki, językiem programowania wysokiego poziomu Python mającym na celu poprawę produktywności programistów i czytelności kodu, Structured Query Language, takim jak SQL, używany do tworzenia, modyfikowania i manipulowania danymi w dowolnej relacyjnej bazie danych.

Podstawowe statystyki. Zrozumienie statystyk jest niezbędne dla analityka danych. Nie jest tajemnicą, że wielu ekspertów nie jest w stanie określić nawet wartości P – wartości wykorzystywanej w testach hipotezy statystyczne. Analityk danych musi po prostu znać testy statystyczne, rozkłady, szacowanie największej wiarygodności itp. Statystyki są ważne dla różne obszary biznesowe, szczególnie w przypadku firm działających w oparciu o dane

Uczenie maszynowe. Jeśli analityk danych pracuje w dużej firmie dysponującej ogromnymi wolumenami danych, powinien znać metody uczenia maszynowego. Oczywiście wiele z tych metod można zaimplementować przy użyciu bibliotek R lub Python, więc nie trzeba być czołowym na świecie ekspertem, aby zrozumieć, jak działają algorytmy. O wiele ważniejsze jest zrozumienie, kiedy zastosowanie określonych metod będzie najwłaściwsze.

Obliczenia wielowymiarowe i algebra liniowa. Dyscypliny te stanowią podstawę wielu metod uczenia maszynowego.

Przygotowanie danych do analizy. Często analizowane dane są dość „brudne”, co znacznie utrudnia pracę z nimi. Dlatego bardzo ważne jest, aby wiedzieć, jak sobie poradzić ze wszystkimi niedociągnięciami danych. Jako przykład niedoskonałych danych można przytoczyć takie niespójne formatowanie ciągów znaków jak „Nowy Jork” – „nowy jork” – „ny”, czy daty „2014-01-01” – „01.01.2014”, czy wykorzystanie czasu i sekwencji systemu UNIX Timestamp.

Wizualizacja i komunikacja danych. To jest niesamowite ważne punkty, szczególnie gdy mówimy o młodych firmach opartych na danych lub tych, w których badacze danych są postrzegani jako osoby pomagające w podejmowaniu decyzji opartych na danych. Bardzo przydatna będzie znajomość ggplot (rozszerzenia języka R) oraz biblioteki JavaScript do przetwarzania i wizualizacji danych D3.js.

Programowanie. Analitycy danych są zazwyczaj odpowiedzialni za obsługę dużych ilości danych rejestracyjnych i produktów opartych na danych.

Myśl jak analityk danych. Pracodawca zawsze chce widzieć analityka danych jako osobę rozwiązującą problemy. „Naukowiec” musi zawsze wiedzieć, co jest na tym etapie ważne, a co nie ma szczególnej wartości. Wymagany jest kontakt z projektantami i menadżerami odpowiedzialnymi za rozwój produktu.

Według Harvard Business Review analityk danych to najseksowniejszy zawód XXI wieku. I trudno się z tym nie zgodzić. Data science dopiero się rozwija i wszystkich współczesnych analityków danych można śmiało nazwać pionierami. A jeśli możesz powiedzieć, że jesteś najlepszym informatykiem wśród statystyków i najlepszym statystykiem wśród informatyków, to jesteś prawdziwym analitykiem danych.

Materiały użyte do przygotowania tego artykułu

Analityk danych- specjalista w zakresie przetwarzania, analizy i przechowywania dużych ilości danych, tzw. „Big Data”. Zawód jest odpowiedni dla osób zainteresowanych fizyką, matematyką i informatyką (patrz: wybór zawodu na podstawie zainteresowań przedmiotami szkolnymi).

Data Science - nauka o danych na styku różnych dyscyplin: matematyki i statystyki; Informatyka i Informatyka; biznesu i ekonomii.

(S. Maltseva, Narodowy Uniwersytet Badawczy im. V. Korniłowa „Wyższa Szkoła Ekonomiczna”)

Zawód jest nowy, istotny i... Sam termin „Big Data” pojawił się w 2008 roku. Natomiast zawód Data Scientist – „Data Scientist” został oficjalnie zarejestrowany jako dyscyplina akademicka i interdyscyplinarna na początku 2010 roku. Co prawda pierwsza wzmianka o terminie „data science” pojawiła się w książce Petera Naura w 1974 roku, ale w inny sposób kontekst.

Potrzeba powstania takiego zawodu została podyktowana faktem, że w przypadku Ultra Big Data zbiory danych okazują się zbyt duże, aby można je było przetworzyć standardowymi metodami statystyki matematycznej. Każdego dnia tysiące petabajtów (10 15 bajtów = 1024 terabajtów) informacji przechodzi przez serwery firm na całym świecie. Oprócz takich ilości danych problem komplikuje ich niejednorodność i duża prędkość aktualizacje.

Tablice danych dzielą się na 3 typy:

ustrukturyzowane (np. dane z kas fiskalnych w handlu);

częściowo ustrukturyzowane (wiadomości e-mail);

nieustrukturyzowane (pliki wideo, obrazy, fotografie).

Większość Big Data jest nieustrukturyzowana, co znacznie utrudnia ich przetwarzanie.

Indywidualnie statystyk, analityk systemowy czy analityk biznesowy nie jest w stanie rozwiązać problemów przy takiej ilości danych. Wymagana jest do tego osoba z interdyscyplinarnym wykształceniem, kompetentna w zakresie matematyki i statystyki, ekonomii i biznesu, informatyki i informatyki.

Głównym zadaniem Data Scientist jest umiejętność wydobywania niezbędnych informacji z szerokiej gamy źródeł, wykorzystując przepływ informacji w czasie rzeczywistym; identyfikuj ukryte wzorce w zbiorach danych i analizuj je statystycznie, aby podejmować mądre decyzje biznesowe. Miejsce pracy takiego specjalisty to nie 1 komputer czy nawet 1 serwer, ale klaster serwerów.

Cechy zawodu

Pracując z danymi, analityk danych stosuje różne metody:

metody statystyczne;
modelowanie baz danych;
metody wydobycia;
aplikacje sztucznej inteligencji do pracy z danymi;
metody projektowania i tworzenia baz danych.

Obowiązki badacza danych zależą od dziedziny jego działalności, ale lista ogólna funkcje wyglądają tak:

zbieranie danych z różnych źródeł w celu późniejszego przetwarzania operacyjnego;
analiza zachowań konsumentów;
modelowanie bazy klientów i personalizacja produktów;
analiza efektywności procesy wewnętrzne podstawy;
analiza różnych ryzyk;
identyfikowanie możliwych oszustw poprzez badanie wątpliwych transakcji;
sporządzanie raportów okresowych z prognozami i prezentacją danych.

Analityk danych, jak prawdziwy naukowiec, nie tylko zbiera i analizuje dane, ale także bada je w różnych kontekstach i pod różnymi kątami, kwestionując wszelkie założenia. Najważniejsza jakość analityk danych to umiejętność dostrzegania logicznych powiązań w systemie zebranych informacji i na ich podstawie analiza ilościowa opracowywać skuteczne rozwiązania biznesowe. W dzisiejszym konkurencyjnym i szybko zmieniającym się świecie, w stale rosnącym przepływie informacji, Data Scientist jest niezbędny w zarządzaniu w zakresie podejmowania właściwych decyzji biznesowych.

Plusy i minusy zawodu

Plusy

Zawód ten jest nie tylko niezwykle poszukiwany, ale także dotkliwie brakuje specjalistów tego poziomu. Według McKinsey Global Institute do 2018 roku w samych Stanach Zjednoczonych potrzebnych będzie ponad 190 tys. Data Scientistów. Dlatego właśnie na najbardziej prestiżowych uniwersytetach wydziały kształcące analityków danych są tak szybko i szeroko finansowane i rozwijane. Zapotrzebowanie na analityków danych rośnie także w Rosji.
Wysoko płatny zawód.
Konieczność ciągłego rozwoju, nadążania za rozwojem technologii informatycznych i tworzenia nowych metod przetwarzania, analizowania i przechowywania danych.

Wady

Nie każdy może opanować ten zawód; wymaga to specjalnego sposobu myślenia.
W trakcie pracy dobrze znane metody i ponad 60% pomysłów mogą nie zadziałać. Wiele rozwiązań zakończy się niepowodzeniem i trzeba wykazać się dużą cierpliwością, aby uzyskać zadowalające rezultaty. Naukowiec nie ma prawa powiedzieć: „NIE!” problem. Musi znaleźć sposób, który pomoże rozwiązać problem.

Miejsce pracy

Analitycy danych zajmują kluczowe stanowiska w:

branże technologiczne (systemy nawigacji samochodowej, produkcja leków itp.);
Sfera IT (optymalizacja wyszukiwarek, filtr spamu, systematyzacja wiadomości, automatyczne tłumaczenia tekstów i wiele więcej);
medycyna (automatyczna diagnostyka chorób);
struktury finansowe (podejmowanie decyzji o udzieleniu pożyczki) itp.;
firmy telewizyjne;
duże sieci handlowe;
kampanie wyborcze.

Ważne cechy

analityczny umysł;
ciężka praca;
trwałość;
skrupulatność, dokładność, uważność;
umiejętność dokończenia badań pomimo nieudanych wyników pośrednich;
umiejętności komunikacyjne;
umiejętność wyjaśniania skomplikowanych rzeczy prostymi słowami;
intuicja biznesowa.

Wiedza i umiejętności zawodowe:

znajomość matematyki, analizy matematycznej, statystyki matematycznej, teorii prawdopodobieństwa;
znajomość języka angielskiego;
znajomość głównych języków programowania posiadających komponenty do pracy z dużymi zbiorami danych: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
znajomość narzędzi statystycznych - SPSS, R, MATLAB, SAS Data Miner, Tableau;
dogłębna znajomość branży, w której pracuje analityk danych; jeśli jest to branża farmaceutyczna, to konieczna jest znajomość podstawowych procesów produkcyjnych i składników leków;
Główną podstawową umiejętnością analityka danych jest organizacja i administracja klastrowymi systemami przechowywania dużych ilości danych;
znajomość przepisów dotyczących rozwoju biznesu;
wiedza ekonomiczna.

Uniwersytety

Moskiewski Uniwersytet Państwowy nazwany na cześć Łomonosow, Wydział Matematyki Obliczeniowej i Cybernetyki, specjal program edukacyjny Grupa Mail.Ru „Technosfera” ze szkoleniami w zakresie metod inteligentnej analizy dużych ilości danych, programowania w C ++, programowania wielowątkowego i technologii budowania systemów wyszukiwania informacji.
MIPT, Katedra Analizy Danych.
Wydział Informatyki Biznesu Państwowej Wyższej Szkoły Ekonomicznej kształci analityków systemowych, projektantów i wdrażaczy złożonych systemów informatycznych oraz organizatorów zarządzania systemami informacyjnymi przedsiębiorstw.
Szkoła analizy danych Yandex.
Uniwersytet w Innopolis, Uniwersytet w Dundee, Uniwersytet Południowej Kalifornii, Uniwersytet w Auckland, Uniwersytet Waszyngtoński: Studia magisterskie z zakresu Big Data.
Imperial College London Business School, magister nauk o danych i zarządzania.

Jak w każdym zawodzie, ważne jest tutaj samokształcenie, które niewątpliwie skorzysta z takich zasobów jak:

kursy online z wiodących uniwersytetów na świecie COURSERA;
kanał uczenia maszynowego MASHIN LEARNING;
wybór kursów edX;
kursy Udacity;
Kursy Dataquest, podczas których możesz stać się prawdziwym profesjonalistą w dziedzinie Data Science;
6-etapowe kursy Datacamp;
filmy szkoleniowe O'Reilly;
screencasty dla początkujących i zaawansowanych Data Origami;
kwartalna konferencja specjalistów Moskwa Data Scientist Meetup;
konkursy analizy danych Kaggle.com

Wynagrodzenie

Wynagrodzenie na dzień 07.04.2019r

Rosja 50000–200000 ₽

Moskwa 60000 — 300000 ₽

Zawód Data Scientist jest jednym z najlepiej opłacanych. Informacja ze strony hh.ru - miesięczna pensja waha się od 8,5 tys. dolarów do 9 tys. dolarów. W USA pensja takiego specjalisty wynosi 110 tys. - 140 tys. dolarów rocznie.

Jak wynika z badania centrum badawczego Superjob, wynagrodzenie specjalistów Data Scientist zależy od doświadczenia zawodowego, zakresu obowiązków i regionu. Początkujący specjalista może liczyć na 70 tysięcy rubli. w Moskwie i 57 tysięcy rubli. w Petersburgu. Przy stażu pracy do 3 lat wynagrodzenie wzrasta do 110 tysięcy rubli. w Moskwie i 90 tysięcy rubli. w Petersburgu. Dla doświadczonych specjalistów z publikacjami naukowymi wynagrodzenie może osiągnąć 220 tysięcy rubli. w Moskwie i 180 tysięcy rubli. w Petersburgu.

Etapy kariery i perspektywy

Zawód Data Scientist sam w sobie jest dużym osiągnięciem, które wymaga poważnej wiedzy teoretycznej i praktycznego doświadczenia kilku zawodów. W każdej organizacji taki specjalista jest kluczową postacią. Aby osiągnąć ten wzrost, trzeba ciężko pracować, celowo i stale doskonalić się we wszystkich obszarach, które stanowią podstawę zawodu.

Jest taki żart na temat analityka danych: jest on generalistą, który programuje lepiej niż jakikolwiek statystyk i zna statystyki lepiej niż jakikolwiek programista. I rozumie procesy biznesowe lepiej niż szef firmy.

CO SIĘ STAŁO”DUŻY DANE„w liczbach rzeczywistych?

Co 2 dni wolumen danych zwiększa się o ilość informacji, które ludzkość stworzyła od narodzin Chrystusa do 2003 roku.
90% wszystkich istniejących obecnie danych pojawiło się w ciągu ostatnich 2 lat.
Do 2020 roku objętość informacji wzrośnie z 3,2 do 40 zettabajtów. 1 zettabajt = 10 21 bajtów.
W ciągu 1 minuty na Facebooku przesyłanych jest 200 tysięcy zdjęć, wysyłanych jest 205 milionów listów i 1,8 miliona polubień.
W ciągu 1 sekundy Google przetwarza 40 tysięcy zapytań.
Co 1,2 roku całkowita ilość danych w każdej branży podwaja się.
Do 2020 roku rynek usług Hadoop wzrośnie do 50 miliardów dolarów.
W Stanach Zjednoczonych w 2015 roku utworzono 1,9 mln stanowisk pracy dla specjalistów pracujących nad projektami Big Data.
Technologie Big Data zwiększają zyski sieci handlowych o 60% rocznie.
Według prognoz wielkość rynku Big Data wzrośnie do 68,7 miliarda dolarów w 2020 roku w porównaniu do 28,5 miliarda dolarów w 2014 roku.

Mimo tak pozytywnych wskaźników wzrostu, prognozy zawierają także błędy. Przykładowo jeden z najbardziej znanych błędów 2016 roku: nie sprawdziły się prognozy dotyczące wyborów prezydenckich w USA. Prognozy na korzyść Hillary Clinton przedstawili znani amerykańscy badacze danych Nate Silver, Kirk Bourne i Bill Schmarzo. W poprzednich kampaniach wyborczych podawali trafne prognozy i nigdy się nie mylili.

W tym roku dał na przykład Nate Silver trafna prognoza dla 41 stanów, ale w przypadku 9 się mylił, co doprowadziło do zwycięstwa Trumpa. Po przeanalizowaniu przyczyn błędów z 2016 r. doszli do wniosku, że:

Modele matematyczne obiektywnie odzwierciedlają obraz z chwili ich tworzenia. Ale mają okres półtrwania, pod koniec którego sytuacja może się radykalnie zmienić. Właściwości predykcyjne modelu pogarszają się wraz z upływem czasu. W w tym przypadku pewną rolę odegrały na przykład nadużycia, nierówność dochodów i inne wstrząsy społeczne. Dlatego model musi być regularnie dostosowywany w celu uwzględnienia nowych danych. Tego nie zrobiono.
Należy szukać i uwzględniać dodatkowe dane, które mogą mieć istotny wpływ na prognozy. Tym samym oglądając filmy z wieców w kampaniach wyborczych Clintona i Trumpa nie brano pod uwagę łącznej liczby uczestników wieców. Było to około kilkuset osób. Okazało się, że na każdym wiecu na rzecz Trumpa uczestniczyło 400–600 osób, a na rzecz Clinton zaledwie 150–200, co miało wpływ na wyniki.
Modele matematyczne w kampaniach wyborczych opierają się na danych demograficznych: wieku, rasie, płci, dochodach, statusie społecznym itp. Waga każdej grupy zależy od tego, jak głosowała w ostatnich wyborach. Prognoza ta obarczona jest błędem na poziomie 3-4% i działa niezawodnie, gdy między kandydatami jest duża różnica. Jednak w tym przypadku różnica między Clinton a Trumpem była niewielka i błąd ten miał istotny wpływ na wynik wyborów.
Nie wzięto pod uwagę irracjonalnego zachowania ludzi. Przeprowadzane badania opinii publicznej stwarzają iluzję, że ludzie będą głosować tak, jak odpowiedzieli w sondażach. Ale czasami postępują odwrotnie. W takim przypadku konieczne byłoby dodatkowo przeprowadzenie analityki twarzy i mowy, aby zidentyfikować nieuczciwe postawy wobec głosowania.

Generalnie przewidywania okazały się błędne ze względu na niewielką różnicę między kandydatami. W przypadku dużej luki błędy te nie byłyby tak decydujące.

Wideo: Nowa specjalizacja „Big Data” - Michaił Levin

Analityk danych w infografikach. Zawód jest świeży, dobrze płatny i znany. Jakie jednak umiejętności powinien posiadać taki specjalista? Rozważmy.

Porozmawiajmy o umiejętnościach

Analityk danych to specjalista zajmujący się analizą i przetwarzaniem informacji. Analityk danych rozumie statystykę i programowanie. Przydatne, prawda? Zakres możliwości każdego indywidualnego analityka danych jest stopniowany i może zmierzać w stronę kodowania lub czystej statystyki.

Analityk danych mieszkający w San Francisco. Niektóre firmy faktycznie porównują badaczy danych do analityków. Praca takiego specjalisty sprowadza się do wydobywania informacji z bazy danych, interakcji z Excelem i podstawowej wizualizacji.
Ogromny ruch i duże ilości danych zmuszają niektóre firmy do pilnych poszukiwań odpowiedniego specjalisty. Często zamieszczają ogłoszenia poszukujące inżynierów, analityków, programistów czy naukowców, wszyscy odnoszą się do tego samego stanowiska.
Są firmy, dla których dane są produktem. W takim przypadku wymagana będzie intensywna analiza i uczenie maszynowe.
Dla innych firm dane nie są produktem, lecz opiera się na nich samo zarządzanie czy przepływ pracy. Data Scientist poszukiwani są także do strukturyzowania danych firmowych.

Nagłówki aż roją się od tytułów w stylu „Najseksowniejszego zawodu XXI wieku”. Nie wiemy, czy to prawda, ale wiemy, że analityk danych musi zrozumieć:

Matematyka i statystyka.
Obszar tematyczny i oprogramowanie.
Programowanie i baza danych.
Wymiana i wizualizacja danych.

Przyjrzyjmy się każdemu punktowi bardziej szczegółowo.

Analityk danych i statystyka matematyczna

Rozwój metody matematyczne wykorzystywanie danych statystycznych stanowi zasadniczą część pracy. Statystyka matematyczna opiera się na teorii prawdopodobieństwa, co pozwala na wyciąganie trafnych wniosków i ocenę ich wiarygodności.

1. Uczenie maszynowe, jako podsekcja AI. Jest program szkoleniowy i przykłady danych z wzorcami. Tworzymy model wzorcowy, wdrażamy go i otrzymujemy możliwość wyszukiwania wzorców w nowych danych za pomocą programu.

2. Analityk danych musi wiedzieć modelowanie statystyczne przetestować model za pomocą losowych sygnałów o określonej gęstości prawdopodobieństwa. Celem jest statystyczne określenie uzyskanych wyników.

3. Projekt eksperymentalny. Podczas eksperymentów zmienia się jedną lub więcej zmiennych, aby zobaczyć różnicę. W tym przypadku istnieje grupa interwencyjna i grupa kontrolna, dzięki której przeprowadzane jest badanie.

4. Wnioskowanie bayesowskie pomaga dostosować prawdopodobieństwo hipotezy.

5. Szkolenie pod nadzorem:

drzewa decyzyjne;
losowe lasy;
regresja logistyczna.

6. Uczenie się bez nadzoru:

grupowanie;
redukcja wymiarów.

7. Optymalizacja: zejście gradientowe i opcje.

Znajomość domeny i oprogramowania

Studiuj i ćwicz! To jest podstawa tej specjalności. Analityk danych musi dobrze rozumieć obszar tematyczny, na który wpływa nauka, a także znać oprogramowanie.

Lista wymaganych umiejętności jest dziwna, ale nie mniej przydatna:

Programowanie i bazy danych

Od podstaw po znajomość Pythona, XaaS, algebry relacyjnej i SQL. Ogólnie rzecz biorąc, wszystko, bez czego próby jakościowego przetwarzania danych są bezużyteczne.

1. Podstawy informatyki, jako punkt wyjścia dla każdego, kto łączy życie z programowaniem i automatyzacją procesów.

Analityka danych, uczenie maszynowe – prawdopodobnie słyszałeś te wielkie słowa, ale jak jasne było dla ciebie ich znaczenie? Dla niektórych są to piękne przynęty. Niektórzy uważają, że analityka danych to magia, która sprawi, że maszyna zrobi wszystko, co jej każe, za darmo. Inni nawet wierzą, że tak łatwy sposób zarabiać ogromne pieniądze. Nikita Nikitinsky, szefowa działu badań i rozwoju w IRELA oraz Polina Kazakova, analityk danych, wyjaśniają, co to jest prostym i zrozumiałym językiem.

Zajmuję się automatycznym przetwarzaniem języka naturalnego, czyli zastosowaniem nauki o danych, i często widzę, jak ludzie używają tych terminów niepoprawnie, więc chciałem trochę wyjaśnić tę sytuację. Ten artykuł jest przeznaczony dla tych, którzy nie mają pojęcia, czym jest analityka danych i chcą zrozumieć pojęcia.

Zdefiniujmy terminologię

Zacznijmy od tego, że tak naprawdę nikt nie wie dokładnie, czym jest data science i nie ma ścisłej definicji – jest to pojęcie bardzo szerokie i interdyscyplinarne. Dlatego tutaj podzielę się swoją wizją, która niekoniecznie pokrywa się z opiniami innych.

Termin nauka o danych jest tłumaczony na język rosyjski jako „nauka o danych”, a w środowisku zawodowym często jest po prostu tłumaczony jako „nauka o danych”. Formalnie jest to zbiór kilku powiązanych ze sobą dyscyplin i metod z zakresu informatyki i matematyki. Brzmi zbyt abstrakcyjnie, prawda? Rozwiążmy to.

Część pierwsza: dane

Pierwszym elementem data science, czymś, bez czego cały dalszy proces nie jest możliwy, są tak naprawdę same dane: jak je gromadzić, przechowywać i przetwarzać, a także jak je oddzielić od ogólnego zbioru danych przydatne informacje. Specjaliści poświęcają nawet 80% swojego czasu pracy na czyszczenie danych i doprowadzenie ich do pożądanej formy.

Ważną częścią tego punktu jest sposób postępowania z danymi, dla których standardowe metody przechowywania i przetwarzania nie są odpowiednie ze względu na ich ogromną objętość i/lub różnorodność – tzw. big data. Swoją drogą, nie dajcie się zwieść: big data i data science nie są synonimami: pierwsze jest raczej podsekcją drugiego. Jednocześnie analitycy danych w praktyce nie zawsze muszą pracować z dużymi zbiorami danych – małe dane również mogą się przydać.

Zbierzmy dane

Wyobraź sobie, że interesuje nas, czy istnieje związek między ilością kawy wypijanej w ciągu dnia przez Twoich kolegów z pracy a ilością snu poprzedniej nocy. Zapiszmy dostępne nam informacje: załóżmy, że Twój kolega Grzegorz spał dzisiaj 4 godziny, więc musiał wypić 3 filiżanki kawy; Ellina spała 9 godzin i w ogóle nie piła kawy; a Polina spała przez całe 10 godzin, ale wypiła 2,5 filiżanki kawy - i tak dalej.

Uzyskane dane wyświetlmy na wykresie (wizualizacja to także ważny element każdego projektu data science). Narysujmy czas w godzinach na osi X i kawę w mililitrach na osi Y. Otrzymamy coś takiego:

Część druga: nauka

Mamy dane, co możemy z nimi teraz zrobić? Zgadza się, analizuj, wydobywaj przydatne wzorce i jakoś je wykorzystuj. Pomogą nam w tym takie dyscypliny jak statystyka, uczenie maszynowe i optymalizacja.

Tworzą kolejny i być może najważniejszy element nauki o danych – analizę danych. Uczenie maszynowe pozwala znaleźć wzorce w istniejących danych, dzięki czemu można następnie przewidzieć odpowiednie informacje dla nowych obiektów.

Przeanalizujmy dane

Wróćmy do naszego przykładu. Na oko wydaje się, że te dwa parametry są w jakiś sposób ze sobą powiązane: im mniej ktoś spał, tym więcej kawy wypije następnego dnia. Jednocześnie mamy też przykład wybijający się z tego trendu – Polinę, która uwielbia spać i pić kawę. Niemniej jednak możesz spróbować przybliżyć powstały wzór jakąś ogólną linią prostą, aby jak najbliżej zbliżała się do wszystkich punktów:

Zielona linia to nasz model uczenia maszynowego, uogólnia dane i można go opisać matematycznie. Teraz za jego pomocą możemy wyznaczyć wartości dla nowych obiektów: chcąc przewidzieć, ile kawy dzisiaj wypije Nikita, który wszedł do biura, zapytamy, ile spał. Otrzymawszy w odpowiedzi wartość 7,5 godziny, podstawiamy ją do modelu – odpowiada ona ilości wypitej kawy w objętości nieco mniejszej niż 300 ml. Czerwona kropka oznacza naszą prognozę.

Tak mniej więcej działa uczenie maszynowe, którego pomysł jest bardzo prosty: znaleźć wzorzec i rozszerzyć go na nowe dane. Tak naprawdę w uczeniu maszynowym istnieje inna klasa zadań, w których nie trzeba przewidywać niektórych wartości, jak w naszym przykładzie, ale dzielić dane na określone grupy. Ale o tym porozmawiamy bardziej szczegółowo innym razem.

Zastosujmy wynik

Jednak moim zdaniem data science nie kończy się na identyfikowaniu wzorców w danych. Każdy projekt związany z analizą danych jest badania stosowane, gdzie nie należy zapominać o takich rzeczach jak postawienie hipotezy, zaplanowanie eksperymentu i oczywiście ocena wyniku i jego przydatności do rozwiązania konkretnego przypadku.

To drugie jest bardzo ważne w prawdziwych problemach biznesowych, kiedy musisz zrozumieć, czy rozwiązanie znalezione przez analitykę danych przyniesie korzyści Twojemu projektowi, czy nie. Jaka byłaby przydatność zbudowanego modelu w naszym przykładzie? Być może za jego pomocą moglibyśmy zoptymalizować dostawę kawy do biura. Jednocześnie musimy ocenić ryzyko i określić, czy nasz model poradzi sobie z tym lepiej niż dotychczasowe rozwiązanie – kierownik biura Michaił, odpowiedzialny za zakup produktu.

Znajdźmy wyjątki

Oczywiście nasz przykład jest maksymalnie uproszczony. W rzeczywistości możliwe byłoby zbudowanie bardziej złożonego modelu, który uwzględniałby jeszcze inne czynniki, np. to, czy dana osoba w zasadzie lubi kawę. Lub model może znaleźć relacje, które są bardziej złożone niż te reprezentowane przez linię prostą.

Moglibyśmy najpierw poszukać w naszych danych wartości odstających — obiektów, które podobnie jak Polina bardzo różnią się od większości innych. Faktem jest, że w prawdziwej pracy takie przykłady mogą mieć zły wpływ na proces budowy modelu i jego jakość, dlatego warto je przetworzyć w inny sposób. Czasami takie obiekty są w centrum zainteresowania, na przykład przy wykrywaniu nietypowych transakcji bankowych w celu zapobiegania oszustwom.

Oprócz tego Polina pokazuje nam jeszcze jedną ważną ideę – niedoskonałość algorytmów uczenia maszynowego. Nasz model przewiduje, że na osobę, która przespała 10 godzin, wypije zaledwie 100 ml kawy, podczas gdy Polina wypiła aż 500. Klienci rozwiązań data science nigdy w to nie uwierzą, ale maszyny nadal nie da się nauczyć doskonale wszystko przewidywać na świecie: niezależnie od tego, jak dobrze potrafimy identyfikować wzorce w danych, zawsze znajdą się elementy nieprzewidywalne.

Kontynuujmy historię

Nauka o danych to zatem zbiór metod przetwarzania i analizowania danych oraz stosowania ich do problemów praktycznych. Jednocześnie musisz zrozumieć, że każdy specjalista ma swoje zdanie na ten temat, a opinie mogą się różnić.

Data science opiera się na dość prostych pomysłach, jednak w praktyce często odkrywa się wiele nieoczywistych niuansów. Jak otacza nas nauka danych życie codzienne, jakie istnieją metody analizy danych, z kogo składa się zespół data science i jakie trudności mogą pojawić się w trakcie procesu badawczego – o tym będziemy mówić w kolejnych artykułach.