Dom Miris iz usta Naučnik podataka gdje studirati. Šta je nauka o podacima i kako funkcioniše? Video: Nova specijalizacija “Big Data” - Mihail Levin

Naučnik podataka gdje studirati. Šta je nauka o podacima i kako funkcioniše? Video: Nova specijalizacija “Big Data” - Mihail Levin

Da li ste dugo želeli da shvatite kako da postanete analitičar podataka, da proučavate nauku o podacima, ali niste znali odakle da počnete? Onda je ovaj članak za vas.

Ko od nas nije čuo za “velike podatke”? Malo je vjerovatno da će biti barem jedan. IN poslednjih godina Interes za rad sa podacima je značajno porastao, jer velike IT kompanije moraju da smišljaju sve više novih rešenja za analizu, obradu i naknadno korišćenje podataka. Neki čak i lansiraju programe učenja zajedno sa univerzitetima. Međutim, većina ljudi nema razumijevanje o tome kakvi su ljudi analitičari podataka. Ako ste jedan od takvih ljudi i imate želju da postanete analitičar podataka, onda je ovaj članak za vas. Odabrali smo samo besplatne alate za obuku koje možete koristiti bez obzira na vašu lokaciju.

Šta rade analitičari podataka?

Takozvani analitičari podataka bave se njihovim informacijama i analizom kako bi dobili vizualne, čovjeku vidljive rezultate. Takvi ljudi obično uključuju stručnjake za velike podatke, rudarenje podataka, mašinsko učenje, analizu sistema i poslovne analitičare.

Šta gledati

Predavanja „Škola analize podataka“ iz Yandexa

SHAD - kursevi o analizi podataka zaposlenih u Yandexu. Prilično je teško ući tamo, minimum potreban za kandidate su osnovni dijelovi više algebre,matematička analiza, kombinatorika, teorija vjerovatnoće, kao i osnove programiranja. Srećom, kursevi se snimaju tako da svi mogu naučiti iz video predavanja.

Kurs mašinskog učenja

Kurs uči kako primijeniti teoriju vjerovatnoće i statistiku, govori o osnovama mašinskog učenja i podučava kako se grade algoritmi

Kurs “Algoritmi i strukture za pretraživanje podataka”

Predavanja obuhvataju algoritme za pretraživanje i sortiranje velikih količina podataka, algoritme i manipulaciju stringovima, teorijske algoritme grafova, konstrukciju i analizu struktura podataka.

Kurs "Paralelno i distribuirano računarstvo"

Za one koji odavno žele da se upoznaju sa višenitnim i paralelnim programiranjem, kao i sa MapReduceom.

Kurs "Diskretna analiza i teorija vjerovatnoće"

Predmet ispituje osnovne koncepte i metode kombinatorne, diskretne i asimptotičke analize, teoriju vjerovatnoće, statistiku, te demonstrira njihovu primjenu.

Kurs "Računarska složenost"

Nakon odslušanog kursa, naučićete o klasama verovatnoće složenosti i osnovnim tehnikama za analizu i konstruisanje podataka.

Predavanja Technostream Mail.ru Group

Programi kursa su namenjeni studentima nekoliko moskovskih univerziteta, ali su dostupni svima. Budućim analitičarima preporučujemo sljedeće zbirke predavanja:

Predavanja Big Data University

Univerzitet Big Data - online kurs, kreiran zajedno sa IBM-om za početnike i ljude bez matematičkog znanja. Predavanja koja vam pomažu da se upoznate sa osnovama rada sa podacima snimaju se na jasnom engleskom jeziku.

Welch Labs

Ovaj kanal sadrži predavanja iz matematike, informatike, programiranja i mašinskog učenja. U tom procesu se daju primjeri primjene stvari koje se proučavaju pravi zivot. Predavanja su na engleskom, ali postoje odlični ruski titlovi.

pa " Učenje iz strukturiranih podataka: Uvod u vjerovatnostne grafičke modele"Fakultet računarskih nauka, Nacionalni istraživački univerzitet Visoka ekonomska škola

Predmet je fokusiran na dubinski uvod u teoriju i primjenu jednog od najpopularnijih pristupa rješavanju ovakvih problema danas - diskretnog probabilističkog grafički modeli. Jezik kursa je engleski.

Kanal senddex

Kanal je u potpunosti posvećen radu sa podacima. Štaviše, ne samo oni koje zanima matematika naći će korisne stvari za sebe. Postoje video zapisi o analizi i programiranju za finansijske analitičare i robotiku koristeći Rasperri Pi.

Siraj Raval Channel

Tip priča o tome moderne tehnologije i kako sa njima raditi. Kursevi dubokog učenja, nauke o podacima i mašinskog učenja će vam pomoći da naučite kako da radite sa podacima.

Kanal škole podataka

Ako ste samo čuli nešto o mašinskom učenju, ali ste već zainteresovani, onda je ovaj kanal za vas. Autor će na razumljivom nivou, uz primjere, objasniti šta je to, kako funkcionira i gdje se koristi.

Gdje vježbati

Za one koji nisu sigurni da su spremni za potpuno samostalno učenje gledajući predavanja, postoje online kursevi sa zadacima sa verifikacijom.

Kursevi nauke o podacima na Courseri

Nema potrebe objašnjavati o kakvoj se platformi radi. Morate odabrati kurs i početi učiti.

Stepik.org

Analiza podataka u R

Prvi dio pokriva sve glavne korake statističke analize u R, čitanje podataka, prethodnu obradu podataka, primjenu osnovnih statističkih metoda i vizualizaciju rezultata. Studenti će naučiti osnovne elemente programiranja u R jeziku, što će im omogućiti da brzo i efikasno rješavaju širok spektar problema koji se javljaju prilikom obrade podataka.

Drugi dio pokriva nekoliko naprednih tema koje nisu bile obrađene u prvom: prethodna obrada podataka pomoću paketa data.table i dplyr, napredne tehnike vizualizacije, rad u R Markdownu.

Uvod u baze podataka

Zaronite u DBMS

Kurs je za one koji imaju iskustva sa relacionim DBMS-om i žele da saznaju više o tome kako oni rade. Kurs obuhvata:

  • dizajn šeme baze podataka;
  • upravljanje transakcijama;
  • optimizacija upita;
  • nove karakteristike relacionog DBMS-a

Hadoop. Sistem za obradu velikih količina podataka

Kurs je posvećen metodama obrade velikih količina podataka pomoću Hadoop sistema. Nakon završenog kursa, steći ćete znanja o osnovnim metodama skladištenja i obrade velikih količina podataka, razumjeti principe distribuiranih sistema u kontekstu Hadoop okvira i savladati praktične vještine razvoja aplikacija koristeći programski model MapReduce.

Mnogi poslodavci danas aktivno traže istraživače podataka. Istovremeno su zainteresovani da privuku one „naučnike“ koji imaju odgovarajuće obrazovanje. Istovremeno, morate uzeti u obzir sve dezinformacije kojima je tržište puno. Reći ćemo vam o najvećim zabludama o Data Scientists i Data Scientists, vještinama koje trebaju posjedovati i ko je zapravo ova rijetka pasmina.

Data Science(Nauka o podacima) je grana računarstva koja proučava probleme analize, obrade i predstavljanja podataka u digitalnom obliku. Nauka o podacima kombinuje metode za obradu podataka u velikim količinama i visokim nivoima paralelizma, statističke metode, metode rudarenja podataka i aplikacije veštačke inteligencije za rad sa podacima, kao i metode za projektovanje i razvoj baza podataka. Tretira se kao akademska disciplina. Od početka 2010-ih pozicioniran je kao praktična međusektorska oblast djelovanja. Od ranih 2010-ih, specijalizacija „naučnik podataka“ se smatra jednom od najbolje plaćenih, atraktivnih i perspektivnih profesija.

Data Science Misconceptions

1. Veliki podaci su statistika i poslovna analitika sa velikom količinom podataka. Nema tu ništa novo

Ovog mišljenja su uglavnom oni ljudi koji imaju ograničeno iskustvo u razvoju softvera, ili uopće nisu opterećeni ikakvim iskustvom. Želite analogiju? Molim te. Uzmimo led kao primjer. Može se nazvati veoma hladnom vodom. Šta ima novo ovdje? Međutim, rashladna voda ne samo da mijenja svoju temperaturu, već radikalno mijenja svoje karakteristike kvaliteta, pretvarajući tekućinu u krutu tvar. Isto se može reći i za velike količine podataka. Velike količine podataka na kraju razbijaju stare paradigme proračuna, proračuna i proračuna. Koristeći tradicionalne metode Poslovnim analitičarima mogu biti potrebne godine da izvrše određene proračune. Paralelizacija i distribuirano računarstvo su očigledni odgovori na pitanje skaliranja. Ali to nije uvijek tako lako, čak i sa statističkim alatom tako jednostavnim kao što je analiza logističke regresije. Distribuirano statističko računanje razlikuje se od tradicionalne poslovne analitike koliko je led od vode.

2. Naučnici za podatke su isti softverski inženjeri nakon rebrendiranja

Ponekad inženjeri sa velikim iskustvom u razvoju softvera prolaze kroz prekvalifikaciju i postaju naučnici podataka kako bi se poboljšali plate. Međutim, ova praksa često dovodi do nezadovoljavajućih rezultata. Zaista, u polju velikih podataka, otklanjanje statističkih grešaka čak i na najjednostavnijem nivou izgleda kao prilično težak zadatak. Inženjeri su obučeni da otkriju i poprave softverske greške. Ali bez dobrog poznavanja teorije vjerovatnoće i statistike, malo je vjerovatno da će čak i kul programer moći uspješno eliminisati jednostavnu statističku grešku.


Inženjeri višeg nivoa su u stanju da izgrade jednostavne, diskretne modele zasnovane na pravilima. Ali takvi modeli nisu prikladni za dobijanje nijansiranih uvida iz podataka. Otuda i izgubljena finansijska korist. Stoga je za dobijanje odgovora na „pitanja o velikim podacima“ potrebno visoko kvalifikovano i visoko specijalizovano osoblje, koje će biti temelj sledeće generacije prediktivnog modeliranja.

3. Naučnici za podatke ne moraju razumjeti posao – podaci će im reći sve

Ljudi koji imaju obrazovanje i iskustvo kao programeri često podlegnu ovom iskušenju. I, zaista, zašto oni trebaju razumjeti posao ako imaju tako moćnu bazu? Moćan, ali ne i svemoćan. Pronalaženje svih mogućih korelacija je nevjerovatno naporno i dugotrajno, a da ne spominjemo statistički problematično. Naučnici podataka jednostavno moraju koristiti svoju poslovnu intuiciju kako bi uspješno razlikovali lažne i stvarne korelacije. Nedostatak stručnog znanja u određenoj oblasti može dovesti do neutemeljenih zaključaka. kako ti se ovo sviđa? Povećanje broja policijskih službenika dovodi do porasta kriminala, što znači da je potrebno smanjiti broj policijskih službenika u područjima sa nepovoljnom kriminalističkom situacijom. Konačno, poslovna intuicija je takođe važna za uvjeravanje ključnih dionika: govoreći o korelacijama na jeziku koji poslovni ljudi razumiju, naučnik podataka će biti uspješniji od kolege koji nema poslovnog duha.


Nauka o velikim podacima i podacima je znanje o tome kako izgraditi optimalan model koji kombinuje prave inženjerske, statističke i poslovne vještine. Bez toga, naučnik podataka neće moći da postigne sve što zacrta.

Dakle, ko su naučnici podataka?

Naučnici podataka su proizvod evolucije poslovanja i analitičara podataka. Formalna obuka za takve specijaliste uključuje informatiku, statistiku, analitiku i matematiku. Šta čini vrhunskog naučnika za podatke? Snažna poslovna sposobnost u kombinaciji sa sposobnošću komunikacije sa poslovnim i IT liderima na način koji pomaže u uticaju na rast kompanije. Anjul Bambra, potpredsjednik za velike podatke u IBM-u, kaže da su naučnici podataka "djelomično analitičari, a dijelom umjetnici". To su vrlo radoznali ljudi koji mogu pogledati podatke i uočiti trendove. Mogu se uporediti sa umjetnicima renesanse, koji su željeli ne samo da uče, već i da mijenjaju svijet oko sebe.

Dok tradicionalni analitičar analizira podatke iz jednog izvora (npr. CRM sistemi), naučnik podataka nužno proučava podatke iz nekoliko različitih izvora. Agresivno će pregledati sve dolazne podatke kako bi otkrio ranije skrivene uvide koji mogu pružiti konkurentsku prednost. Naučnik podataka ne samo da prikuplja i analizira podatke, već ih sagledava iz različitih uglova i analizira u različitim kontekstima, utvrđuje šta ovi ili oni podaci znače za brend, a zatim daje preporuke kako koristiti dostupne informacije.


Naučnici podataka su ljudi koji neprestano istražuju, postavljaju milione pitanja, rade analize „šta ako...“, preispituju postojeće pretpostavke i procese, identifikuju bogate izvore podataka i povezuju ih sa lošim skupovima podataka... U konkurentskom okruženju u kojem su zadaci konstantno promjene, a brzi protok podataka nikada ne prestaje, naučnici podataka pomažu menadžmentu odluke. I to je njihov najvredniji kvalitet.

Zašto "naučnici"?

Mnogi tvrde da je nazivati ​​naučnika podataka "naučnikom podataka" vrlo, vrlo pretenciozno. Međutim, ako pokušate pogledati korijen, onda ova formulacija ima smisla. Na primjer, eksperimentalni fizičari moraju dizajnirati i izgraditi vlastitu opremu, prikupljati podatke, provoditi eksperimente i sažeti sve nalaze u izvještajima. Naučnici podataka rade isto. Stoga se najkvalifikovanijim naučnicima podataka smatraju ljudi sa visokim stepenom fizike ili društvenih nauka.


Najbolji naučnici podataka na planeti su naučnici sa doktoratom iz ezoteričnih oblasti kao što su ekologija i sistemska biologija. Upečatljiv primjer– George Roumeliotis, koji vodi tim naučnika podataka u Intuitu u Silicijumskoj dolini. Doktorirao je astrofiziku. Mnogi naučnici podataka su vlasnici akademske diplome u informatici, matematici i ekonomiji. Ali, kako god bilo, dobar specijalista, specijalizirana za analizu podataka, može doći iz bilo kojeg područja.


Osnovne vještine bez kojih naučnik podataka ne može

Osnovni alati. Bez obzira na misiju kompanije, naučnik podataka mora znati da koristi osnovne alate: R programski jezik za statističku obradu podataka i grafiku, programski jezik Python visokog nivoa koji ima za cilj poboljšanje produktivnosti programera i čitljivosti koda, strukturirani jezik upita, kao što je SQL, koji se koristi za kreiranje, modificiranje i manipulaciju podacima u proizvoljnoj relacijskoj bazi podataka.

Osnovna statistika. Razumijevanje statistike je od vitalnog značaja za naučnika podataka. Nije tajna da mnogi stručnjaci nisu u stanju odrediti čak ni P-vrijednost - vrijednost koja se koristi u testiranju statističke hipoteze. Naučnik podataka jednostavno mora biti upoznat sa statističkim testovima, distribucijama, procjenom maksimalne vjerovatnoće, itd. Statistika je važna za različitim oblastima poslovanja, posebno za kompanije koje se bave podacima


Mašinsko učenje. Ako naučnik podataka radi u velikoj kompaniji sa ogromnim količinama podataka, trebao bi biti upoznat s metodama mašinskog učenja. Naravno, mnoge od ovih metoda mogu se implementirati pomoću R ili Python biblioteka, tako da ne morate biti vodeći svjetski stručnjak da biste razumjeli kako algoritmi rade. Mnogo je važnije razumjeti kada će korištenje određenih metoda biti najprikladnije.

Multivarijantni proračuni i linearna algebra. Ove discipline čine osnovu mnogih metoda mašinskog učenja.

Priprema podataka za analizu. Često su analizirani podaci prilično „prljavi“, što znatno otežava rad s njima. Stoga je vrlo važno znati kako se nositi sa svim nedostacima podataka. Primjer nesavršenih podataka je nedosljedno formatiranje nizova kao što su "New York" - "new york" - "ny", ili datumi "2014-01-01" - "01/01/2014", ili upotreba UNIX sistemsko vrijeme i sekvenca Vremenska oznaka.

Vizualizacija podataka i komunikacija. Ovo je nevjerovatno važne tačke, posebno kada govorimo o mladim kompanijama vođenim podacima, ili onim kompanijama u kojima se data naučnici percipiraju kao ljudi koji pomažu u donošenju odluka zasnovanih na podacima. Poznavanje ggplot-a (proširenja jezika R) i JavaScript biblioteke za obradu i vizualizaciju D3.js podataka biće veoma korisno.

Programiranje. Naučnici podataka su obično odgovorni za rukovanje velikim količinama podataka o registraciji i proizvoda koji se vode podacima.

Razmišljajte kao naučnik podataka. Poslodavac uvijek želi vidjeti naučnika podataka kao rješavača problema. „Naučnik“ uvek mora da zna šta je važno u ovoj fazi, a šta nije od posebne vrednosti. Od njega se traži da komunicira sa dizajnerima i menadžerima odgovornim za razvoj proizvoda.


Harvard Business Review tvrdi da je data naučnik najseksi profesija 21. veka. I teško je ne složiti se sa ovim. Nauka o podacima se tek razvija, a svi savremeni naučnici podataka mogu se sa sigurnošću nazvati pionirima. A ako možete reći da ste najbolji IT stručnjak među statističarima i najbolji statističar među IT stručnjacima, onda ste pravi naučnik podataka.

Materijali korišteni u pripremi ovog članka

Data Scientist- specijalista za obradu, analizu i skladištenje velikih količina podataka, tzv. “Big Data”. Profesija je pogodna za one koje zanimaju fizika, matematika i informatika (pogledajte izbor zanimanja na osnovu interesovanja za školske predmete).

Data Science - nauka o podacima na raskrsnici različitih disciplina: matematike i statistike; informatika i računarstvo; biznis i ekonomija.

(S. Maltseva, Nacionalni istraživački univerzitet V. Kornilov “Viša škola ekonomije”)

Profesija je nova, relevantna i... Sam termin “Big Data” pojavio se 2008. A profesija Data Scientist – “Data Scientist” zvanično je registrovana kao akademska i interdisciplinarna disciplina početkom 2010. Iako je prvo pominjanje pojma “nauka o podacima” zabeleženo u knjizi Petera Naura 1974. godine, ali u drugoj kontekstu.

Potrebu za nastankom takve profesije diktirala je činjenica da se kada su ultra veliki podaci u pitanju ispostavilo da su nizovi podataka preveliki da bi se mogli obraditi standardnim sredstvima matematičke statistike. Svakog dana hiljade petabajta (10 15 bajtova = 1024 terabajta) informacija prolaze kroz servere kompanija širom sveta. Pored ovakvih količina podataka, problem je komplikovan i njihovom heterogenošću i velika brzina ažuriranja.

Nizovi podataka su podijeljeni u 3 tipa:

strukturirani (npr. podaci iz kasa u trgovini);

polustrukturirane (e-mail poruke);

nestrukturirani (video fajlovi, slike, fotografije).

Većina velikih podataka je nestrukturirana, što znatno otežava njihovu obradu.

Pojedinačno, statističar, sistemski analitičar ili poslovni analitičar ne mogu riješiti probleme s takvim količinama podataka. Za to je potrebna osoba sa interdisciplinarnim obrazovanjem, kompetentna za matematiku i statistiku, ekonomiju i biznis, računarstvo i računarsku tehnologiju.

Glavni zadatak Data Scientist-a je sposobnost da izvuče potrebne informacije iz širokog spektra izvora, koristeći tokove informacija u realnom vremenu; identificirati skrivene obrasce u skupovima podataka i statistički ih analizirati kako bi se donijele pametne poslovne odluke. Radno mjesto takvog stručnjaka nije 1 računar ili čak 1 server, već klaster servera.

Karakteristike profesije

Kada radi s podacima, Data Scientist koristi različite metode:

  • statističke metode;
  • modeliranje baze podataka;
  • metode rudarenja;
  • aplikacije umjetne inteligencije za rad s podacima;
  • metode projektovanja i razvoja baza podataka.

Poslovna zaduženja data naučnika zavise od njegovog polja aktivnosti, ali opšta lista funkcije izgledaju ovako:

  • prikupljanje podataka iz različitih izvora za naknadnu operativnu obradu;
  • analiza ponašanja potrošača;
  • modeliranje baze kupaca i personalizacija proizvoda;
  • analiza efikasnosti interni procesi baze;
  • analiza različitih rizika;
  • identifikovanje moguće prevare proučavanjem sumnjivih transakcija;
  • izrada periodičnih izvještaja sa prognozama i prezentacijom podataka.

Naučnik podataka, kao i pravi naučnik, ne samo da prikuplja i analizira podatke, već ih i proučava u različitim kontekstima i iz različitih uglova, dovodeći u pitanje sve pretpostavke. Najvažniji kvalitet data science je sposobnost da se vide logičke veze u sistemu prikupljenih informacija, a na osnovu kvantitativna analiza razviti efikasna poslovna rješenja. U današnjem kompetitivnom svijetu koji se brzo mijenja, u sve većem protoku informacija, Data Scientist je nezamjenjiv za menadžment u smislu donošenja ispravnih poslovnih odluka.

Prednosti i mane profesije

pros

  • Profesija ne samo da je izuzetno tražena, već postoji akutni nedostatak stručnjaka ovog nivoa. Prema McKinsey Global Instituteu, do 2018. će samo u Sjedinjenim Državama biti potrebno više od 190 hiljada Data Scientists. Zato se fakulteti na najprestižnijim univerzitetima za obuku naučnika podataka tako brzo i široko finansiraju i razvijaju. Potražnja za naučnicima podataka raste iu Rusiji.
  • Visoko plaćena profesija.
  • Potreba za stalnim razvojem, praćenjem razvoja IT tehnologija i stvaranjem novih metoda za obradu, analizu i skladištenje podataka.

Minusi

  • Ne može svaka osoba savladati ovu profesiju, ona zahtijeva poseban način razmišljanja.
  • U procesu rada možda neće raditi poznate metode i više od 60% ideja. Mnoga rješenja neće uspjeti i morate imati puno strpljenja da biste dobili zadovoljavajuće rezultate. Naučnik nema pravo da kaže: "NE!" problem. Mora pronaći način koji će pomoći u rješavanju problema.

Mjesto rada

Data Scientists zauzimaju ključne pozicije u:

  • tehnološke industrije (automobilski navigacijski sistemi, proizvodnja lijekova, itd.);
  • IT sfera (optimizacija za pretraživače, spam filter, sistematizacija vijesti, automatski prijevodi teksta i još mnogo toga);
  • medicina (automatska dijagnostika bolesti);
  • finansijske strukture (donošenje odluka o davanju kredita) i dr.;
  • televizijske kuće;
  • veliki trgovački lanci;
  • izborne kampanje.

Važni kvaliteti

  • Analytical mind;
  • težak posao;
  • upornost;
  • skrupuloznost, tačnost, pažnja;
  • sposobnost dovršetka istraživanja uprkos neuspješnim međurezultatima;
  • komunikacijske vještine;
  • sposobnost objašnjavanja složenih stvari jednostavnim riječima;
  • poslovna intuicija.

Profesionalna znanja i vještine:

  • poznavanje matematike, matematičke analize, matematičke statistike, teorije vjerovatnoće;
  • poznavanje engleskog jezika;
  • poznavanje glavnih programskih jezika koji imaju komponente za rad sa velikim skupovima podataka: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • poznavanje statističkih alata - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • temeljno poznavanje industrije u kojoj radi naučnik podataka; ako se radi o farmaceutskoj industriji, potrebno je poznavanje osnovnih proizvodnih procesa i komponenti lijekova;
  • Glavna osnovna vještina naučnika podataka je organizacija i administracija sistema za skladištenje klastera za velike količine podataka;
  • poznavanje zakona o razvoju poslovanja;
  • ekonomsko znanje.

Univerziteti

  • Moskovski državni univerzitet nazvan po Lomonosov, Fakultet računarske matematike i kibernetike, specijal obrazovni program Mail.Ru grupa "Tehnosfera", sa obukom o metodama inteligentne analize velikih količina podataka, programiranju u C++, višenitnom programiranju i tehnologiji za izgradnju sistema za pronalaženje informacija.
  • MIPT, Odsjek za analizu podataka.
  • Fakultet poslovne informatike Visoke ekonomske škole Nacionalnog istraživačkog univerziteta obučava sistem analitičare, dizajnere i implementatore složenih informacionih sistema i organizatore upravljanja korporativnim informacionim sistemima.
  • Škola analize podataka Yandex.
  • Univerzitet u Innopolisu, Univerzitet Dandi, Univerzitet Južne Kalifornije, Univerzitet Okland, Univerzitet Washington: Master programi iz velikih podataka.
  • Imperial College London Business School, MSc Data Science and Management.

Kao iu svakoj profesiji, i ovdje je važno samoobrazovanje, koje će nesumnjivo imati koristi od resursa kao što su:

  • online kursevi vodećih svjetskih univerziteta COURSERA;
  • kanal za mašinsko učenje MASHIN LEARNING;
  • izbor edX kurseva;
  • Udacity tečajevi;
  • Dataquest kursevi, na kojima možete postati pravi profesionalac u nauci o podacima;
  • Datacamp kursevi u 6 koraka;
  • O'Reillyjevi treninzi;
  • screencasts za početnike i napredne Data Origami;
  • tromjesečna konferencija stručnjaka Moskovski Data Scientists Meetup;
  • takmičenja u analizi podataka Kaggle.com

Plata

Plata od 04.07.2019

Rusija 50000—200000 ₽

Moskva 60000—300000 ₽

Profesija Data Scientist je jedna od najplaćenijih. Informacije sa sajta hh.ru - mjesečna plata se kreće od 8,5 hiljada dolara do 9 hiljada dolara.U SAD-u plata takvog specijaliste iznosi 110 hiljada dolara - 140 hiljada dolara godišnje.

Prema istraživanju istraživačkog centra Superjob, plata stručnjaka za Data Scientist zavisi od radnog iskustva, obima odgovornosti i regiona. Specijalista početnik može računati na 70 hiljada rubalja. u Moskvi i 57 hiljada rubalja. u Sankt Peterburgu. Sa do 3 godine radnog iskustva, plata se povećava na 110 hiljada rubalja. u Moskvi i 90 hiljada rubalja. u Sankt Peterburgu. Za iskusne stručnjake sa naučnim publikacijama, plata može doseći 220 hiljada rubalja. u Moskvi i 180 hiljada rubalja. U Petersburgu.

Koraci i izgledi u karijeri

Profesija Data Scientist sama po sebi je visoko dostignuće, koje zahtijeva ozbiljno teorijsko znanje i praktično iskustvo više profesija. U svakoj organizaciji takav stručnjak je ključna figura. Da biste dosegli ovu visinu, potrebno je vrijedno raditi i ciljano i stalno se usavršavati u svim područjima koja čine osnovu profesije.

Postoji vic o Data Scientistu: on je generalista koji programira bolje od bilo kojeg statističara i poznaje statistiku bolje od bilo kojeg programera. I bolje razumije poslovne procese od čelnika kompanije.

ŠTA SE DESILO "BIG PODACI"u stvarnim brojevima?

  1. Svaka 2 dana obim podataka se povećava za količinu informacija koje je stvorilo čovječanstvo od rođenja Krista do 2003. godine.
  2. 90% svih postojećih podataka danas se pojavilo u posljednje 2 godine.
  3. Do 2020. obim informacija će se povećati sa 3,2 na 40 zetabajta. 1 zetabajt = 10 21 bajt.
  4. U roku od 1 minute na Facebook se postavi 200 hiljada fotografija, pošalje 205 miliona pisama i objavi 1,8 miliona lajkova.
  5. U roku od 1 sekunde, Google obrađuje 40 hiljada upita za pretraživanje.
  6. Svake 1,2 godine ukupna količina podataka u svakoj industriji se udvostručuje.
  7. Do 2020. tržište Hadoop usluga će porasti na 50 milijardi dolara.
  8. U Sjedinjenim Državama je 2015. godine otvoreno 1,9 miliona radnih mjesta za stručnjake koji rade na projektima velikih podataka.
  9. Big Data tehnologije povećavaju profit maloprodajnih lanaca za 60% godišnje.
  10. Prema predviđanjima, veličina tržišta velikih podataka će se povećati na 68,7 milijardi dolara u 2020. u poređenju sa 28,5 milijardi dolara u 2014.

Uprkos ovako pozitivnim pokazateljima rasta, postoje i greške u prognozama. Na primjer, jedna od najozloglašenijih grešaka 2016. godine: prognoze u vezi s američkim predsjedničkim izborima nisu se obistinile. Prognoze su dali poznati američki naučnici za podatke Nate Silver, Kirk Bourne i Bill Schmarzo u korist Hillary Clinton. U prethodnim izbornim kampanjama davali su tačne prognoze i nikada nisu pogriješili.

Ove godine je Nate Silver, na primjer, dao tačna prognoza za 41 državu, ali za 9 država je pogriješio, što je dovelo do Trumpove pobjede. Nakon analize uzroka grešaka iz 2016. godine, zaključili su da:

  1. Matematički modeli objektivno odražavaju sliku u trenutku njihovog nastanka. Ali oni imaju poluživot, do kraja kojeg se situacija može dramatično promijeniti. Prediktivni kvaliteti modela se vremenom pogoršavaju. IN u ovom slučaju, na primjer, malverzacije, nejednakost prihoda i drugi društveni prevrati su odigrali svoju ulogu. Stoga se model mora redovno prilagođavati kako bi se u obzir uzeli novi podaci. To nije urađeno.
  2. Potrebno je tražiti i razmotriti dodatne podatke koji mogu značajno uticati na prognoze. Tako se prilikom gledanja video zapisa skupova u predizbornim kampanjama Klintonove i Trumpa nije uzimao u obzir ukupan broj učesnika skupova. Radilo se o stotinama ljudi. Ispostavilo se da je na svakom skupu u korist Trampa dolazilo 400-600 ljudi, a u korist Klintonove svega 150-200, što je uticalo na rezultate.
  3. Matematički modeli u izbornim kampanjama baziraju se na demografskim podacima: starosti, rasi, polu, prihodima, statusu u društvu itd. Težina svake grupe određena je načinom na koji su glasali na prošlim izborima. Ova prognoza ima grešku od 3-4% i pouzdano funkcioniše kada postoji veliki jaz između kandidata. Ali u ovom slučaju je jaz između Clintonove i Trumpa bio mali, a ova greška je značajno utjecala na izborne rezultate.
  4. Nije uzeto u obzir iracionalno ponašanje ljudi. Sprovedena istraživanja javnog mnjenja stvaraju iluziju da će ljudi glasati onako kako su odgovorili u anketama. Ali ponekad rade suprotno. U ovom slučaju bilo bi potrebno dodatno provesti analitiku lica i govora kako bi se utvrdili nepošteni stavovi prema glasanju.

Općenito, predviđanje se pokazalo pogrešnim zbog malog jaza između kandidata. U slučaju velikog jaza, ove greške ne bi bile toliko odlučujuće.

Video: Nova specijalizacija “Big Data” - Mihail Levin

Data Scientist u infografici. Profesija je svježa, visoko plaćena i poznata. Ali koje vještine bi takav specijalista trebao imati? Hajde da razmotrimo.

Hajde da pričamo o veštinama

Data Scientist je generalista koji pokriva analitiku i obradu informacija. Naučnik podataka razumije statistiku i programiranje. Korisno, zar ne? Raspon mogućnosti svakog pojedinog Data Scientist-a je gradacija i može se kretati prema kodiranju ili čistoj statistici.

  • Analitičar podataka sa sjedištem u San Franciscu. Neke kompanije zapravo uspoređuju Data Scientists sa analitičarima. Posao takvog stručnjaka svodi se na vađenje informacija iz baze podataka, interakciju s Excelom i osnovnu vizualizaciju.
  • Ogroman promet i velike količine podataka primoravaju neke firme da hitno traže pravi specijalista. Često objavljuju oglase tražeći inženjere, analitičare, programere ili naučnike, a svi imaju na umu isti posao.
  • Postoje kompanije za koje su podaci proizvod. U ovom slučaju će biti potrebna intenzivna analiza i mašinsko učenje.
  • Za druge kompanije podaci nisu proizvod, već je na njima izgrađen sam menadžment ili radni tok. Data Scientists se također traže kako bi strukturirali podatke kompanije.

Naslovi su puni naslova u stilu „Najseksi profesija 21. veka“. Ne znamo da li je to istina, ali znamo da naučnik podataka mora razumjeti:

  1. Matematika i statistika.
  2. Predmetna oblast i softver.
  3. Programiranje i baza podataka.
  4. Razmjena podataka i vizualizacija.

Pogledajmo svaku tačku detaljnije.

Data Scientist i matematička statistika

Razvoj matematičke metode korištenje statističkih podataka je osnovni dio posla. Matematička statistika zasniva se na teoriji vjerovatnoće, što omogućava izvođenje tačnih zaključaka i procjenu njihove pouzdanosti.

1. Mašinsko učenje, kao pododjeljak AI. Postoji program obuke i primjeri podataka s obrascima. Formiramo model šablona, ​​implementiramo ga i dobijamo priliku da pomoću programa tražimo obrasce u novim podacima.

2. Data Scientist mora znati statističko modeliranje testirati model sa slučajnim signalima sa određenom gustinom vjerovatnoće. Cilj je statistički utvrditi dobijene rezultate.

3. Eksperimentalni dizajn. Tokom eksperimenata, jedna ili više varijabli se mijenjaju da se vidi razlika. U ovom slučaju postoji interventna grupa i kontrolna grupa, zbog kojih se test provodi.

4. Bayesovo zaključivanje pomaže u prilagođavanju vjerovatnoće hipoteze.

5. Obuka pod nadzorom:

  • stabla odlučivanja;
  • slučajne šume;
  • logistička regresija.

6. Učenje bez nadzora:

  • grupiranje;
  • smanjenje dimenzija.

7. Optimizacija: gradijentni spust i opcije.

Domenske i softverske vještine

Učite i vježbajte! To je temelj ove specijalnosti. Data Scientist mora dobro razumjeti predmetnu oblast na koju nauka utiče, kao i biti upoznat sa softverom.

Lista potrebnih vještina je čudna, ali ništa manje korisna:

Programiranje i baze podataka

Od osnova do znanja Pythona, XaaS-a, relacijske algebre i SQL-a. Općenito, sve bez čega su pokušaji kvalitativne obrade podataka beskorisni.

1. Osnove informatike, kao polazište za svakoga ko povezuje život sa programiranjem i automatizacijom procesa.

Nauka o podacima, mašinsko učenje – verovatno ste čuli ove velike reči, ali koliko vam je jasno njihovo značenje? Za neke su to prelijepi mamci. Neki ljudi misle da je nauka o podacima magija koja će natjerati mašinu da uradi sve što joj se naruči besplatno. Drugi čak vjeruju da jeste lak način zaraditi ogroman novac. Nikita Nikitinski, šef R&D u IRELA-i i Polina Kazakova, data Scientist, objašnjavaju šta je to jednostavnim i razumljivim jezikom.

Radim u automatskoj obradi prirodnog jezika, primjeni nauke o podacima, i često viđam da ljudi pogrešno koriste ove izraze, pa sam htio malo pojasniti. Ovaj članak je za one koji nemaju pojma šta je nauka o podacima i žele razumjeti koncepte.

Hajde da definišemo terminologiju

Počnimo s činjenicom da niko zapravo ne zna šta je nauka o podacima, i ne postoji stroga definicija – to je veoma širok i interdisciplinaran koncept. Stoga ću ovdje podijeliti svoju viziju, koja se ne mora poklapati sa mišljenjima drugih.

Termin nauka o podacima na ruski se prevodi kao „nauka o podacima“, au profesionalnom okruženju često se jednostavno transliterira kao „nauka o podacima“. Formalno, ovo je skup nekih međusobno povezanih disciplina i metoda iz oblasti računarstva i matematike. Zvuči previše apstraktno, zar ne? Hajde da to shvatimo.

Prvi dio: podaci

Prva komponenta nauke o podacima, nešto bez čega je cijeli dalji proces nemoguć, zapravo su sami podaci: kako ih prikupiti, pohraniti i obraditi, kao i kako ih izdvojiti iz općeg niza podataka korisne informacije. Stručnjaci posvećuju do 80% svog radnog vremena čišćenju podataka i dovođenju u željeni oblik.

Važan dio ove tačke je kako rukovati podacima za koje standardne metode skladištenja i obrade nisu prikladne zbog njihovog ogromnog obima i/ili raznolikosti - takozvanim velikim podacima. Usput, nemojte se zbuniti: veliki podaci i nauka o podacima nisu sinonimi: prije, prvi je pododjeljak drugog. Istovremeno, analitičari podataka u praksi ne moraju uvijek da rade s velikim podacima – mali podaci također mogu biti korisni.

Hajde da prikupimo podatke

Zamislite da nas zanima postoji li ikakva veza između toga koliko kafe piju vaše kolege sa posla tokom dana i koliko su spavali prethodne noći. Hajde da zapišemo informacije koje su nam dostupne: recimo da je vaš kolega Gregory danas spavao 4 sata, pa je morao popiti 3 šoljice kafe; Ellina je spavala 9 sati i uopće nije pila kafu; a Polina je spavala svih 10 sati, ali je popila 2,5 šoljice kafe - i tako dalje.

Prikažimo dobijene podatke na grafikonu (vizualizacija je takođe važan element svakog projekta nauke o podacima). Nacrtajmo vrijeme u satima na osi X, a kafu u mililitrima na osi Y. Dobićemo nešto ovako:

Drugi dio: nauka

Imamo podatke, šta sada možemo sa njima? Tako je, analizirajte, izdvojite korisne obrasce i nekako ih koristite. Ovdje će nam pomoći discipline kao što su statistika, strojno učenje i optimizacija.

Oni čine sljedeću i možda najvažniju komponentu nauke o podacima – analizu podataka. Strojno učenje vam omogućava da pronađete obrasce u postojećim podacima tako da možete predvidjeti relevantne informacije za nove objekte.

Hajde da analiziramo podatke

Vratimo se našem primjeru. Oku se čini da su ta dva parametra nekako međusobno povezana: što je osoba manje spavala, to će više kafe popiti sljedećeg dana. Istovremeno, imamo i primjer koji se izdvaja iz ovog trenda - Polinu, koja voli spavati i piti kafu. Ipak, možete pokušati aproksimirati rezultirajući uzorak nekom općom ravnom linijom tako da se približi svim tačkama što je bliže moguće:

Zelena linija je naš model strojnog učenja, generalizira podatke i može se opisati matematički. Sada uz pomoć njega možemo odrediti vrijednosti za nove objekte: kada želimo da predvidimo koliko će kafe danas popiti Nikita koji je ušao u kancelariju, pitaćemo koliko je spavao. Dobivši kao odgovor vrijednost od 7,5 sati, zamjenjujemo je u model - odgovara količini popijene kafe u zapremini nešto manjoj od 300 ml. Crvena tačka predstavlja naše predviđanje.

Otprilike ovako funkcionira strojno učenje, čija je ideja vrlo jednostavna: pronaći obrazac i proširiti ga na nove podatke. U stvari, u mašinskom učenju postoji još jedna klasa zadataka kada ne treba da predviđate neke vrednosti, kao u našem primeru, već podelite podatke u određene grupe. Ali o tome ćemo detaljnije govoriti drugi put.

Primijenimo rezultat

Međutim, po mom mišljenju, nauka o podacima se ne završava identifikacijom obrazaca u podacima. Svaki projekat nauke o podacima jeste primijenjeno istraživanje, gdje je važno ne zaboraviti na stvari poput postavljanja hipoteze, planiranja eksperimenta i, naravno, procjene rezultata i njegove podobnosti za rješavanje konkretnog slučaja.

Ovo posljednje je vrlo važno u stvarnim poslovnim problemima, kada trebate razumjeti da li će rješenje koje je pronašla nauka o podacima koristiti vašem projektu ili ne. Koja bi bila korisnost konstruisanog modela u našem primjeru? Možda bismo uz njegovu pomoć mogli optimizirati dostavu kafe u ured. Istovremeno, treba da procenimo rizike i utvrdimo da li bi se naš model bolje nosio sa ovim od postojećeg rešenja – šef kancelarije Mihail, odgovoran za kupovinu proizvoda.

Hajde da nađemo izuzetke

Naravno, naš primjer je maksimalno pojednostavljen. U stvarnosti, bilo bi moguće izgraditi složeniji model koji bi uzeo u obzir neke druge faktore, na primjer, voli li osoba u principu kafu. Ili bi model mogao pronaći veze koje su složenije od onih koje predstavlja prava linija.

Mogli bismo prvo potražiti vanjske vrijednosti u našim podacima — objekte koji se, poput Poline, veoma razlikuju od većine drugih. Činjenica je da u stvarnom radu takvi primjeri mogu loše utjecati na proces izgradnje modela i njegovu kvalitetu, te ih ima smisla obraditi na neki drugi način. A ponekad su takvi objekti od primarnog interesa, na primjer, u zadatku otkrivanja anomalnih bankarskih transakcija kako bi se spriječile prijevare.

Osim toga, Polina nam pokazuje još jednu važnu ideju - nesavršenost algoritama za strojno učenje. Naš model predviđa samo 100 ml kafe za osobu koja je spavala 10 sati, dok je u stvari Polina popila čak 500. Kupci rješenja za nauku o podacima nikada neće vjerovati, ali je ipak nemoguće naučiti mašinu da savršeno predvidi sve u svijetu: Bez obzira koliko smo dobri u prepoznavanju obrazaca u podacima, uvijek će postojati nepredvidivi elementi.

Nastavimo priču

Dakle, data science je skup metoda za obradu i analizu podataka i njihovu primjenu na praktične probleme. Istovremeno, morate shvatiti da svaki stručnjak ima svoj pogled na ovu oblast i mišljenja se mogu razlikovati.

Nauka o podacima temelji se na prilično jednostavnim idejama, ali u praksi se često otkrivaju mnoge neočigledne suptilnosti. Kako nas nauka o podacima okružuje Svakodnevni život, koje metode analize podataka postoje, od koga se sastoji tim za nauku o podacima i koje poteškoće mogu nastati tokom procesa istraživanja - o tome ćemo govoriti u narednim člancima.



Novo na sajtu

>

Najpopularniji