Domov Vůně z úst Data scientist, kde studovat. Co je datová věda a jak funguje? Video: Nová specializace „Big Data“ - Michail Levin

Data scientist, kde studovat. Co je datová věda a jak funguje? Video: Nová specializace „Big Data“ - Michail Levin

Už dlouho jste chtěli přijít na to, jak se stát datovým analytikem, studovat datovou vědu, ale nevěděli jste, kde začít? Pak je tento článek právě pro vás.

Kdo z nás neslyšel o „velkých datech“? Je nepravděpodobné, že bude alespoň jeden. V minulé roky Zájem o práci s daty výrazně vzrostl, protože velké IT společnosti potřebují přicházet se stále více novými řešeními pro analýzu, zpracování a následné využití dat. Někteří dokonce startují výukové programy společně s univerzitami. Většina lidí však nechápe, jací lidé jsou datoví analytici. Pokud mezi takové lidi patříte a máte touhu stát se datovým analytikem, pak je tento článek určen právě vám. Vybrali jsme pouze bezplatné tréninkové nástroje, které můžete používat bez ohledu na to, kde se nacházíte.

Co dělají datoví analytici?

Takzvaní datoví analytici se zabývají jeho informacemi a analýzou, aby získali vizuální, člověkem vnímatelné výsledky. Mezi takové lidi obvykle patří specialisté na velká data, dolování dat, strojové učení, systémovou analýzu a obchodní analytiky.

Co sledovat

Přednášky „Škola analýzy dat“ od Yandexu

SHAD - kurzy analýzy dat od zaměstnanců Yandex. Je poměrně obtížné tam vstoupit, minimum požadované pro uchazeče jsou základní části vyšší algebry,matematická analýza, kombinatorika, teorie pravděpodobnosti a také základy programování. Kurzy jsou naštěstí nahrávány, takže se z videopřednášek může poučit každý.

Kurz strojového učení

Kurz učí, jak aplikovat teorii pravděpodobnosti a statistiku, hovoří o základech strojového učení a učí, jak vytvářet algoritmy.

Kurz „Vyhledávací datové algoritmy a struktury“

Přednášky pokrývají algoritmy pro vyhledávání a třídění velkých objemů dat, algoritmy a manipulaci s řetězci, grafově teoretické algoritmy, konstrukci a analýzu datových struktur.

Kurz "Paralelní a distribuované výpočty"

Pro ty, kteří se dlouho chtějí seznámit s vícevláknovým a paralelním programováním a také s MapReduce.

Kurz "Diskrétní analýza a teorie pravděpodobnosti"

Předmět prověřuje základní pojmy a metody kombinatorické, diskrétní a asymptotické analýzy, teorie pravděpodobnosti, statistiky a také demonstruje jejich aplikaci.

Kurz "Výpočetní složitost"

Po shlédnutí kurzu se seznámíte s třídami pravděpodobnostní složitosti a základními technikami pro analýzu a konstrukci dat.

Přednášky Technostream Mail.ru Group

Kurzy jsou určeny studentům několika moskevských univerzit, ale jsou dostupné komukoli. Následující sbírky přednášek doporučujeme budoucím analytikům:

Přednáší Big Data University

Big Data University - online kurz, vytvořený společně s IBM pro začátečníky a lidi bez matematického vzdělání. Přednášky, které vám pomohou seznámit se se základy práce s daty, jsou nahrány srozumitelnou angličtinou.

Welch Labs

Tento kanál obsahuje přednášky o matematice, informatice, programování a strojovém učení. V procesu jsou uvedeny příklady aplikace věcí, které jsou studovány reálný život. Přednášky jsou v angličtině, ale jsou tam výborné ruské titulky.

Studna " Učení se ze strukturovaných dat: Úvod do pravděpodobnostních grafických modelů"Fakulta informatiky, Národní výzkumná univerzita Vyšší ekonomická škola

Kurz je zaměřen na hloubkový úvod do teorie a aplikace jednoho z dnes nejpopulárnějších přístupů k řešení takových problémů - diskrétní pravděpodobnosti grafické modely. Jazykem kurzu je angličtina.

Kanál senddex

Kanál je zcela věnován práci s daty. Navíc nejen ti, kteří se zajímají o matematiku, najdou užitečné věci pro sebe. Existují videa o analýze a programování pro finanční analytiky a robotiku pomocí Rasperri Pi.

Kanál Siraj Raval

Ten chlap mluví o moderní technologie a jak s nimi pracovat. Kurzy hlubokého učení, datové vědy a strojového učení vám pomohou naučit se pracovat s daty.

Kanál Data School

Pokud jste o strojovém učení jen něco slyšeli, ale už vás to zajímá, pak je tento kanál pro vás. Autor na srozumitelné úrovni na příkladech vysvětlí, co to je, jak funguje a kde se používá.

Kde cvičit

Pro ty, kteří si nejsou jisti, že jsou připraveni ke studiu zcela samostatně sledováním přednášek, jsou připraveny online kurzy s úkoly s ověřením.

Kurzy datové vědy na Coursera

O jakou platformu se jedná, není třeba vysvětlovat. Musíte si vybrat kurz a začít studovat.

Stepik.org

Analýza dat v R

První část pokrývá všechny hlavní kroky statistické analýzy v R, čtení dat, předzpracování dat, aplikaci základních statistických metod a vizualizaci výsledků. Studenti si osvojí základní prvky programování v jazyce R, což jim umožní rychle a efektivně řešit širokou škálu problémů, které vznikají při zpracování dat.

Druhá část pokrývá několik pokročilých témat, která nebyla probrána v první: předzpracování dat pomocí balíčků data.table a dplyr, pokročilé vizualizační techniky, práce v R Markdown.

Úvod do databází

Ponořte se do DBMS

Kurz je určen pro ty, kteří mají nějaké zkušenosti s relačním DBMS a chtějí se dozvědět více o tom, jak pracují. Kurz zahrnuje:

  • návrh schémat databáze;
  • řízení transakcí;
  • optimalizace dotazů;
  • nové funkce relačního DBMS

hadoop. Systém pro zpracování velkých objemů dat

Předmět je věnován metodám zpracování velkých objemů dat pomocí systému Hadoop. Po absolvování kurzu získáte znalosti o základních metodách ukládání a zpracování velkých objemů dat, pochopíte principy distribuovaných systémů v kontextu frameworku Hadoop a osvojíte si praktické dovednosti vývoje aplikací s využitím programovacího modelu MapReduce.

Mnoho zaměstnavatelů dnes aktivně hledá datové vědce. Zároveň mají zájem přilákat ty „vědce“, kteří mají odpovídající vzdělání. Zároveň je potřeba počítat se všemi dezinformacemi, kterých je trh plný. Řekneme vám o největších mylných představách o Data Scientists a Data Scientists, o dovednostech, které potřebují mít, a o tom, kdo toto vzácné plemeno vlastně je.

Data Science(Data Science) je obor informatiky, který studuje problémy analýzy, zpracování a prezentace dat v digitální podobě. Data science spojuje metody pro zpracování dat ve velkých objemech a vysoké míře paralelismu, statistické metody, metody dolování dat a aplikace umělé inteligence pro práci s daty a také metody pro návrh a vývoj databází. Zacházeno jako s akademickou disciplínou. Od začátku roku 2010 se umisťuje jako praktická mezisektorová oblast působnosti. Od počátku roku 2010 je specializace „data scientist“ považována za jednu z nejlépe placených, atraktivních a perspektivních profesí.

Mylné představy datové vědy

1. Velká data jsou statistiky a obchodní analýzy s velkým množstvím dat. Není tu nic nového

Tento názor zastávají především ti lidé, kteří mají omezené zkušenosti s vývojem softwaru, nebo nejsou zatíženi vůbec žádnými zkušenostmi. Chcete analogii? Prosím. Vezměme si jako příklad led. Dá se tomu říkat velmi studená voda. co je tady nového? Chladicí voda však nejen mění svou teplotu, ale radikálně mění i své kvalitativní charakteristiky a přeměňuje kapalinu na pevnou látku. Totéž lze říci o velkém množství dat. Velké množství dat nakonec porušuje stará paradigmata výpočtů, výpočtů a výpočtů. Použitím tradiční metody Pro obchodní analytiky může provedení určitých výpočtů trvat roky. Paralelizace a distribuované výpočty jsou zřejmé odpovědi na otázku škálování. Ale to není vždy tak snadné, dokonce ani se statistickým nástrojem tak jednoduchým, jako je logistická regresní analýza. Distribuované statistické výpočty se od tradičních obchodních analýz liší stejně jako led od vody.

2. Datoví vědci jsou po změně značky stejní softwaroví inženýři

Někdy inženýři s rozsáhlými zkušenostmi s vývojem softwaru procházejí rekvalifikací a stávají se datovými vědci, aby se zlepšili mzdy. Tato praxe však často vede k neuspokojivým výsledkům. V oblasti velkých dat se skutečně jeví ladění statistických chyb i na té nejjednodušší úrovni jako poměrně obtížný úkol. Inženýři jsou vyškoleni k detekci a opravě softwarových chyb. Ale bez solidních znalostí teorie pravděpodobnosti a statistiky je nepravděpodobné, že by ani chladný programátor dokázal úspěšně odstranit jednoduchou statistickou chybu.


Inženýři na vyšší úrovni jsou schopni vytvářet jednoduché, diskrétní modely založené na pravidlech. Takové modely však nejsou vhodné pro získávání podrobnějších poznatků z dat. Proto ztracený finanční prospěch. K získání odpovědí na „otázky velkých dat“ je proto zapotřebí vysoce kvalifikovaných a vysoce specializovaných pracovníků, kteří budou základem příští generace prediktivního modelování.

3. Datoví vědci nepotřebují rozumět byznysu – data jim řeknou vše

Lidé, kteří mají vzdělání a zkušenosti jako programátor, tomuto pokušení často podlehnou. A vlastně, proč potřebují rozumět podnikání, když mají tak silnou základnu? Mocný, ale ne všemocný. Hledání všech možných korelací je neuvěřitelně pracné a časově náročné, nemluvě o statisticky problematickém. Datoví vědci prostě musí použít svou obchodní intuici, aby úspěšně rozlišili mezi falešnými a skutečnými korelacemi. Nedostatek odborných znalostí v určité oblasti může vést k nepodloženým závěrům. jak se ti to líbí? Nárůst počtu policistů vede k nárůstu kriminality, což znamená, že je nutné snížit počet strážců zákona v oblastech s nepříznivou kriminální situací. A konečně, mít obchodní intuici je také důležité pro přesvědčování klíčových zúčastněných stran: když budete mluvit o korelacích v jazyce, kterému obchodníci rozumí, bude datový vědec úspěšnější než kolega, který nemá obchodní talent.


Velká data a datová věda jsou znalosti, jak sestavit optimální model, který kombinuje správné inženýrské, statistické a obchodní dovednosti. Bez toho nebude datový vědec schopen dosáhnout všeho, co si předsevzal.

Kdo jsou tedy datoví vědci?

Datoví vědci jsou produktem evoluce podnikání a datových analytiků. Formální školení pro tyto specialisty zahrnuje informatiku, statistiku, analytiku a matematiku. Co dělá špičkového datového vědce? Silná obchodní prozíravost spojená se schopností komunikovat s obchodními a IT lídry způsobem, který pomáhá ovlivňovat růst společnosti. Anjul Bambra, viceprezident pro velká data v IBM, říká, že datoví vědci jsou „částečně analytikem a částečně umělcem“. Jsou to velmi zvědaví lidé, kteří se mohou dívat na data a sledovat trendy. Lze je přirovnat k umělcům renesance, kteří se chtěli nejen učit, ale i měnit svět kolem sebe.

Zatímco tradiční analytik analyzuje data z jednoho zdroje (např. CRM systémy), datový vědec nutně studuje data z několika různých zdrojů. Bude agresivně probírat všechna příchozí data, aby objevila dříve skryté poznatky, které mohou poskytnout konkurenční výhodu. Datový vědec nejenže shromažďuje a analyzuje data, ale dívá se na ně z různých úhlů pohledu a analyzuje je v různých kontextech, určuje, co ta či ona data znamenají pro značku, a poté dává doporučení, jak dostupné informace využít.


Datoví vědci jsou lidé, kteří neustále zkoumají, kladou miliony otázek, provádějí analýzu „co kdyby…“, zpochybňují stávající předpoklady a procesy, identifikují bohaté zdroje dat a propojují je se špatnými datovými sadami... V konkurenčním prostředí, kde se úkoly neustále řeší změny a rychlý tok dat nikdy nekončí, datoví vědci pomáhají spravovat rozhodnutí. A to je jejich nejcennější vlastnost.

Proč "vědci"?

Mnozí tvrdí, že nazývat datového vědce „datovým vědcem“ je velmi, velmi domýšlivé. Pokud se však pokusíte podívat na kořen, pak tato formulace dává smysl. Například experimentální fyzici musí navrhnout a postavit vlastní zařízení, sbírat data, provádět experimenty a shrnout všechna zjištění do zpráv. Datoví vědci dělají totéž. Proto jsou za nejkvalifikovanější datové vědce považováni lidé s pokročilými tituly ve fyzice nebo společenských vědách.


Nejlepší datoví vědci na planetě jsou vědci s PhD v esoterických oborech, jako je ekologie a systémová biologie. Pozoruhodný příklad– George Roumeliotis, který vede tým datových vědců ve společnosti Intuit v Silicon Valley. Získal doktorát z astrofyziky. Vlastníkem je mnoho datových vědců akademické tituly v informatice, matematice a ekonomii. Ale ať je to jak chce, dobrý specialista, specializující se na analýzu dat, mohou pocházet z jakéhokoli oboru.


Základní dovednosti, bez kterých se datový vědec neobejde

Základní nástroje. Bez ohledu na poslání společnosti musí datový vědec umět používat základní nástroje: programovací jazyk R pro statistické zpracování dat a grafiku, programovací jazyk Python na vysoké úrovni zaměřený na zlepšení produktivity vývojářů a čitelnost kódu, strukturovaný dotazovací jazyk, jako je např. SQL, který se používá k vytváření, úpravě a manipulaci s daty v libovolné relační databázi.

Základní statistika. Pochopení statistiky je pro datového vědce životně důležité. Není žádným tajemstvím, že mnozí odborníci nejsou schopni určit ani P-hodnotu – hodnotu používanou při testování statistické hypotézy. Datový vědec prostě musí být obeznámen se statistickými testy, distribucemi, odhadem maximální pravděpodobnosti atd. Statistiky jsou důležité pro různé oblasti podnikání, zejména pro společnosti založené na datech


Strojové učení. Pokud datový vědec pracuje ve velké společnosti s obrovskými objemy dat, měl by znát metody strojového učení. Mnohé z těchto metod lze samozřejmě implementovat pomocí knihoven R nebo Python, takže nemusíte být přední světový odborník, abyste pochopili, jak algoritmy fungují. Mnohem důležitější je pochopit, kdy bude použití určitých metod nejvhodnější.

Vícerozměrné výpočty a lineární algebra. Tyto disciplíny tvoří základ mnoha metod strojového učení.

Příprava dat pro analýzu. Často jsou analyzovaná data značně „špinavá“, takže práce s nimi je mnohem obtížnější. Proto je velmi důležité vědět, jak se vypořádat se všemi nedostatky dat. Příkladem nedokonalých dat je nekonzistentní formátování řetězců jako „New York“ – „new york“ – „ny“ nebo data „2014-01-01“ – „01/01/2014“ nebo použití Čas a posloupnost systému UNIX Timestamp.

Vizualizace a komunikace dat. To je neuvěřitelné důležité body, zvláště když mluvíme o mladých společnostech řízených daty nebo o společnostech, ve kterých jsou datoví vědci vnímáni jako lidé, kteří pomáhají činit rozhodnutí řízená daty. Velmi užitečná bude znalost ggplot (nadstavba jazyka R) a JavaScriptové knihovny pro zpracování a vizualizaci dat D3.js.

Programování. Data vědci jsou obvykle zodpovědní za zpracování velkého množství registračních dat a produktů založených na datech.

Myslete jako datový vědec. Zaměstnavatel vždy chce vidět datového vědce jako řešitele problémů. „Vědec“ musí vždy vědět, co je v této fázi důležité a co nemá zvláštní hodnotu. Je povinen komunikovat s designéry a manažery odpovědnými za vývoj produktů.


Harvard Business Review tvrdí, že datový vědec je nejsexy profesí 21. století. A s tím je těžké nesouhlasit. Datová věda se teprve rozvíjí a všechny moderní datové vědce lze s klidem označit za průkopníky. A pokud můžete říci, že jste nejlepší IT specialista mezi statistiky a nejlepší statistik mezi IT specialisty, pak jste opravdový datový vědec.

Materiály použité při přípravě tohoto článku

Data Scientist- specialista na zpracování, analýzu a ukládání velkého množství dat, tzv. „Big Data“. Profese je vhodná pro zájemce o fyziku, matematiku a informatiku (viz výběr povolání podle zájmu o školní předměty).

Data Science - datová věda na pomezí různých oborů: matematika a statistika; informatika a informatika; obchod a ekonomika.

(S. Maltseva, Národní výzkumná univerzita V. Kornilova „Vysoká ekonomická škola“)

Profese je nová, relevantní a... Samotný termín „Big Data“ se objevil v roce 2008. A profese Data Scientist – „Data Scientist“ byla oficiálně zaregistrována jako akademická a interdisciplinární disciplína na začátku roku 2010. První zmínka o termínu „data science“ byla sice zaznamenána v knize Petera Naura v roce 1974, ale v jiném kontext.

Potřeba vzniku takové profese byla diktována skutečností, že pokud jde o Ultra Big Data, ukázalo se, že datová pole jsou příliš velká na to, aby je bylo možné zpracovat standardními prostředky matematické statistiky. Každý den projdou servery společností po celém světě tisíce petabajtů (10 15 bajtů = 1024 terabajtů) informací. Kromě takových objemů dat je problém komplikován jejich heterogenitou a vysoká rychlost aktualizace.

Datová pole se dělí na 3 typy:

strukturované (například údaje z registračních pokladen v obchodě);

polostrukturované (e-mailové zprávy);

nestrukturované (video soubory, obrázky, fotografie).

Většina velkých dat je nestrukturovaná, což značně ztěžuje jejich zpracování.

Samostatně statistik, systémový analytik nebo obchodní analytik nemůže vyřešit problémy s takovými objemy dat. To vyžaduje člověka s interdisciplinárním vzděláním, kompetentního v matematice a statistice, ekonomii a podnikání, informatice a výpočetní technice.

Hlavním úkolem Data Scientist je schopnost extrahovat potřebné informace ze široké škály zdrojů pomocí informačních toků v reálném čase; identifikovat skryté vzory v souborech dat a statisticky je analyzovat, abyste mohli činit chytrá obchodní rozhodnutí. Pracovištěm takového specialisty není 1 počítač nebo dokonce 1 server, ale shluk serverů.

Vlastnosti profese

Při práci s daty používá Data Scientist různé metody:

  • statistické metody;
  • databázové modelování;
  • těžební metody;
  • Aplikace umělé inteligence pro práci s daty;
  • metody navrhování a vývoje databází.

Pracovní povinnosti datového vědce závisí na jeho oboru činnosti, ale obecný seznam funkce vypadají takto:

  • sběr dat z různých zdrojů pro následné operativní zpracování;
  • analýza spotřebitelského chování;
  • modelování zákaznické základny a personalizace produktů;
  • analýza účinnosti vnitřní procesy základy;
  • analýza různých rizik;
  • identifikace možných podvodů studiem pochybných transakcí;
  • vypracovávání pravidelných zpráv s prognózami a prezentací dat.

Datový vědec, stejně jako skutečný vědec, nejen shromažďuje a analyzuje data, ale také je studuje v různých kontextech a z různých úhlů a zpochybňuje jakékoli předpoklady. Nejdůležitější kvalita data scientist je schopnost vidět logické souvislosti v systému shromážděných informací a na základě kvantitativní analýza vyvíjet efektivní obchodní řešení. V dnešním konkurenčním a rychle se měnícím světě, ve stále rostoucím toku informací je Data Scientist pro management nepostradatelný, pokud jde o přijímání správných obchodních rozhodnutí.

Klady a zápory profese

klady

  • Povolání je nejen extrémně žádané, ale specialistů této úrovně je akutní nedostatek. Podle McKinsey Global Institute bude do roku 2018 jen ve Spojených státech potřeba více než 190 tisíc Data Scientists. To je důvod, proč jsou fakulty na nejprestižnějších univerzitách pro školení datových vědců tak rychle a široce financovány a rozvíjeny. Poptávka po Data Scientists roste také v Rusku.
  • Vysoce placená profese.
  • Potřeba neustále se vyvíjet, držet krok s vývojem IT technologií a vytvářet nové metody pro zpracování, analýzu a ukládání dat.

Mínusy

  • Ne každý člověk zvládne tuto profesi, vyžaduje zvláštní myšlení.
  • V procesu práce nemusí fungovat dobře známé metody a více než 60 % nápadů. Mnoho řešení selže a k dosažení uspokojivých výsledků musíte mít hodně trpělivosti. Vědec nemá právo říkat: "NE!" problém. Musí najít způsob, který pomůže problém vyřešit.

Místo výkonu práce

Data Scientists zaujímají klíčové pozice v:

  • technologický průmysl (navigační systémy pro automobily, výroba léků atd.);
  • IT sféra (optimalizace pro vyhledávače, filtr spamu, systemizace zpráv, automatické překlady textů a mnoho dalšího);
  • lékařství (automatická diagnostika nemocí);
  • finanční struktury (rozhodování o poskytování úvěrů) atd.;
  • televizní společnosti;
  • velké obchodní řetězce;
  • volební kampaně.

Důležité vlastnosti

  • Analytická mysl;
  • tvrdá práce;
  • vytrvalost;
  • pečlivost, přesnost, pozornost;
  • schopnost dokončit výzkum i přes neúspěšné průběžné výsledky;
  • komunikační dovednosti;
  • schopnost vysvětlit složité věci jednoduchými slovy;
  • obchodní intuice.

Odborné znalosti a dovednosti:

  • znalost matematiky, matematické analýzy, matematické statistiky, teorie pravděpodobnosti;
  • znalost angličtiny;
  • znalost hlavních programovacích jazyků, které mají komponenty pro práci s velkými datovými sadami: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • znalost statistických nástrojů - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • důkladná znalost odvětví, ve kterém datový vědec pracuje; pokud se jedná o farmaceutický průmysl, pak je nezbytná znalost základních výrobních procesů a složek léčiv;
  • Hlavní základní dovedností datového vědce je organizace a správa klastrových úložných systémů pro velká množství dat;
  • znalost zákonů o rozvoji podnikání;
  • ekonomické znalosti.

Vysoké školy

  • Moskevská státní univerzita pojmenovaná po Lomonosov, Fakulta výpočetní matematiky a kybernetiky, spec vzdělávací program Mail.Ru Group "Technosphere", se školením v metodách inteligentní analýzy velkého množství dat, programování v C++, programování s více vlákny a technologií pro budování systémů vyhledávání informací.
  • MIPT, Ústav analýzy dat.
  • Fakulta hospodářské informatiky Vysoké školy ekonomické Národní výzkumné univerzity školí systémové analytiky, projektanty a implementátory komplexních informačních systémů a organizátory řízení podnikových informačních systémů.
  • Škola analýzy dat Yandex.
  • University in Innopolis, University of Dundee, University of Southern California, University of Auckland, University of Washington: Magisterské programy v oblasti velkých dat.
  • Imperial College London Business School, MSc Data Science and Management.

Jako v každé profesi je i zde důležité sebevzdělávání, které bude nepochybně těžit z takových zdrojů, jako jsou:

  • online kurzy od předních světových univerzit COURSERA;
  • kanál strojového učení MASHIN LEARNING;
  • výběr kurzů edX;
  • Kurzy Udacity;
  • Kurzy Dataquest, kde se můžete stát skutečným profesionálem v Data Science;
  • 6-krokové kurzy Datacamp;
  • Tréninková videa O'Reilly;
  • screencasty pro začátečníky a pokročilé Data Origami;
  • čtvrtletní konference specialistů Moscow Data Scientists Meetup;
  • soutěže analýzy dat Kaggle.сom

Plat

Plat k 07.04.2019

Rusko 50 000–200 000 ₽

Moskva 60 000–300 000 ₽

Profese Data Scientist je jednou z nejlépe placených. Informace z webu hh.ru - měsíční plat se pohybuje od 8,5 tisíc do 9 tisíc dolarů V USA je plat takového specialisty 110 tisíc - 140 tisíc dolarů ročně.

Podle průzkumu výzkumného centra Superjob závisí plat specialistů Data Scientist na pracovních zkušenostech, rozsahu odpovědnosti a regionu. Začínající specialista se může spolehnout na 70 tisíc rublů. v Moskvě a 57 tisíc rublů. v Petrohradě. S až 3 lety pracovních zkušeností se plat zvyšuje na 110 tisíc rublů. v Moskvě a 90 tisíc rublů. v Petrohradě. U zkušených odborníků s vědeckými publikacemi může plat dosáhnout 220 tisíc rublů. v Moskvě a 180 tisíc rublů. V Petrohradě.

Kariérní kroky a vyhlídky

Povolání Data Scientist je samo o sobě vysokým úspěchem, který vyžaduje vážné teoretické znalosti a praktické zkušenosti několika profesí. V každé organizaci je takový specialista klíčovou postavou. K dosažení této výšky je potřeba tvrdě a cílevědomě pracovat a neustále se zlepšovat ve všech oblastech, které tvoří základ profese.

Existuje vtip o datovém vědci: je to všeobecný odborník, který programuje lépe než kterýkoli statistik a zná statistiky lépe než kterýkoli programátor. A obchodním procesům rozumí lépe než šéf firmy.

CO SE STALO "VELKÝ DATA„V reálných číslech?

  1. Každé 2 dny se objem dat zvyšuje o množství informací, které lidstvo vytvořilo od narození Krista do roku 2003.
  2. 90 % všech existujících dat se dnes objevilo za poslední 2 roky.
  3. Do roku 2020 se objem informací zvýší z 3,2 na 40 zettabajtů. 1 zettabajt = 10 21 bajtů.
  4. Během 1 minuty je na Facebook nahráno 200 tisíc fotografií, odesláno 205 milionů dopisů a zveřejněno 1,8 milionu lajků.
  5. Během 1 sekundy Google zpracuje 40 tisíc vyhledávacích dotazů.
  6. Každých 1,2 roku se celkový objem dat v každém odvětví zdvojnásobí.
  7. Do roku 2020 poroste trh se službami Hadoop na 50 miliard dolarů.
  8. Ve Spojených státech bylo v roce 2015 vytvořeno 1,9 milionu pracovních míst pro specialisty pracující na projektech Big Data.
  9. Big Data technologie zvyšují zisky obchodních řetězců o 60 % ročně.
  10. Podle předpovědí se velikost trhu s velkými daty v roce 2020 zvýší na 68,7 miliardy dolarů ve srovnání s 28,5 miliardami dolarů v roce 2014.

Navzdory těmto pozitivním ukazatelům růstu existují také chyby v prognózách. Například jedna z nejznámějších chyb roku 2016: prognózy ohledně amerických prezidentských voleb se nenaplnily. Předpovědi předložili slavní američtí datoví vědci Nate Silver, Kirk Bourne a Bill Shmarzo ve prospěch Hillary Clintonové. V předchozích volebních kampaních podávali přesné prognózy a nikdy se nemýlili.

Letos dal například Nate Silver přesnou předpověď u 41 států, ale u 9 států se mýlil, což vedlo k Trumpovu vítězství. Po analýze příčin chyb v roce 2016 dospěli k závěru, že:

  1. Matematické modely objektivně odrážejí obraz v době svého vzniku. Mají ale poločas rozpadu, na jehož konci se situace může dramaticky změnit. Prediktivní vlastnosti modelu se časem zhoršují. V v tomto případě roli hrály například nekalé praktiky, příjmová nerovnost a další sociální otřesy. Proto je nutné model pravidelně upravovat, aby zohledňoval nová data. To nebylo provedeno.
  2. Je nutné hledat a zvažovat další údaje, které mohou mít významný vliv na prognózy. Při sledování videí ze shromáždění v předvolebních kampaních Clintonové a Trumpa se tedy nebral v úvahu celkový počet účastníků shromáždění. Šlo o stovky lidí. Ukázalo se, že každého shromáždění ve prospěch Trumpa se zúčastnilo 400-600 lidí a pouze 150-200 ve prospěch Clintonové, což ovlivnilo výsledky.
  3. Matematické modely ve volebních kampaních jsou založeny na demografických datech: věk, rasa, pohlaví, příjem, postavení ve společnosti atd. Váha každé skupiny je dána tím, jak hlasovala v posledních volbách. Tato předpověď má chybu 3-4 % a funguje spolehlivě, když je mezi kandidáty velká mezera. Ale v tomto případě byla propast mezi Clintonovou a Trumpem malá a tato chyba měla významný dopad na výsledky voleb.
  4. Nebralo se v úvahu iracionální chování lidí. Prováděné průzkumy veřejného mínění vytvářejí iluzi, že lidé budou volit tak, jak odpověděli v průzkumech. Někdy to ale dělají naopak. V tomto případě by bylo nutné dodatečně provést analýzu obličeje a řeči, aby bylo možné identifikovat nečestné postoje k hlasování.

Obecně se předpověď ukázala jako špatná kvůli malé propasti mezi kandidáty. V případě velké mezery by tyto chyby nebyly tak rozhodující.

Video: Nová specializace „Big Data“ - Michail Levin

Data Scientist v infografice. Profese je svěží, dobře placená a známá. Jaké dovednosti by ale takový specialista měl mít? Uvažujme.

Pojďme mluvit o dovednostech

Data Scientist je všeobecný odborník zabývající se analýzou a zpracováním informací. Datový vědec rozumí statistice a programování. Užitečné, ne? Rozsah schopností každého jednotlivého Data Scientist je gradací a může se posunout směrem ke kódování nebo čisté statistice.

  • Datový analytik se sídlem v San Franciscu. Některé společnosti ve skutečnosti porovnávají Data Scientists s analytiky. Práce takového specialisty spočívá v extrahování informací z databáze, interakci s Excelem a základní vizualizaci.
  • Obrovský provoz a velké množství dat nutí některé firmy naléhavě hledat správný specialista. Často zveřejňují inzeráty, které hledají inženýry, analytiky, programátory nebo vědce, přičemž všichni mají na mysli stejnou pracovní pozici.
  • Existují společnosti, pro které jsou data produktem. V tomto případě bude vyžadována intenzivní analýza a strojové učení.
  • Pro jiné firmy nejsou data produktem, ale je na nich postavena samotná správa či workflow. Data Scientists jsou také hledáni pro strukturování firemních dat.

Titulky jsou plné titulků ve stylu „Nejsexy povolání 21. století“. Nevíme, zda je to pravda, ale víme, že datový vědec musí rozumět:

  1. Matematika a statistika.
  2. Předmět a software.
  3. Programování a databáze.
  4. Výměna dat a vizualizace.

Podívejme se na každý bod podrobněji.

Data Scientist a matematická statistika

Rozvoj matematické metody využití statistických dat je základní součástí práce. Matematická statistika je založena na teorii pravděpodobnosti, což umožňuje vyvozovat přesné závěry a vyhodnocovat jejich spolehlivost.

1. Strojové učení jako podsekce AI. K dispozici je školicí program a příklady dat se vzory. Vytvoříme model vzoru, implementujeme jej a získáme možnost pomocí programu hledat vzory v nových datech.

2. Data Scientist musí vědět statistické modelování testovat model náhodnými signály s určitou hustotou pravděpodobnosti. Cílem je statisticky zjistit získané výsledky.

3. Experimentální design. Během experimentů se změní jedna nebo více proměnných, aby bylo vidět rozdíl. V tomto případě existuje intervenční skupina a kontrolní skupina, díky kterým se test provádí.

4. Bayesovská inference pomáhá upravit pravděpodobnost hypotézy.

5. Školení pod dohledem:

  • rozhodovací stromy;
  • náhodné lesy;
  • logistická regrese.

6. Učení bez dozoru:

  • shlukování;
  • zmenšení rozměrů.

7. Optimalizace: gradientní sestup a možnosti.

Doménové a softwarové dovednosti

Studujte a cvičte! To je základ této specializace. Data Scientist musí dobře rozumět oblasti předmětu, kterou věda ovlivňuje, a také musí být obeznámen se softwarem.

Seznam požadovaných dovedností je zvláštní, ale neméně užitečný:

Programování a databáze

Od základů až po znalost Pythonu, XaaS, relační algebry a SQL. Obecně platí, že vše, bez čeho jsou pokusy o kvalitativní zpracování dat, k ničemu.

1. Základy informatiky, jako výchozí bod pro každého, kdo spojuje život s programováním a automatizací procesů.

Datová věda, strojové učení – pravděpodobně jste tato velká slova slyšeli, ale jak jasný vám byl jejich význam? Pro někoho jsou to krásné návnady. Někteří lidé si myslí, že datová věda je magie, která přiměje stroj dělat vše, co si objedná, zdarma. Jiní dokonce věří, že ano lehká cesta vydělat obrovské peníze. Nikita Nikitinsky, vedoucí výzkumu a vývoje ve společnosti IRELA, a Polina Kazakova, datová vědkyně, vysvětlují, co to je, jednoduchým a srozumitelným jazykem.

Pracuji v oblasti automatického zpracování přirozeného jazyka, což je aplikace datové vědy, a často vidím, že lidé používají tyto termíny nesprávně, takže jsem chtěl trochu objasnit. Tento článek je pro ty, kteří nemají ponětí, co je datová věda, a chtějí porozumět konceptům.

Definujme terminologii

Začněme tím, že nikdo vlastně přesně neví, co je datová věda, a neexistuje žádná striktní definice – jde o velmi široký a interdisciplinární pojem. Proto se zde podělím o svou vizi, která se nemusí nutně shodovat s názory ostatních.

Termín datová věda se do ruštiny překládá jako „data science“ a v profesionálním prostředí se často jednoduše přepisuje jako „data science“. Formálně se jedná o soubor některých vzájemně souvisejících disciplín a metod z oblasti informatiky a matematiky. Zní to příliš abstraktně, že? Pojďme na to přijít.

První část: data

První složkou datové vědy, něco, bez čeho je celý další proces nemožný, jsou ve skutečnosti data samotná: jak je sbírat, ukládat a zpracovávat a jak je oddělit od obecného pole dat. užitečné informace. Specialisté věnují až 80 % svého pracovního času čištění dat a jejich uvedení do požadované podoby.

Důležitou součástí tohoto bodu je, jak zacházet s daty, pro která nejsou vhodné standardní způsoby ukládání a zpracování z důvodu jejich obrovského objemu a/nebo rozmanitosti – tzv. big data. Mimochodem, nenechte se zmást: velká data a datová věda nejsou synonyma: spíše první je podsekcí druhé. Zároveň datoví analytici v praxi nemusí vždy pracovat s velkými daty – užitečná mohou být i malá data.

Pojďme sbírat data

Představte si, že nás zajímá, zda existuje nějaký vztah mezi tím, kolik kávy vypijí vaši kolegové v práci přes den a kolik spánku spali předchozí noc. Zapišme si informace, které máme k dispozici: řekněme, že váš kolega Gregory dnes spal 4 hodiny, takže musel vypít 3 šálky kávy; Ellina spala 9 hodin a vůbec nepila kávu; a Polina spala celých 10 hodin, ale vypila 2,5 šálku kávy – a tak dále.

Zobrazme získaná data v grafu (vizualizace je také důležitým prvkem každého projektu datové vědy). Na osu X vyneseme čas v hodinách a na osu Y kávu v mililitrech. Dostaneme něco takového:

Druhá část: věda

Máme data, co s nimi teď můžeme dělat? To je pravda, analyzujte, extrahujte užitečné vzory a nějak je použijte. Zde nám pomohou disciplíny jako statistika, strojové učení a optimalizace.

Tvoří další a možná nejdůležitější složku datové vědy – analýzu dat. Strojové učení vám umožňuje najít vzory ve stávajících datech, abyste pak mohli předvídat relevantní informace pro nové objekty.

Pojďme analyzovat data

Vraťme se k našemu příkladu. Na oko se zdá, že oba parametry spolu nějak souvisí: čím méně člověk spal, tím více kávy druhý den vypije. Zároveň tu máme i příklad, který z tohoto trendu vyčnívá – Polinu, která ráda spí a pije kávu. Přesto se můžete pokusit aproximovat výsledný vzor nějakou obecnou přímkou ​​tak, aby se co nejvíce přiblížila všem bodům:

Zelená čára je náš model strojového učení, zobecňuje data a lze ji popsat matematicky. Nyní s jeho pomocí můžeme určit hodnoty pro nové objekty: když chceme předpovědět, kolik kávy Nikita, který dnes vstoupil do kanceláře, vypije, zeptáme se, kolik spal. Po obdržení hodnoty 7,5 hodiny jako odpovědi ji dosadíme do modelu - odpovídá množství spotřebované kávy v objemu o něco menším než 300 ml. Červená tečka představuje naši předpověď.

Zhruba takto funguje strojové učení, jehož myšlenka je velmi jednoduchá: najít vzorec a rozšířit jej na nová data. Ve skutečnosti ve strojovém učení existuje další třída úloh, kdy nepotřebujete předpovídat některé hodnoty, jako v našem příkladu, ale rozdělit data do určitých skupin. Ale o tom si povíme podrobněji jindy.

Aplikujme výsledek

Podle mého názoru však datová věda nekončí identifikací vzorců v datech. Jakýkoli projekt datové vědy je aplikovaný výzkum, kde je důležité nezapomínat na takové věci, jako je stanovení hypotézy, plánování experimentu a samozřejmě posouzení výsledku a jeho vhodnosti pro řešení konkrétního případu.

To druhé je velmi důležité ve skutečných obchodních problémech, kdy potřebujete pochopit, zda řešení nalezené datovou vědou prospěje vašemu projektu nebo ne. Jaká by byla užitečnost zkonstruovaného modelu v našem příkladu? Možná bychom s jeho pomocí mohli optimalizovat rozvoz kávy do kanceláře. Zároveň musíme vyhodnotit rizika a určit, zda by si s tím náš model poradil lépe než stávající řešení – office manager Michail, odpovědný za nákup produktu.

Pojďme najít výjimky

Náš příklad je samozřejmě maximálně zjednodušený. Reálně by bylo možné postavit složitější model, který by zohledňoval některé další faktory, například to, zda člověk má rád kávu z principu. Nebo by model mohl najít vztahy, které jsou složitější než ty reprezentované přímkou.

Nejprve bychom mohli v našich datech hledat odlehlé hodnoty – objekty, které se jako Polina velmi liší od většiny ostatních. Faktem je, že v reálné práci mohou mít takové příklady špatný dopad na proces stavby modelu a jeho kvalitu a má smysl je zpracovávat jiným způsobem. A někdy jsou takové objekty primárního zájmu, například při odhalování anomálních bankovních transakcí, aby se zabránilo podvodům.

Kromě toho nám Polina ukazuje další důležitou myšlenku - nedokonalost algoritmů strojového učení. Náš model předpovídá pouze 100 ml kávy člověku, který spal 10 hodin, zatímco Polina jich ve skutečnosti vypila až 500. Zákazníci řešení pro datovou vědu tomu nikdy neuvěří, ale naučit stroj dokonale předvídat vše in the world : Bez ohledu na to, jak dobří jsme v identifikaci vzorů v datech, vždy budou existovat nepředvídatelné prvky.

Pokračujme v příběhu

Datová věda je tedy soubor metod pro zpracování a analýzu dat a jejich aplikaci na praktické problémy. Zároveň musíte pochopit, že každý specialista má na tuto oblast svůj vlastní pohled a názory se mohou lišit.

Datová věda je založena na poměrně jednoduchých myšlenkách, ale v praxi je často objeveno mnoho nezřejmých jemností. Jak nás datová věda obklopuje Každodenní život, jaké metody analýzy dat existují, kdo tvoří tým datové vědy a jaké potíže mohou nastat během výzkumného procesu – o tom si povíme v následujících článcích.



Novinka na webu

>

Nejoblíbenější