Bahay Amoy mula sa bibig Data scientist kung saan mag-aaral. Ano ang data science at paano ito gumagana? Video: Bagong espesyalisasyon na "Big Data" - Mikhail Levin

Amoy mula sa bibig

Data scientist kung saan mag-aaral. Ano ang data science at paano ito gumagana? Video: Bagong espesyalisasyon na "Big Data" - Mikhail Levin

Matagal mo na bang gustong malaman kung paano maging data analyst, mag-aral ng data science, ngunit hindi mo alam kung saan magsisimula? Kung gayon ang artikulong ito ay para sa iyo.

Sino sa atin ang hindi nakarinig tungkol sa "big data"? Malabong magkaroon ng kahit isa. SA mga nakaraang taon Ang interes sa pagtatrabaho sa data ay lumago nang malaki, dahil ang malalaking kumpanya ng IT ay kailangang makabuo ng parami nang parami ng mga bagong solusyon para sa pagsusuri, pagproseso at kasunod na paggamit ng data. Ang ilan ay naglulunsad pa mga programa sa pag-aaral kasama ng mga unibersidad. Gayunpaman, karamihan sa mga tao ay walang pang-unawa sa kung anong uri ng mga tao ang data analyst. Kung isa ka sa gayong mga tao at mayroon kang pagnanais na maging isang data analyst, kung gayon ang artikulong ito ay para sa iyo. Pinili lang namin ang mga libreng tool sa pagsasanay na magagamit mo anuman ang iyong lokasyon.

Ano ang ginagawa ng mga data analyst?

Ang tinatawag na data analyst ay nakikibahagi sa impormasyon at pagsusuri nito upang makakuha ng mga resultang nakikita at nakikita ng tao. Karaniwang kinabibilangan ng mga naturang tao ang mga espesyalista sa malaking data, data mining, machine learning, system analysis, at business analyst.

Ano ang dapat panoorin

Mga Lektura "School of Data Analysis" mula sa Yandex

SHAD - mga kurso sa pagsusuri ng data mula sa mga empleyado ng Yandex. Medyo mahirap makapasok doon; ang minimum na kinakailangan para sa mga aplikante ay ang mga pangunahing seksyon ng mas mataas na algebra,mathematical analysis, combinatorics, probability theory, pati na rin ang mga pangunahing kaalaman sa programming. Sa kabutihang palad, ang mga kurso ay naitala upang ang lahat ay matuto mula sa mga video lecture.

Kurso sa Machine Learning

Ang kurso ay nagtuturo kung paano ilapat ang probability theory at statistics, pinag-uusapan ang mga pangunahing kaalaman sa machine learning, at nagtuturo kung paano bumuo ng mga algorithm

Kurso na "Mga Algorithm at Structure ng Data ng Paghahanap"

Sinasaklaw ng mga lektura ang mga algorithm para sa paghahanap at pag-uuri ng malalaking volume ng data, algorithm at pagmamanipula ng string, graph-theoretic algorithm, pagbuo at pagsusuri ng mga istruktura ng data.

Kurso na "Parallel at distributed computing"

Para sa mga matagal nang gustong makilala ang multi-threaded at parallel programming, pati na rin ang MapReduce.

Kurso na "Discrete Analysis at Probability Theory"

Sinusuri ng kurso ang mga pangunahing konsepto at pamamaraan ng combinatorial, discrete at asymptotic analysis, probability theory, statistics, at nagpapakita rin ng kanilang aplikasyon.

Kurso na "Computational Complexity"

Pagkatapos panoorin ang kurso, matututunan mo ang tungkol sa probabilistic complexity classes at mga pangunahing pamamaraan para sa pagsusuri at pagbuo ng data.

Mga Lektura Technostream Mail.ru Group

Ang mga programa ng kurso ay inilaan para sa mga mag-aaral ng ilang mga unibersidad sa Moscow, ngunit magagamit ng sinuman. Inirerekomenda namin ang mga sumusunod na koleksyon ng mga lektura sa mga analyst sa hinaharap:

Mga Lektura sa Big Data University

Big Data University - online na kurso, nilikha kasama ng IBM para sa mga nagsisimula at mga taong walang background sa matematika. Ang mga lektura na makakatulong sa iyong maging pamilyar sa mga pangunahing kaalaman sa pagtatrabaho sa data ay naitala sa malinaw na Ingles.

Welch Labs

Naglalaman ang channel na ito ng mga lecture sa matematika, computer science, programming at machine learning. Sa proseso, ibinibigay ang mga halimbawa ng aplikasyon ng mga bagay na pinag-aaralan totoong buhay. Ang mga lektura ay nasa Ingles, ngunit mayroong mahusay na mga subtitle na Ruso.

sige" Pag-aaral mula sa Structured Data: Isang Panimula sa Probabilistic Graphical Models"Faculty of Computer Science, National Research University Higher School of Economics

Ang kurso ay nakatuon sa isang malalim na pagpapakilala sa teorya at mga aplikasyon ng isa sa mga pinakasikat na diskarte sa paglutas ng mga problema ngayon - discrete probabilistic mga graphic na modelo. Ang wika ng kurso ay Ingles.

Channel sentdex

Ang channel ay ganap na nakatuon sa pagtatrabaho sa data. Bukod dito, hindi lamang ang mga interesado sa matematika ang makakahanap ng mga kapaki-pakinabang na bagay para sa kanilang sarili. Mayroong mga video sa pagsusuri at programming para sa mga financial analyst at robotics gamit ang Rasperri Pi.

Siraj Raval Channel

Pinag-uusapan ng lalaki makabagong teknolohiya at kung paano magtrabaho sa kanila. Tutulungan ka ng mga kurso sa deep learning, data science, at machine learning na matutunan kung paano gumamit ng data.

Channel ng Data School

Kung may narinig ka lang tungkol sa machine learning, ngunit interesado ka na, ang channel na ito ay para sa iyo. Ang may-akda ay magpapaliwanag sa isang naiintindihan na antas, na may mga halimbawa, kung ano ito, kung paano ito gumagana at kung saan ito ginagamit.

Kung saan magpractice

Para sa mga hindi sigurado na handa silang mag-aral nang ganap nang nakapag-iisa sa pamamagitan ng panonood ng mga lektura, mayroong mga online na kurso na may mga gawain na may pag-verify.

Mga kurso sa agham ng data sa Coursera

Hindi na kailangang ipaliwanag kung anong uri ng platform ito. Kailangan mong pumili ng kurso at magsimulang mag-aral.

Stepik.org

Pagsusuri ng Data sa R

Ang unang bahagi ay sumasaklaw sa lahat ng mga pangunahing hakbang ng statistical analysis sa R, pagbabasa ng data, preprocessing data, paglalapat ng mga pangunahing istatistikal na pamamaraan at paggunita ng mga resulta. Matututuhan ng mga mag-aaral ang mga pangunahing elemento ng programming sa wikang R, na magbibigay-daan sa kanila na mabilis at mahusay na malutas ang isang malawak na hanay ng mga problema na lumitaw kapag nagpoproseso ng data.

Ang ikalawang bahagi ay sumasaklaw sa ilang mga advanced na paksa na hindi sakop sa una: data preprocessing gamit ang data.table at dplyr packages, advanced na visualization techniques, gumagana sa R Markdown.

Panimula sa Mga Database

Sumisid sa DBMS

Ang kurso ay para sa mga may karanasan sa relational na DBMS at gustong malaman ang higit pa tungkol sa kung paano sila gumagana. Saklaw ng kurso ang:

disenyo ng database schema;
pamamahala ng transaksyon;
pag-optimize ng query;
mga bagong feature ng relational DBMS

Hadoop. System para sa pagproseso ng malalaking volume ng data

Ang kurso ay nakatuon sa mga pamamaraan ng pagproseso ng malalaking volume ng data gamit ang Hadoop system. Pagkatapos makumpleto ang kurso, magkakaroon ka ng kaalaman sa mga pangunahing pamamaraan ng pag-iimbak at pagproseso ng malalaking volume ng data, mauunawaan ang mga prinsipyo ng mga distributed system sa konteksto ng Hadoop framework, at makabisado ang mga praktikal na kasanayan sa pagbuo ng application gamit ang MapReduce programming model.

Maraming mga employer ngayon ang aktibong naghahanap ng mga data scientist. Kasabay nito, interesado silang akitin ang mga "siyentipiko" na may naaangkop na edukasyon. Kasabay nito, kailangan mong isaalang-alang ang lahat ng maling impormasyon na puno ng merkado. Sasabihin namin sa iyo ang tungkol sa pinakamalaking maling akala tungkol sa Data Science at Data Scientist, ang mga kasanayang kailangan nilang taglayin, at kung sino talaga ang bihirang lahi na ito.

Agham ng Data(Data Science) ay isang sangay ng computer science na nag-aaral ng mga problema sa pagsusuri, pagproseso at paglalahad ng data sa digital form. Pinagsasama ng agham ng data ang mga pamamaraan para sa pagproseso ng data sa malalaking volume at mataas na antas ng paralelismo, mga pamamaraan ng istatistika, mga pamamaraan ng pagmimina ng data at mga aplikasyon ng artificial intelligence para sa pagtatrabaho sa data, pati na rin ang mga pamamaraan para sa pagdidisenyo at pagbuo ng mga database. Itinuring bilang isang akademikong disiplina. Mula sa simula ng 2010s, ito ay nakaposisyon bilang isang praktikal na intersectoral na larangan ng aktibidad. Mula noong unang bahagi ng 2010s, ang espesyalisasyon ng "data scientist" ay itinuturing na isa sa pinakamataas na bayad, kaakit-akit at nangangako na mga propesyon.

Mga Maling Paniniwala sa Data Science

1. Ang malaking data ay mga istatistika at analytics ng negosyo na may malaking halaga ng data. Walang bago dito

Pangunahing pinanghahawakan ang opinyong ito ng mga taong may limitadong karanasan sa pagbuo ng software, o hindi nabibigatan sa anumang karanasan. Gusto mo ng analogy? Pakiusap. Kunin natin ang yelo bilang isang halimbawa. Matatawag itong napakalamig na tubig. Anong bago dito? Gayunpaman, ang paglamig ng tubig ay hindi lamang nagbabago ng temperatura nito, ngunit tiyak na nagbabago ng mga katangian ng kalidad nito, na ginagawang solid ang likido. Ang parehong ay maaaring sinabi para sa malaking halaga ng data. Ang malalaking halaga ng data sa huli ay sumisira sa mga lumang paradigma ng mga kalkulasyon, kalkulasyon at kalkulasyon. Gamit tradisyonal na pamamaraan Para sa mga analyst ng negosyo, maaaring tumagal ng mga taon upang magsagawa ng ilang partikular na kalkulasyon. Ang parallelization at distributed computing ay malinaw na mga sagot sa tanong ng scaling. Ngunit ito ay hindi palaging napakadali, kahit na may isang istatistikal na tool na kasing simple ng pagtatasa ng logistic regression. Ang distributed statistical computing ay naiiba sa tradisyonal na analytics ng negosyo gaya ng yelo mula sa tubig.

2. Ang mga data scientist ay ang parehong mga software engineer pagkatapos ng rebranding

Minsan ang mga inhinyero na may malawak na karanasan sa pagbuo ng software ay sumasailalim sa muling pagsasanay at nagiging mga data scientist upang mapabuti sahod. Gayunpaman, ang pagsasanay na ito ay madalas na humahantong sa mga hindi kasiya-siyang resulta. Sa katunayan, sa larangan ng malaking data, ang pag-debug ng mga error sa istatistika kahit na sa pinakasimpleng antas ay tila isang mahirap na gawain. Ang mga inhinyero ay sinanay upang makita at ayusin ang mga error sa software. Ngunit kung walang matibay na kaalaman sa teorya at istatistika ng posibilidad, kahit na ang isang cool na programmer ay malamang na hindi matagumpay na maalis ang isang simpleng error sa istatistika.

Ang mga inhinyero sa mas mataas na antas ay nakakagawa ng simple, discrete, mga modelong nakabatay sa panuntunan. Ngunit ang mga naturang modelo ay hindi angkop para sa pagkuha ng mas maraming nuanced na mga insight mula sa data. Kaya ang nawalang pinansiyal na benepisyo. Samakatuwid, upang makakuha ng mga sagot sa "mga tanong sa malaking data," kinakailangan ang mataas na kwalipikado at lubos na dalubhasang tauhan, na siyang magiging pundasyon ng susunod na henerasyon ng predictive modeling.

3. Hindi kailangang maunawaan ng mga data scientist ang negosyo - sasabihin sa kanila ng data ang lahat

Ang mga taong may edukasyon at karanasan bilang isang programmer ay madalas na sumuko sa tuksong ito. At, talaga, bakit kailangan nilang maunawaan ang negosyo kung mayroon silang napakalakas na base? Makapangyarihan, ngunit hindi makapangyarihan. Ang paghahanap ng lahat ng posibleng mga ugnayan ay hindi kapani-paniwalang labor-intensive at pag-ubos ng oras, hindi banggitin ang istatistikal na problema. Dapat lang gamitin ng mga data scientist ang kanilang intuwisyon sa negosyo upang matagumpay na makilala sa pagitan ng mali at totoong mga ugnayan. Ang kakulangan ng ekspertong kaalaman sa isang partikular na lugar ay maaaring humantong sa walang batayan na mga konklusyon. Paano mo ito gusto? Ang pagtaas ng bilang ng mga opisyal ng pulisya ay humahantong sa pagtaas ng krimen, na nangangahulugang kinakailangan upang bawasan ang bilang ng mga opisyal ng pagpapatupad ng batas sa mga lugar na may hindi kanais-nais na sitwasyon ng krimen. Sa wakas, ang pagkakaroon ng intuwisyon sa negosyo ay mahalaga din para sa pagkumbinsi ng mga pangunahing stakeholder: sa pamamagitan ng pag-uusap tungkol sa mga ugnayan sa isang wika na naiintindihan ng mga negosyante, ang isang data scientist ay magiging mas matagumpay kaysa sa isang kasamahan na walang business sense.

Ang big data at data science ay ang kaalaman kung paano bumuo ng pinakamainam na modelo na pinagsasama ang tamang mga kasanayan sa engineering, istatistika at negosyo. Kung wala ito, hindi makakamit ng data scientist ang lahat ng itinakda niyang gawin.

Kaya sino ang mga data scientist?

Ang mga data scientist ay isang produkto ng ebolusyon ng negosyo at mga data analyst. Kasama sa pormal na pagsasanay para sa mga naturang espesyalista ang computer science, statistics, analytics at mathematics. Ano ang ginagawa ng isang top-notch data scientist? Malakas na katalinuhan sa negosyo na sinamahan ng kakayahang makipag-ugnayan sa mga lider ng negosyo at IT sa paraang nakakatulong sa pag-impluwensya sa paglago ng kumpanya. Anjul Bambra, vice president ng malaking data sa IBM, ay nagsabi na ang data scientists ay "part analyst at part artist." Ang mga ito ay napaka-curious na mga tao na maaaring tumingin sa data at makita ang mga trend. Maihahambing sila sa mga artista ng Renaissance, na nais hindi lamang matuto, kundi pati na rin baguhin ang mundo sa kanilang paligid.

Habang sinusuri ng tradisyunal na analyst ang data mula sa iisang source (hal. CRM system), ang isang data scientist ay kinakailangang mag-aral ng data mula sa iba't ibang mapagkukunan. Agresibo nitong sasalain ang lahat ng papasok na data upang matuklasan ang mga dating nakatagong insight na maaaring magbigay competitive advantage. Ang data scientist ay hindi lamang nangongolekta at nagsusuri ng data, ngunit tinitingnan ito mula sa iba't ibang anggulo at sinusuri ito sa iba't ibang konteksto, tinutukoy kung ano ang ibig sabihin ng data para sa brand, at pagkatapos ay gumagawa ng mga rekomendasyon kung paano gamitin ang magagamit na impormasyon.

Ang mga data scientist ay mga taong patuloy na nagsasaliksik, nagtatanong ng milyun-milyong tanong, gumagawa ng “paano kung...” pagsusuri, pagtatanong sa mga umiiral nang pagpapalagay at proseso, pagtukoy ng mga rich data source at pagkonekta sa mahihirap na set ng data... Sa isang mapagkumpitensyang kapaligiran kung saan ang mga gawain ay patuloy na pagbabago, at ang mabilis na daloy ng data ay hindi natatapos, tinutulungan ng mga data scientist ang pamamahala mga desisyon. At ito ang kanilang pinakamahalagang kalidad.

Bakit "mga siyentipiko"?

Maraming nagtatalo na ang pagtawag sa isang data scientist bilang isang "data scientist" ay napaka, napaka bongga. Gayunpaman, kung susubukan mong tingnan ang ugat, ang pagbabalangkas na ito ay may katuturan. Halimbawa, ang mga eksperimental na pisiko ay dapat magdisenyo at bumuo ng kanilang sariling kagamitan, mangolekta ng data, magsagawa ng mga eksperimento, at ibuod ang lahat ng mga natuklasan sa mga ulat. Gayon din ang ginagawa ng mga data scientist. Samakatuwid, ang pinakakarapat-dapat na data scientist ay itinuturing na mga taong may advanced na degree sa physics o social sciences.

Ang pinakamahusay na data scientist sa planeta ay ang mga siyentipiko na may PhD sa mga esoteric na larangan tulad ng ekolohiya at mga system biology. Isang kapansin-pansing halimbawa– George Roumeliotis, na namumuno sa isang pangkat ng mga data scientist sa Intuit sa Silicon Valley. Natanggap niya ang kanyang PhD sa astrophysics. Maraming data scientist ang may-ari akademikong degree sa computer science, mathematics at economics. Ngunit, maging iyon man, mahusay na espesyalista, na dalubhasa sa pagsusuri ng data, ay maaaring magmula sa anumang larangan.

Mga pangunahing kasanayan na hindi magagawa ng data scientist nang wala

Mga pangunahing kasangkapan. Anuman ang misyon ng kumpanya, dapat alam ng data scientist kung paano gumamit ng mga pangunahing tool: ang R programming language para sa statistical data science at graphics, ang high-level na Python programming language na naglalayong pahusayin ang pagiging produktibo ng developer at pagiging madaling mabasa ng code, Structured Query Language, tulad ng SQL, ginagamit upang lumikha, baguhin, at manipulahin ang data sa isang arbitraryong relational database.

Pangunahing Istatistika. Ang pag-unawa sa mga istatistika ay mahalaga para sa isang data scientist. Hindi lihim na maraming mga eksperto ang hindi matukoy kahit ang P-value - ang halaga na ginamit sa pagsubok istatistikal na hypotheses. Ang isang data scientist ay dapat na pamilyar sa mga istatistikal na pagsubok, pamamahagi, pagtatantya ng maximum na posibilidad, atbp. Ang mga istatistika ay mahalaga para sa iba't ibang lugar negosyo, lalo na para sa data-driven na kumpanya

Pag-aaral ng makina. Kung ang isang data scientist ay nagtatrabaho sa isang malaking kumpanya na may malaking volume ng data, dapat ay pamilyar siya sa mga pamamaraan ng machine learning. Siyempre, marami sa mga pamamaraang ito ang maaaring ipatupad gamit ang mga library ng R o Python, kaya hindi mo kailangang maging eksperto sa mundo upang maunawaan kung paano gumagana ang mga algorithm. Mas mahalaga na maunawaan kung kailan ang paggamit ng ilang mga pamamaraan ay pinakaangkop.

Multivariate na kalkulasyon at linear algebra. Ang mga disiplinang ito ay bumubuo ng batayan ng maraming pamamaraan sa pag-aaral ng makina.

Paghahanda ng data para sa pagsusuri. Kadalasan ang nasuri na data ay medyo "marumi", na ginagawang mas mahirap ang pagtatrabaho dito. Samakatuwid, napakahalaga na malaman kung paano haharapin ang lahat ng mga pagkukulang ng data. Ang isang halimbawa ng hindi perpektong data ay hindi pare-parehong pag-format ng mga string gaya ng "New York" - "new york" - "ny", o ang mga petsang "2014-01-01" - "01/01/2014", o ang paggamit ng UNIX system time at sequence Timestamp.

Data visualization at komunikasyon. Ito ay hindi kapani-paniwala mahahalagang puntos, lalo na kapag pinag-uusapan natin ang tungkol sa mga batang kumpanyang batay sa data, o ang mga kumpanyang iyon kung saan ang mga data scientist ay itinuturing bilang mga taong tumutulong sa paggawa ng mga desisyon na batay sa data. Ang kaalaman sa ggplot (isang extension ng wikang R) at ang JavaScript library para sa pagproseso at pagpapakita ng data ng D3.js ay magiging lubhang kapaki-pakinabang.

Programming. Karaniwang responsable ang mga data scientist sa pangangasiwa ng malalaking halaga ng data ng pagpaparehistro at mga produktong batay sa data.

Mag-isip tulad ng isang data scientist. Palaging gustong makita ng isang employer ang isang data scientist bilang isang solver ng problema. Ang "siyentipiko" ay dapat palaging alam kung ano ang mahalaga sa yugtong ito at kung ano ang hindi partikular na halaga. Kinakailangan siyang makipag-ugnayan sa mga taga-disenyo at tagapamahala na responsable para sa pagbuo ng produkto.

Sinasabi ng Harvard Business Review na ang data scientist ang pinakaseksi na propesyon sa ika-21 siglo. At mahirap hindi sumang-ayon dito. Ang agham ng data ay umuunlad pa lamang, at lahat ng modernong data scientist ay ligtas na matatawag na mga pioneer. At kung masasabi mong ikaw ang pinakamahusay na espesyalista sa IT sa mga istatistika at ang pinakamahusay na istatistika sa mga espesyalista sa IT, kung gayon ikaw ay isang tunay na data scientist.

Mga materyales na ginamit sa paghahanda ng artikulong ito

Data Scientist- espesyalista sa pagproseso, pagsusuri at pag-iimbak ng malalaking halaga ng data, ang tinatawag na "Big Data". Ang propesyon ay angkop para sa mga interesado sa pisika, matematika at computer science (tingnan ang pagpili ng propesyon batay sa interes sa mga asignatura sa paaralan).

Data Science - data science sa intersection ng iba't ibang disiplina: matematika at istatistika; Informatics at Computer Science; negosyo at ekonomiya.

(S. Maltseva, V. Kornilov National Research University "Higher School of Economics")

Ang propesyon ay bago, may kaugnayan at... Ang terminong "Big Data" mismo ay lumitaw noong 2008. At ang propesyon ng Data Scientist - "Data Scientist" ay opisyal na nakarehistro bilang isang akademiko at interdisciplinary na disiplina noong unang bahagi ng 2010. Bagaman ang unang pagbanggit ng terminong "data science" ay nabanggit sa aklat ni Peter Naur noong 1974, ngunit sa ibang konteksto.

Ang pangangailangan para sa paglitaw ng naturang propesyon ay idinidikta ng katotohanan na pagdating sa Ultra Big Data, ang mga arrays ng data ay lumalabas na masyadong malaki upang maproseso sa pamamagitan ng karaniwang paraan ng mga istatistika ng matematika. Araw-araw, libu-libong petabytes (10 15 bytes = 1024 terabytes) ng impormasyon ang dumadaan sa mga server ng mga kumpanya sa buong mundo. Bilang karagdagan sa mga naturang volume ng data, ang problema ay kumplikado sa pamamagitan ng kanilang heterogeneity at mataas na bilis mga update.

Ang mga array ng data ay nahahati sa 3 uri:

nakabalangkas (halimbawa, data mula sa mga cash register sa kalakalan);

semi-structured (mga mensahe sa e-mail);

hindi nakaayos (mga video file, larawan, litrato).

Karamihan sa Big Data ay hindi nakabalangkas, na ginagawang mas mahirap ang pagproseso nito.

Indibidwal, hindi malulutas ng isang statistician, system analyst o business analyst ang mga problema sa naturang dami ng data. Ito ay nangangailangan ng isang taong may interdisciplinary na edukasyon, may kakayahan sa matematika at istatistika, ekonomiya at negosyo, computer science at computer technology.

Ang pangunahing gawain ng isang Data Scientist ay ang kakayahang kunin ang kinakailangang impormasyon mula sa isang malawak na iba't ibang mga mapagkukunan, gamit ang mga daloy ng impormasyon sa real time; tukuyin ang mga nakatagong pattern sa mga set ng data at pag-aralan ang mga ito ayon sa istatistika upang makagawa ng matalinong mga desisyon sa negosyo. Ang lugar ng trabaho ng naturang espesyalista ay hindi 1 computer o kahit 1 server, ngunit isang kumpol ng mga server.

Mga tampok ng propesyon

Kapag nagtatrabaho sa data, gumagamit ang isang Data Scientist ng iba't ibang pamamaraan:

paraang istatistikal;
pagmomodelo ng database;
pamamaraan ng pagmimina;
mga aplikasyon ng artificial intelligence para sa pagtatrabaho sa data;
pamamaraan ng pagdidisenyo at pagbuo ng mga database.

Ang mga responsibilidad sa trabaho ng isang data scientist ay nakasalalay sa kanyang larangan ng aktibidad, ngunit pangkalahatang listahan ang mga function ay ganito ang hitsura:

koleksyon ng data mula sa iba't ibang mga mapagkukunan para sa kasunod na pagpoproseso ng pagpapatakbo;
pagsusuri ng pag-uugali ng mamimili;
customer base modeling at pag-personalize ng produkto;
pagsusuri ng kahusayan mga panloob na proseso mga base;
pagsusuri ng iba't ibang mga panganib;
pagtukoy ng posibleng pandaraya sa pamamagitan ng pag-aaral ng mga kaduda-dudang transaksyon;
pagbubuo ng mga pana-panahong ulat na may mga pagtataya at presentasyon ng data.

Ang isang data scientist, tulad ng isang tunay na siyentipiko, ay hindi lamang nangongolekta at nagsusuri ng data, ngunit pinag-aaralan din ito sa iba't ibang konteksto at mula sa iba't ibang mga anggulo, na nagtatanong ng anumang mga pagpapalagay. Ang pinakamahalagang kalidad Ang data scientist ay ang kakayahang makakita ng mga lohikal na koneksyon sa isang sistema ng nakolektang impormasyon, at batay sa quantitative analysis bumuo ng mga epektibong solusyon sa negosyo. Sa mapagkumpitensya at mabilis na pagbabago ng mundo ngayon, sa patuloy na lumalagong daloy ng impormasyon, ang isang Data Scientist ay kailangang-kailangan para sa pamamahala sa mga tuntunin ng paggawa ng mga tamang desisyon sa negosyo.

Mga kalamangan at kahinaan ng propesyon

pros

Ang propesyon ay hindi lamang labis na hinihiling, ngunit mayroong isang matinding kakulangan ng mga espesyalista sa antas na ito. Ayon sa McKinsey Global Institute, sa 2018, higit sa 190 libong Data Scientist ang kakailanganin sa United States lamang. Kaya naman ang mga faculty sa pinakaprestihiyosong unibersidad para sa pagsasanay sa mga data scientist ay napakabilis at malawak na pinondohan at binuo. Ang pangangailangan para sa Data Scientist ay lumalaki din sa Russia.
Propesyon na may mataas na suweldo.
Ang pangangailangan na patuloy na bumuo, makasabay sa pagbuo ng mga teknolohiyang IT, at lumikha ng mga bagong pamamaraan para sa pagproseso, pagsusuri at pag-iimbak ng data.

Mga minus

Hindi lahat ng tao ay maaaring makabisado ang propesyon na ito;
Sa proseso ng trabaho, ang mga kilalang pamamaraan at higit sa 60% ng mga ideya ay maaaring hindi gumana. Maraming solusyon ang mabibigo at kailangan mong magkaroon ng maraming pasensya upang makakuha ng kasiya-siyang resulta. Ang isang siyentipiko ay walang karapatang magsabi ng: "HINDI!" problema. Kailangan niyang maghanap ng paraan na makakatulong sa paglutas ng problema.

Lugar ng trabaho

Sinasakop ng mga Data Scientist ang mga pangunahing posisyon sa:

mga teknolohikal na industriya (mga sistema ng nabigasyon ng kotse, produksyon ng gamot, atbp.);
IT sphere (pag-optimize ng search engine, filter ng spam, systematization ng balita, awtomatikong pagsasalin ng teksto at marami pa);
gamot (awtomatikong pagsusuri ng mga sakit);
mga istrukturang pinansyal (paggawa ng mga desisyon sa pag-isyu ng mga pautang), atbp.;
mga kumpanya sa telebisyon;
malalaking retail chain;
mga kampanya sa halalan.

Mga mahahalagang katangian

Analytical mind;
mahirap na trabaho;
pagtitiyaga;
pagiging maingat, katumpakan, pagkaasikaso;
ang kakayahang kumpletuhin ang pananaliksik sa kabila ng hindi matagumpay na mga intermediate na resulta;
kakayahan sa pakikipag-usap;
ang kakayahang ipaliwanag ang mga kumplikadong bagay sa mga simpleng salita;
intuwisyon sa negosyo.

Propesyonal na kaalaman at kasanayan:

kaalaman sa matematika, mathematical analysis, mathematical statistics, probability theory;
kaalaman sa Ingles;
kaalaman sa mga pangunahing wika ng programming na may mga bahagi para sa pagtatrabaho sa malalaking set ng data: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
kaalaman sa mga tool sa istatistika - SPSS, R, MATLAB, SAS Data Miner, Tableau;
masusing kaalaman sa industriya kung saan gumagana ang data scientist; kung ito ang industriya ng parmasyutiko, kung gayon ang kaalaman sa mga pangunahing proseso ng produksyon at mga bahagi ng gamot ay kinakailangan;
Ang pangunahing pangunahing kasanayan ng isang data scientist ay ang organisasyon at pangangasiwa ng mga cluster storage system para sa malaking halaga ng data;
kaalaman sa mga batas sa pagpapaunlad ng negosyo;
kaalaman sa ekonomiya.

Mga unibersidad

Ipinangalan ang Moscow State University Lomonosov, Faculty ng Computational Mathematics at Cybernetics, espesyal programang pang-edukasyon Mail.Ru Group "Technosphere", na may pagsasanay sa mga pamamaraan ng matalinong pagsusuri ng malalaking halaga ng data, programming sa C ++, multi-threaded programming at teknolohiya para sa pagbuo ng mga sistema ng pagkuha ng impormasyon.
MIPT, Kagawaran ng Pagsusuri ng Datos.
Ang Faculty of Business Informatics sa National Research University Higher School of Economics ay nagsasanay ng mga system analyst, designer at tagapagpatupad ng mga kumplikadong sistema ng impormasyon, at mga organizer ng corporate information systems management.
Paaralan ng pagsusuri ng data Yandex.
Unibersidad sa Innopolis, Unibersidad ng Dundee, Unibersidad ng Southern California, Unibersidad ng Auckland, Unibersidad ng Washington: Mga programa ng Master sa Big Data.
Imperial College London Business School, MSc Data Science at Pamamahala.

Tulad ng anumang propesyon, ang edukasyon sa sarili ay mahalaga dito, na walang alinlangan na makikinabang sa mga mapagkukunan tulad ng:

online na kurso mula sa mga nangungunang unibersidad sa mundo COURSERA;
machine learning channel MASHIN LEARNING;
pagpili ng mga kursong edX;
Mga kurso sa Udacity;
Mga kurso sa Dataquest, kung saan maaari kang maging isang tunay na pro sa Data Science;
6 na hakbang na mga kurso sa Datacamp;
Mga video ng pagsasanay sa O'Reilly;
mga screencast para sa mga nagsisimula at advanced na Data Origami;
quarterly conference ng mga espesyalista Moscow Data Scientists Meetup;
data analysis competitions Kaggle.сom

suweldo

Sahod mula 07/04/2019

Russia 50000—200000 ₽

Moscow 60000—300000 ₽

Ang propesyon ng Data Scientist ay isa sa pinakamataas na bayad. Ang impormasyon mula sa website na hh.ru - ang buwanang suweldo ay mula sa $8.5 thousand hanggang $9 thousand Sa USA, ang suweldo ng naturang espesyalista ay $110 thousand - $140 thousand bawat taon.

Ayon sa isang survey ng Superjob research center, ang suweldo ng mga Data Scientist specialist ay nakadepende sa karanasan sa trabaho, saklaw ng mga responsibilidad at rehiyon. Ang isang baguhan na espesyalista ay maaaring umasa sa 70 libong rubles. sa Moscow at 57 libong rubles. sa St. Petersburg. Sa hanggang 3 taong karanasan sa trabaho, ang suweldo ay tumataas sa 110 libong rubles. sa Moscow at 90 libong rubles. sa St. Petersburg. Para sa mga nakaranasang espesyalista na may mga publikasyong pang-agham, ang suweldo ay maaaring umabot sa 220 libong rubles. sa Moscow at 180 libong rubles. Sa Petersburg.

Mga hakbang sa karera at mga prospect

Ang propesyon ng Data Scientist mismo ay isang mataas na tagumpay, na nangangailangan ng seryosong teoretikal na kaalaman at praktikal na karanasan ng ilang propesyon. Sa anumang organisasyon, ang naturang espesyalista ay isang pangunahing pigura. Upang maabot ang taas na ito, kailangan mong magtrabaho nang husto at may layunin at patuloy na mapabuti sa lahat ng mga lugar na bumubuo sa batayan ng propesyon.

May isang biro tungkol sa isang Data Scientist: siya ay isang generalist na nagprograma nang mas mahusay kaysa sa sinumang istatistika at mas alam ang mga istatistika kaysa sa sinumang programmer. At mas naiintindihan niya ang mga proseso ng negosyo kaysa sa pinuno ng kumpanya.

ANONG NANGYARI "MALAKI DATA"sa totoong mga numero?

Bawat 2 araw, ang dami ng data ay tumataas sa dami ng impormasyong nilikha ng sangkatauhan mula sa kapanganakan ni Kristo hanggang 2003.
90% ng lahat ng umiiral na data ngayon ay lumabas sa nakalipas na 2 taon.
Sa 2020, ang dami ng impormasyon ay tataas mula 3.2 hanggang 40 zettabytes. 1 zettabyte = 10 21 byte.
Sa loob ng 1 minuto, 200 thousand photos ang na-upload sa Facebook, 205 million letters ang naipadala, at 1.8 million likes ang nai-post.
Sa loob ng 1 segundo, pinoproseso ng Google ang 40 libong mga query sa paghahanap.
Bawat 1.2 taon, dumodoble ang kabuuang dami ng data sa bawat industriya.
Sa 2020, ang merkado ng mga serbisyo ng Hadoop ay lalago sa $50 bilyon.
Sa United States noong 2015, 1.9 milyong trabaho ang nilikha para sa mga espesyalistang nagtatrabaho sa mga proyekto ng Big Data.
Pinapataas ng mga teknolohiya ng Big Data ang kita ng mga retail chain ng 60% bawat taon.
Ayon sa mga pagtataya, ang laki ng merkado ng Big Data ay tataas sa $68.7 bilyon sa 2020 kumpara sa $28.5 bilyon noong 2014.

Sa kabila ng mga positibong tagapagpahiwatig ng paglago, mayroon ding mga pagkakamali sa mga pagtataya. Halimbawa, isa sa mga pinakakilalang pagkakamali ng 2016: ang mga pagtataya tungkol sa halalan sa pagkapangulo ng US ay hindi nagkatotoo. Ang mga pagtataya ay ipinakita ng mga sikat na US Data Scientist na sina Nate Silver, Kirk Bourne at Bill Schmarzo pabor kay Hillary Clinton. Sa mga nakaraang kampanya sa halalan, nagbigay sila ng tumpak na mga hula at hindi kailanman nagkamali.

Sa taong ito, si Nate Silver, halimbawa, ay nagbigay tumpak na hula para sa 41 na estado, ngunit para sa 9 na estado siya ay mali, na humantong sa tagumpay ni Trump. Matapos suriin ang mga sanhi ng mga pagkakamali noong 2016, napagpasyahan nila na:

Ang mga modelo ng matematika ay may layunin na sumasalamin sa larawan sa panahon ng kanilang paglikha. Ngunit mayroon silang kalahating buhay, sa pagtatapos kung saan ang sitwasyon ay maaaring magbago nang malaki. Ang mga predictive na katangian ng modelo ay lumalala sa paglipas ng panahon. SA sa kasong ito, halimbawa, ang malfeasance, hindi pagkakapantay-pantay ng kita, at iba pang mga kaguluhan sa lipunan ay gumanap ng isang papel. Samakatuwid, dapat na regular na ayusin ang modelo upang isaalang-alang ang bagong data. Hindi ito nagawa.
Kinakailangang maghanap at isaalang-alang ang karagdagang data na maaaring magkaroon ng malaking epekto sa mga pagtataya. Kaya, kapag nanonood ng mga video ng mga rally sa mga kampanya sa halalan ng Clinton at Trump, ang kabuuang bilang ng mga kalahok sa mga rally ay hindi isinasaalang-alang. Ito ay halos daan-daang tao. Lumalabas na 400-600 katao ang dumalo sa bawat rally na pabor kay Trump, at 150-200 lamang ang pabor kay Clinton, na nakaapekto sa mga resulta.
Ang mga modelo ng matematika sa mga kampanya sa halalan ay batay sa data ng demograpiko: edad, lahi, kasarian, kita, katayuan sa lipunan, atbp. Ang bigat ng bawat grupo ay tinutukoy ng kung paano sila bumoto noong nakaraang halalan. Ang forecast na ito ay may error na 3-4% at gumagana nang maaasahan kapag may malaking agwat sa pagitan ng mga kandidato. Ngunit sa kasong ito, maliit ang agwat sa pagitan ni Clinton at Trump, at ang pagkakamaling ito ay may malaking epekto sa mga resulta ng halalan.
Ang hindi makatwiran na pag-uugali ng mga tao ay hindi isinasaalang-alang. Ang isinagawang pampublikong opinyon ng mga botohan ay lumilikha ng ilusyon na ang mga tao ay boboto sa paraan ng kanilang pagsagot sa mga botohan. Ngunit kung minsan ay kabaligtaran ang kanilang ginagawa. Sa kasong ito, kinakailangan din na magsagawa ng pagsusuri sa mukha at pananalita upang matukoy ang mga hindi tapat na saloobin sa pagboto.

Sa pangkalahatan, naging mali ang hula dahil sa maliit na agwat sa pagitan ng mga kandidato. Sa kaso ng isang malaking agwat, ang mga error na ito ay hindi magiging masyadong mapagpasyahan.

Video: Bagong espesyalisasyon na "Big Data" - Mikhail Levin

Data Scientist sa infographics. Ang propesyon ay sariwa, mataas ang suweldo at kilala. Ngunit anong mga kasanayan ang dapat magkaroon ng gayong espesyalista? Isaalang-alang natin.

Pag-usapan natin ang mga kasanayan

Ang Data Scientist ay isang generalist na sumasaklaw sa analytics at pagproseso ng impormasyon. Naiintindihan ng isang data scientist ang mga istatistika at programming. Kapaki-pakinabang, hindi ba? Ang hanay ng mga kakayahan ng bawat indibidwal na Data Scientist ay isang gradasyon at maaaring lumipat patungo sa coding o purong istatistika.

Data Analyst na nakabase sa San Francisco. Ang ilang mga kumpanya ay aktwal na inihambing ang Data Scientists sa mga analyst. Ang gawain ng naturang espesyalista ay nagmumula sa pagkuha ng impormasyon mula sa database, pakikipag-ugnayan sa Excel at pangunahing visualization.
Ang malaking trapiko at malaking halaga ng data ay pumipilit sa ilang kumpanya na agarang maghanap ang tamang espesyalista. Madalas silang mag-post ng mga ad na naghahanap ng mga inhinyero, analyst, programmer o siyentipiko, lahat ay may parehong titulo ng trabaho sa isip.
May mga kumpanya kung saan ang data ay isang produkto. Sa kasong ito, kakailanganin ang masinsinang pagsusuri at machine learning.
Para sa iba pang mga kumpanya, ang data ay hindi isang produkto, ngunit ang pamamahala o daloy ng trabaho mismo ay binuo dito. Hinahanap din ang mga Data Scientist para mabuo ang data ng kumpanya.

Ang mga headline ay puno ng mga pamagat sa istilo ng "Ang pinakaseksing propesyon ng ika-21 siglo." Hindi namin alam kung totoo ito, ngunit alam namin na dapat maunawaan ng isang data scientist:

Matematika at istatistika.
Lugar ng paksa at software.
Programming at database.
Pagpapalitan ng data at visualization.

Tingnan natin ang bawat punto nang mas detalyado.

Data Scientist at Mathematics Statistics

Pag-unlad mga pamamaraan sa matematika ang paggamit ng istatistikal na datos ay isang pangunahing bahagi ng gawain. Ang mga istatistika ng matematika ay batay sa teorya ng posibilidad, na ginagawang posible upang makagawa ng tumpak na mga konklusyon at suriin ang kanilang pagiging maaasahan.

1. Machine learning, bilang subsection ng AI. Mayroong isang programa sa pagsasanay at mga halimbawa ng data na may mga pattern. Bumubuo kami ng pattern na modelo, ipinapatupad ito, at nagkakaroon ng pagkakataong maghanap ng mga pattern sa bagong data gamit ang program.

2. Dapat Malaman ng Data Scientist pagmomolde ng istatistika upang subukan ang modelo na may mga random na signal na may tiyak na probability density. Ang layunin ay upang matukoy sa istatistika ang mga resultang nakuha.

3. Eksperimental na disenyo. Sa panahon ng mga eksperimento, binago ang isa o higit pang mga variable upang makita ang pagkakaiba. Sa kasong ito, mayroong isang interbensyon na grupo at isang control group, dahil sa kung saan ang pagsubok ay isinasagawa.

4. Ang Bayesian inference ay tumutulong sa pagsasaayos ng probabilidad ng isang hypothesis.

5. Pinangangasiwaang pagsasanay:

mga puno ng desisyon;
random na kagubatan;
logistic regression.

6. Hindi pinangangasiwaang pag-aaral:

clustering;
pagbabawas ng sukat.

7. Pag-optimize: gradient descent at mga pagpipilian.

Mga kasanayan sa domain at software

Mag-aral at magsanay! Ito ang pundasyon ng espesyalidad na ito. Ang isang Data Scientist ay dapat magkaroon ng isang mahusay na pag-unawa sa paksa na naaapektuhan ng agham, at pamilyar din sa software.

Ang listahan ng mga kinakailangang kasanayan ay kakaiba, ngunit hindi gaanong kapaki-pakinabang:

Programming at Mga Database

Mula sa mga pangunahing kaalaman sa Python, XaaS, relational algebra at SQL. Sa pangkalahatan, walang silbi ang lahat ng bagay kung wala ang pagtatangkang magproseso ng data nang husay.

1. Mga Batayan ng computer science, bilang panimulang punto para sa sinumang nag-uugnay sa buhay sa programming at automation ng proseso.

Data science, machine learning - malamang narinig mo na ang malalaking salitang ito, ngunit gaano kalinaw ang kahulugan ng mga ito sa iyo? Para sa ilan ang mga ito ay magagandang pain. Ang ilang mga tao ay nag-iisip na ang data science ay magic na magpapagawa sa isang makina na gawin ang anumang iniutos nito nang libre. Ang iba ay naniniwala pa nga na ito nga madaling paraan kumita ng malaking pera. Nikita Nikitinsky, pinuno ng R&D sa IRELA at Polina Kazakova, Data Scientist, ipaliwanag kung ano ito sa simple at naiintindihan na wika.

Nagtatrabaho ako sa awtomatikong pagpoproseso ng natural na wika, isang aplikasyon ng agham ng data, at madalas na nakikita ko ang mga tao na ginagamit ang mga terminong ito nang hindi tama, kaya gusto kong linawin nang kaunti. Ang artikulong ito ay para sa mga may kaunting ideya kung ano ang data science at gustong maunawaan ang mga konsepto.

Tukuyin natin ang terminolohiya

Magsimula tayo sa katotohanan na walang sinuman ang talagang nakakaalam kung ano mismo ang data science, at walang mahigpit na kahulugan - ito ay isang napakalawak at interdisciplinary na konsepto. Samakatuwid, dito ko ibabahagi ang aking pananaw, na hindi kinakailangang tumutugma sa mga opinyon ng iba.

Ang terminong data science ay isinalin sa Russian bilang "data science," at sa isang propesyonal na kapaligiran ay madalas itong na-transliterate bilang "data science." Pormal, ito ay isang set ng ilang magkakaugnay na disiplina at pamamaraan mula sa larangan ng computer science at matematika. Masyadong abstract, tama? Alamin natin ito.

Unang bahagi: data

Ang unang bahagi ng agham ng data, isang bagay na kung wala ang buong karagdagang proseso ay imposible, ay, sa katunayan, ang data mismo: kung paano kolektahin, iimbak at iproseso ito, pati na rin kung paano ihiwalay ito mula sa pangkalahatang hanay ng data kapaki-pakinabang na impormasyon. Ang mga espesyalista ay naglalaan ng hanggang 80% ng kanilang oras ng pagtatrabaho sa paglilinis ng data at dalhin ito sa nais na form.

Ang isang mahalagang bahagi ng puntong ito ay kung paano pangasiwaan ang data kung saan ang mga karaniwang paraan ng pag-iimbak at pagproseso ay hindi angkop dahil sa kanilang malaking dami at/o pagkakaiba-iba - ang tinatawag na malaking data. Sa pamamagitan ng paraan, huwag hayaan ang iyong sarili na malito: ang malaking data at data science ay hindi kasingkahulugan: sa halip, ang una ay isang subsection ng pangalawa. Kasabay nito, ang mga data analyst sa pagsasanay ay hindi palaging kailangang magtrabaho sa malaking data - maaari ding maging kapaki-pakinabang ang mga maliliit.

Mangolekta tayo ng datos

Isipin na interesado kami sa kung mayroong anumang kaugnayan sa pagitan ng kung gaano karaming kape ang iniinom ng iyong mga kasamahan sa trabaho sa araw at kung gaano karaming tulog ang naranasan nila noong nakaraang gabi. Isulat natin ang impormasyong makukuha natin: sabihin nating ang iyong kasamahan na si Gregory ay natulog ng 4 na oras ngayon, kaya kinailangan niyang uminom ng 3 tasa ng kape; Si Ellina ay natulog ng 9 na oras at hindi umiinom ng kape; at si Polina ay natulog sa lahat ng 10 oras, ngunit uminom ng 2.5 tasa ng kape - at iba pa.

Ipakita natin ang nakuhang data sa isang graph (ang visualization ay isa ring mahalagang elemento ng anumang proyekto ng data science). I-plot natin ang oras sa mga oras sa X axis, at ang kape sa mililitro sa Y axis. Makakakuha tayo ng ganito:

Pangalawang bahagi: agham

Mayroon kaming data, ano ang maaari naming gawin dito ngayon? Tama, pag-aralan, kunin ang mga kapaki-pakinabang na pattern at kahit papaano ay gamitin ang mga ito. Makakatulong sa atin dito ang mga disiplina gaya ng mga istatistika, machine learning, at optimization.

Binubuo nila ang susunod at marahil pinakamahalagang bahagi ng agham ng data - pagsusuri ng data. Nagbibigay-daan sa iyo ang machine learning na makahanap ng mga pattern sa umiiral nang data para mahulaan mo ang nauugnay na impormasyon para sa mga bagong bagay.

Suriin natin ang data

Bumalik tayo sa ating halimbawa. Sa mata, tila ang dalawang parameter ay sa paanuman ay magkakaugnay: mas kaunti ang tulog ng isang tao, mas maraming kape ang iinom niya sa susunod na araw. Kasabay nito, mayroon din kaming isang halimbawa na namumukod-tangi sa trend na ito - si Polina, na mahilig matulog at uminom ng kape. Gayunpaman, maaari mong subukang tantiyahin ang resultang pattern na may ilang pangkalahatang tuwid na linya upang ito ay lumapit sa lahat ng mga punto nang mas malapit hangga't maaari:

Ang berdeng linya ay ang aming modelo ng pag-aaral ng makina, ginagawang pangkalahatan ang data at maaaring ilarawan sa matematika. Ngayon, sa tulong nito, matutukoy natin ang mga halaga para sa mga bagong bagay: kapag gusto nating hulaan kung gaano karaming kape ang iinom ngayon ni Nikita na pumasok sa opisina, tatanungin natin kung gaano siya natulog. Ang pagkakaroon ng natanggap na halaga ng 7.5 na oras bilang isang sagot, pinapalitan namin ito sa modelo - tumutugma ito sa dami ng kape na natupok sa dami ng bahagyang mas mababa sa 300 ML. Ang pulang tuldok ay kumakatawan sa aming hula.

Ito ay halos kung paano gumagana ang machine learning, ang ideya kung saan ay napaka-simple: maghanap ng pattern at i-extend ito sa bagong data. Sa katunayan, sa machine learning mayroong isa pang klase ng mga gawain kapag hindi mo kailangang hulaan ang ilang mga halaga, tulad ng sa aming halimbawa, ngunit hatiin ang data sa ilang mga grupo. Ngunit pag-uusapan natin ito nang mas detalyado sa ibang pagkakataon.

Ilapat natin ang resulta

Gayunpaman, sa aking opinyon, ang data science ay hindi nagtatapos sa pagtukoy ng mga pattern sa data. Anumang proyekto ng data science ay aplikadong pananaliksik, kung saan mahalagang huwag kalimutan ang tungkol sa mga bagay tulad ng pagtatakda ng hypothesis, pagpaplano ng eksperimento at, siyempre, pagtatasa ng resulta at pagiging angkop nito para sa paglutas ng isang partikular na kaso.

Ang huli ay napakahalaga sa mga tunay na problema sa negosyo, kapag kailangan mong maunawaan kung ang solusyon na natagpuan ng data science ay makikinabang sa iyong proyekto o hindi. Ano ang magiging kapaki-pakinabang ng itinayong modelo sa aming halimbawa? Marahil sa tulong nito ay ma-optimize natin ang paghahatid ng kape sa opisina. Kasabay nito, kailangan nating masuri ang mga panganib at matukoy kung mas makayanan ito ng ating modelo kaysa sa umiiral na solusyon - manager ng opisina na si Mikhail, na responsable sa pagbili ng produkto.

Maghanap tayo ng mga exception

Siyempre, ang aming halimbawa ay pinasimple hangga't maaari. Sa katotohanan, posible na bumuo ng isang mas kumplikadong modelo na isasaalang-alang ang ilang iba pang mga kadahilanan, halimbawa, kung gusto ng isang tao ang kape sa prinsipyo. O ang modelo ay maaaring makahanap ng mga relasyon na mas kumplikado kaysa sa mga kinakatawan ng isang tuwid na linya.

Maaari muna kaming maghanap ng mga outlier sa aming data—mga bagay na, tulad ni Polina, ay ibang-iba sa karamihan ng iba. Ang katotohanan ay sa totoong trabaho, ang mga ganitong halimbawa ay maaaring magkaroon ng masamang epekto sa proseso ng pagbuo ng isang modelo at kalidad nito, at makatuwirang iproseso ang mga ito sa ibang paraan. At kung minsan ang mga naturang bagay ay pangunahing interes, halimbawa, sa gawain ng pag-detect ng mga maanomalyang transaksyon sa pagbabangko upang maiwasan ang pandaraya.

Bilang karagdagan, ipinapakita sa amin ni Polina ang isa pang mahalagang ideya - ang di-kasakdalan ng mga algorithm ng machine learning. Ang aming modelo ay hinuhulaan lamang ng 100 ML ng kape para sa isang taong natulog sa loob ng 10 oras, habang sa katunayan si Polina ay umiinom ng hanggang 500. Ang mga customer ng mga solusyon sa data science ay hindi kailanman maniniwala dito, ngunit imposible pa rin na turuan ang isang makina upang perpektong mahulaan ang lahat. sa mundo : Gaano man tayo kahusay sa pagtukoy ng mga pattern sa data, palaging may mga hindi mahulaan na elemento.

Ituloy natin ang kwento

Kaya, ang data science ay isang hanay ng mga pamamaraan para sa pagproseso at pagsusuri ng data at paglalapat ng mga ito sa mga praktikal na problema. Kasabay nito, kailangan mong maunawaan na ang bawat espesyalista ay may sariling pananaw sa lugar na ito at maaaring magkakaiba ang mga opinyon.

Ang agham ng data ay batay sa medyo simpleng mga ideya, ngunit sa pagsasagawa, maraming hindi halatang mga subtlety ang madalas na natuklasan. Kung paano tayo napapaligiran ng data science Araw-araw na buhay, anong mga paraan ng pagsusuri ng data ang umiiral, kung kanino binubuo ang pangkat ng agham ng data, at kung anong mga paghihirap ang maaaring lumitaw sa proseso ng pananaliksik - pag-uusapan natin ito sa mga sumusunod na artikulo.