Mājas Smarža no mutes Datu zinātnieks, kur mācīties. Kas ir datu zinātne un kā tā darbojas? Video: Jauna specializācija “Big Data” - Mihails Levins

Datu zinātnieks, kur mācīties. Kas ir datu zinātne un kā tā darbojas? Video: Jauna specializācija “Big Data” - Mihails Levins

Vai jau sen vēlējāties izdomāt, kā kļūt par datu analītiķi, studēt datu zinātni, bet nezināt, ar ko sākt? Tad šis raksts ir paredzēts jums.

Kurš gan no mums nav dzirdējis par “lielajiem datiem”? Maz ticams, ka būs vismaz viens. IN pēdējie gadi Interese par darbu ar datiem ir ievērojami augusi, jo lielajiem IT uzņēmumiem jānāk klajā ar arvien jauniem risinājumiem datu analīzei, apstrādei un pēc tam izmantošanai. Daži pat palaiž mācību programmas kopā ar augstskolām. Tomēr lielākajai daļai cilvēku nav izpratnes par to, kādi cilvēki ir datu analītiķi. Ja esat viens no šādiem cilvēkiem un vēlaties kļūt par datu analītiķi, tad šis raksts ir paredzēts jums. Mēs esam izvēlējušies tikai bezmaksas apmācības rīkus, kurus varat izmantot neatkarīgi no jūsu atrašanās vietas.

Ko dara datu analītiķi?

Tā sauktie datu analītiķi nodarbojas ar tās informāciju un analīzi, lai iegūtu vizuālus, cilvēkiem uztveramus rezultātus. Šādi cilvēki parasti ietver lielo datu, datu ieguves, mašīnmācīšanās, sistēmu analīzes un biznesa analītiķu speciālistus.

Ko skatīties

Lekcijas “Datu analīzes skola” no Yandex

SHAD - Yandex darbinieku datu analīzes kursi. Tur ieiet ir diezgan sarežģīti, pretendentiem nepieciešamais minimums ir augstākās algebras pamatsadaļas,matemātiskā analīze, kombinatorika, varbūtību teorija, kā arī programmēšanas pamati. Par laimi, kursi tiek ierakstīti, lai ikviens varētu mācīties no video lekcijām.

Mašīnmācības kurss

Kursā māca pielietot varbūtību teoriju un statistiku, runā par mašīnmācīšanās pamatiem un māca veidot algoritmus

Kurss “Meklēšanas datu algoritmi un struktūras”

Lekcijas aptver algoritmus lielu datu apjomu meklēšanai un šķirošanai, algoritmus un virkņu manipulācijas, grafu teorētiskos algoritmus, datu struktūru konstruēšanu un analīzi.

Kurss "Paralēlā un izkliedētā skaitļošana"

Tiem, kuri jau sen ir vēlējušies iepazīties ar daudzpavedienu un paralēlo programmēšanu, kā arī MapReduce.

Kurss "Diskrētā analīze un varbūtību teorija"

Kursā tiek apskatīti kombinatoriskās, diskrētās un asimptotiskās analīzes, varbūtību teorijas, statistikas pamatjēdzieni un metodes, kā arī parādīts to pielietojums.

Kurss "Datortehnikas sarežģītība"

Pēc kursa noskatīšanās jūs uzzināsit par varbūtības sarežģītības klasēm un datu analīzes un konstruēšanas pamatmetodēm.

Lekcijas Technostream Mail.ru Group

Kursu programmas ir paredzētas vairāku Maskavas augstskolu studentiem, taču ir pieejamas ikvienam. Topošajiem analītiķiem iesakām šādus lekciju krājumus:

Lekcijas Big Data University

Lielo datu universitāte — tiešsaistes kurss, kas izveidots kopā ar IBM iesācējiem un cilvēkiem bez matemātikas priekšzināšanām. Lekcijas, kas palīdz iepazīties ar darba ar datiem pamatiem, tiek ierakstītas skaidrā angļu valodā.

Welch Labs

Šajā kanālā ir lekcijas par matemātiku, datorzinātnēm, programmēšanu un mašīnmācību. Šajā procesā tiek sniegti piemēri par pētāmo lietu pielietojumu īsta dzīve. Lekcijas ir angļu valodā, bet ir lieliski subtitri krievu valodā.

nu " Mācīšanās no strukturētiem datiem: ievads varbūtības grafiskajos modeļosNacionālās pētniecības universitātes Ekonomikas augstskolas Datorzinātņu fakultāte

Kurss ir vērsts uz padziļinātu ievadu vienas no mūsdienās populārākajām pieejām šādu problēmu risināšanai - diskrētās varbūtības teorijā un pielietojumos. grafiskie modeļi. Kursu valoda ir angļu.

Kanāls nosūtīts indekss

Kanāls ir pilnībā veltīts darbam ar datiem. Turklāt sev noderīgas lietas atradīs ne tikai tie, kam interesē matemātika. Ir pieejami videoklipi par analīzi un programmēšanu finanšu analītiķiem un robotikai, izmantojot Rasperri Pi.

Siraja Ravala kanāls

Puisis runā par modernās tehnoloģijas un kā ar viņiem strādāt. Padziļinātās mācīšanās, datu zinātnes un mašīnmācīšanās kursi palīdzēs jums uzzināt, kā strādāt ar datiem.

Datu skolas kanāls

Ja esat tikai kaut ko dzirdējis par mašīnmācīšanos, bet jau interesējas, tad šis kanāls ir domāts jums. Autore saprotamā līmenī ar piemēriem paskaidros, kas tas ir, kā tas darbojas un kur tiek izmantots.

Kur praktizēt

Tiem, kuri nav pārliecināti, ka ir gatavi mācīties pilnīgi patstāvīgi, skatoties lekcijas, ir tiešsaistes kursi ar uzdevumiem ar pārbaudi.

Datu zinātnes kursi vietnē Coursera

Nav nepieciešams paskaidrot, kāda veida platforma šī ir. Jāizvēlas kurss un jāsāk mācīties.

Stepik.org

Datu analīze R

Pirmajā daļā ir apskatīti visi R statistiskās analīzes galvenie soļi, datu nolasīšana, datu pirmapstrāde, statistikas pamatmetožu pielietošana un rezultātu vizualizācija. Studenti apgūs programmēšanas pamatelementus R valodā, kas ļaus ātri un efektīvi atrisināt visdažādākās problēmas, kas rodas, apstrādājot datus.

Otrajā daļā ir apskatītas vairākas uzlabotas tēmas, kas netika apskatītas pirmajā: datu pirmapstrāde, izmantojot pakotnes data.table un dplyr, uzlabotas vizualizācijas metodes, darbs R Markdown.

Ievads datu bāzēs

Ienirstiet DBVS

Kurss ir paredzēts tiem, kam ir zināma pieredze ar relāciju DBVS un kuri vēlas uzzināt vairāk par to darbību. Kurss aptver:

  • datu bāzes shēmu projektēšana;
  • darījumu vadība;
  • vaicājumu optimizācija;
  • jaunas relāciju DBVS funkcijas

Hadoop. Sistēma liela apjoma datu apstrādei

Kurss ir veltīts liela apjoma datu apstrādes metodēm, izmantojot Hadoop sistēmu. Pēc kursa apguves iegūsi zināšanas par liela apjoma datu uzglabāšanas un apstrādes pamatmetodēm, izpratīsi dalīto sistēmu darbības principus Hadoop ietvara kontekstā un apgūsi praktiskās aplikāciju izstrādes iemaņas, izmantojot MapReduce programmēšanas modeli.

Mūsdienās daudzi darba devēji aktīvi meklē datu zinātniekus. Tajā pašā laikā viņi ir ieinteresēti piesaistīt tos “zinātniekus”, kuriem ir atbilstoša izglītība. Tajā pašā laikā jums ir jāņem vērā visa dezinformācija, ar kuru tirgus ir pilns. Mēs jums pastāstīsim par lielākajiem maldīgajiem priekšstatiem par datu zinātniekiem un datu zinātniekiem, par prasmēm, kas viņiem ir jāpiemīt, un par to, kas patiesībā ir šī retā šķirne.

Datu zinātne(Datu zinātne) ir datorzinātnes nozare, kas pēta datu analīzes, apstrādes un prezentēšanas problēmas digitālā formātā. Datu zinātne apvieno metodes datu apstrādei lielos apjomos un augstu paralēlisma līmeni, statistikas metodes, datu ieguves metodes un mākslīgā intelekta lietojumprogrammas darbam ar datiem, kā arī metodes datu bāzu projektēšanai un izstrādei. Uzskata par akadēmisku disciplīnu. Kopš 2010. gadu sākuma tas ir pozicionēts kā praktisks starpnozaru darbības lauks. Kopš 2010. gadu sākuma "datu zinātnieka" specializācija tiek uzskatīta par vienu no vislabāk apmaksātajām, pievilcīgākajām un perspektīvākajām profesijām.

Datu zinātnes maldīgi priekšstati

1. Lielie dati ir statistika un biznesa analītika ar lielu datu apjomu. Šeit nav nekā jauna

Šo viedokli galvenokārt uzskata tie cilvēki, kuriem ir ierobežota pieredze programmatūras izstrādē vai arī viņiem nav nekādas pieredzes. Vai vēlaties analoģiju? Lūdzu. Ņemsim ledu kā piemēru. To var saukt par ļoti aukstu ūdeni. Kas te jauns? Tomēr dzesēšanas ūdens ne tikai maina tā temperatūru, bet radikāli maina tā kvalitātes īpašības, pārvēršot šķidrumu cietā vielā. To pašu var teikt par lielu datu apjomu. Liels datu apjoms galu galā pārkāpj vecās aprēķinu, aprēķinu un aprēķinu paradigmas. Izmantojot tradicionālās metodes Biznesa analītiķiem noteiktu aprēķinu veikšana var aizņemt vairākus gadus. Paralēlizācija un sadalītā skaitļošana ir acīmredzamas atbildes uz mērogošanas jautājumu. Bet tas ne vienmēr ir tik vienkārši, pat ar tik vienkāršu statistikas rīku kā loģistikas regresijas analīze. Izkliedētā statistikas skaitļošana no tradicionālās biznesa analītikas atšķiras tāpat kā ledus no ūdens.

2. Datu zinātnieki ir tie paši programmatūras inženieri pēc zīmola maiņas

Dažreiz inženieri ar lielu pieredzi programmatūras izstrādē pārkvalificējas un kļūst par datu zinātniekiem, lai uzlabotu algas. Tomēr šī prakse bieži noved pie neapmierinošiem rezultātiem. Patiešām, lielo datu jomā statistikas kļūdu atkļūdošana pat visvienkāršākajā līmenī šķiet diezgan grūts uzdevums. Inženieri ir apmācīti atklāt un novērst programmatūras kļūdas. Bet bez pamatīgām zināšanām par varbūtību teoriju un statistiku pat foršs programmētājs diez vai spēs veiksmīgi novērst vienkāršu statistikas kļūdu.


Augstāka līmeņa inženieri spēj izveidot vienkāršus, diskrētus, uz noteikumiem balstītus modeļus. Taču šādi modeļi nav piemēroti, lai no datiem iegūtu niansētāku ieskatu. Līdz ar to zaudētais finansiālais ieguvums. Tāpēc, lai iegūtu atbildes uz “lielo datu jautājumiem”, ir nepieciešams augsti kvalificēts un augsti specializēts personāls, kas būs nākamās paaudzes prognozēšanas modelēšanas pamats.

3. Datu zinātniekiem nav jāsaprot bizness — dati viņiem pateiks visu

Cilvēki, kuriem ir programmētāja izglītība un pieredze, bieži vien pakļaujas šim kārdinājumam. Un tiešām, kāpēc viņiem ir jāsaprot bizness, ja viņiem ir tik spēcīga bāze? Spēcīgs, bet ne visvarens. Visu iespējamo korelāciju atrašana ir neticami darbietilpīga un laikietilpīga, nemaz nerunājot par statistiski problemātisku. Datu zinātniekiem vienkārši ir jāizmanto sava biznesa intuīcija, lai veiksmīgi atšķirtu nepatiesas un reālas korelācijas. Ekspertu zināšanu trūkums konkrētā jomā var novest pie nepamatotiem secinājumiem. Kā jums tas patīk? Policijas darbinieku skaita pieaugums izraisa noziedzības pieaugumu, kas nozīmē, ka ir nepieciešams samazināt likumsargu skaitu teritorijās ar nelabvēlīgu noziedzības situāciju. Visbeidzot, biznesa intuīcija ir svarīga arī galveno ieinteresēto pušu pārliecināšanai: runājot par korelācijām uzņēmējiem saprotamā valodā, datu zinātnieks būs veiksmīgāks nekā kolēģis, kuram nav biznesa uztveres.


Lielie dati un datu zinātne ir zināšanas par to, kā izveidot optimālu modeli, kas apvieno pareizās inženierijas, statistikas un biznesa prasmes. Bez tā datu zinātnieks nevarēs sasniegt visu, ko viņš ir iecerējis.

Tātad, kas ir datu zinātnieki?

Datu zinātnieki ir biznesa un datu analītiķu evolūcijas produkts. Šādu speciālistu formālā apmācība ietver datorzinātnes, statistiku, analīzi un matemātiku. Kas padara izcilu datu zinātnieku? Spēcīga biznesa izpratne apvienojumā ar spēju sazināties ar biznesa un IT vadītājiem tādā veidā, kas palīdz ietekmēt uzņēmuma izaugsmi. Anjul Bambra, IBM lielo datu viceprezidents, saka, ka datu zinātnieki ir "daļēji analītiķi un daļēji mākslinieki". Tie ir ļoti zinātkāri cilvēki, kuri var aplūkot datus un pamanīt tendences. Viņus var salīdzināt ar Renesanses māksliniekiem, kuri vēlējās ne tikai mācīties, bet arī mainīt apkārtējo pasauli.

Kamēr tradicionāls analītiķis analizē datus no viena avota (piemēram, CRM sistēmas), datu zinātnieks noteikti pēta datus no vairākiem dažādiem avotiem. Tas agresīvi izsijās visus ienākošos datus, lai atklātu iepriekš slēptos ieskatus, kas var sniegt konkurences priekšrocības. Datu zinātnieks ne tikai apkopo un analizē datus, bet aplūko tos no dažādiem leņķiem un analizē dažādos kontekstos, nosaka, ko tie vai citi dati nozīmē zīmolam, un pēc tam sniedz ieteikumus, kā izmantot pieejamo informāciju.


Datu zinātnieki ir cilvēki, kas nepārtraukti pēta, uzdod miljoniem jautājumu, veic “kā būtu, ja…” analīzi, apšauba esošos pieņēmumus un procesus, identificē bagātīgus datu avotus un savieno tos ar nabadzīgām datu kopām... Konkurences vidē, kurā pastāvīgi tiek veikti uzdevumi. izmaiņas un straujā datu plūsma nekad nebeidzas, datu zinātnieki palīdz pārvaldībā lēmumus. Un tā ir viņu vērtīgākā kvalitāte.

Kāpēc "zinātnieki"?

Daudzi apgalvo, ka saukt datu zinātnieku par “datu zinātnieku” ir ļoti, ļoti pretenciozi. Tomēr, ja jūs mēģināt aplūkot sakni, tad šim formulējumam ir jēga. Piemēram, eksperimentālajiem fiziķiem ir jāizstrādā un jāizveido savs aprīkojums, jāapkopo dati, jāveic eksperimenti un visi atklājumi jāapkopo ziņojumos. Datu zinātnieki dara to pašu. Tāpēc par visaugstāk kvalificētajiem datu zinātniekiem tiek uzskatīti cilvēki ar augstāku grādu fizikā vai sociālajās zinātnēs.


Labākie datu zinātnieki uz planētas ir zinātnieki ar doktora grādu tādās ezotēriskās jomās kā ekoloģija un sistēmu bioloģija. Spilgts piemērs– Džordžs Roumeliotis, kurš vada datu zinātnieku komandu uzņēmumā Intuit Silīcija ielejā. Viņš ieguva doktora grādu astrofizikā. Daudzi datu zinātnieki ir īpašnieki akadēmiskie grādi datorzinātnēs, matemātikā un ekonomikā. Bet, lai kā arī būtu, labs speciālists, kas specializējas datu analīzē, var būt no jebkuras jomas.


Pamatprasmes, bez kurām nevar iztikt datu zinātnieks

Pamata instrumenti. Neatkarīgi no uzņēmuma misijas datu zinātniekam jāprot izmantot pamata rīkus: R programmēšanas valodu statistikas datu apstrādei un grafikai, augsta līmeņa programmēšanas valodu Python, kuras mērķis ir uzlabot izstrādātāju produktivitāti un koda lasāmību, Strukturēto vaicājumu valodu, piemēram, SQL, ko izmanto, lai izveidotu, modificētu un apstrādātu datus patvaļīgā relāciju datu bāzē.

Pamata statistika. Statistikas izpratne ir ļoti svarīga datu zinātniekam. Nav noslēpums, ka daudzi eksperti nespēj noteikt pat P vērtību – testēšanā izmantoto vērtību statistiskās hipotēzes. Datu zinātniekam vienkārši ir jāpārzina statistikas testi, sadalījumi, maksimālās varbūtības novērtējums utt. Statistika ir svarīga dažādās jomāsīpaši uz datiem balstītiem uzņēmumiem


Mašīnmācība. Ja datu zinātnieks strādā lielā uzņēmumā ar milzīgu datu apjomu, viņam ir jāzina mašīnmācīšanās metodes. Protams, daudzas no šīm metodēm var tikt ieviestas, izmantojot R vai Python bibliotēkas, tāpēc jums nav jābūt pasaules vadošajam ekspertam, lai saprastu, kā darbojas algoritmi. Daudz svarīgāk ir saprast, kad noteiktu metožu izmantošana būs vispiemērotākā.

Daudzfaktoru aprēķini un lineārā algebra. Šīs disciplīnas veido daudzu mašīnmācīšanās metožu pamatu.

Datu sagatavošana analīzei. Bieži vien analizētie dati ir diezgan “netīri”, apgrūtinot darbu ar tiem. Tāpēc ir ļoti svarīgi zināt, kā tikt galā ar visiem datu trūkumiem. Nepilnīgu datu piemērs ir virkņu nekonsekvents formatējums, piemēram, “Ņujorka” – “Ņujorka” – “ny”, vai datumi “2014-01-01” – “01/01/2014”, vai UNIX sistēmas laiks un secība Timestamp.

Datu vizualizācija un komunikācija. Tas ir neticami svarīgi punkti, it īpaši, ja mēs runājam par jauniem uz datiem balstītiem uzņēmumiem vai uzņēmumiem, kuros datu zinātnieki tiek uztverti kā cilvēki, kas palīdz pieņemt uz datiem balstītus lēmumus. Ļoti noderēs zināšanas par ggplot (R valodas paplašinājums) un JavaScript bibliotēku D3.js datu apstrādei un vizualizēšanai.

Programmēšana. Datu zinātnieki parasti ir atbildīgi par liela apjoma reģistrācijas datu un uz datiem balstītu produktu apstrādi.

Domājiet kā datu zinātnieks. Darba devējs vienmēr vēlas redzēt datu zinātnieku kā problēmu risinātāju. “Zinātniekam” vienmēr ir jāzina, kas šajā posmā ir svarīgs un kas nav īpaši vērtīgs. Viņam ir jāsadarbojas ar dizaineriem un vadītājiem, kas ir atbildīgi par produktu izstrādi.


Harvard Business Review apgalvo, ka datu zinātnieks ir 21. gadsimta seksīgākā profesija. Un tam ir grūti nepiekrist. Datu zinātne tikai attīstās, un visus mūsdienu datu zinātniekus var droši saukt par pionieriem. Un, ja jūs varat teikt, ka esat labākais IT speciālists starp statistiķiem un labākais statistiķis starp IT speciālistiem, tad jūs esat īsts datu zinātnieks.

Šī raksta sagatavošanā izmantotie materiāli

Datu zinātnieks- speciālists liela apjoma datu, tā saukto “lielo datu” apstrādē, analīzē un glabāšanā. Profesija piemērota tiem, kurus interesē fizika, matemātika un informātika (skat. Profesijas izvēli, pamatojoties uz interesi par skolas priekšmetiem).

Datu zinātne - datu zinātne dažādu disciplīnu krustpunktā: matemātika un statistika; Informātika un datorzinātnes; bizness un ekonomika.

(S. Malceva, V. Korņilova Nacionālā pētniecības universitāte “Ekonomikas augstskola”)

Profesija ir jauna, aktuāla un... Pats termins “Big Data” parādījās 2008. gadā. Un datu zinātnieka profesija – “Datu zinātnieks” oficiāli tika reģistrēta kā akadēmiska un starpdisciplināra disciplīna 2010. gada sākumā. Lai gan termina “datu zinātne” pirmā pieminēšana tika atzīmēta Pētera Naura grāmatā 1974. gadā, taču citā kontekstā.

Šādas profesijas rašanās nepieciešamību noteica fakts, ka, runājot par Ultra Big Data, datu masīvi izrādās pārāk lieli, lai tos apstrādātu ar standarta matemātiskās statistikas līdzekļiem. Katru dienu tūkstošiem petabaitu (10 15 baiti = 1024 terabaiti) informācijas iziet cauri uzņēmumu serveriem visā pasaulē. Papildus šādiem datu apjomiem problēmu sarežģī to neviendabīgums un liels ātrums atjauninājumus.

Datu masīvus iedala 3 veidos:

strukturēti (piemēram, dati no kases aparātiem tirdzniecībā);

daļēji strukturēti (e-pasta ziņojumi);

nestrukturēti (video faili, attēli, fotogrāfijas).

Lielākā daļa lielo datu ir nestrukturēti, kas to apstrādi padara daudz grūtāku.

Individuāli statistiķis, sistēmu analītiķis vai biznesa analītiķis nevar atrisināt problēmas ar šādu datu apjomu. Tam nepieciešama persona ar starpdisciplināru izglītību, kas ir kompetenta matemātikā un statistikā, ekonomikā un uzņēmējdarbībā, datorzinātnēs un datortehnoloģijās.

Datu zinātnieka galvenais uzdevums ir spēja iegūt nepieciešamo informāciju no visdažādākajiem avotiem, izmantojot informācijas plūsmas reāllaikā; identificēt slēptos modeļus datu kopās un statistiski analizēt tos, lai pieņemtu gudrus biznesa lēmumus. Šāda speciālista darba vieta nav 1 dators vai pat 1 serveris, bet gan serveru kopa.

Profesijas iezīmes

Strādājot ar datiem, datu zinātnieks izmanto dažādas metodes:

  • statistikas metodes;
  • datu bāzes modelēšana;
  • ieguves metodes;
  • mākslīgā intelekta lietojumprogrammas darbam ar datiem;
  • datu bāzu projektēšanas un izstrādes metodes.

Datu zinātnieka darba pienākumi ir atkarīgi no viņa darbības jomas, bet vispārējs saraksts funkcijas izskatās šādi:

  • datu vākšana no dažādiem avotiem turpmākai operatīvai apstrādei;
  • patērētāju uzvedības analīze;
  • klientu bāzes modelēšana un produktu personalizēšana;
  • efektivitātes analīze iekšējie procesi bāzes;
  • dažādu risku analīze;
  • iespējamās krāpniecības identificēšana, pētot apšaubāmus darījumus;
  • periodisku atskaišu sastādīšana ar prognozēm un datu prezentāciju.

Datu zinātnieks, tāpat kā īsts zinātnieks, ne tikai vāc un analizē datus, bet arī pēta tos dažādos kontekstos un no dažādiem leņķiem, apšaubot jebkādus pieņēmumus. Vissvarīgākā kvalitāte datu zinātnieks ir spēja saskatīt loģiskās sakarības savāktās informācijas sistēmā un pamatojoties uz kvantitatīvā analīze izstrādāt efektīvus biznesa risinājumus. Mūsdienu konkurētspējīgajā un strauji mainīgajā pasaulē, arvien pieaugošajā informācijas plūsmā, datu zinātnieks ir neaizstājams vadībai, lai pieņemtu pareizos biznesa lēmumus.

Profesijas plusi un mīnusi

plusi

  • Profesija ir ne tikai ārkārtīgi pieprasīta, bet arī akūti trūkst šāda līmeņa speciālistu. Saskaņā ar McKinsey Global Institute datiem līdz 2018. gadam ASV vien būs nepieciešami vairāk nekā 190 tūkstoši datu zinātnieku. Tāpēc prestižāko universitāšu fakultātes datu zinātnieku sagatavošanai tiek tik strauji un plaši finansētas un attīstītas. Pieprasījums pēc Data Scientists pieaug arī Krievijā.
  • Augsti apmaksāta profesija.
  • Nepieciešamība pastāvīgi attīstīties, sekot līdzi IT tehnoloģiju attīstībai un radīt jaunas metodes datu apstrādei, analīzei un uzglabāšanai.

Mīnusi

  • Ne katrs cilvēks var apgūt šo profesiju, tas prasa īpašu domāšanu.
  • Darba procesā var nedarboties labi zināmas metodes un vairāk nekā 60% ideju. Daudzi risinājumi neizdosies, un jums ir jābūt pacietīgam, lai iegūtu apmierinošus rezultātus. Zinātniekam nav tiesību teikt: "NĒ!" problēma. Viņam jāatrod veids, kas palīdzēs atrisināt problēmu.

Darba vieta

Datu zinātnieki ieņem galvenos amatus:

  • tehnoloģiskās nozares (auto navigācijas sistēmas, zāļu ražošana utt.);
  • IT sfēra (meklētājprogrammu optimizācija, surogātpasta filtrs, ziņu sistematizācija, automātiskie tekstu tulkojumi un daudz kas cits);
  • medicīna (slimību automātiskā diagnostika);
  • finanšu struktūras (lēmumu pieņemšana par kredītu izsniegšanu) utt.;
  • televīzijas kompānijas;
  • lielas mazumtirdzniecības ķēdes;
  • vēlēšanu kampaņas.

Svarīgas īpašības

  • Analītisks prāts;
  • smags darbs;
  • neatlaidība;
  • skrupulozitāte, precizitāte, uzmanība;
  • spēja pabeigt pētījumu, neskatoties uz neveiksmīgiem starprezultātiem;
  • komunikācijas prasmes;
  • spēja izskaidrot sarežģītas lietas vienkāršos vārdos;
  • biznesa intuīcija.

Profesionālās zināšanas un prasmes:

  • zināšanas matemātikā, matemātiskā analīze, matemātiskā statistika, varbūtību teorija;
  • angļu valodas zināšanas;
  • zināšanas par galvenajām programmēšanas valodām, kurās ir komponenti darbam ar lielām datu kopām: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • statistikas rīku zināšanas - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • pamatīgas zināšanas par nozari, kurā strādā datu zinātnieks; ja tā ir farmācijas nozare, tad nepieciešamas zināšanas par ražošanas pamatprocesiem un zāļu sastāvdaļām;
  • Datu zinātnieka galvenā pamatprasme ir klasteru uzglabāšanas sistēmu organizēšana un administrēšana lielam datu apjomam;
  • zināšanas par uzņēmējdarbības attīstības likumiem;
  • ekonomikas zināšanas.

Universitātes

  • Nosaukta Maskavas Valsts universitāte Lomonosovs, Skaitļošanas matemātikas un kibernētikas fakultāte, spec izglītības programma Mail.Ru grupa "Technosphere", ar apmācību metožu inteliģentas analīzes liela apjoma datu, programmēšana C ++, daudzpavedienu programmēšana un tehnoloģijas informācijas izguves sistēmu veidošanai.
  • MIPT, Datu analīzes nodaļa.
  • Nacionālās pētniecības universitātes Ekonomikas augstskolas Biznesa informātikas fakultāte sagatavo sistēmu analītiķus, sarežģītu informācijas sistēmu projektētājus un ieviesējus, korporatīvo informācijas sistēmu pārvaldības organizatorus.
  • Datu analīzes skola Yandex.
  • Innopolisas universitāte, Dandī universitāte, Dienvidkalifornijas universitāte, Oklendas universitāte, Vašingtonas Universitāte: Lielo datu maģistra programmas.
  • Imperiālās koledžas Londonas biznesa skola, MSc datu zinātne un vadība.

Tāpat kā jebkurā profesijā, arī šeit ir svarīga pašizglītība, kas neapšaubāmi gūs labumu no tādiem resursiem kā:

  • tiešsaistes kursi no vadošajām pasaules universitātēm COURSERA;
  • mašīnmācības kanāls MASHIN LEARNING;
  • edX kursu atlase;
  • Udacity kursi;
  • Dataquest kursi, kuros varat kļūt par īstu datu zinātnes profesionāli;
  • 6 soļu Datacamp kursi;
  • O'Reilija apmācības video;
  • ekrānuzņēmumi iesācējiem un pieredzējušiem Data Origami;
  • ceturkšņa speciālistu konference Moscow Data Scientists Meetup;
  • datu analīzes konkursi Kaggle.сom

Alga

Alga uz 04.07.2019

Krievija 50 000–200 000 ₽

Maskava 60 000–300 000 ₽

Datu zinātnieka profesija ir viena no vislabāk apmaksātajām. Informācija no vietnes hh.ru - mēnešalga svārstās no 8,5 tūkstošiem līdz 9 tūkstošiem ASV dolāru šāda speciālista alga gadā ir 110 tūkstoši - 140 tūkstoši dolāru.

Kā liecina pētījumu centra Superjob aptauja, Data Scientist speciālistu atalgojums ir atkarīgs no darba pieredzes, pienākumu apjoma un reģiona. Iesācējs speciālists var paļauties uz 70 tūkstošiem rubļu. Maskavā un 57 tūkstoši rubļu. Sanktpēterburgā. Ar darba pieredzi līdz 3 gadiem alga palielinās līdz 110 tūkstošiem rubļu. Maskavā un 90 tūkstoši rubļu. Sanktpēterburgā. Pieredzējušiem speciālistiem ar zinātniskām publikācijām alga var sasniegt 220 tūkstošus rubļu. Maskavā un 180 tūkstoši rubļu. Pēterburgā.

Karjeras soļi un izredzes

Datu zinātnieka profesija pati par sevi ir augsts sasniegums, kas prasa nopietnas teorētiskās zināšanas un vairāku profesiju praktisko pieredzi. Jebkurā organizācijā šāds speciālists ir galvenais rādītājs. Lai sasniegtu šo augstumu, ir smagi un mērķtiecīgi jāstrādā un pastāvīgi jāpilnveidojas visās jomās, kas veido profesijas pamatu.

Ir joks par datu zinātnieku: viņš ir vispārējs, kurš programmē labāk par jebkuru statistiķi un zina statistiku labāk nekā jebkurš programmētājs. Un biznesa procesus viņš saprot labāk nekā uzņēmuma vadītājs.

KAS NOTIKA "LIELS DATI"reālos skaitļos?

  1. Ik pēc 2 dienām datu apjoms palielinās par informācijas apjomu, ko cilvēce ir radījusi no Kristus dzimšanas līdz 2003. gadam.
  2. 90% no visiem esošajiem datiem šodien parādījās pēdējo 2 gadu laikā.
  3. Līdz 2020. gadam informācijas apjoms pieaugs no 3,2 līdz 40 zettabaitiem. 1 zetabaits = 10 21 baits.
  4. 1 minūtes laikā Facebook tiek augšupielādēti 200 tūkstoši fotoattēlu, nosūtīti 205 miljoni vēstuļu un ievietoti 1,8 miljoni atzīmju Patīk.
  5. Vienas sekundes laikā Google apstrādā 40 tūkstošus meklēšanas vaicājumu.
  6. Ik pēc 1,2 gadiem kopējais datu apjoms katrā nozarē dubultojas.
  7. Līdz 2020. gadam Hadoop pakalpojumu tirgus pieaugs līdz 50 miljardiem USD.
  8. ASV 2015. gadā tika izveidoti 1,9 miljoni darba vietu speciālistiem, kas strādā ar Big Data projektiem.
  9. Big Data tehnoloģijas palielina mazumtirdzniecības ķēžu peļņu par 60% gadā.
  10. Saskaņā ar prognozēm Big Data tirgus apjoms palielināsies līdz 68,7 miljardiem ASV dolāru 2020. gadā salīdzinājumā ar 28,5 miljardiem ASV dolāru 2014. gadā.

Neskatoties uz šādiem pozitīvajiem izaugsmes rādītājiem, prognozēs ir arī kļūdas. Piemēram, viena no bēdīgi slavenākajām 2016. gada kļūdām: prognozes par ASV prezidenta vēlēšanām nepiepildījās. Prognozes par labu Hilarijai Klintonei prezentēja slavenie ASV datu zinātnieki Neits Silvers, Kērks Borns un Bils Šmarzo. Iepriekšējās vēlēšanu kampaņās viņi sniedza precīzas prognozes un nekad nav kļūdījušies.

Šogad, piemēram, deva Neits Sudrabs precīza prognoze 41 štatam, bet 9 štatos viņš kļūdījās, kas noveda pie Trampa uzvaras. Analizējot 2016. gada kļūdu cēloņus, viņi secināja, ka:

  1. Matemātiskie modeļi objektīvi atspoguļo ainu to izveides brīdī. Bet tiem ir pusperiods, kura beigās situācija var krasi mainīties. Modeļa paredzamās īpašības laika gaitā pasliktinās. IN šajā gadījumā, piemēram, savu lomu spēlēja ļaunprātības, ienākumu nevienlīdzība un citi sociālie satricinājumi. Tāpēc modelis ir regulāri jākoriģē, lai ņemtu vērā jaunos datus. Tas netika izdarīts.
  2. Ir jāmeklē un jāapsver papildu dati, kas var būtiski ietekmēt prognozes. Tādējādi, skatoties mītiņu video klintones un Trampa vēlēšanu kampaņās, kopējais mītiņu dalībnieku skaits netika ņemts vērā. Runa bija par simtiem cilvēku. Izrādījās, ka katrā mītiņā Trampa labā piedalījās 400-600 cilvēku, bet Klintones labā tikai 150-200, kas ietekmēja rezultātus.
  3. Matemātiskie modeļi vēlēšanu kampaņās ir balstīti uz demogrāfiskajiem datiem: vecums, rase, dzimums, ienākumi, statuss sabiedrībā utt. Katras grupas svaru nosaka tas, kā viņi balsoja pēdējās vēlēšanās. Šai prognozei ir 3–4% kļūda, un tā darbojas droši, ja starp kandidātiem ir liela atšķirība. Taču šajā gadījumā plaisa starp Klintoni un Trampu bija neliela, un šī kļūda būtiski ietekmēja vēlēšanu rezultātus.
  4. Cilvēku neracionālā uzvedība netika ņemta vērā. Veiktās sabiedriskās domas aptaujas rada ilūziju, ka cilvēki balsos tā, kā viņi atbildēja aptaujās. Bet dažreiz viņi rīkojas pretēji. Šajā gadījumā būtu nepieciešams papildus veikt sejas un runas analīzi, lai identificētu negodīgu attieksmi pret balsošanu.

Kopumā prognoze izrādījās nepareiza, jo starp kandidātiem bija neliela atšķirība. Lielas plaisas gadījumā šīs kļūdas nebūtu tik izšķirošas.

Video: Jauna specializācija “Big Data” - Mihails Levins

Datu zinātnieks infografikā. Profesija ir svaiga, augsti apmaksāta un labi zināma. Bet kādām prasmēm vajadzētu būt šādam speciālistam? Apsvērsim.

Parunāsim par prasmēm

Datu zinātnieks ir vispārīgs speciālists, kas nodarbojas ar analīzi un informācijas apstrādi. Datu zinātnieks saprot statistiku un programmēšanu. Noderīgi, vai ne? Katra atsevišķa datu zinātnieka iespēju diapazons ir pakāpenisks un var virzīties uz kodēšanu vai tīru statistiku.

  • Datu analītiķis atrodas Sanfrancisko. Daži uzņēmumi faktiski salīdzina datu zinātniekus ar analītiķiem. Šāda speciālista darbs ir saistīts ar informācijas ieguvi no datu bāzes, mijiedarbību ar Excel un pamata vizualizāciju.
  • Milzīgs trafiks un liels datu apjoms dažiem uzņēmumiem liek steidzami meklēt īstais speciālists. Viņi bieži ievieto sludinājumus, kuros meklē inženierus, analītiķus, programmētājus vai zinātniekus, kuriem visiem ir viens un tas pats amata nosaukums.
  • Ir uzņēmumi, kuriem dati ir produkts. Šajā gadījumā būs nepieciešama intensīva analīze un mašīnmācīšanās.
  • Citiem uzņēmumiem dati nav produkts, bet pati pārvaldība vai darbplūsma ir balstīta uz tiem. Datu zinātnieki tiek meklēti arī, lai strukturētu uzņēmuma datus.

Virsraksti ir pilni ar nosaukumiem stilā “21. gadsimta seksīgākā profesija”. Mēs nezinām, vai tā ir taisnība, taču mēs zinām, ka datu zinātniekam ir jāsaprot:

  1. Matemātika un statistika.
  2. Priekšmeta joma un programmatūra.
  3. Programmēšana un datubāze.
  4. Datu apmaiņa un vizualizācija.

Apskatīsim katru punktu sīkāk.

Datu zinātnieks un matemātiskā statistika

Attīstība matemātiskās metodes statistikas datu izmantošana ir būtiska darba sastāvdaļa. Matemātiskās statistikas pamatā ir varbūtību teorija, kas ļauj izdarīt precīzus secinājumus un novērtēt to ticamību.

1. Mašīnmācība kā mākslīgā intelekta apakšsadaļa. Ir apmācības programma un datu piemēri ar modeļiem. Mēs veidojam parauga modeli, ieviešam to un iegūstam iespēju, izmantojot programmu, meklēt modeļus jaunos datos.

2. Datu zinātniekam ir jāzina statistiskā modelēšana lai pārbaudītu modeli ar nejaušiem signāliem ar noteiktu varbūtības blīvumu. Mērķis ir statistiski noteikt iegūtos rezultātus.

3. Eksperimentālais dizains. Eksperimentu laikā viens vai vairāki mainīgie tiek mainīti, lai redzētu atšķirību. Šajā gadījumā ir intervences grupa un kontroles grupa, kuras dēļ tiek veikts tests.

4. Bajesa secinājums palīdz koriģēt hipotēzes varbūtību.

5. Uzraudzīta apmācība:

  • lēmumu koki;
  • nejauši meži;
  • loģistiskā regresija.

6. Mācības bez uzraudzības:

  • grupēšana;
  • izmēru samazināšana.

7. Optimizācija: gradienta nolaišanās un opcijas.

Domēna un programmatūras prasmes

Mācieties un praktizējieties! Tas ir šīs specialitātes pamats. Datu zinātniekam ir jābūt labai izpratnei par zinātnes jomu, kā arī jāpārzina programmatūra.

Nepieciešamo prasmju saraksts ir dīvains, bet ne mazāk noderīgs:

Programmēšana un datu bāzes

No pamatiem līdz zināšanām par Python, XaaS, relāciju algebru un SQL. Kopumā viss, bez kā mēģinājumi kvalitatīvi apstrādāt datus, ir bezjēdzīgi.

1. Datorzinātnes pamati, kā sākumpunkts ikvienam, kurš dzīvi saista ar programmēšanu un procesu automatizāciju.

Datu zinātne, mašīnmācīšanās — jūs droši vien esat dzirdējuši šos lielos vārdus, taču cik skaidra jums bija to nozīme? Dažiem tās ir skaistas ēsmas. Daži cilvēki domā, ka datu zinātne ir maģija, kas liks mašīnai darīt visu, ko tā pasūta bez maksas. Citi pat uzskata, ka tā ir viegls ceļs nopelnīt milzīgu naudu. Ņikita Ņikitinskis, IRELA pētniecības un attīstības vadītājs un datu zinātniece Polina Kazakova, vienkāršā un saprotamā valodā paskaidro, kas tas ir.

Es strādāju automātiskās dabiskās valodas apstrādē, datu zinātnes lietojumprogrammā, un bieži redzu, ka cilvēki šos terminus lieto nepareizi, tāpēc vēlējos nedaudz precizēt. Šis raksts ir paredzēts tiem, kam ir maz priekšstata par datu zinātni un kuri vēlas izprast jēdzienus.

Definēsim terminoloģiju

Sāksim ar to, ka neviens īsti nezina, kas ir datu zinātne, un nav stingras definīcijas – tas ir ļoti plašs un starpdisciplinārs jēdziens. Tāpēc šeit padalīšos ar savu redzējumu, kas ne vienmēr sakrīt ar citu viedokļiem.

Termins datu zinātne krievu valodā tiek tulkots kā “datu zinātne”, un profesionālā vidē tas bieži tiek vienkārši transliterēts kā “datu zinātne”. Formāli tas ir dažu savstarpēji saistītu disciplīnu un metožu kopums datorzinātņu un matemātikas jomā. Izklausās pārāk abstrakti, vai ne? Izdomāsim.

Pirmā daļa: dati

Datu zinātnes pirmā sastāvdaļa, bez kuras nav iespējams viss turpmākais process, patiesībā ir paši dati: kā tos savākt, uzglabāt un apstrādāt, kā arī kā tos atdalīt no vispārējā datu masīva. noderīga informācija. Speciālisti līdz 80% sava darba laika velta datu tīrīšanai un nogādāšanai vēlamajā formā.

Svarīga šī punkta sastāvdaļa ir tas, kā rīkoties ar datiem, kuriem standarta uzglabāšanas un apstrādes metodes nav piemērotas to milzīgā apjoma un/vai daudzveidības dēļ – tā sauktie lielie dati. Starp citu, neļaujiet sevi sajaukt: lielie dati un datu zinātne nav sinonīmi: drīzāk pirmā ir otrās apakšiedaļa. Tajā pašā laikā datu analītiķiem praksē ne vienmēr ir jāstrādā ar lieliem datiem — var būt noderīgi arī mazi dati.

Vāksim datus

Iedomājieties, ka mūs interesē, vai pastāv kāda saistība starp to, cik daudz kafijas jūsu darba kolēģi izdzer dienas laikā un cik daudz viņi gulēja iepriekšējā naktī. Pierakstīsim mums pieejamo informāciju: pieņemsim, ka jūsu kolēģis Gregorijs šodien gulēja 4 stundas, tāpēc viņam bija jāizdzer 3 tases kafijas; Ellina gulēja 9 stundas un nemaz nedzēra kafiju; un Polina gulēja visas 10 stundas, bet izdzēra 2,5 tases kafijas - un tā tālāk.

Iegūtos datus attēlosim grafikā (arī vizualizācija ir svarīgs jebkura datu zinātnes projekta elements). Uzzīmēsim laiku stundās uz X ass, bet kafiju mililitros uz Y ass. Mēs iegūsim kaut ko līdzīgu:

Otrā daļa: zinātne

Mums ir dati, ko mēs varam ar tiem tagad darīt? Tieši tā, analizējiet, iegūstiet noderīgus modeļus un kaut kā tos izmantojiet. Šeit mums palīdzēs tādas disciplīnas kā statistika, mašīnmācīšanās un optimizācija.

Tie veido nākamo un, iespējams, vissvarīgāko datu zinātnes sastāvdaļu – datu analīzi. Mašīnmācīšanās ļauj atrast modeļus esošajos datos, lai pēc tam varētu paredzēt atbilstošu informāciju jauniem objektiem.

Analizēsim datus

Atgriezīsimies pie mūsu piemēra. Acīm šķiet, ka abi parametri ir kaut kā savstarpēji saistīti: jo mazāk cilvēks gulēja, jo vairāk kafijas viņš dzers nākamajā dienā. Tajā pašā laikā mums ir arī piemērs, kas izceļas no šīs tendences - Poļina, kurai ļoti patīk gulēt un dzert kafiju. Tomēr varat mēģināt tuvināt iegūto modeli ar kādu vispārīgu taisnu līniju, lai tā pēc iespējas tuvāk tuvotos visiem punktiem:

Zaļā līnija ir mūsu mašīnmācīšanās modelis, tā vispārina datus un to var aprakstīt matemātiski. Tagad ar tās palīdzību mēs varam noteikt vērtības jauniem objektiem: kad vēlamies prognozēt, cik daudz kafijas šodien izdzers birojā ienākušais Ņikita, jautāsim, cik daudz viņš gulēja. Saņemot kā atbildi vērtību 7,5 stundas, mēs to aizstājam modelī - tas atbilst patērētās kafijas daudzumam, kas ir nedaudz mazāks par 300 ml. Sarkanais punkts atspoguļo mūsu prognozi.

Aptuveni šādi darbojas mašīnmācīšanās, kuras ideja ir ļoti vienkārša: atrodiet modeli un attieciniet to uz jauniem datiem. Faktiski mašīnmācībā ir vēl viena uzdevumu klase, kad jums nav jāparedz dažas vērtības, kā tas ir mūsu piemērā, bet gan jāsadala dati noteiktās grupās. Bet par to sīkāk parunāsim citreiz.

Pielietosim rezultātu

Tomēr, manuprāt, datu zinātne nebeidzas ar datu modeļu noteikšanu. Jebkurš datu zinātnes projekts ir lietišķo pētījumu, kur svarīgi neaizmirst par tādām lietām kā hipotēzes izvirzīšana, eksperimenta plānošana un, protams, rezultāta un tā piemērotības konkrēta gadījuma risināšanai izvērtēšana.

Pēdējais ir ļoti svarīgs reālās biznesa problēmās, kad jāsaprot, vai datu zinātnes atrastais risinājums nāks par labu jūsu projektam vai nē. Kāda būtu konstruētā modeļa lietderība mūsu piemērā? Varbūt ar tās palīdzību mēs varētu optimizēt kafijas piegādi uz biroju. Vienlaikus jānovērtē riski un jānosaka, vai mūsu modelis ar to tiktu galā labāk nekā esošais risinājums – biroja vadītājs Mihails, kurš ir atbildīgs par preces iegādi.

Atradīsim izņēmumus

Protams, mūsu piemērs ir pēc iespējas vienkāršots. Reāli varētu uzbūvēt sarežģītāku modeli, kas ņemtu vērā kādus citus faktorus, piemēram, vai cilvēkam principā garšo kafija. Vai arī modelis varētu atrast attiecības, kas ir sarežģītākas nekā tās, kuras attēlo taisna līnija.

Vispirms savos datos varētu meklēt novirzes — objektus, kas, tāpat kā Polina, ļoti atšķiras no vairuma citu. Fakts ir tāds, ka reālajā darbā šādi piemēri var slikti ietekmēt modeļa veidošanas procesu un tā kvalitāti, un ir jēga tos apstrādāt citā veidā. Un dažreiz šādi objekti ir primāri svarīgi, piemēram, lai atklātu anomālus bankas darījumus, lai novērstu krāpšanu.

Turklāt Polina mums parāda vēl vienu svarīgu ideju - mašīnmācīšanās algoritmu nepilnības. Mūsu modelis cilvēkam, kurš gulējis 10 stundas, prognozē tikai 100 ml kafijas, kamēr patiesībā Poļina izdzēra pat 500. Datu zinātnes risinājumu klienti tam nekad neticēs, taču iemācīt mašīnu perfekti visu paredzēt joprojām nav iespējams. pasaulē : neatkarīgi no tā, cik labi mēs spējam identificēt datu modeļus, vienmēr būs neparedzami elementi.

Turpināsim stāstu

Tātad datu zinātne ir metožu kopums datu apstrādei un analīzei un to pielietošanai praktiskām problēmām. Tajā pašā laikā jāsaprot, ka katram speciālistam ir savs skatījums uz šo jomu un viedokļi var atšķirties.

Datu zinātne balstās uz diezgan vienkāršām idejām, taču praksē bieži tiek atklātas daudzas nepārprotamas smalkumus. Kā datu zinātne mūs ieskauj Ikdiena, kādas datu analīzes metodes pastāv, no kā sastāv datu zinātnes komanda un kādas grūtības var rasties pētījuma procesā - par to runāsim nākamajos rakstos.



Jaunums vietnē

>

Populārākais