տուն Հոտը բերանից Տվյալների գիտնական որտեղ սովորել: Ի՞նչ է տվյալների գիտությունը և ինչպես է այն աշխատում: Տեսանյութ. Նոր մասնագիտացում «Մեծ տվյալներ» - Միխայիլ Լևին

Հոտը բերանից

Տվյալների գիտնական որտեղ սովորել: Ի՞նչ է տվյալների գիտությունը և ինչպես է այն աշխատում: Տեսանյութ. Նոր մասնագիտացում «Մեծ տվյալներ» - Միխայիլ Լևին

Երկար ժամանակ ցանկացե՞լ եք պարզել, թե ինչպես դառնալ տվյալների վերլուծաբան, ուսումնասիրել տվյալների գիտությունը, բայց չգիտեիք, թե որտեղից սկսել: Ապա այս հոդվածը ձեզ համար է:

Մեզանից ո՞վ չի լսել «մեծ տվյալների» մասին: Դժվար թե գոնե մեկը լինի։ IN վերջին տարիներըՏվյալների հետ աշխատելու հետաքրքրությունը զգալիորեն աճել է, քանի որ խոշոր ՏՏ ընկերությունները պետք է ավելի ու ավելի շատ նոր լուծումներ գտնեն տվյալների վերլուծության, մշակման և հետագայում օգտագործելու համար: Ոմանք նույնիսկ գործարկում են ուսումնական ծրագրերհամալսարանների հետ միասին։ Այնուամենայնիվ, մարդկանց մեծամասնությունը չի հասկանում, թե ինչպիսի մարդիկ են տվյալների վերլուծաբանները: Եթե դուք այդպիսի մարդկանցից եք և ցանկություն ունեք դառնալու տվյալների վերլուծաբան, ապա այս հոդվածը ձեզ համար է։ Մենք ընտրել ենք միայն անվճար ուսուցման գործիքներ, որոնք կարող եք օգտագործել անկախ ձեր գտնվելու վայրից:

Ի՞նչ են անում տվյալների վերլուծաբանները:

Այսպես կոչված տվյալների վերլուծաբանները զբաղվում են դրա տեղեկատվությամբ և վերլուծությամբ՝ տեսողական, մարդու կողմից ընկալելի արդյունքներ ստանալու համար: Նման մարդիկ սովորաբար ներառում են մեծ տվյալների, տվյալների արդյունահանման, մեքենայական ուսուցման, համակարգերի վերլուծության և բիզնես վերլուծաբանների մասնագետներ:

Ինչ դիտել

Դասախոսություններ «Տվյալների վերլուծության դպրոց» Yandex-ից

SHAD - Yandex-ի աշխատակիցների տվյալների վերլուծության դասընթացներ: Այնտեղ մտնելը բավականին դժվար է, դիմորդների համար պահանջվող նվազագույնը բարձրագույն հանրահաշվի հիմնական բաժիններն են,մաթեմատիկական վերլուծություն, կոմբինատորիկա, հավանականությունների տեսություն, ինչպես նաև ծրագրավորման հիմունքներ։ Բարեբախտաբար, դասընթացները ձայնագրվում են, որպեսզի բոլորը կարողանան սովորել տեսադասախոսություններից:

Մեքենայի ուսուցման դասընթաց

Դասընթացը սովորեցնում է, թե ինչպես կիրառել հավանականությունների տեսությունը և վիճակագրությունը, խոսվում է մեքենայական ուսուցման հիմունքների մասին և սովորեցնում է, թե ինչպես կառուցել ալգորիթմներ։

Դասընթաց «Որոնման տվյալների ալգորիթմներ և կառուցվածքներ»

Դասախոսությունները ներառում են մեծ ծավալների տվյալների որոնման և տեսակավորման ալգորիթմներ, ալգորիթմներ և լարերի մանիպուլյացիա, գրաֆիկական տեսական ալգորիթմներ, տվյալների կառուցվածքների կառուցում և վերլուծություն:

Դասընթաց «Զուգահեռ և բաշխված հաշվարկ»

Նրանց համար, ովքեր վաղուց էին ցանկանում ծանոթանալ բազմաթելային և զուգահեռ ծրագրավորմանը, ինչպես նաև MapReduce-ին։

Դասընթաց «Դիսկրետ վերլուծություն և հավանականության տեսություն»

Դասընթացը ուսումնասիրում է կոմբինատոր, դիսկրետ և ասիմպտոտիկ վերլուծության հիմնական հասկացություններն ու մեթոդները, հավանականությունների տեսությունը, վիճակագրությունը, ինչպես նաև ցույց է տալիս դրանց կիրառությունը:

Դասընթաց «Հաշվարկային բարդություն»

Դասընթացը դիտելուց հետո դուք կսովորեք հավանական բարդության դասերի և տվյալների վերլուծության և կառուցման հիմնական տեխնիկայի մասին:

Դասախոսություններ Technostream Mail.ru Group

Դասընթացի ծրագրերը նախատեսված են Մոսկվայի մի քանի բուհերի ուսանողների համար, սակայն հասանելի են բոլորին: Ապագա վերլուծաբաններին խորհուրդ ենք տալիս դասախոսությունների հետևյալ հավաքածուները.

Դասախոսություններ Big Data University

Մեծ տվյալների համալսարան - առցանց դասընթաց, ստեղծված IBM-ի հետ համատեղ սկսնակների և մաթեմատիկական նախադրյալ չունեցող մարդկանց համար։ Դասախոսությունները, որոնք օգնում են ձեզ ծանոթանալ տվյալների հետ աշխատելու հիմունքներին, ձայնագրվում են հստակ անգլերենով:

Welch Labs

Այս ալիքը պարունակում է դասախոսություններ մաթեմատիկայի, համակարգչային գիտության, ծրագրավորման և մեքենայական ուսուցման վերաբերյալ: Ընթացքում տրվում են ուսումնասիրվող առարկաների կիրառման օրինակներ իրական կյանք. Դասախոսությունները անգլերեն են, բայց կան գերազանց ռուսերեն ենթագրեր:

Դե" Սովորում ենք կառուցվածքային տվյալներից. ներածություն հավանականական գրաֆիկական մոդելներին»Ազգային Հետազոտական Համալսարանի Տնտեսագիտության Բարձրագույն Դպրոցի Համակարգչային Գիտության ֆակուլտետ

Դասընթացը կենտրոնացած է այսօր նման խնդիրների լուծման ամենատարածված մոտեցումներից մեկի՝ դիսկրետ հավանականության տեսության և կիրառությունների խորը ներածության վրա: գրաֆիկական մոդելներ. Դասընթացի լեզուն անգլերենն է։

Channel senddex

Ալիքն ամբողջությամբ նվիրված է տվյալների հետ աշխատելուն։ Ավելին, ոչ միայն մաթեմատիկայով հետաքրքրվողներն իրենց համար օգտակար բաներ կգտնեն։ Կան տեսանյութեր վերլուծության և ծրագրավորման վերաբերյալ ֆինանսական վերլուծաբանների և ռոբոտաշինության համար՝ օգտագործելով Rasperri Pi:

Սիրաջ Ռավալ ալիք

Տղան խոսում է ժամանակակից տեխնոլոգիաներև ինչպես աշխատել նրանց հետ: Խորը ուսուցման, տվյալների գիտության և մեքենայական ուսուցման դասընթացները կօգնեն ձեզ սովորել, թե ինչպես աշխատել տվյալների հետ:

Data School ալիք

Եթե դուք միայն ինչ-որ բան եք լսել մեքենայական ուսուցման մասին, բայց արդեն հետաքրքրված եք, ապա այս ալիքը ձեզ համար է: Հեղինակը հասկանալի մակարդակով, օրինակներով կբացատրի, թե ինչ է այն, ինչպես է այն աշխատում և որտեղ է այն օգտագործվում:

Որտեղ զբաղվել

Նրանց համար, ովքեր վստահ չեն, որ պատրաստ են լրիվ ինքնուրույն սովորել՝ դասախոսություններ դիտելով, կան առցանց դասընթացներ՝ ստուգման առաջադրանքներով։

Տվյալների գիտության դասընթացներ Coursera-ում

Թե ինչ հարթակ է սա, բացատրելու կարիք չկա։ Դուք պետք է ընտրեք դասընթաց և սկսեք սովորել:

Stepik.org

Տվյալների վերլուծություն Ռ

Առաջին մասը ներառում է R-ում վիճակագրական վերլուծության բոլոր հիմնական քայլերը, տվյալների ընթերցումը, տվյալների նախնական մշակումը, հիմնական վիճակագրական մեթոդների կիրառումը և արդյունքների արտացոլումը: Ուսանողները կսովորեն ծրագրավորման հիմնական տարրերը R լեզվով, ինչը թույլ կտա արագ և արդյունավետ լուծել տվյալների մշակման ժամանակ առաջացող խնդիրների լայն շրջանակ:

Երկրորդ մասը ներառում է մի քանի առաջադեմ թեմաներ, որոնք առաջինում չեն լուսաբանվել. տվյալների նախնական մշակում` օգտագործելով data.table և dplyr փաթեթները, առաջադեմ վիզուալացման տեխնիկա, աշխատել R Markdown-ում:

Տվյալների բազաների ներածություն

Սուզվեք DBMS-ի մեջ

Դասընթացը նրանց համար է, ովքեր որոշակի փորձ ունեն հարաբերական DBMS-ի հետ և ցանկանում են ավելին իմանալ, թե ինչպես են նրանք աշխատում: Դասընթացը ներառում է.

տվյալների բազայի սխեմայի ձևավորում;
գործարքների կառավարում;
հարցումների օպտիմալացում;
հարաբերական DBMS-ի նոր առանձնահատկություններ

Hadoop. Մեծ ծավալի տվյալների մշակման համակարգ

Դասընթացը նվիրված է Hadoop համակարգի միջոցով մեծ ծավալի տվյալների մշակման մեթոդներին: Դասընթացն ավարտելուց հետո դուք կստանաք գիտելիքներ մեծ ծավալի տվյալների պահպանման և մշակման հիմնական մեթոդների մասին, կհասկանաք բաշխված համակարգերի սկզբունքները Hadoop շրջանակի համատեքստում և կյուրացնեք կիրառական կիրառական մշակման հմտություններ՝ օգտագործելով MapReduce ծրագրավորման մոդելը:

Շատ գործատուներ այսօր ակտիվորեն փնտրում են տվյալների գիտնականներ: Միևնույն ժամանակ, նրանք շահագրգռված են ներգրավել այն «գիտնականներին», ովքեր ունեն համապատասխան կրթություն։ Միաժամանակ պետք է հաշվի առնել բոլոր այն ապատեղեկատվությունը, որով լի է շուկան։ Մենք ձեզ կպատմենք տվյալների գիտնականների և տվյալների գիտնականների մասին ամենամեծ սխալ պատկերացումների, հմտությունների մասին, որոնք նրանք պետք է ունենան, և թե ով է իրականում այս հազվագյուտ ցեղատեսակը:

Տվյալների գիտություն(Տվյալների գիտություն) համակարգչային գիտության ճյուղ է, որն ուսումնասիրում է տվյալների վերլուծության, մշակման և թվային ձևով ներկայացնելու խնդիրները։ Տվյալների գիտությունը միավորում է տվյալների մշակման մեծ ծավալների և զուգահեռության բարձր մակարդակի մեթոդները, վիճակագրական մեթոդները, տվյալների արդյունահանման մեթոդները և տվյալների հետ աշխատելու արհեստական ինտելեկտի կիրառությունները, ինչպես նաև տվյալների բազաների նախագծման և զարգացման մեթոդները: Վերաբերվում է որպես ակադեմիական առարկայի: 2010-ականների սկզբից այն դիրքավորվել է որպես գործունեության միջոլորտային գործնական դաշտ։ 2010-ականների սկզբից «տվյալների գիտնական» մասնագիտացումը համարվում է ամենաբարձր վարձատրվող, գրավիչ և հեռանկարային մասնագիտություններից մեկը։

Տվյալների գիտության սխալ պատկերացումներ

1. Մեծ տվյալները վիճակագրություն և բիզնես վերլուծություն է՝ մեծ քանակությամբ տվյալների հետ: Այստեղ ոչ մի նոր բան չկա

Այս կարծիքին են հիմնականում այն մարդիկ, ովքեր ունեն ծրագրային ապահովման մշակման սահմանափակ փորձ, կամ ընդհանրապես ծանրաբեռնված չեն որևէ փորձով։ Ցանկանու՞մ եք անալոգիա: Խնդրում եմ։ Որպես օրինակ վերցնենք սառույցը: Այն կարելի է անվանել շատ սառը ջուր։ Ի՞նչ նորություն կա այստեղ: Սակայն հովացման ջուրը ոչ միայն փոխում է իր ջերմաստիճանը, այլեւ արմատապես փոխում է իր որակական բնութագրերը՝ հեղուկը վերածելով պինդի: Նույնը կարելի է ասել մեծ քանակությամբ տվյալների համար: Տվյալների մեծ քանակությունը, ի վերջո, խախտում է հաշվարկների, հաշվարկների և հաշվարկների հին պարադիգմները: Օգտագործելով ավանդական մեթոդներԲիզնես վերլուծաբանների համար կարող են տարիներ պահանջվել որոշակի հաշվարկներ իրականացնելու համար: Զուգահեռացումը և բաշխված հաշվարկը մասշտաբի հարցի ակնհայտ պատասխաններն են: Բայց դա միշտ չէ, որ հեշտ է, նույնիսկ լոգիստիկ ռեգրեսիոն վերլուծության նման պարզ վիճակագրական գործիքի դեպքում: Բաշխված վիճակագրական հաշվարկները նույնքան տարբեր են ավանդական բիզնես վերլուծությունից, որքան սառույցը ջրից:

2. Տվյալների գիտնականները ռեբրենդինգից հետո նույն ծրագրային ապահովման ինժեներներն են

Երբեմն ծրագրային ապահովման մշակման մեծ փորձ ունեցող ինժեներները վերապատրաստվում են և դառնում տվյալների գիտնականներ՝ բարելավելու համար աշխատավարձեր. Այնուամենայնիվ, այս պրակտիկան հաճախ հանգեցնում է անբավարար արդյունքների: Իրոք, մեծ տվյալների ոլորտում վիճակագրական սխալների վերացումն անգամ ամենապարզ մակարդակում բավականին բարդ խնդիր է թվում: Ինժեներները պատրաստված են ծրագրային ապահովման սխալները հայտնաբերելու և ուղղելու համար: Բայց առանց հավանականությունների տեսության և վիճակագրության հիմնավոր իմացության, նույնիսկ հիանալի ծրագրավորողը դժվար թե կարողանա հաջողությամբ վերացնել պարզ վիճակագրական սխալը:

Ավելի բարձր մակարդակի ինժեներները կարողանում են կառուցել պարզ, դիսկրետ, կանոնների վրա հիմնված մոդելներ: Բայց նման մոդելները հարմար չեն տվյալներից ավելի նրբերանգ պատկերացումներ ստանալու համար: Այստեղից էլ կորցրած ֆինանսական օգուտը։ Հետևաբար, «մեծ տվյալների հարցերին» պատասխաններ ստանալու համար անհրաժեշտ է բարձր որակավորում ունեցող և բարձր մասնագիտացված անձնակազմ, որը կհանդիսանա կանխատեսող մոդելավորման հաջորդ սերնդի հիմքը:

3. Տվյալների գիտնականներին հարկավոր չէ հասկանալ բիզնեսը. տվյալները նրանց ամեն ինչ կասեն

Մարդիկ, ովքեր ունեն ծրագրավորողի կրթություն և փորձ, հաճախ են ենթարկվում այս գայթակղությանը: Եվ, իրոք, ինչո՞ւ է նրանց պետք բիզնեսը հասկանալը, եթե այդքան հզոր բազա ունեն։ Հզոր, բայց ոչ ամենազոր: Բոլոր հնարավոր հարաբերակցությունները գտնելը աներևակայելի աշխատատար և ժամանակատար է, էլ չեմ խոսում վիճակագրորեն խնդրահարույց: Տվյալների գիտնականները պարզապես պետք է օգտագործեն իրենց բիզնես ինտուիցիան՝ հաջողությամբ տարբերակելու կեղծ և իրական հարաբերակցությունները: Որոշակի ոլորտում փորձագիտական գիտելիքների բացակայությունը կարող է հանգեցնել անհիմն եզրակացությունների: Ինչպե՞ս է սա ձեզ դուր գալիս: Ոստիկանության աշխատակիցների թվի ավելացումը հանգեցնում է հանցավորության աճի, ինչը նշանակում է, որ անհրաժեշտ է կրճատել իրավապահ մարմինների աշխատակիցների թիվը հանցավոր անբարենպաստ իրավիճակ ունեցող տարածքներում։ Ի վերջո, բիզնեսի ինտուիցիա ունենալը նույնպես կարևոր է հիմնական շահագրգիռ կողմերին համոզելու համար. խոսելով փոխկապակցվածության մասին այնպիսի լեզվով, որը հասկանում են գործարարները, տվյալների գիտնականն ավելի հաջողակ կլինի, քան գործընկերը, ով չունի բիզնեսի նախասիրություն:

Մեծ տվյալների և տվյալների գիտությունը գիտելիքն է, թե ինչպես կառուցել օպտիմալ մոդել, որը համատեղում է ճիշտ ինժեներական, վիճակագրական և բիզնես հմտությունները: Առանց դրա տվյալների գիտնականը չի կարողանա հասնել այն ամենին, ինչ նա նախատեսում է անել:

Այսպիսով, ովքեր են տվյալների գիտնականները:

Տվյալների գիտնականները բիզնեսի և տվյալների վերլուծաբանների էվոլյուցիայի արդյունք են: Նման մասնագետների պաշտոնական վերապատրաստումը ներառում է համակարգչային գիտություն, վիճակագրություն, վերլուծություն և մաթեմատիկա: Ի՞նչն է դարձնում բարձրակարգ տվյալների գիտնականը: Ուժեղ բիզնեսի խելամտությունը զուգորդվում է բիզնեսի և ՏՏ ղեկավարների հետ շփվելու ունակության հետ այնպես, որ օգնում է ազդել ընկերության աճի վրա: IBM-ի մեծ տվյալների գծով փոխնախագահ Անջուլ Բամբրան ասում է, որ տվյալների գիտնականները «մասամբ վերլուծաբան են և մասամբ նկարիչ»: Սրանք շատ հետաքրքրասեր մարդիկ են, ովքեր կարող են նայել տվյալներին և նկատել միտումները: Նրանց կարելի է համեմատել Վերածննդի դարաշրջանի արվեստագետների հետ, ովքեր ցանկանում էին ոչ միայն սովորել, այլև փոխել իրենց շրջապատող աշխարհը։

Մինչ ավանդական վերլուծաբանը վերլուծում է տվյալներ մեկ աղբյուրից (օրինակ. CRM համակարգեր), տվյալների գիտնականը պարտադիր կերպով ուսումնասիրում է մի քանի տարբեր աղբյուրների տվյալները: Այն ագրեսիվ կերպով կանցնի բոլոր մուտքային տվյալները, որպեսզի հայտնաբերի նախկինում թաքնված պատկերացումները, որոնք կարող են ապահովել մրցակցային առավելություն. Տվյալների գիտնականը ոչ միայն հավաքում և վերլուծում է տվյալներ, այլ դրանք դիտում է տարբեր տեսանկյուններից և վերլուծում դրանք տարբեր համատեքստերում, որոշում, թե ինչ են նշանակում այս կամ այն տվյալները ապրանքանիշի համար, այնուհետև տալիս է առաջարկություններ, թե ինչպես օգտագործել առկա տեղեկատվությունը:

Տվյալների գիտնականները մարդիկ են, ովքեր անընդհատ ուսումնասիրում են, միլիոնավոր հարցեր են տալիս, անում են «ինչ կլիներ, եթե…» վերլուծությունը, կասկածի տակ դնելով առկա ենթադրությունները և գործընթացները, բացահայտելով հարուստ տվյալների աղբյուրները և կապելով դրանք վատ տվյալների հավաքածուների հետ... Մրցակցային միջավայրում, որտեղ առաջադրանքները մշտապես կատարվում են: փոփոխությունները, և տվյալների արագ հոսքը երբեք չի ավարտվում, տվյալների գիտնականները օգնում են կառավարմանը որոշումները. Եվ սա նրանց ամենաարժեքավոր որակն է։

Ինչու՞ «գիտնականներ»:

Շատերը պնդում են, որ տվյալների գիտնականին «տվյալների գիտնական» անվանելը շատ, շատ հավակնոտ է: Այնուամենայնիվ, եթե դուք փորձում եք նայել արմատին, ապա այս ձևակերպումը իմաստ ունի: Օրինակ, փորձարար ֆիզիկոսները պետք է նախագծեն և կառուցեն իրենց սեփական սարքավորումները, հավաքեն տվյալներ, կատարեն փորձեր և ամփոփեն բոլոր բացահայտումները զեկույցներում: Տվյալների գիտնականները նույնն են անում: Հետևաբար, տվյալների ամենաբարձր որակավորում ունեցող գիտնականները համարվում են ֆիզիկայի կամ սոցիալական գիտությունների առաջադեմ աստիճան ունեցող մարդիկ:

Մոլորակի վրա տվյալների լավագույն գիտնականները էզոթերիկ ոլորտներում, ինչպիսիք են էկոլոգիան և համակարգային կենսաբանությունը, ասպիրանտներ են: Վառ օրինակ– Ջորջ Ռումելիոտիս, ով ղեկավարում է տվյալների գիտնականների թիմը Intuit-ում Սիլիկոնային հովտում: Ստացել է աստղաֆիզիկայի ասպիրանտուրա։ Տվյալների շատ գիտնականներ սեփականատերեր են գիտական աստիճաններհամակարգչային գիտության, մաթեմատիկայի և տնտեսագիտության մեջ: Բայց, ինչպես դա կարող է լինել, լավ մասնագետ, որը մասնագիտացած է տվյալների վերլուծության մեջ, կարող է գալ ցանկացած ոլորտից:

Հիմնական հմտություններ, առանց որոնց տվյալների գիտնականը չի կարող անել

Հիմնական գործիքներ. Անկախ ընկերության առաքելությունից, տվյալների գիտնականը պետք է իմանա, թե ինչպես օգտագործել հիմնական գործիքները. R ծրագրավորման լեզուն վիճակագրական տվյալների մշակման և գրաֆիկայի համար, բարձր մակարդակի Python ծրագրավորման լեզուն, որն ուղղված է ծրագրավորողների արտադրողականության և կոդերի ընթերցանության բարելավմանը, Structured Query Language, ինչպիսիք են. SQL, որն օգտագործվում է կամայական հարաբերական տվյալների բազայում տվյալների ստեղծման, փոփոխման և մանիպուլյացիայի համար:

Հիմնական վիճակագրություն. Վիճակագրությունը հասկանալը կենսական նշանակություն ունի տվյալների գիտնականի համար: Գաղտնիք չէ, որ շատ փորձագետներ չեն կարողանում որոշել անգամ P-արժեքը` թեստավորման ժամանակ օգտագործվող արժեքը վիճակագրական վարկածներ. Տվյալների գիտնականը պարզապես պետք է ծանոթ լինի վիճակագրական թեստերին, բաշխմանը, առավելագույն հավանականության գնահատմանը և այլն: Վիճակագրությունը կարևոր է տարբեր տարածքներբիզնես, հատկապես տվյալների վրա հիմնված ընկերությունների համար

Մեքենայի ուսուցում. Եթե տվյալների գիտնականն աշխատում է հսկայական ընկերությունում, որն ունի տվյալների հսկայական ծավալ, նա պետք է ծանոթ լինի մեքենայական ուսուցման մեթոդներին: Իհարկե, այս մեթոդներից շատերը կարող են իրականացվել R կամ Python գրադարանների միջոցով, այնպես որ ձեզ հարկավոր չէ լինել աշխարհի առաջատար փորձագետ՝ հասկանալու համար, թե ինչպես են աշխատում ալգորիթմները: Շատ ավելի կարևոր է հասկանալ, թե երբ առավել նպատակահարմար կլինի որոշակի մեթոդների կիրառումը:

Բազմփոփոխական հաշվարկներ և գծային հանրահաշիվ. Այս առարկաները կազմում են մեքենայական ուսուցման բազմաթիվ մեթոդների հիմքը:

Վերլուծության համար տվյալների պատրաստում. Հաճախ վերլուծված տվյալները բավականին «կեղտոտ» են լինում՝ շատ ավելի դժվարացնելով դրանց հետ աշխատանքը։ Հետեւաբար, շատ կարեւոր է իմանալ, թե ինչպես վարվել տվյալների բոլոր թերությունների հետ: Անկատար տվյալների օրինակ է տողերի անհամապատասխան ձևաչափումը, ինչպիսիք են «Նյու Յորք» - «նյու Յորք» - «ny» կամ «2014-01-01» - «01/01/2014» ամսաթվերը կամ օգտագործումը: UNIX համակարգի ժամանակը և հաջորդականությունը Ժամկետանիշ:

Տվյալների վիզուալիզացիա և հաղորդակցություն. Սա անհավանական է կարևոր կետեր, հատկապես, երբ մենք խոսում ենք տվյալների վրա հիմնված երիտասարդ ընկերությունների կամ այն ընկերությունների մասին, որոնցում տվյալների գիտնականները ընկալվում են որպես մարդիկ, ովքեր օգնում են տվյալների վրա հիմնված որոշումներ կայացնել: Շատ օգտակար կլինի ggplot-ի (R լեզվի ընդլայնում) և JavaScript գրադարանի իմացությունը D3.js տվյալների մշակման և պատկերացման համար:

Ծրագրավորում. Տվյալների գիտնականները սովորաբար պատասխանատու են գրանցման մեծ քանակությամբ տվյալների և տվյալների վրա հիմնված արտադրանքների մշակման համար:

Մտածեք տվյալների գիտնականի պես. Գործատուն միշտ ցանկանում է տեսնել տվյալների գիտնականին որպես խնդիրներ լուծող: «Գիտնականը» միշտ պետք է իմանա, թե ինչն է կարևոր այս փուլում և ինչը առանձնահատուկ արժեք չունի։ Նրանից պահանջվում է շփվել արտադրանքի մշակման համար պատասխանատու դիզայներների և ղեկավարների հետ:

Harvard Business Review-ն պնդում է, որ տվյալների գիտնականը 21-րդ դարի ամենասեքսուալ մասնագիտությունն է։ Եվ դժվար է չհամաձայնել սրա հետ: Տվյալների գիտությունը նոր է զարգանում, և բոլոր ժամանակակից տվյալների գիտնականները կարող են ապահով կոչվել ռահվիրաներ: Եվ եթե դուք կարող եք ասել, որ դուք լավագույն ՏՏ մասնագետն եք վիճակագիրների մեջ և լավագույն վիճակագիրն եք ՏՏ մասնագետների մեջ, ապա դուք իսկական տվյալների գիտնական եք:

Այս հոդվածը պատրաստելու համար օգտագործված նյութեր

Տվյալների գիտնական- մեծ քանակությամբ տվյալների մշակման, վերլուծության և պահպանման մասնագետ, այսպես կոչված, «Մեծ տվյալներ»: Մասնագիտությունը հարմար է նրանց համար, ովքեր հետաքրքրված են ֆիզիկայով, մաթեմատիկայով և համակարգչային գիտությամբ (տես՝ մասնագիտության ընտրություն՝ հիմնված դպրոցական առարկաների նկատմամբ հետաքրքրության վրա):

Տվյալների գիտություն - տվյալների գիտություն տարբեր առարկաների խաչմերուկում՝ մաթեմատիկա և վիճակագրություն; Ինֆորմատիկա և համակարգչային գիտություն; բիզնես և տնտեսագիտություն։

(Ս. Մալցևա, Վ. Կոռնիլովի անվան ազգային գիտահետազոտական համալսարան «Տնտեսագիտության բարձրագույն դպրոց»)

Մասնագիտությունը նոր է, համապատասխան և... «Մեծ տվյալներ» տերմինն ինքնին հայտնվել է 2008 թ. Իսկ տվյալների գիտնականի մասնագիտությունը՝ «Տվյալների գիտնականը» պաշտոնապես գրանցվեց որպես ակադեմիական և միջդիսցիպլինար առարկա 2010 թվականի սկզբին: Թեև «տվյալների գիտություն» տերմինի առաջին հիշատակումը նշվել է Պիտեր Նաուրի գրքում 1974թ. համատեքստ։

Նման մասնագիտության առաջացման անհրաժեշտությունը թելադրված էր նրանով, որ երբ խոսքը վերաբերում է Ultra Big Data-ին, տվյալների զանգվածները չափազանց մեծ են ստացվում, որ դրանք մշակվեն մաթեմատիկական վիճակագրության ստանդարտ միջոցներով։ Ամեն օր հազարավոր փետաբայթ (10 15 բայթ = 1024 տերաբայթ) տեղեկատվություն անցնում է աշխարհի ընկերությունների սերվերներով։ Տվյալների նման ծավալներից բացի, խնդիրը բարդանում է նրանց տարասեռությամբ և բարձր արագությունթարմացումներ։

Տվյալների զանգվածները բաժանված են 3 տեսակի.

կառուցվածքային (օրինակ՝ առևտրում ՀԴՄ-ների տվյալները);

կիսակառույց (էլեկտրոնային հաղորդագրություններ);

չկառուցված (վիդեո ֆայլեր, պատկերներ, լուսանկարներ):

Big Data-ի մեծ մասը ոչ կառուցվածքային է, ինչը շատ ավելի դժվար է դարձնում դրանց մշակումը:

Առանձին-առանձին վիճակագիր, համակարգային վերլուծաբան կամ բիզնես վերլուծաբան չի կարող խնդիրներ լուծել տվյալների նման ծավալների հետ: Դրա համար անհրաժեշտ է միջդիսցիպլինար կրթություն ունեցող, մաթեմատիկայի և վիճակագրության, տնտեսագիտության և բիզնեսի, համակարգչային գիտության և համակարգչային տեխնիկայի իրավասու մարդ:

Տվյալների գիտաշխատողի հիմնական խնդիրն է անհրաժեշտ տեղեկատվությունը տարբեր աղբյուրներից հանելու ունակությունը՝ օգտագործելով տեղեկատվական հոսքերը իրական ժամանակում. բացահայտել թաքնված օրինաչափությունները տվյալների հավաքածուներում և վիճակագրականորեն վերլուծել դրանք՝ խելացի բիզնես որոշումներ կայացնելու համար: Նման մասնագետի աշխատավայրը ոչ թե 1 համակարգիչ է կամ նույնիսկ 1 սերվեր, այլ սերվերների կլաստեր։

Մասնագիտության առանձնահատկությունները

Տվյալների հետ աշխատելիս տվյալների գիտնականը օգտագործում է տարբեր մեթոդներ.

վիճակագրական մեթոդներ;
տվյալների բազայի մոդելավորում;
հանքարդյունաբերության մեթոդներ;
արհեստական ինտելեկտի հավելվածներ տվյալների հետ աշխատելու համար;
տվյալների բազաների նախագծման և մշակման մեթոդներ.

Տվյալների գիտնականի աշխատանքային պարտականությունները կախված են նրա գործունեության ոլորտից, սակայն ընդհանուր ցուցակգործառույթներն այսպիսի տեսք ունեն.

տարբեր աղբյուրներից տվյալների հավաքագրում՝ հետագա գործառնական մշակման համար.
սպառողների վարքագծի վերլուծություն;
հաճախորդների բազայի մոդելավորում և արտադրանքի անհատականացում;
արդյունավետության վերլուծություն ներքին գործընթացներհիմքեր;
տարբեր ռիսկերի վերլուծություն;
կասկածելի գործարքների ուսումնասիրությամբ հնարավոր խարդախության բացահայտում.
պարբերական հաշվետվությունների կազմում՝ կանխատեսումներով և տվյալների ներկայացմամբ։

Տվյալների գիտնականը, ինչպես իրական գիտնականը, ոչ միայն հավաքում և վերլուծում է տվյալներ, այլև ուսումնասիրում է դրանք տարբեր համատեքստերում և տարբեր անկյուններից՝ կասկածի տակ դնելով ցանկացած ենթադրություն: Ամենակարևոր որակըտվյալների գիտնականը հավաքագրված տեղեկատվության համակարգում տրամաբանական կապեր տեսնելու ունակությունն է և դրա հիման վրա քանակական վերլուծությունմշակել արդյունավետ բիզնես լուծումներ. Ժամանակակից մրցակցային և արագ փոփոխվող աշխարհում, տեղեկատվության անընդհատ աճող հոսքի պայմաններում տվյալների գիտնականը անփոխարինելի է կառավարման համար՝ ճիշտ բիզնես որոշումներ կայացնելու տեսանկյունից:

Մասնագիտության դրական և բացասական կողմերը

կողմ

Մասնագիտությունը ոչ միայն չափազանց պահանջված է, այլեւ այս մակարդակի մասնագետների սուր պակաս կա։ McKinsey Global Institute-ի տվյալներով՝ մինչև 2018 թվականը միայն ԱՄՆ-ում անհրաժեշտ կլինի ավելի քան 190 հազար տվյալների գիտնական։ Այդ իսկ պատճառով ամենահեղինակավոր համալսարաններում տվյալների գիտնականների պատրաստման ֆակուլտետներն այդքան արագ և լայնորեն ֆինանսավորվում և զարգանում են: Ռուսաստանում նույնպես աճում է տվյալների գիտնականների պահանջարկը։
Բարձր վարձատրվող մասնագիտություն.
Մշտապես զարգանալու, ՏՏ տեխնոլոգիաների զարգացմանը հետ չմնալու և տվյալների մշակման, վերլուծության և պահպանման նոր մեթոդներ ստեղծելու անհրաժեշտությունը:

Մինուսներ

Ամեն մարդ չէ, որ կարող է տիրապետել այս մասնագիտությանը, դա հատուկ մտածելակերպ է պահանջում։
Աշխատանքի ընթացքում հայտնի մեթոդները և գաղափարների 60%-ից ավելին կարող են չաշխատել։ Շատ լուծումներ կձախողվեն, և դուք պետք է մեծ համբերություն ունենաք՝ գոհացուցիչ արդյունքներ ստանալու համար։ Գիտնականն իրավունք չունի ասելու «ՈՉ»: խնդիր. Նա պետք է ճանապարհ գտնի, որը կօգնի լուծել խնդիրը։

Աշխատանքի վայրը

Տվյալների գիտնականները առանցքային դիրքեր են զբաղեցնում հետևյալում.

տեխնոլոգիական արդյունաբերություններ (մեքենաների նավիգացիոն համակարգեր, դեղերի արտադրություն և այլն);
ՏՏ ոլորտ (որոնողական համակարգի օպտիմիզացում, սպամի ֆիլտր, նորությունների համակարգում, տեքստի ավտոմատ թարգմանություններ և շատ ավելին);
բժշկություն (հիվանդությունների ավտոմատ ախտորոշում);
ֆինանսական կառույցներ (վարկերի տրամադրման վերաբերյալ որոշումներ կայացնելը) և այլն;
հեռուստաընկերություններ;
խոշոր մանրածախ ցանցեր;
նախընտրական քարոզարշավներ.

Կարևոր որակներ

Վերլուծական միտք;
ծանր աշխատանք;
համառություն;
բծախնդիրություն, ճշգրտություն, ուշադրություն;
հետազոտությունն ավարտելու ունակություն՝ չնայած անհաջող միջանկյալ արդյունքներին.
հաղորդակցման հմտություններ;
բարդ բաներ պարզ բառերով բացատրելու ունակություն;
բիզնես ինտուիցիա.

Մասնագիտական գիտելիքներ և հմտություններ.

մաթեմատիկայի, մաթեմատիկական վերլուծության, մաթեմատիկական վիճակագրության, հավանականությունների տեսության իմացություն;
անգլերենի իմացություն;
ծրագրավորման հիմնական լեզուների իմացություն, որոնք ունեն տվյալների մեծ հավաքածուների հետ աշխատելու բաղադրիչներ՝ Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
վիճակագրական գործիքների իմացություն՝ SPSS, R, MATLAB, SAS Data Miner, Tableau;
արդյունաբերության մանրակրկիտ իմացություն, որտեղ աշխատում է տվյալների գիտնականը. եթե սա դեղագործական արդյունաբերություն է, ապա անհրաժեշտ է հիմնական արտադրական գործընթացների և դեղամիջոցի բաղադրիչների իմացությունը.
Տվյալների գիտնականի հիմնական հիմնական հմտությունը մեծ քանակությամբ տվյալների կլաստերային պահպանման համակարգերի կազմակերպումն ու կառավարումն է.
բիզնեսի զարգացման օրենքների իմացություն;
տնտեսական գիտելիքներ.

Համալսարաններ

Մոսկվայի պետական համալսարանի անվ Լոմոնոսով, հաշվողական մաթեմատիկայի և կիբեռնետիկայի ֆակուլտետ, հատուկ կրթական ծրագիր Mail.Ru Group «Տեխնոսֆերա»՝ մեծ քանակությամբ տվյալների խելացի վերլուծության մեթոդների, C ++ ծրագրավորման, բազմաշերտ ծրագրավորման և տեղեկատվության որոնման համակարգերի կառուցման տեխնոլոգիաների ուսուցմամբ:
MIPT, տվյալների վերլուծության վարչություն:
Ազգային Հետազոտական Համալսարանի Տնտեսագիտության բարձրագույն դպրոցի Բիզնես ինֆորմատիկայի ֆակուլտետը պատրաստում է համակարգային վերլուծաբաններ, բարդ տեղեկատվական համակարգերի նախագծողներ և իրականացնողներ և կորպորատիվ տեղեկատվական համակարգերի կառավարման կազմակերպիչներ:
Yandex տվյալների վերլուծության դպրոց.
Համալսարան Իննոպոլիսում, Դանդիի համալսարան, Հարավային Կալիֆորնիայի համալսարան, Օքլենդի համալսարան, Վաշինգտոնի համալսարան. Մագիստրոսական ծրագրեր մեծ տվյալների ոլորտում:
Կայսերական քոլեջի Լոնդոնի բիզնես դպրոց, Տվյալների գիտություն և կառավարում մագիստրոս:

Ինչպես ցանկացած մասնագիտության մեջ, այստեղ նույնպես կարևոր է ինքնակրթությունը, որն անկասկած կշահի այնպիսի ռեսուրսներից, ինչպիսիք են.

առցանց դասընթացներ աշխարհի առաջատար համալսարաններից COURSERA;
մեքենայական ուսուցման ալիք MASHIN LEARNING;
edX դասընթացների ընտրություն;
Udacity դասընթացներ;
Dataquest դասընթացներ, որտեղ դուք կարող եք դառնալ իսկական մասնագետ Data Science-ում;
Datacamp 6-քայլ դասընթացներ;
O'Reilly-ի մարզման տեսանյութեր;
էկրաններ սկսնակների և առաջադեմ Data Origami-ի համար;
Մասնագետների եռամսյակային համաժողով Մոսկվայի տվյալների գիտնականների հանդիպում;
տվյալների վերլուծության մրցույթներ Kaggle.сom

Աշխատավարձ

Աշխատավարձը՝ 04.07.2019թ

Ռուսաստան 50000-200000 ₽

Մոսկվա 60000-300000 ₽

Data Scientist մասնագիտությունը ամենաբարձր վարձատրվողներից է։ Տեղեկություններ hh.ru կայքից՝ ամսական աշխատավարձը տատանվում է 8,5 հազար դոլարից մինչև 9 հազար դոլար, ԱՄՆ-ում նման մասնագետի աշխատավարձը տարեկան 110 հազար դոլարից 140 հազար դոլար է։

Superjob հետազոտական կենտրոնի հարցման համաձայն՝ Data Scientist-ի մասնագետների աշխատավարձը կախված է աշխատանքային փորձից, պարտականությունների շրջանակից և տարածաշրջանից։ Սկսնակ մասնագետը կարող է հաշվել 70 հազար ռուբլի: Մոսկվայում եւ 57 հազար ռուբլի: Սանկտ Պետերբուրգում։ Մինչև 3 տարվա աշխատանքային ստաժի դեպքում աշխատավարձը բարձրանում է մինչև 110 հազար ռուբլի: Մոսկվայում եւ 90 հազար ռուբլի: Սանկտ Պետերբուրգում։ Գիտական հրապարակումներով փորձառու մասնագետների համար աշխատավարձը կարող է հասնել 220 հազար ռուբլի: Մոսկվայում եւ 180 հազար ռուբլի: Պետերբուրգում.

Կարիերայի քայլեր և հեռանկարներ

Data Scientist մասնագիտությունն ինքնին բարձր ձեռքբերում է, որը պահանջում է տեսական լուրջ գիտելիքներ և մի քանի մասնագիտությունների գործնական փորձ։ Ցանկացած կազմակերպությունում նման մասնագետը առանցքային գործիչ է։ Այս բարձունքին հասնելու համար հարկավոր է քրտնաջան ու նպատակասլաց աշխատել և անընդհատ կատարելագործվել բոլոր ոլորտներում, որոնք կազմում են մասնագիտության հիմքը։

Տվյալների գիտնականի մասին կատակ կա. նա գեներալիստ է, ով ավելի լավ է ծրագրավորում, քան ցանկացած վիճակագիր և ավելի լավ գիտի վիճակագրություն, քան ցանկացած ծրագրավորող: Իսկ բիզնես գործընթացները նա ավելի լավ է հասկանում, քան ընկերության ղեկավարը։

ԻՆՉ Է ՊԱՏԱՀԵԼ "ՄԵԾ ՏՎՅԱԼՆԵՐ«Իրական թվերով?

Ամեն 2 օրը մեկ տվյալների ծավալն ավելանում է այն տեղեկատվության քանակով, որը մարդկությունը ստեղծել է Քրիստոսի ծնունդից մինչև 2003 թվականը:
Այսօրվա բոլոր առկա տվյալների 90%-ը հայտնվել է վերջին 2 տարում։
Մինչեւ 2020 թվականը տեղեկատվության ծավալը 3,2-ից կհասնի 40 զետաբայթի։ 1 զետաբայթ = 10 21 բայթ:
1 րոպեի ընթացքում Ֆեյսբուքում տեղադրվում է 200 հազար լուսանկար, ուղարկվում է 205 միլիոն նամակ, տեղադրվում է 1,8 միլիոն հավանում։
1 վայրկյանի ընթացքում Google-ը մշակում է 40 հազար որոնման հարցում։
Յուրաքանչյուր 1,2 տարին մեկ, յուրաքանչյուր ոլորտում տվյալների ընդհանուր ծավալը կրկնապատկվում է:
Մինչև 2020 թվականը Hadoop-ի ծառայությունների շուկան կաճի մինչև 50 միլիարդ դոլար:
ԱՄՆ-ում 2015 թվականին 1,9 միլիոն աշխատատեղ է ստեղծվել Big Data նախագծերի վրա աշխատող մասնագետների համար։
Big Data տեխնոլոգիաները մեծացնում են մանրածախ ցանցերի շահույթը տարեկան 60%-ով։
Ըստ կանխատեսումների՝ Big Data-ի շուկայի չափը 2020 թվականին կաճի մինչև 68,7 միլիարդ դոլար՝ 2014 թվականի 28,5 միլիարդ դոլարի դիմաց:

Չնայած աճի նման դրական ցուցանիշներին, կան նաև կանխատեսումների սխալներ։ Օրինակ՝ 2016-ի ամենաաղմկահարույց սխալներից մեկը՝ ԱՄՆ նախագահական ընտրությունների հետ կապված կանխատեսումները չիրականացան։ Կանխատեսումներ են ներկայացրել հայտնի ամերիկացի գիտնականներ Նեյթ Սիլվերը, Քըրք Բորնը և Բիլ Շմարզոն՝ հօգուտ Հիլարի Քլինթոնի։ Նախորդ ընտրարշավներում նրանք ճշգրիտ կանխատեսումներ էին անում ու երբեք չէին սխալվում։

Այս տարի, օրինակ, Նեյթ Սիլվերը տվեց ճշգրիտ կանխատեսում 41 նահանգի համար, սակայն 9 նահանգների համար նա սխալվել է, ինչը հանգեցրել է Թրամփի հաղթանակին։ Վերլուծելով 2016 թվականի սխալների պատճառները՝ նրանք եզրակացրել են, որ.

Մաթեմատիկական մոդելները օբյեկտիվորեն արտացոլում են իրենց ստեղծման պահին պատկերը: Բայց նրանք ունեն կիսատ կյանք, որի ավարտին իրավիճակը կարող է կտրուկ փոխվել։ Մոդելի կանխատեսող որակները ժամանակի ընթացքում վատանում են: IN այս դեպքումՕրինակ՝ չարաշահումները, եկամուտների անհավասարությունը և սոցիալական այլ ցնցումները իրենց դերը խաղացին։ Հետևաբար, մոդելը պետք է պարբերաբար ճշգրտվի՝ հաշվի առնելով նոր տվյալները: Սա չարվեց։
Պետք է փնտրել և դիտարկել լրացուցիչ տվյալներ, որոնք կարող են էական ազդեցություն ունենալ կանխատեսումների վրա։ Այսպես, Քլինթոնի և Թրամփի նախընտրական քարոզարշավի հանրահավաքների տեսանյութերը դիտելիս հաշվի չի առնվել հանրահավաքների մասնակիցների ընդհանուր թիվը։ Խոսքը հարյուրավոր մարդկանց մասին էր։ Պարզվել է, որ Թրամփի օգտին յուրաքանչյուր հանրահավաքին մասնակցել է 400-600 մարդ, իսկ Քլինթոնի օգտին՝ ընդամենը 150-200 մարդ, ինչն ազդել է արդյունքների վրա։
Նախընտրական քարոզարշավներում մաթեմատիկական մոդելները հիմնված են ժողովրդագրական տվյալների վրա՝ տարիք, ռասա, սեռ, եկամուտ, կարգավիճակ հասարակության մեջ և այլն: Յուրաքանչյուր խմբի կշիռը որոշվում է նրանով, թե ինչպես են նրանք քվեարկել վերջին ընտրություններում: Այս կանխատեսումն ունի 3-4% սխալ և հուսալիորեն աշխատում է, երբ թեկնածուների միջև մեծ տարբերություն կա։ Բայց այս դեպքում Քլինթոնի և Թրամփի միջև անջրպետը փոքր էր, և այս սխալը էական ազդեցություն ունեցավ ընտրությունների արդյունքների վրա։
Մարդկանց իռացիոնալ պահվածքը հաշվի չի առնվել. Հասարակական կարծիքի հարցումները պատրանք են ստեղծում, որ մարդիկ կքվեարկեն այնպես, ինչպես պատասխանել են հարցումներում: Բայց երբեմն հակառակն են անում։ Այս դեպքում անհրաժեշտ կլինի լրացուցիչ իրականացնել դեմքի և խոսքի վերլուծություն՝ քվեարկության նկատմամբ անազնիվ վերաբերմունքը բացահայտելու համար։

Ընդհանուր առմամբ, կանխատեսումը սխալ է ստացվել՝ թեկնածուների միջև փոքր անջրպետի պատճառով։ Մեծ բացի դեպքում այս սխալներն այնքան էլ որոշիչ չէին լինի։

Տեսանյութ. Նոր մասնագիտացում «Մեծ տվյալներ» - Միխայիլ Լևին

Տվյալների գիտնական ինֆոգրաֆիկայում. Մասնագիտությունը թարմ է, բարձր վարձատրվող և հայտնի։ Բայց ի՞նչ հմտություններ պետք է ունենա նման մասնագետը։ Եկեք դիտարկենք.

Եկեք խոսենք հմտությունների մասին

Տվյալների գիտնականը ընդհանուր մասնագետ է, որը լուսաբանում է վերլուծությունը և տեղեկատվության մշակումը: Տվյալների գիտնականը հասկանում է վիճակագրությունը և ծրագրավորումը: Օգտակար է, չէ՞։ Յուրաքանչյուր անհատական տվյալների գիտնականի հնարավորությունների շրջանակը աստիճանավորում է և կարող է շարժվել դեպի կոդավորում կամ մաքուր վիճակագրություն:

Տվյալների վերլուծաբան՝ հիմնված Սան Ֆրանցիսկոյում: Որոշ ընկերություններ իրականում տվյալների գիտնականներին համեմատում են վերլուծաբանների հետ: Նման մասնագետի աշխատանքը հանգում է տվյալների բազայից տեղեկատվության կորզմանը, Excel-ի հետ շփվելուն և հիմնական վիզուալիզացիային:
Հսկայական տրաֆիկը և տվյալների մեծ քանակությունը ստիպում են որոշ ընկերությունների շտապ փնտրել ճիշտ մասնագետ. Նրանք հաճախ տեղադրում են հայտարարություններ՝ փնտրելով ինժեներներ, վերլուծաբաններ, ծրագրավորողներ կամ գիտնականներ՝ բոլորը մտքում ունենալով նույն աշխատանքի անվանումը:
Կան ընկերություններ, որոնց համար տվյալները արտադրանք են: Այս դեպքում կպահանջվի ինտենսիվ վերլուծություն և մեքենայական ուսուցում:
Այլ ընկերությունների համար տվյալները արտադրանք չեն, այլ կառավարումը կամ աշխատանքային հոսքը կառուցված են դրա վրա: Տվյալների գիտնականներ են փնտրվում նաև ընկերության տվյալների կառուցվածքի համար:

Վերնագրերը լի են «21-րդ դարի ամենասեքսուալ մասնագիտությունը» ոճով վերնագրերով։ Մենք չգիտենք, թե արդյոք դա ճիշտ է, բայց մենք գիտենք, որ տվյալների գիտնականը պետք է հասկանա.

Մաթեմատիկա և վիճակագրություն.
Առարկայական տարածք և ծրագրակազմ:
Ծրագրավորում և տվյալների բազա:
Տվյալների փոխանակում և պատկերացում:

Եկեք նայենք յուրաքանչյուր կետին ավելի մանրամասն:

Տվյալների գիտնական և մաթեմատիկական վիճակագրություն

Զարգացում մաթեմատիկական մեթոդներվիճակագրական տվյալների օգտագործումը աշխատանքի հիմնարար մասն է: Մաթեմատիկական վիճակագրությունը հիմնված է հավանականությունների տեսության վրա, ինչը հնարավորություն է տալիս ճշգրիտ եզրակացություններ անել և գնահատել դրանց հավաստիությունը։

1. Մեքենայի ուսուցում, որպես AI-ի ենթաբաժին: Կա ուսումնական ծրագիր և տվյալների օրինակներ՝ նախշերով։ Մենք ձևավորում ենք օրինաչափության մոդել, իրականացնում ենք այն և հնարավորություն ենք ստանում ծրագրի միջոցով նոր տվյալների մեջ օրինաչափություններ փնտրել։

2. Տվյալների գիտնականը պետք է իմանա վիճակագրական մոդելավորումմոդելը ստուգելու հավանականության որոշակի խտությամբ պատահական ազդանշաններով: Նպատակը ստացված արդյունքները վիճակագրականորեն որոշելն է։

3. Փորձարարական ձևավորում. Փորձերի ընթացքում մեկ կամ մի քանի փոփոխականներ փոխվում են՝ տարբերությունը տեսնելու համար: Տվյալ դեպքում գործում է միջամտության խումբ և վերահսկիչ խումբ, որոնց շնորհիվ իրականացվում է թեստը։

4. Բայեսյան եզրակացությունն օգնում է հարմարեցնել վարկածի հավանականությունը:

5. Վերահսկվող ուսուցում.

որոշման ծառեր;
պատահական անտառներ;
լոգիստիկ ռեգրեսիա.

6. Չվերահսկվող ուսուցում.

կլաստերավորում;
չափի կրճատում.

7. Օպտիմալացում: գրադիենտ վայրէջքև տարբերակներ:

Դոմենի և ծրագրային ապահովման հմտություններ

Սովորեք և պրակտիկա: Սա այս մասնագիտության հիմքն է: Տվյալների գիտնականը պետք է լավ իմանա գիտության վրա ազդող առարկայական ոլորտը, ինչպես նաև ծանոթ լինի ծրագրային ապահովմանը:

Պահանջվող հմտությունների ցանկը տարօրինակ է, բայց ոչ պակաս օգտակար.

Ծրագրավորում և տվյալների բազաներ

Սկսած հիմունքներից մինչև Python, XaaS, հարաբերական հանրահաշիվ և SQL իմացություն: Ընդհանրապես, ամեն ինչ, առանց որի տվյալների որակապես մշակելու փորձերն անօգուտ են։

1. Համակարգչային գիտության հիմունքներ, որպես մեկնարկային կետ յուրաքանչյուրի համար, ով կյանքը կապում է ծրագրավորման և գործընթացների ավտոմատացման հետ:

Տվյալների գիտություն, մեքենայական ուսուցում. դուք հավանաբար լսել եք այս մեծ բառերը, բայց որքանո՞վ էր դրանց նշանակությունը ձեզ համար պարզ: Ոմանց համար դրանք գեղեցիկ խայծեր են։ Ոմանք կարծում են, որ տվյալների գիտությունը կախարդանք է, որը կստիպի մեքենային անել այն, ինչ պատվիրվում է անվճար: Մյուսները նույնիսկ հավատում են, որ դա այդպես է հեշտ ճանապարհհսկայական գումար վաստակել. Նիկիտա Նիկիտինսկին, IRELA-ի R&D ղեկավարը և տվյալների գիտնական Պոլինա Կազակովան, պարզ և հասկանալի լեզվով բացատրում են, թե ինչ է սա:

Ես աշխատում եմ բնական լեզվի ավտոմատ մշակման մեջ, տվյալների գիտության կիրառություն, և հաճախ տեսնում եմ, որ մարդիկ սխալ են օգտագործում այս տերմինները, ուստի ուզում էի մի փոքր պարզաբանել: Այս հոդվածը նրանց համար է, ովքեր քիչ են պատկերացնում, թե ինչ է տվյալների գիտությունը և ցանկանում են հասկանալ հասկացությունները:

Եկեք սահմանենք տերմինաբանությունը

Սկսենք նրանից, որ ոչ ոք իրականում հստակ չգիտի, թե ինչ է տվյալների գիտությունը, և չկա խիստ սահմանում. դա շատ լայն և միջդիսցիպլինար հասկացություն է: Ուստի այստեղ ես կկիսվեմ իմ տեսլականով, որը պարտադիր չէ, որ համընկնի ուրիշների կարծիքների հետ։

Տվյալների գիտություն տերմինը ռուսերեն թարգմանվում է որպես «տվյալների գիտություն», իսկ մասնագիտական միջավայրում այն հաճախ պարզապես տառադարձվում է որպես «տվյալների գիտություն»: Ֆորմալ առումով սա համակարգչային գիտության և մաթեմատիկայի ոլորտի որոշ փոխկապակցված առարկաների և մեթոդների մի շարք է: Չափից դուրս վերացական է հնչում, չէ՞: Եկեք պարզենք այն:

Առաջին մաս. տվյալներ

Տվյալների գիտության առաջին բաղադրիչը, առանց որի անհնարին է ողջ հետագա գործընթացը, իրականում հենց տվյալներն են. ինչպես դրանք հավաքել, պահել և մշակել, ինչպես նաև ինչպես դրանք առանձնացնել ընդհանուր տվյալների զանգվածից: օգտակար տեղեկատվություն. Մասնագետներն իրենց աշխատանքային ժամանակի մինչև 80%-ը տրամադրում են տվյալների մաքրմանը և դրանք ցանկալի ձևին հասցնելուն:

Այս կետի կարևոր մասն այն է, թե ինչպես կարգավորել այն տվյալները, որոնց համար ստանդարտ պահպանման և մշակման մեթոդները հարմար չեն դրանց հսկայական ծավալի և/կամ բազմազանության պատճառով, այսպես կոչված, մեծ տվյալներ: Ի դեպ, թույլ մի տվեք ձեզ շփոթել. մեծ տվյալները և տվյալների գիտությունը հոմանիշներ չեն, ավելի շուտ, առաջինը երկրորդի ենթաբաժինն է: Միևնույն ժամանակ, տվյալների վերլուծաբանները գործնականում միշտ չէ, որ պետք է աշխատեն մեծ տվյալների հետ. փոքր տվյալները նույնպես կարող են օգտակար լինել:

Եկեք հավաքենք տվյալներ

Պատկերացրեք, որ մեզ հետաքրքրում է, թե արդյոք որևէ կապ կա ձեր աշխատանքային գործընկերների կողմից օրվա ընթացքում խմած սուրճի և նախորդ գիշերվա քնի միջև: Գրի առնենք մեզ հասանելի տեղեկատվությունը. ենթադրենք ձեր գործընկեր Գրիգորին այսօր քնել է 4 ժամ, ուստի ստիպված է եղել խմել 3 բաժակ սուրճ; Էլինան քնել է 9 ժամ և ընդհանրապես սուրճ չի խմել; և Պոլինան քնել է բոլոր 10 ժամը, բայց խմել է 2,5 բաժակ սուրճ և այլն:

Ստացված տվյալները ցուցադրենք գրաֆիկի վրա (տեսողականացումը նաև տվյալների գիտության ցանկացած նախագծի կարևոր տարր է): Եկեք X առանցքի վրա գծենք ժամանակը ժամերով, իսկ Y առանցքի վրա սուրճը միլիլիտրներով: Մենք կստանանք այսպիսի բան.

Երկրորդ մասը՝ գիտություն

Մենք ունենք տվյալներ, հիմա ի՞նչ կարող ենք անել դրա հետ։ Ճիշտ է, վերլուծեք, հանեք օգտակար օրինաչափություններ և ինչ-որ կերպ օգտագործեք դրանք: Այստեղ մեզ կօգնեն այնպիսի առարկաներ, ինչպիսիք են վիճակագրությունը, մեքենայական ուսուցումը և օպտիմալացումը:

Դրանք կազմում են տվյալների գիտության հաջորդ և, հավանաբար, ամենակարևոր բաղադրիչը՝ տվյալների վերլուծությունը: Մեքենայի ուսուցումը թույլ է տալիս գտնել օրինաչափություններ գոյություն ունեցող տվյալների մեջ, որպեսզի այնուհետև կարողանաք կանխատեսել համապատասխան տեղեկատվությունը նոր օբյեկտների համար:

Վերլուծենք տվյալները

Վերադառնանք մեր օրինակին։ Աչքին թվում է, թե այդ երկու պարամետրերը ինչ-որ կերպ փոխկապակցված են՝ մարդ ինչքան քիչ է քնել, այնքան սուրճ է խմելու հաջորդ օրը։ Միաժամանակ մենք ունենք նաև այս միտումից առանձնացող օրինակ՝ Պոլինան, ով սիրում է քնել և սուրճ խմել։ Այնուամենայնիվ, դուք կարող եք փորձել մոտավորել ստացված օրինաչափությունը որոշ ընդհանուր ուղիղ գծով, որպեսզի այն հնարավորինս մոտենա բոլոր կետերին.

Կանաչ գիծը մեր մեքենայական ուսուցման մոդելն է, այն ընդհանրացնում է տվյալները և կարելի է նկարագրել մաթեմատիկորեն: Այժմ դրա օգնությամբ մենք կարող ենք նոր օբյեկտների արժեքներ որոշել. երբ ուզում ենք գուշակել, թե այսօր գրասենյակ մտած Նիկիտան որքան սուրճ կխմի, կհարցնենք, թե որքան է նա քնել։ Որպես պատասխան ստանալով 7,5 ժամ արժեքը՝ մենք այն փոխարինում ենք մոդելի մեջ՝ այն համապատասխանում է 300 մլ-ից մի փոքր պակաս ծավալով սպառված սուրճի քանակին: Կարմիր կետը ներկայացնում է մեր կանխատեսումը:

Մոտավորապես այսպես է աշխատում մեքենայական ուսուցումը, որի գաղափարը շատ պարզ է՝ գտնել օրինաչափություն և տարածել այն նոր տվյալների վրա: Փաստորեն, մեքենայական ուսուցման մեջ կա առաջադրանքների ևս մեկ դաս, երբ պետք չէ կանխատեսել որոշ արժեքներ, ինչպես մեր օրինակում, այլ բաժանել տվյալները որոշակի խմբերի: Բայց այս մասին ավելի մանրամասն կխոսենք մեկ այլ անգամ։

Եկեք կիրառենք արդյունքը

Այնուամենայնիվ, իմ կարծիքով, տվյալների գիտությունը չի ավարտվում տվյալների մեջ օրինաչափությունների նույնականացմամբ: Տվյալների գիտության ցանկացած նախագիծ է կիրառական հետազոտություն, որտեղ կարևոր է չմոռանալ այնպիսի բաների մասին, ինչպիսիք են վարկած դնելը, փորձի պլանավորումը և, իհարկե, գնահատել արդյունքը և դրա համապատասխանությունը կոնկրետ գործի լուծմանը։

Վերջինս շատ կարևոր է իրական բիզնեսի խնդիրներում, երբ պետք է հասկանալ՝ արդյո՞ք տվյալների գիտության կողմից հայտնաբերված լուծումը օգուտ կտա ձեր նախագծին, թե ոչ։ Ո՞րն է լինելու կառուցված մոդելի օգտակարությունը մեր օրինակում: Թերևս դրա օգնությամբ մենք կարող էինք օպտիմալացնել սուրճի առաքումը գրասենյակ: Միևնույն ժամանակ, մենք պետք է գնահատենք ռիսկերը և որոշենք, թե արդյոք մեր մոդելն ավելի լավ կհաղթահարի դրան, քան առկա լուծումը՝ գրասենյակի մենեջեր Միխայիլը, որը պատասխանատու է արտադրանքի գնման համար:

Եկեք բացառություններ գտնենք

Իհարկե, մեր օրինակը հնարավորինս պարզեցված է։ Իրականում հնարավոր կլիներ կառուցել ավելի բարդ մոդել, որը հաշվի կառնի որոշ այլ գործոններ, օրինակ՝ սկզբունքորեն սիրո՞ւմ է արդյոք մարդը սուրճ։ Կամ մոդելը կարող է գտնել հարաբերություններ, որոնք ավելի բարդ են, քան ուղիղ գծով ներկայացվածները:

Մենք կարող էինք նախ մեր տվյալների մեջ փնտրել արտանետումներ՝ առարկաներ, որոնք, ինչպես Պոլինան, շատ տարբեր են մյուսներից շատերից: Փաստն այն է, որ իրական աշխատանքում նման օրինակները կարող են վատ ազդեցություն ունենալ մոդելի կառուցման գործընթացի և դրա որակի վրա, և իմաստ ունի դրանք մշակել այլ կերպ։ Եվ երբեմն նման օբյեկտները առաջնային հետաքրքրություն են ներկայացնում, օրինակ, բանկային անոմալ գործարքների հայտնաբերման խնդիր՝ խարդախությունները կանխելու համար։

Բացի այդ, Պոլինան մեզ ցույց է տալիս ևս մեկ կարևոր գաղափար՝ մեքենայական ուսուցման ալգորիթմների անկատարությունը։ Մեր մոդելը կանխատեսում է ընդամենը 100 մլ սուրճ այն մարդու համար, ով քնած է 10 ժամ, մինչդեռ իրականում Պոլինան խմել է մինչև 500: Տվյալների գիտության լուծումների հաճախորդները երբեք չեն հավատա դրան, բայց դեռևս անհնար է մեքենային սովորեցնել ամեն ինչ կատարելապես կանխատեսել: աշխարհում. Անկախ նրանից, թե որքան լավ ենք մենք տվյալների օրինաչափությունները բացահայտելու հարցում, միշտ կլինեն անկանխատեսելի տարրեր:

Շարունակենք պատմությունը

Այսպիսով, տվյալների գիտությունը տվյալների մշակման և վերլուծության և դրանք գործնական խնդիրների մեջ կիրառելու մեթոդների մի շարք է: Միևնույն ժամանակ, դուք պետք է հասկանաք, որ յուրաքանչյուր մասնագետ ունի իր տեսակետն այս ոլորտի վերաբերյալ, և կարծիքները կարող են տարբեր լինել:

Տվյալների գիտությունը հիմնված է բավականին պարզ գաղափարների վրա, սակայն գործնականում հաճախ հայտնաբերվում են բազմաթիվ ոչ ակնհայտ նրբություններ: Ինչպես է տվյալների գիտությունը մեզ շրջապատում Առօրյա կյանք, տվյալների վերլուծության ինչ մեթոդներ կան, ումի՞ց է կազմված տվյալների գիտության թիմը և ինչ դժվարություններ կարող են առաջանալ հետազոտության ընթացքում, այս մասին կխոսենք հաջորդ հոդվածներում։