Uy Og'izdan hid Ma'lumot olimi qayerda o'qish kerak. Ma'lumotlar fani nima va u qanday ishlaydi? Video: "Katta ma'lumotlar" yangi mutaxassisligi - Mixail Levin

Ma'lumot olimi qayerda o'qish kerak. Ma'lumotlar fani nima va u qanday ishlaydi? Video: "Katta ma'lumotlar" yangi mutaxassisligi - Mixail Levin

Qanday qilib ma'lumotlar tahlilchisi bo'lishni, ma'lumotlar fanini o'rganishni uzoq vaqtdan beri orzu qilganmisiz, lekin qaerdan boshlashni bilmayapsizmi? Keyin ushbu maqola siz uchun.

Bizning oramizda kim "katta ma'lumotlar" haqida eshitmagan? Hech bo'lmaganda bitta bo'lishi dargumon. IN o'tgan yillar Ma'lumotlar bilan ishlashga bo'lgan qiziqish sezilarli darajada oshdi, chunki yirik IT-kompaniyalar ma'lumotlarni tahlil qilish, qayta ishlash va undan keyin foydalanish uchun tobora ko'proq yangi echimlarni taklif qilishlari kerak. Ba'zilar hatto ishga tushirishadi o'quv dasturlari universitetlar bilan birgalikda. Biroq, ko'pchilik ma'lumotlar tahlilchilari qanday odamlar ekanligini tushunishmaydi. Agar siz ham shunday odamlardan bo'lsangiz va ma'lumotlar tahlilchisi bo'lishni xohlasangiz, unda ushbu maqola siz uchun. Biz faqat joylashuvingizdan qat'iy nazar foydalanishingiz mumkin bo'lgan bepul o'quv vositalarini tanladik.

Ma'lumotlar tahlilchilari nima qiladi?

Ma'lumotlar tahlilchilari deb ataladiganlar vizual, inson tomonidan qabul qilinadigan natijalarni olish uchun uning ma'lumotlari va tahlillari bilan shug'ullanadilar. Bunday odamlar odatda katta ma'lumotlar, ma'lumotlarni qazib olish, mashinalarni o'rganish, tizimlarni tahlil qilish va biznes tahlilchilarni o'z ichiga oladi.

Nimani tomosha qilish kerak

Yandex-dan "Ma'lumotlarni tahlil qilish maktabi" ma'ruzalari

SHAD - Yandex xodimlaridan ma'lumotlarni tahlil qilish bo'yicha kurslar. U erga kirish juda qiyin; abituriyentlar uchun talab qilinadigan minimal narsa oliy algebraning asosiy bo'limlari,matematik tahlil, kombinatorika, ehtimollar nazariyasi, shuningdek, dasturlash asoslari. Yaxshiyamki, kurslar hamma video ma'ruzalardan o'rganishi uchun yozib olingan.

Mashina o'rganish kursi

Kurs ehtimollik nazariyasi va statistikasini qanday qo'llashni o'rgatadi, mashinani o'rganish asoslari haqida gapiradi va algoritmlarni qanday qurishni o'rgatadi.

"Ma'lumotlarni qidirish algoritmlari va tuzilmalari" kursi

Ma'ruzalar katta hajmdagi ma'lumotlarni qidirish va saralash algoritmlari, algoritmlar va satrlarni manipulyatsiya qilish, grafik-nazariy algoritmlar, ma'lumotlar tuzilmalarini qurish va tahlil qilishni o'z ichiga oladi.

"Parallel va taqsimlangan hisoblash" kursi

Ko'p bosqichli va parallel dasturlash, shuningdek MapReduce bilan uzoq vaqtdan beri tanishishni istaganlar uchun.

"Diskret tahlil va ehtimollar nazariyasi" kursi

Kursda kombinatoryal, diskret va asimptotik tahlilning asosiy tushunchalari va usullari, ehtimollar nazariyasi, statistika o'rganiladi, shuningdek, ularning qo'llanilishi ko'rsatiladi.

"Hisoblashning murakkabligi" kursi

Kursni ko'rganingizdan so'ng, siz ehtimollik murakkabligi sinflari va ma'lumotlarni tahlil qilish va qurishning asosiy usullari haqida bilib olasiz.

Ma'ruzalar Technostream Mail.ru Group

Kurs dasturlari bir nechta Moskva universitetlari talabalari uchun mo'ljallangan, ammo hamma uchun mavjud. Kelajakdagi tahlilchilarga quyidagi ma'ruzalar to'plamini tavsiya qilamiz:

Big Data universiteti ma'ruzalari

Big Data universiteti - onlayn kurs, IBM bilan birgalikda yangi boshlanuvchilar va matematik bilimi bo'lmagan odamlar uchun yaratilgan. Ma'lumotlar bilan ishlash asoslari bilan tanishishga yordam beradigan ma'ruzalar aniq ingliz tilida yozilgan.

Welch laboratoriyalari

Bu kanalda matematika, informatika, dasturlash va mashinani oʻrganish boʻyicha maʼruzalar mavjud. Jarayonda o'rganilayotgan narsalarning qo'llanilishiga misollar keltiriladi haqiqiy hayot. Ma'ruzalar ingliz tilida, lekin ajoyib ruscha subtitrlar mavjud.

Xo'sh " Strukturaviy ma’lumotlardan o‘rganish: ehtimolli grafik modellarga kirish”Kompyuter fanlari fakulteti, Milliy tadqiqot universiteti Oliy iqtisodiyot maktabi

Kurs bugungi kunda bunday muammolarni hal qilishning eng mashhur usullaridan biri - diskret ehtimollik nazariyasi va qo'llanilishiga chuqur kirishga qaratilgan. grafik modellar. Kurs tili ingliz tilidir.

Sendex kanali

Kanal butunlay ma'lumotlar bilan ishlashga bag'ishlangan. Bundan tashqari, nafaqat matematikaga qiziquvchilar o'zlari uchun foydali narsalarni topadilar. Rasperri Pi yordamida moliyaviy tahlilchilar va robototexnika uchun tahlil va dasturlash bo'yicha videolar mavjud.

Siraj Raval kanali

Yigit gapiradi zamonaviy texnologiyalar va ular bilan qanday ishlash kerak. Chuqur o'rganish, ma'lumotlar fanlari va mashinalarni o'rganish kurslari sizga ma'lumotlar bilan ishlashni o'rganishga yordam beradi.

Data School kanali

Agar siz faqat mashinani o'rganish haqida biror narsa eshitgan bo'lsangiz, lekin allaqachon qiziqsangiz, unda bu kanal siz uchun. Muallif tushunarli darajada, bu nima ekanligini, qanday ishlashini va qaerda ishlatilishini misollar bilan tushuntiradi.

Qaerda mashq qilish

Ma'ruzalarni tomosha qilish orqali to'liq mustaqil o'qishga tayyor ekanligiga ishonchi komil bo'lmaganlar uchun tekshirish vazifalari bo'lgan onlayn kurslar mavjud.

Coursera-da ma'lumotlar fanlari kurslari

Bu qanday platforma ekanligini tushuntirishning hojati yo'q. Siz kursni tanlashingiz va o'qishni boshlashingiz kerak.

Stepik.org

R.dagi ma'lumotlarni tahlil qilish

Birinchi qism R da statistik tahlilning barcha asosiy bosqichlarini o'z ichiga oladi, ma'lumotlarni o'qish, ma'lumotlarni oldindan qayta ishlash, asosiy statistik usullarni qo'llash va natijalarni vizualizatsiya qilish. Talabalar R tilida dasturlashning asosiy elementlarini o'rganadilar, bu esa ma'lumotlarni qayta ishlashda yuzaga keladigan keng ko'lamli muammolarni tez va samarali hal qilish imkonini beradi.

Ikkinchi qism birinchisida yoritilmagan bir qancha ilg'or mavzularni qamrab oladi: data.table va dplyr paketlari yordamida ma'lumotlarni oldindan qayta ishlash, ilg'or vizualizatsiya usullari, R Markdown da ishlash.

Ma'lumotlar bazalariga kirish

DBMSga kiring

Kurs relyatsion DBMS bilan tajribaga ega bo'lgan va ular qanday ishlashi haqida ko'proq bilishni istaganlar uchundir. Kurs quyidagilarni o'z ichiga oladi:

  • ma'lumotlar bazasi sxemalarini loyihalash;
  • tranzaktsiyalarni boshqarish;
  • so'rovlarni optimallashtirish;
  • relyatsion DBMSning yangi xususiyatlari

Hadoop. Katta hajmdagi ma'lumotlarni qayta ishlash tizimi

Kurs Hadoop tizimi yordamida katta hajmdagi ma'lumotlarni qayta ishlash usullariga bag'ishlangan. Kursni tugatganingizdan so'ng siz katta hajmdagi ma'lumotlarni saqlash va qayta ishlashning asosiy usullari haqida bilimga ega bo'lasiz, Hadoop ramkasi kontekstida taqsimlangan tizimlar tamoyillarini tushunasiz va MapReduce dasturlash modelidan foydalangan holda amaliy dasturlarni ishlab chiqish ko'nikmalarini egallaysiz.

Bugungi kunda ko'plab ish beruvchilar ma'lumotlar bo'yicha olimlarni faol ravishda qidirmoqdalar. Shu bilan birga, ular tegishli ma'lumotga ega bo'lgan "olimlarni" jalb qilishdan manfaatdor. Shu bilan birga, siz bozor to'la bo'lgan barcha noto'g'ri ma'lumotlarni hisobga olishingiz kerak. Biz sizga Data Scientists va Data Scientists haqidagi eng katta noto'g'ri tushunchalar, ular ega bo'lishi kerak bo'lgan ko'nikmalar va bu noyob zot kimligi haqida gapirib beramiz.

Ma'lumotlar fan(Data Science) — informatika fanining maʼlumotlarni raqamli shaklda tahlil qilish, qayta ishlash va taqdim etish muammolarini oʻrganuvchi sohasi. Ma'lumotlar fani katta hajmdagi va yuqori darajadagi parallellikdagi ma'lumotlarni qayta ishlash usullarini, statistik usullarni, ma'lumotlarni qidirish usullarini va ma'lumotlar bilan ishlash uchun sun'iy intellekt ilovalarini, shuningdek, ma'lumotlar bazalarini loyihalash va rivojlantirish usullarini birlashtiradi. Akademik intizom sifatida qaraladi. 2010-yillarning boshidan boshlab u amaliy tarmoqlararo faoliyat sohasi sifatida mavqega ega bo'ldi. 2010-yillarning boshidan beri "ma'lumot olimi" ixtisosligi eng yuqori haq to'lanadigan, jozibali va istiqbolli kasblardan biri hisoblanadi.

Ma'lumotlar fanidagi noto'g'ri tushunchalar

1. Katta ma'lumotlar - bu katta hajmdagi ma'lumotlarga ega bo'lgan statistika va biznes-tahlil. Bu yerda hech qanday yangilik yo‘q

Bu fikr asosan dasturiy ta'minotni ishlab chiqishda cheklangan tajribaga ega yoki umuman tajribaga ega bo'lmagan odamlar tomonidan qabul qilinadi. O'xshatishni xohlaysizmi? Iltimos. Misol tariqasida muzni olaylik. Buni juda sovuq suv deb atash mumkin. Bu yerda nima yangiliklar bor? Biroq, sovutish suvi nafaqat uning haroratini o'zgartiradi, balki uning sifat xususiyatlarini tubdan o'zgartiradi, suyuqlikni qattiq holatga keltiradi. Xuddi shu narsani katta hajmdagi ma'lumotlar haqida ham aytish mumkin. Katta hajmdagi ma'lumotlar oxir-oqibatda hisob-kitoblar, hisob-kitoblar va hisob-kitoblarning eski paradigmalarini buzadi. Foydalanish an'anaviy usullar Biznes tahlilchilari uchun ma'lum hisob-kitoblarni amalga oshirish uchun yillar kerak bo'lishi mumkin. Parallelizatsiya va taqsimlangan hisoblash masshtablash haqidagi savolga aniq javobdir. Ammo bu har doim ham oson emas, hatto logistik regressiya tahlili kabi oddiy statistik vosita bilan ham. Taqsimlangan statistik hisoblash an'anaviy biznes tahlilidan muz suvdan qanday farq qiladi.

2. Ma'lumotlar bo'yicha olimlar rebrendingdan keyin bir xil dasturiy ta'minot muhandislari

Ba'zida dasturiy ta'minotni ishlab chiqishda katta tajribaga ega bo'lgan muhandislar qayta tayyorlashdan o'tadilar va takomillashtirish uchun ma'lumotlar olimi bo'lishadi ish haqi. Biroq, bu amaliyot ko'pincha qoniqarsiz natijalarga olib keladi. Haqiqatan ham, katta ma'lumotlar sohasida statistik xatolarni hatto eng oddiy darajada tuzatish juda qiyin vazifa bo'lib tuyuladi. Muhandislar dasturiy ta'minotdagi xatolarni aniqlash va tuzatish uchun o'qitiladi. Ammo ehtimollik nazariyasi va statistikasi bo'yicha mustahkam bilimga ega bo'lmasa, hatto ajoyib dasturchi ham oddiy statistik xatoni muvaffaqiyatli bartaraf eta olmaydi.


Yuqori darajadagi muhandislar oddiy, diskret, qoidalarga asoslangan modellarni qurishga qodir. Ammo bunday modellar ma'lumotlardan yanada nozikroq tushunchalarni olish uchun mos emas. Shunday qilib, moliyaviy foyda yo'qoladi. Shuning uchun, "katta ma'lumotlar savollariga" javob olish uchun yuqori malakali va yuqori ixtisoslashgan xodimlar kerak bo'lib, ular bashoratli modellashtirishning keyingi avlodining asosi bo'ladi.

3. Ma'lumotlar bo'yicha olimlar biznesni tushunishlari shart emas - ma'lumotlar ularga hamma narsani aytib beradi

Ta'lim va dasturchi sifatida tajribaga ega bo'lgan odamlar ko'pincha bu vasvasaga tushib qolishadi. Va haqiqatan ham, agar ular shunday kuchli bazaga ega bo'lsa, nima uchun ular biznesni tushunishlari kerak? Qudratli, lekin hamma narsaga qodir emas. Barcha mumkin bo'lgan o'zaro bog'liqliklarni topish juda ko'p mehnat talab qiladi va ko'p vaqt talab qiladi, statistik jihatdan muammoli emas. Ma'lumotlar bo'yicha olimlar yolg'on va haqiqiy korrelyatsiyani muvaffaqiyatli ajratish uchun o'zlarining biznes sezgilaridan foydalanishlari kerak. Muayyan sohada mutaxassis bilimlarining etishmasligi asossiz xulosalarga olib kelishi mumkin. Bu sizga qanday yoqadi? Politsiya xodimlari sonining ko'payishi jinoyatchilikning ko'payishiga olib keladi, bu esa jinoyatchilik holati noqulay hududlarda huquqni muhofaza qilish organlari xodimlari sonini qisqartirish zarurligini bildiradi. Va nihoyat, asosiy manfaatdor tomonlarni ishontirish uchun biznes sezgiga ega bo'lish ham muhimdir: ishbilarmonlar tushunadigan tilda korrelyatsiyalar haqida gapirish orqali ma'lumot olimi ishbilarmonlik qobiliyatiga ega bo'lmagan hamkasbga qaraganda muvaffaqiyatliroq bo'ladi.


Katta ma'lumotlar va ma'lumotlar fani - bu to'g'ri muhandislik, statistik va biznes ko'nikmalarini birlashtirgan optimal modelni yaratish haqidagi bilimdir. Busiz ma'lumot olimi o'zi xohlagan hamma narsaga erisha olmaydi.

Xo'sh, ma'lumotlar olimlari kimlar?

Ma'lumotlar bo'yicha olimlar biznes va ma'lumotlar tahlilchilarining evolyutsiyasi mahsulidir. Bunday mutaxassislar uchun rasmiy tayyorgarlik informatika, statistika, analitika va matematikani o'z ichiga oladi. Yuqori darajadagi ma'lumot olimi nima qiladi? Kuchli ishbilarmonlik qobiliyati biznes va IT yetakchilari bilan kompaniya o'sishiga ta'sir ko'rsatadigan tarzda muloqot qilish qobiliyati bilan birlashtiriladi. IBM katta ma'lumotlar bo'yicha vitse-prezidenti Anjul Bambraning aytishicha, ma'lumotlar bo'yicha olimlar "qisman tahlilchi va qisman rassom". Bu ma'lumotlarga qarash va tendentsiyalarni aniqlay oladigan juda qiziquvchan odamlar. Ularni nafaqat o'rganishni, balki atrofdagi dunyoni ham o'zgartirishni xohlagan Uyg'onish davri rassomlari bilan solishtirish mumkin.

An'anaviy tahlilchi ma'lumotlarni bitta manbadan tahlil qilganda (masalan, CRM tizimlari), ma'lumot olimi bir nechta turli manbalardan olingan ma'lumotlarni o'rganishi shart. U barcha kiruvchi ma'lumotlarni agressiv ravishda elakdan o'tkazadi, bu esa oldindan yashirin bo'lgan ma'lumotlarni topishga yordam beradi. raqobatdosh ustunlik. Ma'lumot olimi shunchaki ma'lumotlarni to'playdi va tahlil qilmaydi, balki ularni turli tomonlardan ko'rib chiqadi va turli kontekstlarda tahlil qiladi, u yoki bu ma'lumotlar brend uchun nimani anglatishini aniqlaydi va keyin mavjud ma'lumotlardan qanday foydalanish bo'yicha tavsiyalar beradi.


Ma'lumotlar bo'yicha olimlar - doimiy izlanishlar olib boradigan, millionlab savollarni so'raydigan, "agar nima bo'lsa ..." tahlilini amalga oshiradigan, mavjud taxminlar va jarayonlarni shubha ostiga qo'yadigan, boy ma'lumotlar manbalarini aniqlaydigan va ularni zaif ma'lumotlar to'plamlari bilan bog'laydigan odamlardir ... Vazifalar doimiy ravishda bajariladigan raqobat muhitida. o'zgarish va ma'lumotlarning tez oqimi hech qachon tugamaydi, ma'lumotlar olimlari boshqaruvga yordam beradi Qaror qabul qilmoq. Va bu ularning eng qimmatli sifati.

Nima uchun "olimlar"?

Ko'pchilik ma'lumotlar olimini "ma'lumotlar olimi" deb atash juda va juda da'vogarlik ekanligini ta'kidlaydi. Biroq, agar siz ildizga qarashga harakat qilsangiz, bu formuladan mantiqiy bo'ladi. Misol uchun, eksperimental fiziklar asbob-uskunalarni loyihalashlari va qurishlari, ma'lumotlarni to'plashlari, tajribalar o'tkazishlari va hisobotlarda barcha topilmalarni umumlashtirishlari kerak. Ma'lumotlar olimlari xuddi shunday qilishadi. Shuning uchun, eng yuqori malakali ma'lumotlar olimlari fizika yoki ijtimoiy fanlar bo'yicha yuqori darajaga ega odamlar hisoblanadi.


Sayyoradagi eng yaxshi ma'lumotlar olimlari ekologiya va tizim biologiyasi kabi ezoterik sohalarda fan nomzodi ilmiy darajasiga ega olimlardir. Ajoyib misol- Silikon vodiysidagi Intuit ma'lumotlar bo'yicha olimlar guruhini boshqaradigan Jorj Rumeliotis. U astrofizika fanlari nomzodi ilmiy darajasini oldi. Ko'pgina ma'lumotlar olimlari egalari ilmiy darajalar informatika, matematika va iqtisod fanlarida. Ammo, qanday bo'lmasin, yaxshi mutaxassis, ma'lumotlarni tahlil qilish bo'yicha ixtisoslashgan, har qanday sohadan kelib chiqishi mumkin.


Ma'lumot olimisiz qila olmaydigan asosiy ko'nikmalar

Asosiy vositalar. Kompaniyaning vazifasi qanday bo'lishidan qat'i nazar, ma'lumot olimi asosiy vositalardan qanday foydalanishni bilishi kerak: statistik ma'lumotlarni qayta ishlash va grafikalar uchun R dasturlash tili, ishlab chiquvchilarning samaradorligi va kodni o'qish qobiliyatini yaxshilashga qaratilgan yuqori darajadagi Python dasturlash tili, Strukturaviy so'rovlar tili, masalan. SQL ixtiyoriy relyatsion ma'lumotlar bazasida ma'lumotlarni yaratish, o'zgartirish va manipulyatsiya qilish uchun ishlatiladi.

Asosiy statistika. Statistikani tushunish ma'lumot olimi uchun juda muhimdir. Hech kimga sir emaski, ko'plab mutaxassislar hatto P-qiymatini - testda ishlatiladigan qiymatni aniqlay olmaydilar. statistik farazlar. Ma'lumot olimi shunchaki statistik testlar, taqsimotlar, maksimal ehtimollikni baholash va hokazolar bilan tanish bo'lishi kerak. Statistika muhim ahamiyatga ega turli hududlar biznes, ayniqsa ma'lumotlarga asoslangan kompaniyalar uchun


Mashinani o'rganish. Agar ma'lumot olimi katta hajmdagi ma'lumotlarga ega yirik kompaniyada ishlasa, u mashinani o'rganish usullari bilan tanish bo'lishi kerak. Albatta, bu usullarning ko‘pchiligi R yoki Python kutubxonalari yordamida amalga oshirilishi mumkin, shuning uchun algoritmlar qanday ishlashini tushunish uchun dunyoning yetakchi mutaxassisi bo‘lish shart emas. Muayyan usullardan foydalanish qachon to'g'ri bo'lishini tushunish juda muhimdir.

Ko'p o'lchovli hisoblar va chiziqli algebra. Ushbu fanlar ko'plab mashinalarni o'rganish usullarining asosini tashkil qiladi.

Ma'lumotlarni tahlil qilish uchun tayyorlash. Ko'pincha tahlil qilingan ma'lumotlar juda "iflos" bo'lib, ular bilan ishlashni ancha qiyinlashtiradi. Shuning uchun, ma'lumotlarning barcha kamchiliklari bilan qanday kurashish kerakligini bilish juda muhimdir. Nomukammal ma'lumotlarga misol sifatida "Nyu-York" - "nyu-york" - "ny" yoki "2014-01-01" - "01/01/2014" sanalari kabi qatorlarni nomuvofiq formatlash yoki UNIX tizimi vaqti va ketma-ketligi Vaqt tamg'asi.

Ma'lumotlarni vizuallashtirish va aloqa. Bu aqlga sig'maydi muhim nuqtalar, ayniqsa, biz yosh ma'lumotlarga asoslangan kompaniyalar yoki ma'lumotlar olimlari ma'lumotlarga asoslangan qarorlar qabul qilishda yordam beradigan odamlar sifatida qabul qilinadigan kompaniyalar haqida gapirganda. D3.js ma'lumotlarini qayta ishlash va vizualizatsiya qilish uchun ggplot (R tilining kengaytmasi) va JavaScript kutubxonasini bilish juda foydali bo'ladi.

Dasturlash. Ma'lumotlar olimlari odatda katta hajmdagi ro'yxatga olish ma'lumotlari va ma'lumotlarga asoslangan mahsulotlar bilan ishlash uchun javobgardir.

Ma'lumot olimi kabi o'ylab ko'ring. Ish beruvchi har doim ma'lumot olimini muammoni hal qiluvchi sifatida ko'rishni xohlaydi. "Olim" har doim bu bosqichda nima muhim va nima alohida ahamiyatga ega emasligini bilishi kerak. U mahsulotni ishlab chiqish uchun mas'ul bo'lgan dizaynerlar va menejerlar bilan o'zaro aloqada bo'lishi talab qilinadi.


Garvard Business Review jurnali ma'lumot olimi 21-asrning eng seksual kasbi ekanligini ta'kidlaydi. Va bu bilan rozi bo'lmaslik qiyin. Ma'lumotlar fani endi rivojlanmoqda va barcha zamonaviy ma'lumotlar olimlarini kashshoflar deb atash mumkin. Va agar siz statistiklar orasida eng yaxshi IT mutaxassisi va IT mutaxassislari orasida eng yaxshi statistik deb ayta olsangiz, siz haqiqiy ma'lumot olimisiz.

Ushbu maqolani tayyorlashda foydalanilgan materiallar

Ma'lumot olimi- "Katta ma'lumotlar" deb ataladigan katta hajmdagi ma'lumotlarni qayta ishlash, tahlil qilish va saqlash bo'yicha mutaxassis. Kasb fizika, matematika va informatika fanlariga qiziquvchilar uchun javob beradi (Maktab fanlariga qiziqish asosida kasb tanlashga qarang).

Data Science - turli fanlar chorrahasida joylashgan ma'lumotlar fan: matematika va statistika; Informatika va kompyuter fanlari; biznes va iqtisodiyot.

(S. Maltseva, V. Kornilov Milliy tadqiqot universiteti “Oliy iqtisodiyot maktabi”)

Kasb yangi, dolzarb va... "Katta ma'lumotlar" atamasi 2008 yilda paydo bo'lgan. Va Data Scientist kasbi - "Data Scientist" 2010 yil boshida akademik va fanlararo intizom sifatida rasman ro'yxatga olingan. Garchi "ma'lumotlar fani" atamasi birinchi marta 1974 yilda Piter Naur kitobida qayd etilgan, ammo boshqacha tarzda kontekst.

Bunday kasbning paydo bo'lishi zarurati Ultra Big Data haqida gap ketganda, ma'lumotlar massivlari standart matematik statistika vositalari bilan ishlov berish uchun juda katta bo'lib chiqishi bilan bog'liq edi. Har kuni butun dunyo bo'ylab kompaniyalar serverlari orqali minglab petabaytlar (10 15 bayt = 1024 terabayt) ma'lumotlar o'tadi. Bunday hajmdagi ma'lumotlarga qo'shimcha ravishda, muammo ularning heterojenligi bilan murakkablashadi va yuqori tezlik yangilanishlar.

Ma'lumotlar massivlari 3 turga bo'linadi:

tuzilgan (masalan, savdodagi kassa apparatlari ma'lumotlari);

yarim tuzilgan (elektron pochta xabarlari);

tuzilmagan (videofayllar, tasvirlar, fotosuratlar).

Katta ma'lumotlarning aksariyati tuzilmagan, bu esa ularni qayta ishlashni ancha qiyinlashtiradi.

Individual ravishda, statistik, tizim tahlilchisi yoki biznes tahlilchisi bunday hajmdagi ma'lumotlar bilan bog'liq muammolarni hal qila olmaydi. Buning uchun fanlararo ta'limga ega, matematika va statistika, iqtisodiyot va biznes, informatika va kompyuter texnologiyalari bo'yicha malakali shaxs talab qilinadi.

Data Scientistning asosiy vazifasi - real vaqt rejimida axborot oqimlaridan foydalangan holda turli xil manbalardan kerakli ma'lumotlarni olish qobiliyati; ma'lumotlar to'plamlarida yashirin naqshlarni aniqlash va aqlli biznes qarorlarini qabul qilish uchun ularni statistik tahlil qilish. Bunday mutaxassisning ish joyi 1 ta kompyuter yoki hatto 1 ta server emas, balki serverlar klasteridir.

Kasbning xususiyatlari

Ma'lumotlar bilan ishlashda Data Scientist turli usullardan foydalanadi:

  • statistik usullar;
  • ma'lumotlar bazasini modellashtirish;
  • qazib olish usullari;
  • ma'lumotlar bilan ishlash uchun sun'iy intellekt ilovalari;
  • ma'lumotlar bazalarini loyihalash va ishlab chiqish usullari.

Ma'lumotlar olimining ish vazifalari uning faoliyat sohasiga bog'liq, ammo umumiy ro'yxat funktsiyalari quyidagicha ko'rinadi:

  • keyingi operativ ishlov berish uchun turli manbalardan ma'lumotlarni yig'ish;
  • iste'molchi xatti-harakatlarini tahlil qilish;
  • mijozlar bazasini modellashtirish va mahsulotni shaxsiylashtirish;
  • samaradorlikni tahlil qilish ichki jarayonlar asoslar;
  • turli xavflarni tahlil qilish;
  • shubhali operatsiyalarni o'rganish orqali mumkin bo'lgan firibgarlikni aniqlash;
  • prognozlar va ma'lumotlar taqdimoti bilan davriy hisobotlarni tuzish.

Ma'lumot olimi, haqiqiy olim kabi, nafaqat ma'lumotlarni to'playdi va tahlil qiladi, balki uni turli kontekstlarda va turli tomonlardan o'rganadi, har qanday taxminlarni shubha ostiga oladi. Eng muhim sifat ma'lumotlar olimi - to'plangan ma'lumotlar tizimidagi mantiqiy bog'lanishlarni ko'rish qobiliyati va unga asoslanadi miqdoriy tahlil samarali biznes yechimlarini ishlab chiqish. Bugungi raqobatbardosh va tez o‘zgarib borayotgan dunyoda, doimiy ravishda o‘sib borayotgan axborot oqimida to‘g‘ri biznes qarorlarini qabul qilish nuqtai nazaridan ma’lumotlar bo‘yicha mutaxassis boshqaruv uchun ajralmas hisoblanadi.

Kasbning ijobiy va salbiy tomonlari

pros

  • Kasb nafaqat juda talabga ega, balki bunday darajadagi mutaxassislarning keskin etishmasligi mavjud. McKinsey Global instituti ma'lumotlariga ko'ra, 2018 yilga borib, birgina AQShning o'zida 190 mingdan ortiq ma'lumot olimi kerak bo'ladi. Shuning uchun eng nufuzli universitetlarda ma'lumotlar bo'yicha olimlarni tayyorlash uchun fakultetlar juda tez va keng moliyalashtiriladi va rivojlanadi. Rossiyada ham Data Scientistsga talab ortib bormoqda.
  • Yuqori maoshli kasb.
  • Doimiy ravishda rivojlanish, IT-texnologiyalarning rivojlanishidan xabardor bo'lish, ma'lumotlarni qayta ishlash, tahlil qilish va saqlashning yangi usullarini yaratish zarurati.

Minuslar

  • Bu kasbni hamma ham egallab ololmaydi, buning uchun alohida tafakkur talab etiladi.
  • Ish jarayonida taniqli usullar va 60% dan ortiq g'oyalar ishlamasligi mumkin. Ko'pgina echimlar muvaffaqiyatsiz bo'ladi va qoniqarli natijalarga erishish uchun siz ko'p sabr-toqatli bo'lishingiz kerak. Olimning: “YO‘Q!” deyishga haqqi yo‘q. muammo. U muammoni hal qilishga yordam beradigan yo'lni topishi kerak.

Ish joyi

Ma'lumotshunoslar quyidagi sohalarda asosiy o'rinlarni egallaydilar:

  • texnologik tarmoqlar (avtomobil navigatsiya tizimlari, dori vositalari ishlab chiqarish va boshqalar);
  • IT sohasi (qidiruv tizimini optimallashtirish, spam-filtr, yangiliklarni tizimlashtirish, matnni avtomatik tarjima qilish va boshqalar);
  • tibbiyot (kasalliklarning avtomatik diagnostikasi);
  • moliyaviy tuzilmalar (kreditlar berish to'g'risida qaror qabul qilish) va boshqalar;
  • televizion kompaniyalar;
  • yirik chakana savdo tarmoqlari;
  • saylov kampaniyalari.

Muhim fazilatlar

  • Analitik aql;
  • qiyin ish;
  • qat'iyatlilik;
  • ehtiyotkorlik, aniqlik, ehtiyotkorlik;
  • muvaffaqiyatsiz oraliq natijalarga qaramay, tadqiqotni yakunlash qobiliyati;
  • aloqa maxorati;
  • murakkab narsalarni oddiy so'zlar bilan tushuntirish qobiliyati;
  • biznes sezgi.

Professional bilim va ko'nikmalar:

  • matematika, matematik tahlil, matematik statistika, ehtimollar nazariyasiga oid bilimlar;
  • ingliz tilini bilish;
  • katta ma'lumotlar to'plamlari bilan ishlash uchun komponentlarga ega bo'lgan asosiy dasturlash tillarini bilish: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • statistik vositalarni bilish - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • ma'lumotlar olimi ishlaydigan sohani mukammal bilish; agar bu farmatsevtika sanoati bo'lsa, unda asosiy ishlab chiqarish jarayonlari va dori tarkibiy qismlarini bilish kerak;
  • Ma'lumotlar olimining asosiy asosiy mahorati - bu katta hajmdagi ma'lumotlar uchun klaster saqlash tizimlarini tashkil etish va boshqarish;
  • biznesni rivojlantirish qonunlarini bilish;
  • iqtisodiy bilim.

Universitetlar

  • nomidagi Moskva davlat universiteti Lomonosov, Hisoblash matematikasi va kibernetika fakulteti, maxsus ta'lim dasturi Mail.Ru Group "Texnosfera", katta hajmdagi ma'lumotlarni aqlli tahlil qilish usullari, C ++ da dasturlash, ko'p bosqichli dasturlash va axborot qidirish tizimlarini qurish texnologiyasi bo'yicha trening bilan.
  • MIPT, Ma'lumotlarni tahlil qilish bo'limi.
  • Milliy tadqiqot universiteti Iqtisodiyot oliy maktabi qoshidagi Biznes informatika fakulteti tizim tahlilchilari, murakkab axborot tizimlarini loyihalash va joriy etuvchilar, korporativ axborot tizimlarini boshqarish tashkilotchilari tayyorlaydi.
  • Yandex ma'lumotlarni tahlil qilish maktabi.
  • Innopolis universiteti, Dandi universiteti, Janubiy Kaliforniya universiteti, Oklend universiteti, Vashington universiteti: Katta ma'lumotlar bo'yicha magistrlik dasturlari.
  • Imperial College London Business School, MSc Data Science and Management.

Har qanday kasbda bo'lgani kabi, bu erda ham o'z-o'zini tarbiyalash muhim ahamiyatga ega, bu shubhasiz quyidagi manbalardan foyda keltiradi:

  • dunyoning yetakchi universitetlaridan onlayn kurslar COURSERA;
  • mashina o'rganish kanali MASHIN LEARNING;
  • edX kurslarini tanlash;
  • Udacity kurslari;
  • Dataquest kurslari, bu erda siz Data Science bo'yicha haqiqiy professional bo'lishingiz mumkin;
  • 6 bosqichli Datacamp kurslari;
  • O'Reilly trening videolari;
  • yangi boshlanuvchilar va ilg'or Data Origami uchun skrinshotlar;
  • har choraklik mutaxassislar konferentsiyasi Moskva Data Scientists Meetup;
  • Kaggle.com ma'lumotlar tahlili tanlovlari

Ish haqi

07.04.2019 dan boshlab ish haqi

Rossiya 50000-200000 ₽

Moskva 60000-300000 ₽

Data Scientist kasbi eng yuqori maosh oladigan kasblardan biridir. hh.ru veb-saytidan olingan ma'lumotlar - oylik maoshi 8,5 ming dollardan 9 ming dollargacha.AQShda bunday mutaxassisning ish haqi yiliga 110 ming dollar - 140 ming dollarni tashkil qiladi.

Superjob tadqiqot markazi tomonidan o'tkazilgan so'rovga ko'ra, Data Scientist mutaxassislarining maoshi ish tajribasiga, mas'uliyat doirasiga va mintaqaga bog'liq. Ajam mutaxassis 70 ming rublga ishonishi mumkin. Moskvada va 57 ming rubl. Sank Peterburgda. 3 yilgacha ish tajribasi bilan ish haqi 110 ming rublgacha oshadi. Moskvada va 90 ming rubl. Sank Peterburgda. Ilmiy nashrlarga ega bo'lgan tajribali mutaxassislar uchun ish haqi 220 ming rublga yetishi mumkin. Moskvada va 180 ming rubl. Peterburgda.

Karyera qadamlari va istiqbollari

Data Scientist kasbining o'zi bir qancha kasblar bo'yicha jiddiy nazariy bilim va amaliy tajribani talab qiladigan yuksak yutuqdir. Har qanday tashkilotda bunday mutaxassis asosiy shaxs hisoblanadi. Bu yuksaklikka erishish uchun kasbning asosini tashkil etuvchi barcha sohalarda astoydil va maqsadli mehnat qilish va doimiy ravishda takomillashtirib borish kerak.

Data Scientist haqida bir hazil bor: u har qanday statistikdan yaxshiroq dasturlashadigan va statistikani har qanday dasturchidan yaxshiroq biladigan umumiy mutaxassis. Va u kompaniya rahbaridan ko'ra biznes jarayonlarini yaxshiroq tushunadi.

NIMA BO'LDI "KATTA DATA"haqiqiy raqamlarda?

  1. Har 2 kunda ma'lumotlar hajmi Masihning tug'ilishidan 2003 yilgacha insoniyat tomonidan yaratilgan ma'lumotlar hajmiga ko'payadi.
  2. Bugungi kunda barcha mavjud ma'lumotlarning 90% so'nggi 2 yil ichida paydo bo'lgan.
  3. 2020 yilga borib axborot hajmi 3,2 dan 40 zettabaytgacha oshadi. 1 zettabayt = 10 21 bayt.
  4. Facebook’ga 1 daqiqa ichida 200 ming surat yuklanadi, 205 million xat yuboriladi, 1,8 million layk bosiladi.
  5. 1 soniya ichida Google 40 ming qidiruv so'rovlarini qayta ishlaydi.
  6. Har 1,2 yilda har bir sohada ma'lumotlarning umumiy hajmi ikki barobar ortadi.
  7. 2020 yilga kelib, Hadoop xizmatlari bozori 50 milliard dollargacha o'sadi.
  8. 2015-yilda AQShda Big Data loyihalarida ishlaydigan mutaxassislar uchun 1,9 million ish o‘rni yaratilgan.
  9. Big Data texnologiyalari chakana savdo tarmoqlari foydasini yiliga 60 foizga oshiradi.
  10. Prognozlarga ko'ra, Big Data bozori hajmi 2014 yildagi 28,5 milliard dollarga nisbatan 2020 yilda 68,7 milliard dollargacha oshadi.

Bunday ijobiy o'sish ko'rsatkichlariga qaramay, prognozlarda xatolar ham mavjud. Masalan, 2016-yilning eng mashhur xatolaridan biri: AQSh prezidentlik saylovlari haqidagi prognozlar amalga oshmadi. Prognozlarni Hillari Klinton foydasiga AQShning mashhur maʼlumot olimlari Neyt Silver, Kirk Born va Bill Shmarzo taqdim etdi. Avvalgi saylov kampaniyalarida ular aniq prognozlar berib, hech qachon adashmagan.

Bu yil, masalan, Neyt Silver berdi aniq prognoz 41 shtat uchun, lekin 9 shtat uchun u noto'g'ri edi, bu Trampning g'alabasiga olib keldi. 2016 yilgi xatolar sabablarini tahlil qilib, ular shunday xulosaga kelishdi:

  1. Matematik modellar yaratilish vaqtidagi rasmni xolisona aks ettiradi. Ammo ularning yarim umri bor, uning oxiriga kelib vaziyat keskin o'zgarishi mumkin. Modelning bashoratli fazilatlari vaqt o'tishi bilan yomonlashadi. IN Ushbu holatda, masalan, qonunbuzarlik, daromadlar tengsizligi va boshqa ijtimoiy to'ntarishlar rol o'ynadi. Shuning uchun, yangi ma'lumotlarni hisobga olish uchun model muntazam ravishda tuzatilishi kerak. Bu qilinmadi.
  2. Prognozlarga sezilarli ta'sir ko'rsatadigan qo'shimcha ma'lumotlarni izlash va ko'rib chiqish kerak. Shunday qilib, Klinton va Tramp saylovoldi kampaniyalaridagi mitinglar videolarini tomosha qilishda mitinglarda qatnashganlarning umumiy soni hisobga olinmagan. Bu yuzlab odamlar haqida edi. Ma’lum bo‘lishicha, har bir mitingda Tramp foydasiga 400-600, Klinton foydasiga esa bor-yo‘g‘i 150-200 kishi qatnashgan, bu esa natijalarga ta’sir qilgan.
  3. Saylov kampaniyalarida matematik modellar demografik ma’lumotlarga asoslanadi: yoshi, irqi, jinsi, daromadi, jamiyatdagi holati va boshqalar. Har bir guruhning vazni oxirgi saylovda qanday ovoz berganiga qarab belgilanadi. Ushbu prognoz 3-4% xatolikka ega va nomzodlar o'rtasida katta bo'shliq mavjud bo'lganda ishonchli ishlaydi. Ammo bu holatda Klinton va Tramp o‘rtasidagi tafovut unchalik katta emas edi va bu xato saylov natijalariga sezilarli ta’sir ko‘rsatdi.
  4. Odamlarning mantiqsiz xatti-harakatlari e'tiborga olinmadi. O'tkazilgan ijtimoiy so'rovlar odamlar so'rovnomada qanday javob bergan bo'lsa, shunday ovoz beradi degan xayolni keltirib chiqaradi. Ammo ba'zida ular buning aksini qiladilar. Bunday holda, ovoz berishga nisbatan insofsiz munosabatni aniqlash uchun qo'shimcha ravishda yuz va nutq tahlilini o'tkazish kerak bo'ladi.

Umuman olganda, nomzodlar orasidagi tafovut kichik bo'lgani uchun bashorat noto'g'ri bo'lib chiqdi. Katta bo'shliq bo'lsa, bu xatolar unchalik hal qiluvchi bo'lmaydi.

Video: "Katta ma'lumotlar" yangi mutaxassisligi - Mixail Levin

Infografika bo'yicha ma'lumot olimi. Kasb yangi, yuqori maoshli va taniqli. Ammo bunday mutaxassis qanday ko'nikmalarga ega bo'lishi kerak? Keling, ko'rib chiqaylik.

Keling, mahorat haqida gapiraylik

Ma'lumot olimi - bu tahlil va ma'lumotlarni qayta ishlashni qamrab oluvchi generalist. Ma'lumot olimi statistika va dasturlashni tushunadi. Foydali, shunday emasmi? Har bir maʼlumot olimining imkoniyatlari darajasi daraja boʻlib, kodlash yoki sof statistikaga oʻtishi mumkin.

  • San-Fransiskoda joylashgan ma'lumotlar tahlilchisi. Ba'zi kompaniyalar aslida Data Scientistsni tahlilchilar bilan solishtirishadi. Bunday mutaxassisning ishi ma'lumotlar bazasidan ma'lumot olish, Excel bilan o'zaro ishlash va asosiy vizualizatsiyadan iborat.
  • Katta trafik va katta hajmdagi ma'lumotlar ba'zi firmalarni shoshilinch ravishda qidirishga majbur qilmoqda to'g'ri mutaxassis. Ular ko'pincha muhandislar, tahlilchilar, dasturchilar yoki olimlarni qidirayotgan e'lonlarni joylashtiradilar, ularning barchasi bir xil lavozimni hisobga olgan holda.
  • Ma'lumotlar mahsulot bo'lgan kompaniyalar mavjud. Bunday holda, intensiv tahlil va mashinani o'rganish talab qilinadi.
  • Boshqa kompaniyalar uchun ma'lumotlar mahsulot emas, balki boshqaruv yoki ish jarayonining o'zi unga asoslanadi. Kompaniya ma'lumotlarini tuzish uchun ma'lumotlar bo'yicha olimlar ham qidiriladi.

Sarlavhalar "XXI asrning eng seksual kasbi" uslubidagi sarlavhalarga to'la. Bu to'g'ri yoki yo'qligini bilmaymiz, lekin ma'lumot olimi tushunishi kerakligini bilamiz:

  1. Matematika va statistika.
  2. Mavzu sohasi va dasturiy ta'minot.
  3. Dasturlash va ma'lumotlar bazasi.
  4. Ma'lumotlar almashinuvi va vizualizatsiya.

Keling, har bir nuqtani batafsil ko'rib chiqaylik.

Ma'lumot olimi va matematik statistika

Rivojlanish matematik usullar statistik ma'lumotlardan foydalanish ishning asosiy qismidir. Matematik statistika ehtimollar nazariyasiga asoslanadi, bu esa aniq xulosalar chiqarish va ularning ishonchliligini baholash imkonini beradi.

1. Mashinani o'rganish, AIning kichik bo'limi sifatida. O'quv dasturi va naqshli ma'lumotlarga misollar mavjud. Biz naqsh modelini shakllantiramiz, uni amalga oshiramiz va dastur yordamida yangi ma'lumotlarda naqshlarni izlash imkoniyatiga ega bo'lamiz.

2. Ma'lumot olimi bilishi kerak statistik modellashtirish modelni ma'lum bir ehtimollik zichligi bilan tasodifiy signallar bilan sinab ko'rish. Maqsad - olingan natijalarni statistik aniqlash.

3. Eksperimental loyihalash. Tajribalar davomida bir yoki bir nechta o'zgaruvchilar farqni ko'rish uchun o'zgartiriladi. Bunday holda, aralashuv guruhi va nazorat guruhi mavjud bo'lib, ular tufayli test o'tkaziladi.

4. Bayes xulosasi gipoteza ehtimolini moslashtirishga yordam beradi.

5. Nazorat ostidagi trening:

  • qaror daraxtlari;
  • tasodifiy o'rmonlar;
  • logistik regressiya.

6. Nazoratsiz ta’lim:

  • klasterlash;
  • o'lchamlarni kamaytirish.

7. Optimallashtirish: gradient tushish va variantlar.

Domen va dasturiy ta'minot qobiliyatlari

O'qing va mashq qiling! Bu ushbu mutaxassislikning asosidir. Ma'lumot olimi fan ta'sir qiladigan mavzuni yaxshi tushunishi va dasturiy ta'minotni yaxshi bilishi kerak.

Kerakli ko'nikmalar ro'yxati g'alati, ammo foydaliroq emas:

Dasturlash va ma'lumotlar bazalari

Python, XaaS, relyatsion algebra va SQL asoslarini bilishgacha. Umuman olganda, ma'lumotlarni sifatli qayta ishlashga urinishlarsiz hamma narsa foydasizdir.

1. Informatika asoslari, hayotni dasturlash va jarayonlarni avtomatlashtirish bilan bog'laydigan har bir kishi uchun boshlang'ich nuqta sifatida.

Maʼlumotlar fani, mashinani oʻrganish – bu katta soʻzlarni eshitgandirsiz, ammo ularning maʼnosi siz uchun qanchalik tushunarli edi? Ba'zilar uchun ular chiroyli yemlardir. Ba'zi odamlar ma'lumotlar fanini sehrgarlik deb o'ylashadi, bu esa mashinani buyurtma qilingan hamma narsani bepul qilishga majbur qiladi. Boshqalar hatto shunday deb ishonishadi oson yo'l katta pul ishlang. IRELA ilmiy-tadqiqot bo'limi rahbari Nikita Nikitinskiy va ma'lumot olimi Polina Kazakova bu nima ekanligini sodda va tushunarli tilda tushuntirib berishadi.

Men tabiiy tilni avtomatik qayta ishlashda, ma'lumotlar fanining ilovasida ishlayman va ko'pincha odamlar bu atamalarni noto'g'ri ishlatayotganini ko'raman, shuning uchun men biroz aniqlik kiritmoqchi edim. Ushbu maqola ma'lumotlar fani nima ekanligini bilmaydigan va tushunchalarni tushunishni istaganlar uchun.

Keling, terminologiyani aniqlaylik

Keling, hech kim ma'lumotlar fani nima ekanligini aniq bilmasligi va qat'iy ta'rifi yo'qligidan boshlaylik - bu juda keng va fanlararo tushuncha. Shuning uchun, men bu erda men o'z qarashlarimni baham ko'raman, bu boshqalarning fikrlari bilan mutlaqo mos kelmaydi.

Ma'lumotlar fani atamasi rus tiliga "ma'lumotlar fani" deb tarjima qilinadi va professional muhitda u ko'pincha "ma'lumotlar fani" deb tarjima qilinadi. Rasmiy ravishda, bu informatika va matematika sohasidagi ba'zi o'zaro bog'liq fanlar va usullar to'plamidir. Juda mavhum ko'rinadi, to'g'rimi? Keling, buni aniqlaylik.

Birinchi qism: ma'lumotlar

Ma'lumotlar fanining birinchi komponenti, ya'ni ularsiz butun keyingi jarayonni amalga oshirish mumkin bo'lmagan narsa, aslida ma'lumotlarning o'zi: uni qanday yig'ish, saqlash va qayta ishlash, shuningdek uni umumiy ma'lumotlar majmuasidan qanday ajratish kerak. foydali ma'lumotlar. Mutaxassislar ish vaqtining 80% gacha ma'lumotlarni tozalash va kerakli shaklga keltirish uchun ajratadilar.

Ushbu nuqtaning muhim qismi - bu katta hajmli va/yoki xilma-xilligi sababli standart saqlash va qayta ishlash usullari mos kelmaydigan ma'lumotlarga qanday ishlov berish - katta ma'lumotlar deb ataladigan. Aytgancha, o'zingizni chalkashtirib yuborishga yo'l qo'ymang: katta ma'lumotlar va ma'lumotlar fanlari sinonimlar emas: aksincha, birinchisi ikkinchisining kichik bo'limi. Shu bilan birga, amaliyotda ma'lumotlar tahlilchilari har doim ham katta ma'lumotlar bilan ishlashlari shart emas - kichik ma'lumotlar ham foydali bo'lishi mumkin.

Keling, ma'lumotlarni yig'amiz

Tasavvur qiling-a, bizni ishdagi hamkasblaringiz kun davomida qancha kofe ichishlari va kechasi qancha uxlashlari o'rtasida bog'liqlik bor-yo'qligi qiziqtiradi. Keling, bizda mavjud bo'lgan ma'lumotlarni yozaylik: deylik, sizning hamkasbingiz Gregori bugun 4 soat uxladi, shuning uchun u 3 stakan kofe ichishga majbur bo'ldi; Ellina 9 soat uxladi va umuman qahva ichmadi; va Polina 10 soat davomida uxladi, lekin 2,5 chashka qahva ichdi - va hokazo.

Keling, olingan ma'lumotlarni grafikda ko'rsatamiz (vizuallashtirish ham har qanday ma'lumot fanining muhim elementidir). Keling, X o'qi bo'yicha vaqtni soatlarda, Y o'qi bo'yicha millilitrda kofeni chizamiz. Biz shunga o'xshash narsani olamiz:

Ikkinchi qism: fan

Bizda ma'lumotlar bor, endi u bilan nima qilishimiz mumkin? To'g'ri, tahlil qiling, foydali naqshlarni chiqarib oling va qandaydir tarzda ulardan foydalaning. Bu erda bizga statistika, mashinani o'rganish va optimallashtirish kabi fanlar yordam beradi.

Ular ma'lumotlar fanining keyingi va ehtimol eng muhim tarkibiy qismini - ma'lumotlarni tahlil qilishni tashkil qiladi. Mashinani o'rganish sizga mavjud ma'lumotlardagi naqshlarni topishga imkon beradi, shunda siz yangi ob'ektlar uchun tegishli ma'lumotlarni taxmin qilishingiz mumkin.

Keling, ma'lumotlarni tahlil qilaylik

Keling, misolimizga qaytaylik. Ko'zga qaraganda, bu ikki parametr qandaydir tarzda bir-biriga bog'langandek tuyuladi: odam qancha kam uxlasa, ertasi kuni shunchalik ko'p qahva ichadi. Shu bilan birga, bizda bu tendentsiyadan ajralib turadigan misol ham bor - uxlashni va qahva ichishni yaxshi ko'radigan Polina. Shunga qaramay, siz hosil bo'lgan naqshni barcha nuqtalarga iloji boricha yaqinlashishi uchun umumiy to'g'ri chiziq bilan yaqinlashishga harakat qilishingiz mumkin:

Yashil chiziq bizning mashinani o'rganish modelimiz bo'lib, u ma'lumotlarni umumlashtiradi va matematik tarzda tavsiflanishi mumkin. Endi uning yordami bilan biz yangi ob'ektlar uchun qiymatlarni aniqlashimiz mumkin: biz ofisga kirgan Nikita bugun qancha kofe ichishini taxmin qilmoqchi bo'lganimizda, biz uning qancha uxlaganini so'raymiz. Javob sifatida 7,5 soat qiymatini olganimizdan so'ng, biz uni modelga almashtiramiz - bu 300 ml dan bir oz kamroq hajmda iste'mol qilingan qahva miqdoriga to'g'ri keladi. Qizil nuqta bizning bashoratimizni ifodalaydi.

Mashinani o'rganish taxminan shunday ishlaydi, uning g'oyasi juda oddiy: naqsh toping va uni yangi ma'lumotlarga kengaytiring. Aslida, mashinani o'rganishda, bizning misolimizdagi kabi ba'zi qiymatlarni bashorat qilishning hojati yo'q, lekin ma'lumotlarni ma'lum guruhlarga bo'lish kerak bo'lgan vazifalarning yana bir sinfi mavjud. Ammo bu haqda boshqa safar batafsilroq gaplashamiz.

Keling, natijani qo'llaymiz

Biroq, mening fikrimcha, ma'lumotlar fani ma'lumotlardagi naqshlarni aniqlash bilan tugamaydi. Har qanday ma'lumotlar fanining loyihasi amaliy tadqiqotlar, bu erda gipotezani o'rnatish, eksperimentni rejalashtirish va, albatta, natijani va uning muayyan ishni hal qilish uchun mosligini baholash kabi narsalarni unutmaslik kerak.

Ikkinchisi, ma'lumotlar fani tomonidan topilgan yechim loyihangizga foyda keltiradimi yoki yo'qligini tushunishingiz kerak bo'lgan haqiqiy biznes muammolarida juda muhimdir. Bizning misolimizda qurilgan modelning foydasi nima bo'ladi? Ehtimol, uning yordami bilan biz qahvani ofisga etkazib berishni optimallashtirishimiz mumkin. Shu bilan birga, biz xavflarni baholashimiz va bizning modelimiz mavjud echimdan ko'ra yaxshiroq bardosh bera oladimi yoki yo'qligini aniqlashimiz kerak - mahsulotni sotib olish uchun mas'ul bo'lgan ofis menejeri Mixail.

Keling, istisnolarni topaylik

Albatta, bizning misolimiz iloji boricha soddalashtirilgan. Aslida, ba'zi boshqa omillarni hisobga oladigan murakkabroq modelni qurish mumkin bo'ladi, masalan, odam qahvani yoqtiradimi yoki yo'qmi. Yoki model to'g'ri chiziq bilan ifodalanganidan ko'ra murakkabroq munosabatlarni topishi mumkin.

Biz birinchi navbatda o'z ma'lumotlarimizdan chetga chiqqanlarni izlashimiz mumkin - Polina kabi boshqa ob'ektlardan juda farq qiladigan ob'ektlar. Gap shundaki, real ishda bunday misollar model qurish jarayoniga va uning sifatiga yomon ta’sir ko‘rsatishi mumkin va ularni boshqa usulda qayta ishlash mantiqan to‘g‘ri keladi. Va ba'zida bunday ob'ektlar, masalan, firibgarlikning oldini olish uchun anomal bank operatsiyalarini aniqlash vazifasida asosiy qiziqish uyg'otadi.

Bundan tashqari, Polina bizga yana bir muhim g'oyani - mashinani o'rganish algoritmlarining nomukammalligini ko'rsatadi. Bizning modelimiz 10 soat uxlagan odam uchun atigi 100 ml kofe ichishni bashorat qiladi, aslida Polina esa 500 tagacha ko'p ichgan. Ma'lumotshunoslik yechimlari mijozlari bunga hech qachon ishonishmaydi, lekin baribir mashinani hamma narsani mukammal bashorat qilishga o'rgatishning iloji yo'q. dunyoda : Ma'lumotlardagi naqshlarni aniqlashda qanchalik yaxshi bo'lishimizdan qat'iy nazar, har doim oldindan aytib bo'lmaydigan elementlar bo'ladi.

Keling, hikoyani davom ettiramiz

Shunday qilib, ma'lumotlar fani - bu ma'lumotlarni qayta ishlash va tahlil qilish va ularni amaliy muammolarga qo'llash usullari to'plami. Shu bilan birga, har bir mutaxassisning ushbu sohada o'z nuqtai nazari borligini va fikrlar farq qilishi mumkinligini tushunishingiz kerak.

Ma'lumotlar fani juda oddiy g'oyalarga asoslanadi, ammo amalda ko'pincha aniq bo'lmagan nozikliklar topiladi. Ma'lumotlar fani bizni qanday o'rab oladi Kundalik hayot, ma'lumotlarni tahlil qilishning qanday usullari mavjud, ma'lumotlar fanlari guruhi kimdan iborat va tadqiqot jarayonida qanday qiyinchiliklar paydo bo'lishi mumkin - bu haqda keyingi maqolalarda gaplashamiz.



Saytda yangi

>

Eng mashhur