Ev Ağızdan qoxu Harada təhsil almaq üçün məlumat alimi. Məlumat elmi nədir və necə işləyir? Video: Yeni ixtisas "Böyük məlumat" - Mixail Levin

Harada təhsil almaq üçün məlumat alimi. Məlumat elmi nədir və necə işləyir? Video: Yeni ixtisas "Böyük məlumat" - Mixail Levin

Çoxdandır ki, necə məlumat analitiki olmaq, məlumat elmini öyrənmək istəyirsiniz, lakin haradan başlayacağınızı bilmirdiniz? O zaman bu məqalə sizin üçündür.

Aramızda kim "böyük məlumat" haqqında eşitməmişdir? Ən azı birinin olması ehtimalı azdır. IN son illər Böyük İT şirkətləri verilənlərin təhlili, emalı və sonradan istifadəsi üçün getdikcə daha çox yeni həllər tapmalı olduqları üçün verilənlərlə işləməyə maraq xeyli artıb. Bəziləri hətta işə salır öyrənmə proqramları universitetlərlə birlikdə. Bununla belə, insanların çoxu məlumat analitiklərinin necə insanlar olduğunu başa düşmür. Əgər siz də belə insanlardansınızsa və məlumat analitiki olmaq istəyiniz varsa, bu məqalə sizin üçündür. Biz yalnız yerinizdən asılı olmayaraq istifadə edə biləcəyiniz pulsuz təlim vasitələri seçmişik.

Məlumat analitikləri nə edir?

Sözdə məlumat analitikləri vizual, insan tərəfindən qəbul edilən nəticələr əldə etmək üçün onun məlumat və təhlili ilə məşğul olurlar. Belə insanlara adətən böyük verilənlər, verilənlərin istehsalı, maşın öyrənməsi, sistem təhlili və biznes analitikləri üzrə mütəxəssislər daxildir.

Nə izləmək

Yandex-dən "Məlumatların Təhlili Məktəbi" mühazirələri

SHAD - Yandex işçilərindən məlumatların təhlili kursları. Oraya daxil olmaq olduqca çətindir, abituriyentlər üçün tələb olunan minimum ali cəbrin əsas bölmələridir;riyazi analiz, kombinatorika, ehtimal nəzəriyyəsi, həmçinin proqramlaşdırmanın əsasları. Xoşbəxtlikdən, kurslar qeyd olunur ki, hər kəs video mühazirələrdən öyrənə bilsin.

Maşın öyrənmə kursu

Kurs ehtimal nəzəriyyəsini və statistikanı necə tətbiq etməyi öyrədir, maşın öyrənməsinin əsasları haqqında danışır və alqoritmlər qurmağı öyrədir.

“Axtarış məlumatlarının alqoritmləri və strukturları” kursu

Mühazirələr böyük həcmli məlumatların axtarışı və çeşidlənməsi alqoritmlərini, alqoritmləri və sətirlərin manipulyasiyasını, qrafik-nəzəri alqoritmləri, verilənlər strukturlarının qurulması və təhlilini əhatə edir.

"Paralel və paylanmış hesablamalar" kursu

Çox yivli və paralel proqramlaşdırma, həmçinin MapReduce ilə tanış olmaq istəyənlər üçün.

“Diskret analiz və ehtimal nəzəriyyəsi” kursu

Kurs kombinatorial, diskret və asimptotik analizin, ehtimal nəzəriyyəsinin, statistikanın əsas anlayış və üsullarını araşdırır, həmçinin onların tətbiqini nümayiş etdirir.

"Hesablama mürəkkəbliyi" kursu

Kursu izlədikdən sonra siz ehtimala əsaslanan mürəkkəblik sinifləri və verilənlərin təhlili və qurulması üçün əsas texnikalar haqqında öyrənəcəksiniz.

Mühazirələr Technostream Mail.ru Group

Kurs proqramları bir neçə Moskva universitetinin tələbələri üçün nəzərdə tutulub, lakin hər kəs üçün əlçatandır. Gələcək analitiklərə aşağıdakı mühazirələr toplusunu tövsiyə edirik:

Big Data Universitetində mühazirələr

Big Data Universiteti - onlayn kurs, IBM ilə birgə yeni başlayanlar və riyazi bilikləri olmayan insanlar üçün yaradılmışdır. Məlumatlarla işləməyin əsasları ilə tanış olmağa kömək edən mühazirələr aydın ingilis dilində yazılır.

Welch Laboratoriyaları

Bu kanalda riyaziyyat, kompüter elmləri, proqramlaşdırma və maşın öyrənməsi üzrə mühazirələr var. Prosesdə öyrənilən şeylərin tətbiqi ilə bağlı nümunələr verilir həqiqi həyat. Mühazirələr ingilis dilindədir, lakin əla rusca subtitrlər var.

yaxşı" Strukturlaşdırılmış verilənlərdən öyrənmə: ehtimal qrafik modellərinə giriş”Kompüter Elmləri Fakültəsi, Milli Araşdırma Universiteti İqtisadiyyat Ali Məktəbi

Kurs bu gün belə problemlərin həlli üçün ən populyar yanaşmalardan birinin - diskret ehtimalın nəzəriyyəsi və tətbiqlərinə dərindən girişə yönəldilmişdir. qrafik modellər. Kursun dili ingilis dilidir.

Kanal senddex

Kanal tamamilə data ilə işləməyə həsr olunub. Üstəlik, təkcə riyaziyyatla maraqlananlar deyil, özləri üçün faydalı şeylər tapacaqlar. Rasperri Pi istifadə edərək maliyyə analitikləri və robototexnika üçün təhlil və proqramlaşdırma haqqında videolar var.

Siraj Rawal kanalı

Oğlan danışır müasir texnologiyalar və onlarla necə işləmək. Dərin öyrənmə, məlumat elmi və maşın öyrənmə kursları sizə məlumatlarla işləməyi öyrənməyə kömək edəcək.

Data School kanalı

Əgər siz maşın öyrənməsi haqqında nəsə eşitmisinizsə, lakin artıq maraqlanırsınızsa, bu kanal sizin üçündür. Müəllif bunun nə olduğunu, necə işlədiyini və harada istifadə edildiyini misallarla başa düşülən səviyyədə izah edəcəkdir.

Harada məşq etmək

Mühazirələrə baxaraq tamamilə müstəqil təhsil almağa hazır olduqlarına əmin olmayanlar üçün yoxlama ilə tapşırıqları olan onlayn kurslar var.

Coursera-da məlumat elmi kursları

Bunun hansı platforma olduğunu izah etməyə ehtiyac yoxdur. Bir kurs seçmək və öyrənməyə başlamaq lazımdır.

Stepik.org

R-də məlumatların təhlili

Birinci hissə R-də statistik təhlilin bütün əsas addımlarını, məlumatların oxunması, verilənlərin əvvəlcədən işlənməsi, əsas statistik metodların tətbiqi və nəticələrin vizuallaşdırılmasını əhatə edir. Tələbələr R dilində proqramlaşdırmanın əsas elementlərini öyrənəcəklər ki, bu da onlara verilənlərin işlənməsi zamanı yaranan geniş spektrli problemləri tez və səmərəli şəkildə həll etməyə imkan verəcək.

İkinci hissə birincidə əhatə olunmayan bir neçə qabaqcıl mövzuları əhatə edir: data.table və dplyr paketlərindən istifadə edərək məlumatların əvvəlcədən işlənməsi, qabaqcıl vizuallaşdırma üsulları, R Markdown-da işləmə.

Verilənlər bazalarına giriş

DBMS-ə daxil olun

Kurs, əlaqəli DBMS ilə müəyyən təcrübəyə malik olan və onların necə işlədiyi barədə daha çox bilmək istəyənlər üçündür. Kurs əhatə edir:

  • verilənlər bazası sxeminin dizaynı;
  • əməliyyatların idarə edilməsi;
  • sorğunun optimallaşdırılması;
  • relational DBMS-nin yeni xüsusiyyətləri

Hadoop. Böyük həcmli məlumatların emalı üçün sistem

Kurs Hadoop sistemindən istifadə etməklə böyük həcmli məlumatların emalı üsullarına həsr olunub. Kursu bitirdikdən sonra siz böyük həcmli məlumatların saxlanması və emalının əsas üsulları haqqında biliklər əldə edəcək, Hadoop çərçivəsi kontekstində paylanmış sistemlərin prinsiplərini başa düşəcək və MapReduce proqramlaşdırma modelindən istifadə edərək praktiki proqramların hazırlanması bacarıqlarına yiyələnəcəksiniz.

Bu gün bir çox işəgötürən fəal şəkildə məlumat alimləri axtarır. Eyni zamanda, müvafiq təhsili olan “alimləri” cəlb etməkdə maraqlıdırlar. Eyni zamanda, bazarın dolu olduğu bütün dezinformasiyaları nəzərə almaq lazımdır. Biz sizə Data Scientists və Data Scientists haqqında ən böyük yanlış təsəvvürlər, onların sahib olmalı olduqları bacarıqlar və bu nadir cinsin əslində kim olduğu barədə məlumat verəcəyik.

Məlumat Elmi(Data Science) verilənlərin təhlili, emalı və rəqəmsal formada təqdim edilməsi problemlərini öyrənən kompüter elminin bir sahəsidir. Data Science böyük həcmdə və yüksək paralellik səviyyəsində verilənlərin emalı üsullarını, statistik metodları, verilənlərin çıxarılması metodlarını və verilənlərlə işləmək üçün süni intellekt proqramlarını, həmçinin verilənlər bazalarının layihələndirilməsi və inkişaf etdirilməsi üsullarını birləşdirir. Akademik bir intizam kimi qəbul edilir. 2010-cu illərin əvvəlindən praktiki sektorlararası fəaliyyət sahəsi kimi mövqe tutur. 2010-cu illərin əvvəllərindən etibarən “məlumatşünas” ixtisası ən yüksək maaşlı, cəlbedici və perspektivli peşələrdən biri hesab olunur.

Məlumat Elmi Yanlış Anlayışları

1. Böyük verilənlər böyük həcmdə məlumatlara malik statistika və biznes analitikasıdır. Burada yeni heç nə yoxdur

Bu fikir əsasən proqram təminatının işlənib hazırlanmasında məhdud təcrübəsi olan və ya heç bir təcrübə ilə yüklənməmiş insanlar tərəfindən verilir. Bənzətmə istəyirsiniz? Zəhmət olmasa. Nümunə olaraq buzu götürək. Bunu çox soyuq su adlandırmaq olar. Burada yeni nə var? Bununla belə, soyuducu su təkcə temperaturunu dəyişdirmir, həm də keyfiyyət xüsusiyyətlərini qəti şəkildə dəyişir, mayeni bərk hala gətirir. Eyni şeyi böyük miqdarda məlumat üçün də söyləmək olar. Böyük həcmdə məlumat son nəticədə hesablamaların, hesablamaların və hesablamaların köhnə paradiqmalarını pozur. İstifadə ənənəvi üsullar Biznes analitikləri üçün müəyyən hesablamaların aparılması illər çəkə bilər. Paralelləşdirmə və paylanmış hesablamalar miqyaslama sualına aydın cavablardır. Lakin logistik reqressiya təhlili kimi sadə statistik alətlə belə bu, həmişə asan olmur. Paylanmış statistik hesablama buzun sudan olduğu kimi ənənəvi biznes analitikasından fərqlidir.

2. Məlumat alimləri rebrendinqdən sonra eyni proqram mühəndisləridir

Bəzən proqram təminatının hazırlanmasında böyük təcrübəyə malik mühəndislər təkmilləşmək üçün yenidən hazırlıq keçir və məlumat alimi olurlar əmək haqqı. Lakin bu təcrübə çox vaxt qeyri-qənaətbəxş nəticələrə gətirib çıxarır. Həqiqətən də, böyük verilənlər sahəsində, hətta ən sadə səviyyədə statistik səhvləri aradan qaldırmaq olduqca çətin bir iş kimi görünür. Mühəndislər proqram səhvlərini aşkar etmək və düzəltmək üçün hazırlanır. Lakin ehtimal nəzəriyyəsi və statistikası haqqında möhkəm biliyə malik olmadan, hətta sərin bir proqramçı çətin ki, sadə statistik xətanı uğurla aradan qaldıra bilsin.


Daha yüksək səviyyəli mühəndislər sadə, diskret, qaydalara əsaslanan modellər qura bilirlər. Lakin bu cür modellər məlumatlardan daha nüanslı anlayışlar əldə etmək üçün uyğun deyil. Beləliklə, itirilmiş maddi fayda. Buna görə də, "böyük məlumat suallarına" cavab almaq üçün yüksək ixtisaslı və yüksək ixtisaslaşmış kadrlara ehtiyac var ki, bu da gələcək nəsil proqnozlaşdırıcı modelləşdirmənin əsasını təşkil edəcək.

3. Məlumat alimlərinin biznesi başa düşmələrinə ehtiyac yoxdur – məlumatlar onlara hər şeyi izah edəcək

Proqramçı kimi təhsili və təcrübəsi olan insanlar çox vaxt bu vəsvəsələrə tab gətirirlər. Və, həqiqətən, belə güclü bir bazaya sahib olduqları halda, niyə biznesi başa düşməlidirlər? Güclü, lakin hər şeyə qadir deyil. Bütün mümkün korrelyasiyaların tapılması inanılmaz dərəcədə əmək tələb edir və vaxt aparır, statistik problemi qeyd etmirəm. Məlumat alimləri sadəcə olaraq saxta və real korrelyasiyaları uğurla ayırd etmək üçün öz biznes intuisiyalarından istifadə etməlidirlər. Müəyyən bir sahədə ekspert biliklərinin olmaması əsassız nəticələrə səbəb ola bilər. Bunu necə bəyənirsiniz? Polis işçilərinin sayının artması cinayətin artmasına gətirib çıxarır ki, bu da cinayət vəziyyətinin əlverişsiz olduğu ərazilərdə asayiş keşikçilərinin sayının azaldılması deməkdir. Nəhayət, əsas maraqlı tərəfləri inandırmaq üçün işgüzar intuisiyaya sahib olmaq da vacibdir: iş adamlarının başa düşdüyü dildə korrelyasiyalardan danışmaqla, data alimi işgüzarlığı olmayan həmkarından daha uğurlu olacaq.


Böyük verilənlər və məlumat elmi düzgün mühəndislik, statistik və biznes bacarıqlarını birləşdirən optimal modelin necə qurulacağına dair bilikdir. Bu olmadan, bir məlumat alimi etmək istədiyi hər şeyə nail ola bilməyəcək.

Bəs məlumat alimləri kimlərdir?

Məlumat alimləri biznes və məlumat analitiklərinin təkamülünün məhsuludur. Belə mütəxəssislər üçün formal təlimə kompüter elmləri, statistika, analitika və riyaziyyat daxildir. Ən yüksək səviyyəli məlumat alimi nədir? Güclü işgüzarlıq biznes və İT liderləri ilə şirkətin böyüməsinə təsir göstərməyə kömək edəcək şəkildə ünsiyyət qurmaq bacarığı ilə birləşir. IBM-in böyük verilənlər üzrə vitse-prezidenti Anjul Bambra deyir ki, məlumat alimləri “hissə analitik və qismən rəssam”dır. Bunlar məlumatlara baxa bilən və trendləri qeyd edə bilən çox maraqlı insanlardır. Onları təkcə öyrənmək deyil, həm də ətrafdakı dünyanı dəyişmək istəyən İntibah dövrünün rəssamları ilə müqayisə etmək olar.

Ənənəvi analitik bir mənbədən məlumatları təhlil edərkən (məs. CRM sistemləri), məlumat alimi mütləq bir neçə fərqli mənbədən məlumatları öyrənir. təmin edə biləcək əvvəllər gizli olan fikirləri kəşf etmək üçün bütün daxil olan məlumatları aqressiv şəkildə yoxlayacaq. rəqabət üstünlüyü. Data alim sadəcə məlumatları toplamaq və təhlil etməklə kifayətlənmir, ona müxtəlif rakurslardan baxır və müxtəlif kontekstlərdə təhlil edir, bu və ya digər məlumatların brend üçün nə demək olduğunu müəyyən edir, sonra isə mövcud məlumatdan necə istifadə etmək barədə tövsiyələr verir.


Data elm adamları daim araşdırma aparan, milyonlarla sual verən, “əgər...” təhlili aparan, mövcud fərziyyələri və prosesləri sorğulayan, zəngin məlumat mənbələrini müəyyən edən və onları zəif məlumat dəstləri ilə birləşdirən insanlardır... Tapşırıqların daima yerinə yetirildiyi rəqabət mühitində dəyişiklik və sürətli məlumat axını heç vaxt bitmir, data alimləri idarəetməyə kömək edir qərarlar. Və bu, onların ən qiymətli keyfiyyətidir.

Niyə “alimlər”?

Bir çoxları iddia edir ki, məlumat alimini “məlumat alimi” adlandırmaq çox, çox iddialıdır. Ancaq kökə baxmağa çalışsanız, bu formula məntiqlidir. Məsələn, eksperimental fiziklər öz avadanlıqlarını dizayn etməli və qurmalı, məlumat toplamalı, təcrübələr aparmalı və hesabatlarda bütün tapıntıları ümumiləşdirməlidirlər. Məlumat alimləri də eyni şeyi edirlər. Buna görə də, ən yüksək ixtisaslı məlumat alimləri fizika və ya sosial elmlər üzrə yüksək dərəcələrə malik insanlar hesab olunur.


Planetin ən yaxşı məlumat alimləri ekologiya və sistem biologiyası kimi ezoterik sahələrdə elmlər namizədi olan alimlərdir. Çarpıcı bir nümunə– Silikon Vadisində Intuit-də məlumat alimləri qrupuna rəhbərlik edən Corc Roumeliotis. O, astrofizika üzrə fəlsəfə doktoru dərəcəsi alıb. Bir çox məlumat alimi sahibdir elmi dərəcələr kompüter elmləri, riyaziyyat və iqtisadiyyat üzrə. Ancaq nə olursa olsun, yaxşı mütəxəssis, məlumatların təhlili üzrə ixtisaslaşmış, istənilən sahədən gələ bilər.


Data aliminin onsuz edə bilməyəcəyi əsas bacarıqlar

Əsas alətlər. Şirkətin missiyasından asılı olmayaraq, məlumat alimi əsas alətlərdən necə istifadə etməyi bilməlidir: statistik məlumatların emalı və qrafika üçün R proqramlaşdırma dili, tərtibatçının məhsuldarlığını və kodun oxunuşunu yaxşılaşdırmağa yönəlmiş yüksək səviyyəli Python proqramlaşdırma dili, Strukturlaşdırılmış Sorğu Dili, məsələn SQL, ixtiyari əlaqəli verilənlər bazasında məlumatları yaratmaq, dəyişdirmək və manipulyasiya etmək üçün istifadə olunur.

Əsas Statistika. Statistikanı başa düşmək bir məlumat alimi üçün çox vacibdir. Heç kimə sirr deyil ki, bir çox mütəxəssislər hətta P-dəyərini - sınaqda istifadə olunan dəyəri təyin edə bilmirlər. statistik fərziyyələr. Məlumat alimi sadəcə olaraq statistik testlər, paylanmalar, maksimum ehtimalın qiymətləndirilməsi və s. ilə tanış olmalıdır. üçün statistika vacibdir müxtəlif sahələr biznes, xüsusən də dataya əsaslanan şirkətlər üçün


Maşın öyrənməsi. Bir məlumat alimi böyük həcmdə məlumatlara malik böyük bir şirkətdə işləyirsə, o, maşın öyrənmə üsulları ilə tanış olmalıdır. Təbii ki, bu üsulların çoxu R və ya Python kitabxanalarından istifadə etməklə həyata keçirilə bilər, ona görə də alqoritmlərin necə işlədiyini başa düşmək üçün dünya üzrə aparıcı mütəxəssis olmağa ehtiyac yoxdur. Müəyyən metodlardan istifadənin nə vaxt ən uyğun olacağını başa düşmək daha vacibdir.

Çoxvariantlı hesablamalar və xətti cəbr. Bu fənlər bir çox maşın öyrənmə metodlarının əsasını təşkil edir.

Təhlil üçün məlumatların hazırlanması. Çox vaxt təhlil edilən məlumatlar kifayət qədər "çirklidir" və onunla işləməyi daha da çətinləşdirir. Buna görə də, məlumatların bütün çatışmazlıqları ilə necə məşğul olacağını bilmək çox vacibdir. Qeyri-kamil məlumatlara misal olaraq “New York” - “new york” - “ny” kimi sətirlərin uyğunsuz formatlaşdırılması və ya “2014-01-01” - “01/01/2014” tarixləri və ya UNIX sistem vaxtı və ardıcıllığı Zaman möhürü.

Məlumatların vizuallaşdırılması və ünsiyyəti. Bu inanılmazdır mühüm məqamlar, xüsusən də məlumatlara əsaslanan gənc şirkətlər və ya məlumat alimlərinin məlumatlara əsaslanan qərarlar qəbul etməyə kömək edən insanlar kimi qəbul edildiyi şirkətlər haqqında danışarkən. D3.js məlumatlarının işlənməsi və vizuallaşdırılması üçün ggplot (R dilinin genişləndirilməsi) və JavaScript kitabxanası haqqında biliklər çox faydalı olacaq.

Proqramlaşdırma. Məlumat alimləri adətən böyük miqdarda qeydiyyat məlumatlarının və verilənlərə əsaslanan məhsulların idarə edilməsinə cavabdehdirlər.

Məlumat alimi kimi düşünün. İşəgötürən həmişə məlumat alimini problem həll edən kimi görmək istəyir. “Alim” həmişə bu mərhələdə nəyin vacib, nəyin xüsusi dəyərli olmadığını bilməlidir. Ondan məhsulun inkişafına cavabdeh olan dizaynerlər və menecerlərlə qarşılıqlı əlaqə tələb olunur.


Harvard Business Review iddia edir ki, data alim 21-ci əsrin ən seksual peşəsidir. Və bununla razılaşmamaq çətindir. Məlumat elmi yeni inkişaf edir və bütün müasir məlumat alimlərini təhlükəsiz olaraq pioner adlandırmaq olar. Və əgər siz statistiklər arasında ən yaxşı İT mütəxəssisi və İT mütəxəssisləri arasında ən yaxşı statistik olduğunuzu söyləyə bilirsinizsə, deməli siz əsl data alimisiniz.

Bu məqalənin hazırlanmasında istifadə olunan materiallar

Data Scientist- “Big Data” adlanan böyük həcmli məlumatların emalı, təhlili və saxlanması üzrə mütəxəssis. Peşə fizika, riyaziyyat və informatika ilə maraqlananlar üçün uyğundur (məktəb fənlərinə maraq əsasında peşə seçiminə baxın).

Data Science - müxtəlif fənlərin kəsişməsində məlumat elmi: riyaziyyat və statistika; İnformatika və Kompüter Elmləri; biznes və iqtisadiyyat.

(S. Maltseva, V. Kornilov Milli Tədqiqat Universiteti “Ali İqtisadiyyat Məktəbi”)

Peşə yeni, aktual və... “Böyük məlumat” termininin özü 2008-ci ildə ortaya çıxdı. Data Scientist peşəsi - “Data Scientist” 2010-cu ilin əvvəlində rəsmi olaraq akademik və fənlərarası intizam kimi qeydə alınıb. Baxmayaraq ki, “məlumatşünaslıq” termini ilk dəfə 1974-cü ildə Peter Naurun kitabında qeyd edilib, lakin fərqli bir şəkildə Kontekst.

Belə bir peşənin yaranması zərurəti Ultra Big Dataya gəldikdə, verilənlər massivlərinin standart riyazi statistika vasitələri ilə işlənmək üçün çox böyük olması ilə diktə edildi. Hər gün dünyada şirkətlərin serverlərindən minlərlə petabayt (10 15 bayt = 1024 terabayt) informasiya keçir. Belə həcmli məlumatlara əlavə olaraq, problem onların heterojenliyi ilə mürəkkəbdir və yüksək sürət yeniləmələr.

Məlumat massivləri 3 növə bölünür:

strukturlaşdırılmış (məsələn, ticarətdə kassa aparatlarının məlumatları);

yarı strukturlaşdırılmış (E-poçt mesajları);

strukturlaşdırılmamış (video fayllar, şəkillər, fotoşəkillər).

Böyük verilənlərin əksəriyyəti strukturlaşdırılmamışdır, bu da onların işlənməsini xeyli çətinləşdirir.

Fərdi olaraq, bir statistik, sistem analitiki və ya biznes analitiki belə həcmli məlumatlarla problemləri həll edə bilməz. Bunun üçün fənlərarası təhsili olan, riyaziyyat və statistika, iqtisadiyyat və biznes, kompüter elmləri və kompüter texnologiyaları üzrə səlahiyyətli şəxs tələb olunur.

Data Scientist-in əsas vəzifəsi real vaxt rejimində informasiya axınlarından istifadə edərək müxtəlif mənbələrdən lazımi məlumatları çıxarmaq bacarığıdır; məlumat dəstlərindəki gizli nümunələri müəyyənləşdirin və ağıllı biznes qərarları qəbul etmək üçün onları statistik təhlil edin. Belə bir mütəxəssisin iş yeri 1 kompüter və ya hətta 1 server deyil, serverlər klasteridir.

Peşənin xüsusiyyətləri

Məlumatlarla işləyərkən Data Scientist müxtəlif üsullardan istifadə edir:

  • statistik üsullar;
  • verilənlər bazasının modelləşdirilməsi;
  • mədən üsulları;
  • verilənlərlə işləmək üçün süni intellekt proqramları;
  • verilənlər bazası dizayn və inkişaf üsulları.

Məlumat aliminin vəzifə öhdəlikləri onun fəaliyyət sahəsindən asılıdır, lakin ümumi siyahı funksiyalar belə görünür:

  • sonrakı əməliyyat emal üçün müxtəlif mənbələrdən məlumatların toplanması;
  • istehlakçı davranışının təhlili;
  • müştəri bazasının modelləşdirilməsi və məhsulun fərdiləşdirilməsi;
  • səmərəliliyin təhlili daxili proseslərəsaslar;
  • müxtəlif risklərin təhlili;
  • şübhəli əməliyyatları öyrənməklə mümkün saxtakarlığın müəyyən edilməsi;
  • proqnozlar və məlumatların təqdimatı ilə dövri hesabatların tərtib edilməsi.

Data alimi, əsl alim kimi, yalnız məlumatları toplayır və təhlil etmir, həm də onu müxtəlif kontekstlərdə və müxtəlif rakurslardan öyrənir, istənilən fərziyyələri şübhə altına alır. Ən vacib keyfiyyət data alim toplanmış məlumat sistemində məntiqi əlaqələri görmək qabiliyyətidir və ona əsaslanır kəmiyyət təhlili effektiv biznes həlləri inkişaf etdirin. Müasir rəqabətli və sürətlə dəyişən dünyada, daim artan məlumat axınında düzgün biznes qərarlarının qəbulu baxımından Data Scientist idarəetmə üçün əvəzolunmazdır.

Peşənin müsbət və mənfi cəhətləri

pros

  • Peşə nəinki son dərəcə tələbatlıdır, həm də bu səviyyəli mütəxəssislərin kəskin çatışmazlığı var. McKinsey Qlobal İnstitutunun məlumatına görə, 2018-ci ilə qədər təkcə ABŞ-da 190 mindən çox Data Scientist-ə ehtiyac olacaq. Məhz buna görə də ən nüfuzlu universitetlərdə məlumat alimləri hazırlamaq üçün fakültələr çox sürətlə və geniş şəkildə maliyyələşdirilir və inkişaf etdirilir. Rusiyada da Data Scientists-ə tələbat artır.
  • Yüksək maaşlı peşə.
  • Daim inkişaf etmək, İT texnologiyalarının inkişafı ilə ayaqlaşmaq və məlumatların öz əlinizlə emalı, təhlili və saxlanması üçün yeni üsullar yaratmaq ehtiyacı.

Minuslar

  • Hər insan bu peşəyə yiyələnə bilməz; bu, xüsusi təfəkkür tələb edir.
  • İş prosesində məlum üsullar və ideyaların 60%-dən çoxu işləməyə bilər. Bir çox həll yolları uğursuz olacaq və qənaətbəxş nəticələr əldə etmək üçün çox səbr etməlisiniz. Alimin “YOX!” deməyə haqqı yoxdur. problem. Problemi həll etməyə kömək edəcək bir yol tapmalıdır.

İş yeri

Data Alimləri əsas mövqeləri tuturlar:

  • texnoloji sənayelər (avtomobil naviqasiya sistemləri, dərman istehsalı və s.);
  • İT sahəsi (axtarış motorunun optimallaşdırılması, spam filtri, xəbərlərin sistemləşdirilməsi, avtomatik mətn tərcüməsi və daha çox);
  • tibb (xəstəliklərin avtomatik diaqnostikası);
  • maliyyə strukturları (kreditlərin verilməsinə dair qərarların qəbul edilməsi) və s.;
  • televiziya şirkətləri;
  • böyük pərakəndə satış şəbəkələri;
  • seçki kampaniyaları.

Əhəmiyyətli keyfiyyətlər

  • Analitik ağıl;
  • çətin iş;
  • əzmkarlıq;
  • diqqətlilik, dəqiqlik, diqqətlilik;
  • uğursuz aralıq nəticələrə baxmayaraq tədqiqatı başa çatdırmaq bacarığı;
  • ünsiyyət bacarıqları;
  • mürəkkəb şeyləri sadə sözlərlə izah etmək bacarığı;
  • biznes intuisiyası.

Peşəkar bilik və bacarıqlar:

  • riyaziyyat, riyazi analiz, riyazi statistika, ehtimal nəzəriyyəsi üzrə biliklər;
  • ingilis dili biliyi;
  • böyük məlumat dəstləri ilə işləmək üçün komponentlərə malik olan əsas proqramlaşdırma dillərini bilmək: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • statistik alətlər üzrə biliklər - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • data aliminin işlədiyi sənaye haqqında hərtərəfli bilik; bu, əczaçılıq sənayesidirsə, əsas istehsal prosesləri və dərman komponentləri haqqında bilik lazımdır;
  • Məlumat aliminin əsas əsas bacarığı böyük həcmli verilənlər üçün klaster saxlama sistemlərinin təşkili və idarə edilməsidir;
  • biznesin inkişafı qanunlarını bilmək;
  • iqtisadi biliklər.

Universitetlər

  • adına Moskva Dövlət Universiteti Lomonosov, Hesablama riyaziyyatı və kibernetika fakültəsi, xüsusi təhsil proqramı Mail.Ru Group "Texnosfera", böyük həcmli məlumatların intellektual təhlili üsulları, C++ dilində proqramlaşdırma, çox yivli proqramlaşdırma və informasiya axtarış sistemlərinin qurulması texnologiyası üzrə təlimlərlə.
  • MIPT, Məlumatların Təhlili Departamenti.
  • Milli Tədqiqat Universitetinin Ali İqtisadiyyat Məktəbinin Biznes İnformatika Fakültəsi sistem analitiklərini, mürəkkəb informasiya sistemlərinin dizaynerlərini və icraçılarını və korporativ informasiya sistemlərinin idarə edilməsinin təşkilatçılarını hazırlayır.
  • Yandex məlumatların təhlili məktəbi.
  • İnnopolis Universiteti, Dandi Universiteti, Cənubi Kaliforniya Universiteti, Oklend Universiteti, Vaşinqton Universiteti: Böyük Məlumatlar üzrə magistr proqramları.
  • Imperial College London Business School, MSc Data Science and Management.

Hər hansı bir peşədə olduğu kimi, burada da öz-özünə təhsil vacibdir və bu, şübhəsiz ki, bu cür resurslardan faydalanacaqdır:

  • dünyanın aparıcı universitetlərindən onlayn kurslar COURSERA;
  • maşın öyrənmə kanalı MASHIN LEARNING;
  • edX kurslarının seçimi;
  • Udacity kursları;
  • Data Elmində əsl peşəkar ola biləcəyiniz Dataquest kursları;
  • 6 addımlı Datacamp kursları;
  • O'Reilly təlim videoları;
  • yeni başlayanlar və qabaqcıl Data Origami üçün ekran yazıları;
  • mütəxəssislərin rüblük konfransı Moskva Data Scientists Meetup;
  • məlumatların təhlili müsabiqələri Kaggle.сom

Maaş

Əmək haqqı 04.07.2019

Rusiya 50000-200000 ₽

Moskva 60000-300000 ₽

Data Scientist peşəsi ən yüksək maaş alanlardan biridir. hh.ru saytından məlumat - aylıq əmək haqqı 8,5 min dollardan 9 min dollara qədərdir, ABŞ-da belə bir mütəxəssisin maaşı ildə 110 min dollar - 140 min dollardır.

Superjob tədqiqat mərkəzinin sorğusuna əsasən, Data Scientist mütəxəssislərinin maaşı iş təcrübəsindən, vəzifələrin həcmindən və regiondan asılıdır. Təcrübəsiz bir mütəxəssis 70 min rubla arxalana bilər. Moskvada və 57 min rubl. Sankt-Peterburqda. 3 ilə qədər iş təcrübəsi ilə əmək haqqı 110 min rubla qədər artır. Moskvada və 90 min rubl. Sankt-Peterburqda. Elmi nəşrləri olan təcrübəli mütəxəssislər üçün əmək haqqı 220 min rubla çata bilər. Moskvada və 180 min rubl. Peterburqda.

Karyera addımları və perspektivləri

Data Scientist peşəsi özlüyündə bir neçə peşə üzrə ciddi nəzəri bilik və praktik təcrübə tələb edən yüksək nailiyyətdir. İstənilən təşkilatda belə bir mütəxəssis əsas fiqurdur. Bu zirvəyə çatmaq üçün peşənin əsasını təşkil edən bütün sahələrdə var gücü ilə və məqsədyönlü çalışmaq və daim təkmilləşmək lazımdır.

Data Scientist haqqında bir zarafat var: o, hər hansı bir statistikdən daha yaxşı proqramlar hazırlayan və statistikanı hər bir proqramçıdan daha yaxşı bilən bir generalistdir. Və o, biznes proseslərini şirkət rəhbərindən daha yaxşı başa düşür.

NƏ BAŞ VERDİ "BÖYÜK DATA"real rəqəmlərlə?

  1. Hər 2 gündə məlumatların həcmi Məsihin doğulmasından 2003-cü ilə qədər bəşəriyyət tərəfindən yaradılan məlumatların miqdarı ilə artır.
  2. Bu gün bütün mövcud məlumatların 90%-i son 2 ildə ortaya çıxıb.
  3. 2020-ci ilə qədər informasiyanın həcmi 3,2-dən 40 zettabayta qədər artacaq. 1 zettabayt = 10 21 bayt.
  4. 1 dəqiqə ərzində Facebook-da 200 min şəkil yüklənir, 205 milyon məktub göndərilir, 1,8 milyon bəyənmə yerləşdirilir.
  5. 1 saniyə ərzində Google 40 min axtarış sorğusunu emal edir.
  6. Hər 1,2 ildən bir, hər bir sənayedə məlumatların ümumi həcmi iki dəfə artır.
  7. 2020-ci ilə qədər Hadoop xidmətləri bazarı 50 milyard dollara qədər artacaq.
  8. ABŞ-da 2015-ci ildə Big Data layihələrində çalışan mütəxəssislər üçün 1,9 milyon iş yeri açılıb.
  9. Big Data texnologiyaları pərakəndə satış şəbəkələrinin mənfəətini ildə 60% artırır.
  10. Proqnozlara görə, Big Data bazarının həcmi 2014-cü ildəki 28,5 milyard dollardan 2020-ci ildə 68,7 milyard dollara qədər artacaq.

Belə müsbət artım göstəricilərinə baxmayaraq, proqnozlarda səhvlər də var. Məsələn, 2016-cı ilin ən bədnam səhvlərindən biri: ABŞ prezident seçkiləri ilə bağlı proqnozlar özünü doğrultmadı. Proqnozlar Hillari Klintonun xeyrinə ABŞ-ın məşhur Data Alimləri Neyt Silver, Kirk Born və Bill Şmarzo tərəfindən təqdim edilib. Əvvəlki seçki kampaniyalarında dəqiq proqnozlar verirdilər və heç vaxt yanılmadılar.

Bu il, məsələn, Nate Silver verdi dəqiq proqnoz 41 ştat üçün, lakin 9 ştat üçün səhv etdi, bu da Trampın qələbəsinə səbəb oldu. 2016-cı il səhvlərinin səbəblərini təhlil etdikdən sonra belə bir nəticəyə gəldilər:

  1. Riyazi modellər yaradılış anındakı mənzərəni obyektiv şəkildə əks etdirir. Ancaq onların yarı ömrü var, sonuna qədər vəziyyət kəskin şəkildə dəyişə bilər. Modelin proqnozlaşdırıcı keyfiyyətləri zamanla pisləşir. IN bu halda məsələn, vəzifə pozuntusu, gəlir bərabərsizliyi və digər sosial sarsıntılar rol oynadı. Buna görə də, yeni məlumatları nəzərə almaq üçün model müntəzəm olaraq düzəldilməlidir. Bu edilməyib.
  2. Proqnozlara əhəmiyyətli təsir göstərə biləcək əlavə məlumatları axtarmaq və nəzərə almaq lazımdır. Belə ki, Klinton və Trampın seçki kampaniyalarında mitinqlərin videolarına baxılarkən mitinqlərdə iştirak edənlərin ümumi sayı nəzərə alınmayıb. Söhbət yüzlərlə insandan gedirdi. Məlum olub ki, hər mitinqdə Trampın lehinə 400-600, Klintonun lehinə isə cəmi 150-200 nəfər iştirak edib ki, bu da nəticələrə təsir edib.
  3. Seçki kampaniyalarında riyazi modellər demoqrafik məlumatlara əsaslanır: yaş, irq, cins, gəlir, cəmiyyətdəki status və s. Hər bir qrupun çəkisi onların son seçkidə necə səs verməsi ilə müəyyən edilir. Bu proqnozda 3-4% xəta var və namizədlər arasında böyük uçurum olduqda etibarlı işləyir. Amma bu halda Klintonla Tramp arasında fərq az idi və bu səhv seçkinin nəticələrinə ciddi təsir etdi.
  4. İnsanların irrasional davranışları nəzərə alınmayıb. Aparılan ictimai rəy sorğuları insanların sorğuda necə cavab verdisə, elə də səs verəcəyi illüziyası yaradır. Ancaq bəzən bunun əksini edirlər. Belə olan halda səsverməyə qarşı qeyri-dürüst münasibəti müəyyən etmək üçün əlavə olaraq üz və nitq təhlili aparmaq lazım gələcək.

Ümumiyyətlə, namizədlər arasında kiçik fərq olduğu üçün proqnoz yanlış çıxdı. Böyük bir boşluq olduğu halda, bu səhvlər o qədər də həlledici olmazdı.

Video: Yeni ixtisas "Böyük məlumat" - Mixail Levin

İnfoqrafiya üzrə Data Scientist. Peşə təzə, yüksək maaşlı və tanınmışdır. Bəs belə bir mütəxəssis hansı bacarıqlara malik olmalıdır? Gəlin nəzərdən keçirək.

Gəlin bacarıqlar haqqında danışaq

Data Scientist analitika və məlumat emalını əhatə edən ümumi mütəxəssisdir. Məlumat alimi statistika və proqramlaşdırmanı başa düşür. Faydalıdır, elə deyilmi? Hər bir Data Scientist-in imkanlarının diapazonu bir dərəcədir və kodlaşdırmaya və ya təmiz statistikaya doğru hərəkət edə bilər.

  • San Fransiskoda yerləşən Data Analitiki. Bəzi şirkətlər əslində Data Scientists ilə analitikləri müqayisə edirlər. Belə bir mütəxəssisin işi verilənlər bazasından məlumat çıxarmaq, Excel ilə qarşılıqlı əlaqə və əsas vizuallaşdırma ilə bağlıdır.
  • Böyük trafik və böyük miqdarda məlumat bəzi firmaları təcili olaraq axtarmağa məcbur edir düzgün mütəxəssis. Onlar tez-tez mühəndislər, analitiklər, proqramçılar və ya elm adamları axtaran elanlar yerləşdirirlər, bunların hamısı eyni vəzifə adını nəzərdə tutur.
  • Məlumatların məhsul olduğu şirkətlər var. Bu halda intensiv analiz və maşın öyrənməsi tələb olunacaq.
  • Digər şirkətlər üçün məlumatlar məhsul deyil, idarəetmə və ya iş axınının özü onun üzərində qurulur. Şirkət məlumatlarını strukturlaşdırmaq üçün Data Alimləri də axtarılır.

Başlıqlar “21-ci əsrin ən seksual peşəsi” üslubunda başlıqlarla doludur. Bunun doğru olub-olmadığını bilmirik, lakin məlumat alimi başa düşməlidir:

  1. Riyaziyyat və statistika.
  2. Mövzu sahəsi və proqram təminatı.
  3. Proqramlaşdırma və verilənlər bazası.
  4. Məlumat mübadiləsi və vizuallaşdırma.

Gəlin hər bir məqama daha ətraflı baxaq.

Data Scientist və Riyazi Statistika

İnkişaf riyazi üsullar statistik məlumatlardan istifadə işin əsas hissəsidir. Riyazi statistika dəqiq nəticələr çıxarmağa və onların etibarlılığını qiymətləndirməyə imkan verən ehtimal nəzəriyyəsinə əsaslanır.

1. Süni intellektin alt bölməsi kimi maşın öyrənməsi. Təlim proqramı və nümunələri olan məlumat nümunələri var. Nümunə modelini formalaşdırırıq, onu həyata keçiririk və proqramdan istifadə edərək yeni verilənlərdə nümunələr axtarmaq imkanı əldə edirik.

2. Data Scientist Bilməlidir statistik modelləşdirmə müəyyən ehtimal sıxlığına malik təsadüfi siqnallarla modeli sınaqdan keçirmək. Məqsəd əldə edilən nəticələri statistik olaraq müəyyən etməkdir.

3. Eksperimental dizayn. Təcrübələr zamanı fərqi görmək üçün bir və ya bir neçə dəyişən dəyişdirilir. Bu vəziyyətdə, bir müdaxilə qrupu və bir nəzarət qrupu var, bunun sayəsində test aparılır.

4. Bayesian nəticə bir hipotezin ehtimalını tənzimləməyə kömək edir.

5. Nəzarət olunan təlim:

  • qərar ağacları;
  • təsadüfi meşələr;
  • logistik reqressiya.

6. Nəzarətsiz öyrənmə:

  • qruplaşma;
  • ölçülərin azalması.

7. Optimallaşdırma: gradient eniş və seçimlər.

Domen və proqram təminatı bacarıqları

Öyrən və məşq et! Bu ixtisasın əsasını təşkil edir. Data Scientist elmin təsir etdiyi mövzu sahəsini yaxşı başa düşməli və həmçinin proqram təminatı ilə tanış olmalıdır.

Tələb olunan bacarıqların siyahısı qəribədir, lakin daha az faydalı deyil:

Proqramlaşdırma və verilənlər bazası

Əsaslardan Python, XaaS, əlaqəli cəbr və SQL biliklərinə qədər. Ümumiyyətlə, məlumatları keyfiyyətcə emal etmək cəhdləri olmadan hər şey faydasızdır.

1. Həyatı proqramlaşdırma və proseslərin avtomatlaşdırılması ilə bağlayan hər kəs üçün başlanğıc nöqtəsi kimi kompüter elminin əsasları.

Məlumat elmi, maşın öyrənməsi - yəqin ki, bu böyük sözləri eşitmisiniz, lakin onların mənası sizin üçün nə dərəcədə aydın idi? Bəziləri üçün onlar gözəl yemlərdir. Bəzi insanlar məlumat elminin bir maşını pulsuz olaraq sifariş verdiyi hər şeyi etməyə məcbur edən sehr olduğunu düşünür. Digərləri hətta buna inanırlar asan yol böyük pul qazanmaq. IRELA-nın R&D rəhbəri Nikita Nikitinsky və Data Scientist Polina Kazakova bunun nə olduğunu sadə və başa düşülən dillə izah edirlər.

Mən məlumat elminin tətbiqi olan avtomatik təbii dil emalında işləyirəm və tez-tez insanların bu terminləri səhv istifadə etdiyini görürəm, ona görə də bir az aydınlıq gətirmək istədim. Bu məqalə data elminin nə olduğu haqqında az təsəvvürü olan və anlayışları anlamaq istəyənlər üçündür.

Terminologiyanı müəyyən edək

Gəlin ondan başlayaq ki, heç kim həqiqətən data elminin nə olduğunu dəqiq bilmir və heç bir ciddi tərif yoxdur - bu, çox geniş və fənlərarası bir anlayışdır. Buna görə də, burada başqalarının fikirləri ilə mütləq üst-üstə düşməyən baxışımı paylaşacağam.

Məlumat elmi termini rus dilinə “data Science” kimi tərcümə olunur və peşəkar mühitdə çox vaxt sadəcə olaraq “məlumat elmi” kimi tərcümə olunur. Formal olaraq, bu, kompüter elmləri və riyaziyyat sahəsindən bir-biri ilə əlaqəli bəzi fənlər və metodlar toplusudur. Çox mücərrəd səslənir, elə deyilmi? Gəlin bunu anlayaq.

Birinci hissə: məlumat

Məlumat elminin birinci komponenti, onsuz bütün sonrakı prosesin qeyri-mümkün olduğu bir şey, əslində məlumatın özüdür: onu necə toplamaq, saxlamaq və emal etmək, həmçinin ümumi məlumat massivindən necə ayırmaq olar faydalı məlumat. Mütəxəssislər iş vaxtlarının 80%-ni məlumatların təmizlənməsinə və istənilən formaya gətirilməsinə həsr edirlər.

Bu məqamın mühüm hissəsi böyük həcm və/yaxud müxtəlifliyə görə standart saxlama və emal üsullarının uyğun olmadığı verilənlərin necə idarə olunmasıdır - sözdə böyük verilənlər. Yeri gəlmişkən, özünüzü çaşdırmayın: böyük məlumat və məlumat elmi sinonim deyil: daha doğrusu, birincisi ikincinin alt bölməsidir. Eyni zamanda, praktikada məlumat analitikləri həmişə böyük verilənlərlə işləmək məcburiyyətində deyil - kiçik olanlar da faydalı ola bilər.

Gəlin məlumat toplayaq

Təsəvvür edin ki, bizim iş yoldaşlarınızın gün ərzində nə qədər qəhvə içməsi ilə bir gün əvvəl nə qədər yatdıqları arasında əlaqənin olub-olmaması ilə maraqlanırıq. Gəlin əlimizdə olan məlumatları yazaq: tutaq ki, həmkarınız Qreqori bu gün 4 saat yatdı, ona görə də 3 fincan kofe içməli oldu; Ellina 9 saat yatdı və ümumiyyətlə qəhvə içmədi; və Polina bütün 10 saat yatdı, amma 2,5 fincan qəhvə içdi - və s.

Əldə edilmiş məlumatları qrafikdə göstərək (vizuallaşdırma da hər hansı bir məlumat elmi layihəsinin vacib elementidir). X oxunda vaxtı saatlarla, Y oxunda isə millilitrlə qəhvəni təyin edək. Bu kimi bir şey alacağıq:

İkinci hissə: elm

Məlumatlarımız var, indi onunla nə edə bilərik? Düzdü, təhlil edin, faydalı nümunələri çıxarın və birtəhər istifadə edin. Burada statistika, maşın öyrənməsi və optimallaşdırma kimi fənlər bizə kömək edəcək.

Onlar məlumat elminin növbəti və bəlkə də ən vacib komponentini - məlumat təhlilini təşkil edirlər. Maşın öyrənməsi mövcud məlumatlarda nümunələri tapmağa imkan verir ki, sonra yeni obyektlər üçün müvafiq məlumatları proqnozlaşdıra biləsiniz.

Gəlin məlumatları təhlil edək

Nümunəmizə qayıdaq. Gözə belə gəlir ki, bu iki parametr bir-birinə bağlıdır: insan nə qədər az yatsa, ertəsi gün bir o qədər çox qəhvə içəcək. Eyni zamanda, bu tendensiyadan seçilən bir nümunəmiz də var - yatmağı və kofe içməyi sevən Polina. Buna baxmayaraq, nəticədə ortaya çıxan nümunəni bəzi ümumi düz xətt ilə təxmin etməyə cəhd edə bilərsiniz ki, bütün nöqtələrə mümkün qədər yaxın olsun:

Yaşıl xətt bizim maşın öyrənmə modelimizdir, məlumatları ümumiləşdirir və riyazi olaraq təsvir edilə bilər. İndi onun köməyi ilə biz yeni obyektlər üçün dəyərləri müəyyən edə bilərik: bu gün ofisə girən Nikitanın nə qədər qəhvə içəcəyini təxmin etmək istəyəndə onun nə qədər yatdığını soruşacağıq. Cavab olaraq 7,5 saat dəyərini aldıqdan sonra onu modellə əvəz edirik - bu, 300 ml-dən bir qədər az həcmdə istehlak edilən qəhvə miqdarına uyğundur. Qırmızı nöqtə bizim proqnozumuzu əks etdirir.

Maşın öyrənməsi təxminən belədir, ideyası çox sadədir: nümunə tapın və onu yeni məlumatlara genişləndirin. Əslində, maşın öyrənməsində nümunəmizdə olduğu kimi bəzi dəyərləri proqnozlaşdırmağa ehtiyac olmadığı zaman başqa bir vəzifə sinfi var, lakin məlumatları müəyyən qruplara bölmək lazımdır. Ancaq bu barədə başqa vaxt daha ətraflı danışacağıq.

Nəticəni tətbiq edək

Bununla belə, mənim fikrimcə, məlumat elmi verilənlərdəki nümunələri müəyyən etməklə bitmir. Hər hansı bir məlumat elmi layihəsidir tətbiqi tədqiqat, burada fərziyyənin qoyulması, eksperimentin planlaşdırılması və əlbəttə ki, nəticənin və onun konkret işi həll etmək üçün uyğunluğunun qiymətləndirilməsi kimi şeyləri unutmamaq vacibdir.

Sonuncu, məlumat elminin tapdığı həllin layihənizə fayda verib-verməyəcəyini başa düşdüyünüz zaman real biznes problemlərində çox vacibdir. Bizim nümunəmizdə qurulmuş modelin faydası nə olardı? Bəlkə də onun köməyi ilə qəhvənin ofisə çatdırılmasını optimallaşdıra bildik. Eyni zamanda, riskləri qiymətləndirmək və modelimizin mövcud həlldən daha yaxşı öhdəsindən gələ biləcəyini müəyyən etməliyik - məhsulun alınmasına cavabdeh olan ofis meneceri Mixail.

İstisnaları tapaq

Əlbəttə ki, nümunəmiz mümkün qədər sadələşdirilmişdir. Reallıqda, bəzi digər amilləri, məsələn, insanın prinsipcə qəhvəni sevib sevmədiyini nəzərə alan daha mürəkkəb model qurmaq mümkün olardı. Və ya model düz xətt ilə təmsil olunanlardan daha mürəkkəb əlaqələr tapa bilər.

Biz əvvəlcə məlumatlarımızda kənar göstəriciləri - Polina kimi digərlərindən çox fərqli olan obyektləri axtara bilərik. Məsələ burasındadır ki, real işdə bu cür nümunələr modelin qurulması prosesinə və onun keyfiyyətinə pis təsir göstərə bilər və onları başqa cür emal etmək məntiqlidir. Və bəzən belə obyektlər əsas maraq doğurur, məsələn, fırıldaqçılığın qarşısını almaq üçün anomal bank əməliyyatlarını aşkar etmək vəzifəsi.

Bundan əlavə, Polina bizə başqa bir vacib ideyanı - maşın öyrənmə alqoritmlərinin qeyri-kamilliyini göstərir. Bizim modelimiz 10 saat yatan bir insan üçün cəmi 100 ml kofe proqnozlaşdırır, əslində isə Polina 500-ə qədər içirdi. Məlumat elmi həllərinin müştəriləri buna heç vaxt inanmayacaqlar, lakin hər şeyi mükəmməl proqnozlaşdırmağı maşına öyrətmək hələ də mümkün deyil. dünyada: Məlumatlarda nümunələri müəyyən etməkdə nə qədər yaxşı olsaq da, həmişə gözlənilməz elementlər olacaq.

Hekayəyə davam edək

Beləliklə, məlumat elmi məlumatların işlənməsi və təhlili və onları praktik problemlərə tətbiq etmək üçün metodlar toplusudur. Eyni zamanda başa düşməlisiniz ki, hər bir mütəxəssisin bu sahədə öz baxışı var və fikirlər fərqli ola bilər.

Məlumat elmi kifayət qədər sadə ideyalara əsaslanır, lakin praktikada çox vaxt aşkar olmayan bir çox incəliklər aşkar edilir. Məlumat elmi bizi necə əhatə edir Gündəlik həyat, məlumatların təhlilinin hansı üsulları mövcuddur, məlumat elmi komandası kimlərdən ibarətdir və tədqiqat prosesi zamanı hansı çətinliklər yarana bilər - bu barədə növbəti məqalələrdə danışacağıq.



Saytda yeni

>

Ən məşhur