Rumah Bau dari mulut Saintis data di mana untuk belajar. Apakah sains data dan bagaimana ia berfungsi? Video: Pengkhususan baharu "Data Besar" - Mikhail Levin

Saintis data di mana untuk belajar. Apakah sains data dan bagaimana ia berfungsi? Video: Pengkhususan baharu "Data Besar" - Mikhail Levin

Adakah anda sudah lama ingin memikirkan cara menjadi penganalisis data, belajar sains data, tetapi tidak tahu dari mana untuk bermula? Maka artikel ini adalah untuk anda.

Siapa di antara kita yang tidak pernah mendengar tentang "data besar"? Tidak mungkin ada sekurang-kurangnya satu. DALAM tahun lepas Minat untuk bekerja dengan data telah berkembang dengan ketara, kerana syarikat IT yang besar perlu menghasilkan lebih banyak penyelesaian baharu untuk menganalisis, memproses dan seterusnya menggunakan data. Malah ada yang melancarkan program pembelajaran bersama universiti. Walau bagaimanapun, kebanyakan orang tidak mempunyai pemahaman tentang jenis orang penganalisis data. Jika anda adalah salah seorang daripada mereka dan anda mempunyai keinginan untuk menjadi seorang penganalisis data, maka artikel ini adalah untuk anda. Kami telah memilih hanya alat latihan percuma yang boleh anda gunakan tanpa mengira lokasi anda.

Apakah yang dilakukan oleh penganalisis data?

Penganalisis data yang dipanggil terlibat dalam maklumat dan analisisnya untuk mendapatkan hasil visual yang boleh dilihat oleh manusia. Orang sedemikian biasanya termasuk pakar dalam data besar, perlombongan data, pembelajaran mesin, analisis sistem dan penganalisis perniagaan.

Apa yang perlu ditonton

Kuliah "Sekolah Analisis Data" dari Yandex

SHAD - kursus mengenai analisis data daripada pekerja Yandex. Agak sukar untuk masuk ke sana; minimum yang diperlukan untuk pemohon ialah bahagian asas algebra yang lebih tinggi,analisis matematik, kombinatorik, teori kebarangkalian, serta asas pengaturcaraan. Nasib baik, kursus itu direkodkan supaya semua orang boleh belajar daripada kuliah video.

Kursus Pembelajaran Mesin

Kursus ini mengajar cara menggunakan teori dan statistik kebarangkalian, bercakap tentang asas pembelajaran mesin, dan mengajar cara membina algoritma

Kursus "Algoritma dan Struktur Data Carian"

Kuliah merangkumi algoritma untuk mencari dan menyusun volum besar data, algoritma dan manipulasi rentetan, algoritma graf-teoretik, pembinaan dan analisis struktur data.

Kursus "Pengkomputeran selari dan teragih"

Bagi mereka yang telah lama ingin berkenalan dengan pengaturcaraan berbilang benang dan selari, serta MapReduce.

Kursus "Analisis Diskret dan Teori Kebarangkalian"

Kursus ini mengkaji konsep asas dan kaedah analisis gabungan, diskret dan asimptotik, teori kebarangkalian, statistik, dan juga menunjukkan penggunaannya.

Kursus "Kerumitan Pengiraan"

Selepas menonton kursus, anda akan belajar tentang kelas kerumitan kemungkinan dan teknik asas untuk menganalisis dan membina data.

Lectures Technostream Mail.ru Group

Program kursus bertujuan untuk pelajar beberapa universiti Moscow, tetapi tersedia untuk sesiapa sahaja. Kami mengesyorkan koleksi kuliah berikut kepada penganalisis masa depan:

Kuliah Universiti Data Besar

Universiti Data Besar - kursus dalam talian, dicipta bersama IBM untuk pemula dan orang yang tidak mempunyai latar belakang matematik. Kuliah yang membantu anda membiasakan diri dengan asas bekerja dengan data direkodkan dalam bahasa Inggeris yang jelas.

Makmal Welch

Saluran ini mengandungi kuliah tentang matematik, sains komputer, pengaturcaraan dan pembelajaran mesin. Dalam proses itu, contoh-contoh diberikan tentang aplikasi perkara yang dipelajari kehidupan sebenar. Kuliah dalam bahasa Inggeris, tetapi terdapat sari kata Rusia yang sangat baik.

Baiklah" Belajar daripada Data Berstruktur: Pengenalan kepada Model Grafik Probabilistik"Fakulti Sains Komputer, Pusat Pengajian Tinggi Ekonomi Universiti Penyelidikan Nasional

Kursus ini memberi tumpuan kepada pengenalan mendalam kepada teori dan aplikasi salah satu pendekatan yang paling popular untuk menyelesaikan masalah sedemikian hari ini - kebarangkalian diskret model grafik. Bahasa kursus ialah Bahasa Inggeris.

Saluran sentdex

Saluran ini didedikasikan sepenuhnya untuk bekerja dengan data. Lebih-lebih lagi, bukan sahaja mereka yang berminat dalam matematik akan mencari perkara yang berguna untuk diri mereka sendiri. Terdapat video mengenai analisis dan pengaturcaraan untuk penganalisis kewangan dan robotik menggunakan Rasperri Pi.

Saluran Siraj Raval

Lelaki itu bercakap tentang teknologi moden dan bagaimana untuk bekerja dengan mereka. Kursus dalam pembelajaran mendalam, sains data dan pembelajaran mesin akan membantu anda mempelajari cara bekerja dengan data.

Saluran Sekolah Data

Jika anda hanya mendengar sesuatu tentang pembelajaran mesin, tetapi sudah berminat, saluran ini adalah untuk anda. Penulis akan menerangkan pada tahap yang boleh difahami, dengan contoh, apakah itu, bagaimana ia berfungsi dan di mana ia digunakan.

Di mana untuk berlatih

Bagi mereka yang tidak pasti bahawa mereka bersedia untuk belajar sepenuhnya secara bebas dengan menonton kuliah, terdapat kursus dalam talian dengan tugasan dengan pengesahan.

Kursus sains data di Coursera

Tidak perlu dijelaskan apakah jenis platform ini. Anda perlu memilih kursus dan mula belajar.

Stepik.org

Analisis Data dalam R

Bahagian pertama merangkumi semua langkah utama analisis statistik dalam R, membaca data, prapemprosesan data, menggunakan kaedah statistik asas dan memvisualisasikan keputusan. Pelajar akan mempelajari elemen asas pengaturcaraan dalam bahasa R, yang akan membolehkan mereka menyelesaikan pelbagai masalah dengan cepat dan cekap yang timbul semasa memproses data.

Bahagian kedua merangkumi beberapa topik lanjutan yang tidak dibincangkan dalam yang pertama: prapemprosesan data menggunakan pakej data.table dan dplyr, teknik visualisasi lanjutan, berfungsi dalam R Markdown.

Pengenalan kepada Pangkalan Data

Menyelam ke dalam DBMS

Kursus ini adalah untuk mereka yang mempunyai sedikit pengalaman dengan DBMS hubungan dan ingin mengetahui lebih lanjut tentang cara mereka berfungsi. Kursus ini meliputi:

  • reka bentuk skema pangkalan data;
  • pengurusan transaksi;
  • pengoptimuman pertanyaan;
  • ciri baharu DBMS hubungan

Hadoop. Sistem untuk memproses jumlah data yang besar

Kursus ini ditumpukan kepada kaedah memproses volum besar data menggunakan sistem Hadoop. Selepas menamatkan kursus, anda akan mendapat pengetahuan tentang kaedah asas menyimpan dan memproses jumlah data yang besar, memahami prinsip sistem teragih dalam konteks rangka kerja Hadoop, dan menguasai kemahiran pembangunan aplikasi praktikal menggunakan model pengaturcaraan MapReduce.

Ramai majikan hari ini sedang giat mencari saintis data. Pada masa yang sama, mereka berminat untuk menarik "saintis" yang mempunyai pendidikan yang sesuai. Pada masa yang sama, anda perlu mengambil kira semua maklumat salah yang dipenuhi pasaran. Kami akan memberitahu anda tentang salah tanggapan terbesar tentang Saintis Data dan Saintis Data, kemahiran yang perlu mereka miliki dan siapa sebenarnya baka yang jarang ditemui ini.

Sains Data(Sains Data) ialah satu cabang sains komputer yang mengkaji masalah menganalisis, memproses dan mempersembahkan data dalam bentuk digital. Sains data menggabungkan kaedah untuk memproses data dalam jumlah yang besar dan paralelisme tahap tinggi, kaedah statistik, kaedah perlombongan data dan aplikasi kecerdasan buatan untuk bekerja dengan data, serta kaedah untuk mereka bentuk dan membangunkan pangkalan data. Dilayan sebagai disiplin akademik. Sejak awal tahun 2010-an, ia telah diletakkan sebagai bidang aktiviti intersektoral yang praktikal. Sejak awal 2010-an, pengkhususan "saintis data" telah dianggap sebagai salah satu profesion bergaji tertinggi, menarik dan menjanjikan.

Salah Tanggapan Sains Data

1. Data besar ialah statistik dan analitik perniagaan dengan jumlah data yang besar. Tiada yang baru di sini

Pendapat ini dipegang terutamanya oleh mereka yang mempunyai pengalaman terhad dalam pembangunan perisian, atau tidak dibebani dengan apa-apa pengalaman sama sekali. Nak analogi? Tolonglah. Mari kita ambil ais sebagai contoh. Ia boleh dipanggil air yang sangat sejuk. Apa yang baru di sini? Walau bagaimanapun, air penyejuk bukan sahaja mengubah suhunya, tetapi secara radikal mengubah ciri kualitinya, menukar cecair menjadi pepejal. Perkara yang sama boleh dikatakan untuk jumlah data yang besar. Sejumlah besar data akhirnya memecahkan paradigma lama pengiraan, pengiraan dan pengiraan. menggunakan kaedah tradisional Bagi penganalisis perniagaan, ia boleh mengambil masa bertahun-tahun untuk menjalankan pengiraan tertentu. Keselarian dan pengkomputeran teragih adalah jawapan yang jelas kepada persoalan penskalaan. Tetapi ini tidak selalunya begitu mudah, walaupun dengan alat statistik semudah analisis regresi logistik. Pengkomputeran statistik teragih adalah berbeza daripada analisis perniagaan tradisional kerana ais adalah daripada air.

2. Ahli sains data adalah jurutera perisian yang sama selepas penjenamaan semula

Kadangkala jurutera yang mempunyai pengalaman luas dalam pembangunan perisian menjalani latihan semula dan menjadi saintis data untuk menambah baik upah. Walau bagaimanapun, amalan ini sering membawa kepada hasil yang tidak memuaskan. Sesungguhnya, dalam bidang data besar, menyahpepijat ralat statistik walaupun pada tahap paling mudah nampaknya merupakan tugas yang agak sukar. Jurutera dilatih untuk mengesan dan membetulkan ralat perisian. Tetapi tanpa pengetahuan yang kukuh tentang teori dan statistik kebarangkalian, walaupun seorang pengaturcara yang hebat tidak mungkin dapat berjaya menghapuskan ralat statistik yang mudah.


Jurutera peringkat tinggi dapat membina model yang ringkas, diskret, berasaskan peraturan. Tetapi model sedemikian tidak sesuai untuk mendapatkan lebih banyak cerapan bernuansa daripada data. Oleh itu manfaat kewangan yang hilang. Oleh itu, untuk mendapatkan jawapan kepada "soalan data besar," kakitangan yang berkelayakan tinggi dan sangat khusus diperlukan, yang akan menjadi asas kepada pemodelan ramalan generasi akan datang.

3. Ahli sains data tidak perlu memahami perniagaan—data akan memberitahu mereka segala-galanya

Orang yang mempunyai pendidikan dan pengalaman sebagai pengaturcara sering tunduk kepada godaan ini. Dan, sebenarnya, mengapa mereka perlu memahami perniagaan jika mereka mempunyai asas yang begitu kuat? Berkuasa, tetapi tidak maha kuasa. Mencari semua korelasi yang mungkin adalah sangat intensif buruh dan memakan masa, apatah lagi bermasalah secara statistik. Saintis data hanya perlu menggunakan intuisi perniagaan mereka untuk berjaya membezakan antara korelasi palsu dan sebenar. Kekurangan pengetahuan pakar dalam bidang tertentu boleh membawa kepada kesimpulan yang tidak berasas. Bagaimana anda suka ini? Peningkatan bilangan pegawai polis membawa kepada peningkatan jenayah, yang bermakna perlu mengurangkan bilangan pegawai penguatkuasa undang-undang di kawasan yang mempunyai situasi jenayah yang tidak menguntungkan. Akhir sekali, mempunyai intuisi perniagaan juga penting untuk meyakinkan pihak berkepentingan utama: dengan bercakap tentang korelasi dalam bahasa yang difahami oleh ahli perniagaan, saintis data akan lebih berjaya daripada rakan sekerja yang tidak mempunyai kepintaran perniagaan.


Data besar dan sains data ialah pengetahuan tentang cara membina model optimum yang menggabungkan kemahiran kejuruteraan, statistik dan perniagaan yang betul. Tanpa ini, seorang saintis data tidak akan dapat mencapai semua yang dia ingin lakukan.

Jadi siapa saintis data?

Saintis data ialah produk evolusi perniagaan dan penganalisis data. Latihan formal untuk pakar tersebut termasuk sains komputer, statistik, analitik dan matematik. Apakah yang menjadikan seorang saintis data terkemuka? Ketajaman perniagaan yang kukuh digabungkan dengan keupayaan untuk berkomunikasi dengan pemimpin perniagaan dan IT dengan cara yang membantu mempengaruhi pertumbuhan syarikat. Anjul Bambra, naib presiden data besar di IBM, berkata saintis data ialah "sebahagian penganalisis dan sebahagian artis." Ini adalah orang yang sangat ingin tahu yang boleh melihat data dan melihat arah aliran. Mereka boleh dibandingkan dengan artis Renaissance, yang bukan sahaja ingin belajar, tetapi juga untuk mengubah dunia di sekeliling mereka.

Manakala penganalisis tradisional menganalisis data daripada satu sumber (cth. sistem CRM), seorang saintis data semestinya mengkaji data daripada beberapa sumber yang berbeza. Ia akan menapis secara agresif semua data masuk untuk menemui cerapan tersembunyi sebelum ini yang boleh memberikan kelebihan daya saing. Seorang saintis data bukan sahaja mengumpul dan menganalisis data, tetapi melihatnya dari sudut yang berbeza dan menganalisisnya dalam konteks yang berbeza, menentukan maksud data ini atau itu untuk jenama, dan kemudian membuat pengesyoran tentang cara menggunakan maklumat yang tersedia.


Saintis data ialah orang yang sentiasa menyelidik, bertanya berjuta-juta soalan, melakukan analisis "bagaimana jika...", mempersoalkan andaian dan proses sedia ada, mengenal pasti sumber data yang kaya dan menghubungkannya dengan set data yang lemah... Dalam persekitaran yang kompetitif di mana tugas sentiasa perubahan, dan aliran data yang pantas tidak pernah berakhir, saintis data membantu pengurusan keputusan. Dan ini adalah kualiti mereka yang paling berharga.

Mengapa "saintis"?

Ramai yang berpendapat bahawa memanggil saintis data sebagai "saintis data" adalah sangat, sangat berpura-pura. Walau bagaimanapun, jika anda cuba melihat akarnya, maka rumusan ini masuk akal. Sebagai contoh, ahli fizik eksperimen mesti mereka bentuk dan membina peralatan mereka sendiri, mengumpul data, menjalankan eksperimen, dan meringkaskan semua penemuan dalam laporan. Ahli sains data melakukan perkara yang sama. Oleh itu, saintis data yang paling berkelayakan tinggi dianggap sebagai orang yang mempunyai ijazah lanjutan dalam fizik atau sains sosial.


Saintis data terbaik di planet ini ialah saintis dengan PhD dalam bidang esoterik seperti ekologi dan biologi sistem. Contoh yang menarik perhatian– George Roumeliotis, yang mengetuai pasukan saintis data di Intuit di Silicon Valley. Beliau menerima PhD dalam astrofizik. Ramai saintis data adalah pemilik ijazah akademik dalam sains komputer, matematik dan ekonomi. Tetapi, walau bagaimanapun, pakar yang baik, pakar dalam analisis data, boleh datang dari mana-mana bidang.


Kemahiran asas yang tidak dapat dilakukan oleh saintis data

Alat asas. Tanpa mengira misi syarikat, seorang saintis data mesti tahu cara menggunakan alat asas: bahasa pengaturcaraan R untuk pemprosesan data statistik dan grafik, bahasa pengaturcaraan Python peringkat tinggi yang bertujuan untuk meningkatkan produktiviti pembangun dan kebolehbacaan kod, Bahasa Pertanyaan Berstruktur, seperti SQL, digunakan untuk mencipta, mengubah suai dan memanipulasi data dalam pangkalan data hubungan sewenang-wenangnya.

Statistik Asas. Memahami statistik adalah penting untuk seorang saintis data. Bukan rahsia lagi bahawa ramai pakar tidak dapat menentukan walaupun nilai P - nilai yang digunakan dalam ujian hipotesis statistik. Seorang saintis data mesti biasa dengan ujian statistik, pengedaran, anggaran kemungkinan maksimum, dsb. Statistik adalah penting untuk kawasan yang berbeza perniagaan, terutamanya untuk syarikat berasaskan data


Pembelajaran mesin. Jika seorang saintis data bekerja di sebuah syarikat besar dengan jumlah data yang besar, dia harus biasa dengan kaedah pembelajaran mesin. Sudah tentu, kebanyakan kaedah ini boleh dilaksanakan menggunakan perpustakaan R atau Python, jadi anda tidak perlu menjadi pakar terkemuka dunia untuk memahami cara algoritma berfungsi. Adalah lebih penting untuk memahami bila penggunaan kaedah tertentu akan menjadi paling sesuai.

Pengiraan multivariate dan algebra linear. Disiplin ini membentuk asas kepada banyak kaedah pembelajaran mesin.

Menyediakan data untuk dianalisis. Selalunya data yang dianalisis agak "kotor", menjadikan kerja dengannya lebih sukar. Oleh itu, adalah sangat penting untuk mengetahui cara menangani semua kekurangan data. Contoh data yang tidak sempurna ialah pemformatan rentetan yang tidak konsisten seperti "New York" - "new york" - "ny", atau tarikh "2014-01-01" - "01/01/2014", atau penggunaan Masa dan urutan masa sistem UNIX.

Visualisasi data dan komunikasi. Ini adalah luar biasa perkara penting, terutamanya apabila kita bercakap tentang syarikat yang dipacu data muda, atau syarikat di mana saintis data dianggap sebagai orang yang membantu membuat keputusan berdasarkan data. Pengetahuan tentang ggplot (sambungan bahasa R) dan perpustakaan JavaScript untuk memproses dan menggambarkan data D3.js akan sangat berguna.

Pengaturcaraan. Saintis data biasanya bertanggungjawab untuk mengendalikan sejumlah besar data pendaftaran dan produk dipacu data.

Berfikir seperti seorang saintis data. Seorang majikan sentiasa mahu melihat saintis data sebagai penyelesai masalah. "Saintis" mesti sentiasa tahu apa yang penting pada peringkat ini dan apa yang tidak bernilai tertentu. Dia dikehendaki berinteraksi dengan pereka dan pengurus yang bertanggungjawab untuk pembangunan produk.


Kajian Perniagaan Harvard mendakwa bahawa saintis data adalah profesion paling seksi pada abad ke-21. Dan sukar untuk tidak bersetuju dengan ini. Sains data baru sahaja berkembang, dan semua saintis data moden boleh dipanggil perintis dengan selamat. Dan jika anda boleh mengatakan bahawa anda adalah pakar IT terbaik dalam kalangan ahli statistik dan ahli statistik terbaik dalam kalangan pakar IT, maka anda adalah saintis data yang benar.

Bahan yang digunakan dalam penyediaan artikel ini

Saintis Data- pakar dalam pemprosesan, analisis dan penyimpanan sejumlah besar data, yang dipanggil "Data Besar". Profesion ini sesuai untuk mereka yang berminat dalam fizik, matematik dan sains komputer (lihat memilih profesion berdasarkan minat dalam mata pelajaran sekolah).

Sains Data - sains data di persimpangan disiplin yang berbeza: matematik dan statistik; Informatik dan Sains Komputer; perniagaan dan ekonomi.

(S. Maltseva, Universiti Penyelidikan Kebangsaan V. Kornilov "Sekolah Tinggi Ekonomi")

Profesion ini baru, relevan dan... Istilah "Data Besar" itu sendiri muncul pada tahun 2008. Dan profesion Saintis Data - "Saintis Data" secara rasmi didaftarkan sebagai disiplin akademik dan antara disiplin pada awal tahun 2010. Walaupun sebutan pertama istilah "sains data" dicatatkan dalam buku Peter Naur pada tahun 1974, tetapi dalam cara yang berbeza. konteks.

Keperluan untuk kemunculan profesion sedemikian ditentukan oleh fakta bahawa apabila ia datang kepada Ultra Big Data, susunan data ternyata terlalu besar untuk diproses menggunakan kaedah statistik matematik yang standard. Setiap hari, beribu petabait (10 15 bait = 1024 terabait) maklumat melalui pelayan syarikat di seluruh dunia. Sebagai tambahan kepada jumlah data sedemikian, masalahnya adalah rumit oleh kepelbagaian mereka dan kelajuan tinggi kemas kini.

Tatasusunan data dibahagikan kepada 3 jenis:

berstruktur (contohnya, data daripada daftar tunai dalam perdagangan);

separuh berstruktur (mesej e-mel);

tidak berstruktur (fail video, imej, gambar).

Kebanyakan Data Besar tidak berstruktur, yang menjadikan pemprosesannya lebih sukar.

Secara individu, ahli statistik, penganalisis sistem atau penganalisis perniagaan tidak dapat menyelesaikan masalah dengan volum data sedemikian. Ini memerlukan seseorang yang mempunyai pendidikan antara disiplin, cekap dalam matematik dan statistik, ekonomi dan perniagaan, sains komputer dan teknologi komputer.

Tugas utama seorang Saintis Data ialah keupayaan untuk mengekstrak maklumat yang diperlukan daripada pelbagai sumber, menggunakan aliran maklumat dalam masa nyata; mengenal pasti corak tersembunyi dalam set data dan menganalisisnya secara statistik untuk membuat keputusan perniagaan yang bijak. Tempat kerja pakar sedemikian bukanlah 1 komputer atau 1 pelayan, tetapi sekumpulan pelayan.

Ciri-ciri profesion

Apabila bekerja dengan data, Saintis Data menggunakan pelbagai kaedah:

  • kaedah statistik;
  • pemodelan pangkalan data;
  • kaedah perlombongan;
  • aplikasi kecerdasan buatan untuk bekerja dengan data;
  • kaedah mereka bentuk dan membangunkan pangkalan data.

Tanggungjawab kerja seorang saintis data bergantung pada bidang aktivitinya, tetapi senarai umum fungsi kelihatan seperti ini:

  • pengumpulan data daripada pelbagai sumber untuk pemprosesan operasi seterusnya;
  • analisis tingkah laku pengguna;
  • pemodelan asas pelanggan dan pemperibadian produk;
  • analisis kecekapan proses dalaman pangkalan;
  • analisis pelbagai risiko;
  • mengenal pasti kemungkinan penipuan dengan mengkaji transaksi yang boleh dipersoalkan;
  • merangka laporan berkala dengan ramalan dan pembentangan data.

Seorang saintis data, seperti seorang saintis sebenar, bukan sahaja mengumpul dan menganalisis data, tetapi juga mengkajinya dalam konteks yang berbeza dan dari sudut yang berbeza, mempersoalkan sebarang andaian. Kualiti yang paling penting saintis data ialah keupayaan untuk melihat sambungan logik dalam sistem maklumat yang dikumpul, dan berdasarkan analisis kuantitatif membangunkan penyelesaian perniagaan yang berkesan. Dalam dunia yang berdaya saing dan pesat berubah hari ini, dalam aliran maklumat yang semakin berkembang, seorang Saintis Data amat diperlukan untuk pengurusan dari segi membuat keputusan perniagaan yang betul.

Kebaikan dan keburukan profesion

kebaikan

  • Profesion ini bukan sahaja sangat diminati, tetapi terdapat kekurangan pakar dalam peringkat ini. Menurut McKinsey Global Institute, menjelang 2018, lebih daripada 190 ribu Data Saintis akan diperlukan di Amerika Syarikat sahaja. Itulah sebabnya fakulti di universiti paling berprestij untuk melatih saintis data dibiayai dan dibangunkan dengan begitu pantas dan meluas. Permintaan untuk Saintis Data juga semakin meningkat di Rusia.
  • Profesion bergaji tinggi.
  • Keperluan untuk sentiasa membangun, mengikuti perkembangan teknologi IT, dan mencipta kaedah baharu untuk memproses, menganalisis dan menyimpan data.

Minus

  • Tidak semua orang boleh menguasai profesion ini; ia memerlukan pemikiran yang khusus.
  • Dalam proses kerja, kaedah yang terkenal dan lebih daripada 60% idea mungkin tidak berfungsi. Banyak penyelesaian akan gagal dan anda perlu mempunyai banyak kesabaran untuk mendapatkan hasil yang memuaskan. Seorang saintis tidak berhak untuk berkata: "TIDAK!" masalah. Dia mesti mencari jalan yang akan membantu menyelesaikan masalah itu.

Tempat kerja

Saintis Data menduduki jawatan penting dalam:

  • industri teknologi (sistem navigasi kereta, pengeluaran dadah, dll.);
  • Sfera IT (pengoptimuman enjin carian, penapis spam, sistematisasi berita, terjemahan teks automatik dan banyak lagi);
  • perubatan (diagnosis penyakit automatik);
  • struktur kewangan (membuat keputusan mengenai mengeluarkan pinjaman), dsb.;
  • syarikat televisyen;
  • rantaian runcit besar;
  • kempen pilihanraya.

Kualiti penting

  • Fikiran analitikal;
  • kerja keras;
  • kegigihan;
  • ketelitian, ketepatan, perhatian;
  • keupayaan untuk menyelesaikan penyelidikan walaupun keputusan pertengahan tidak berjaya;
  • kemahiran komunikasi;
  • keupayaan untuk menerangkan perkara yang kompleks dengan perkataan yang mudah;
  • gerak hati perniagaan.

Pengetahuan dan kemahiran profesional:

  • pengetahuan tentang matematik, analisis matematik, statistik matematik, teori kebarangkalian;
  • pengetahuan bahasa Inggeris;
  • pengetahuan tentang bahasa pengaturcaraan utama yang mempunyai komponen untuk bekerja dengan set data yang besar: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • pengetahuan tentang alat statistik - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • pengetahuan menyeluruh tentang industri di mana ahli sains data bekerja; jika ini adalah industri farmaseutikal, maka pengetahuan tentang proses pengeluaran asas dan komponen ubat adalah perlu;
  • Kemahiran asas utama seorang saintis data ialah organisasi dan pentadbiran sistem storan kelompok untuk sejumlah besar data;
  • pengetahuan undang-undang pembangunan perniagaan;
  • ilmu ekonomi.

Universiti

  • Universiti Negeri Moscow dinamakan sempena Lomonosov, Fakulti Matematik Pengiraan dan Sibernetik, khas program pendidikan Mail.Ru Group "Technosphere", dengan latihan dalam kaedah analisis pintar sejumlah besar data, pengaturcaraan dalam C ++, pengaturcaraan berbilang benang dan teknologi untuk membina sistem mendapatkan maklumat.
  • MIPT, Jabatan Analisis Data.
  • Fakulti Informatik Perniagaan di Sekolah Tinggi Ekonomi Universiti Penyelidikan Nasional melatih penganalisis sistem, pereka bentuk dan pelaksana sistem maklumat yang kompleks, dan penganjur pengurusan sistem maklumat korporat.
  • Sekolah analisis data Yandex.
  • Universiti di Innopolis, Universiti Dundee, Universiti California Selatan, Universiti Auckland, Universiti Washington: Program Sarjana dalam Data Besar.
  • Imperial College London Business School, MSc Data Science and Management.

Seperti dalam mana-mana profesion, pendidikan diri adalah penting di sini, yang sudah pasti akan mendapat manfaat daripada sumber seperti:

  • kursus dalam talian daripada universiti terkemuka di dunia COURSERA;
  • saluran pembelajaran mesin MASHIN LEARNING;
  • pemilihan kursus edX;
  • Kursus Udacity;
  • Kursus Dataquest, di mana anda boleh menjadi profesional sebenar dalam Sains Data;
  • Kursus Datacamp 6 langkah;
  • Video latihan O'Reilly;
  • tayangan skrin untuk pemula dan Origami Data lanjutan;
  • persidangan suku tahunan pakar Moscow Data Scientists Meetup;
  • pertandingan analisis data Kaggle.сom

Gaji

Gaji setakat 07/04/2019

Rusia 50000—200000 ₽

Moscow 60000—300000 ₽

Profesion Saintis Data adalah salah satu yang dibayar paling tinggi. Maklumat dari laman web hh.ru - gaji bulanan berkisar antara $8.5 ribu hingga $9 ribu. Di Amerika Syarikat, gaji pakar sedemikian ialah $110 ribu - $140 ribu setahun.

Menurut tinjauan oleh pusat penyelidikan Superjob, gaji pakar Saintis Data bergantung pada pengalaman kerja, skop tanggungjawab dan wilayah. Pakar baru boleh bergantung pada 70 ribu rubel. di Moscow dan 57 ribu rubel. di St. Petersburg. Dengan pengalaman kerja sehingga 3 tahun, gaji meningkat kepada 110 ribu rubel. di Moscow dan 90 ribu rubel. di St. Petersburg. Bagi pakar yang berpengalaman dengan penerbitan saintifik, gaji boleh mencapai 220 ribu rubel. di Moscow dan 180 ribu rubel. Di Petersburg.

Langkah dan prospek kerjaya

Profesion Saintis Data itu sendiri adalah pencapaian yang tinggi, yang memerlukan pengetahuan teori yang serius dan pengalaman praktikal beberapa profesion. Dalam mana-mana organisasi pakar seperti itu adalah tokoh utama. Untuk mencapai ketinggian ini, anda perlu bekerja keras dan bertujuan dan sentiasa meningkatkan dalam semua bidang yang membentuk asas profesion.

Terdapat jenaka tentang seorang Saintis Data: dia seorang generalis yang memprogramkan lebih baik daripada mana-mana ahli statistik dan mengetahui statistik lebih baik daripada mana-mana pengaturcara. Dan dia lebih memahami proses perniagaan daripada ketua syarikat.

APA DAH JADI"BESAR DATA"dalam nombor nyata?

  1. Setiap 2 hari, jumlah data meningkat dengan jumlah maklumat yang dicipta oleh manusia sejak kelahiran Kristus hingga 2003.
  2. 90% daripada semua data sedia ada hari ini muncul dalam tempoh 2 tahun yang lalu.
  3. Menjelang 2020, jumlah maklumat akan meningkat daripada 3.2 kepada 40 zettabait. 1 zettabait = 10 21 bait.
  4. Dalam masa 1 minit, 200 ribu gambar dimuat naik di Facebook, 205 juta surat dihantar, dan 1.8 juta suka disiarkan.
  5. Dalam masa 1 saat, Google memproses 40 ribu pertanyaan carian.
  6. Setiap 1.2 tahun, jumlah volum data dalam setiap industri meningkat dua kali ganda.
  7. Menjelang 2020, pasaran perkhidmatan Hadoop akan berkembang kepada $50 bilion.
  8. Di Amerika Syarikat pada 2015, 1.9 juta pekerjaan telah dicipta untuk pakar yang bekerja pada projek Data Besar.
  9. Teknologi Big Data meningkatkan keuntungan rantaian runcit sebanyak 60% setahun.
  10. Menurut ramalan, saiz pasaran Data Besar akan meningkat kepada $68.7 bilion pada 2020 berbanding $28.5 bilion pada 2014.

Walaupun terdapat petunjuk pertumbuhan yang positif, terdapat juga ralat dalam ramalan. Sebagai contoh, salah satu kesilapan yang paling terkenal pada tahun 2016: ramalan mengenai pilihan raya presiden AS tidak menjadi kenyataan. Ramalan telah dibentangkan oleh Saintis Data terkenal AS Nate Silver, Kirk Bourne dan Bill Schmarzo yang memihak kepada Hillary Clinton. Dalam kempen pilihan raya sebelum ini, mereka memberikan ramalan yang tepat dan tidak pernah tersilap.

Tahun ini, Nate Silver, sebagai contoh, memberi ramalan yang tepat untuk 41 negeri, tetapi untuk 9 negeri dia salah, yang membawa kepada kemenangan Trump. Selepas menganalisis punca kesilapan 2016, mereka membuat kesimpulan bahawa:

  1. Model matematik secara objektif mencerminkan gambar pada masa penciptaannya. Tetapi mereka mempunyai separuh hayat, pada akhirnya keadaan boleh berubah secara dramatik. Kualiti ramalan model semakin merosot dari semasa ke semasa. DALAM dalam kes ini, sebagai contoh, penyelewengan, ketidaksamaan pendapatan dan pergolakan sosial lain memainkan peranan. Oleh itu, model mesti sentiasa dilaraskan untuk mengambil kira data baharu. Ini tidak dilakukan.
  2. Adalah perlu untuk mencari dan mempertimbangkan data tambahan yang boleh memberi kesan yang ketara pada ramalan. Oleh itu, apabila menonton video perhimpunan dalam kempen pilihan raya Clinton dan Trump, jumlah keseluruhan peserta perhimpunan tidak diambil kira. Ia adalah kira-kira ratusan orang. Ternyata 400-600 orang menghadiri setiap perhimpunan yang memihak kepada Trump, dan hanya 150-200 yang memihak kepada Clinton, yang menjejaskan keputusan.
  3. Model matematik dalam kempen pilihan raya adalah berdasarkan data demografi: umur, bangsa, jantina, pendapatan, status dalam masyarakat, dsb. Berat setiap kumpulan ditentukan oleh cara mereka mengundi dalam pilihan raya lalu. Ramalan ini mempunyai ralat 3-4% dan berfungsi dengan pasti apabila terdapat jurang yang besar antara calon. Tetapi dalam kes ini, jurang antara Clinton dan Trump adalah kecil, dan kesilapan ini mempunyai kesan yang besar terhadap keputusan pilihan raya.
  4. Tingkah laku tidak rasional orang tidak diambil kira. Tinjauan pendapat umum yang dijalankan mewujudkan ilusi bahawa orang akan mengundi dengan cara mereka menjawab dalam tinjauan pendapat. Tetapi kadang-kadang mereka melakukan sebaliknya. Dalam kes ini, adalah perlu untuk menjalankan analisis muka dan pertuturan tambahan untuk mengenal pasti sikap tidak jujur ​​terhadap pengundian.

Secara umumnya, ramalan itu ternyata meleset kerana jurang yang kecil antara calon. Dalam kes jurang yang besar, ralat ini tidak akan begitu menentukan.

Video: Pengkhususan baharu "Data Besar" - Mikhail Levin

Saintis Data dalam infografik. Profesion ini baru, bergaji tinggi dan terkenal. Tetapi apakah kemahiran yang harus dimiliki oleh pakar sedemikian? Mari kita pertimbangkan.

Mari kita bercakap tentang kemahiran

Saintis Data ialah pakar umum yang meliputi analisis dan pemprosesan maklumat. Seorang saintis data memahami statistik dan pengaturcaraan. Berguna, bukan? Julat keupayaan setiap Saintis Data individu adalah penggredan dan boleh bergerak ke arah pengekodan atau statistik tulen.

  • Penganalisis Data yang berpangkalan di San Francisco. Sesetengah syarikat sebenarnya membandingkan Saintis Data dengan penganalisis. Kerja pakar sedemikian adalah untuk mengekstrak maklumat daripada pangkalan data, berinteraksi dengan Excel dan visualisasi asas.
  • Trafik yang besar dan jumlah data yang besar memaksa sesetengah firma mencari segera pakar yang betul. Mereka sering menyiarkan iklan yang mencari jurutera, penganalisis, pengaturcara atau saintis, semuanya dengan tajuk pekerjaan yang sama dalam fikiran.
  • Terdapat syarikat yang datanya adalah produk. Dalam kes ini, analisis intensif dan pembelajaran mesin akan diperlukan.
  • Bagi syarikat lain, data bukan produk, tetapi pengurusan atau aliran kerja itu sendiri dibina di atasnya. Saintis Data juga dicari untuk menstruktur data syarikat.

Tajuk berita penuh dengan tajuk dalam gaya "Profesi paling seksi abad ke-21." Kami tidak tahu sama ada ini benar, tetapi kami tahu bahawa saintis data mesti memahami:

  1. Matematik dan statistik.
  2. Bidang subjek dan perisian.
  3. Pengaturcaraan dan pangkalan data.
  4. Pertukaran data dan visualisasi.

Mari kita lihat setiap titik dengan lebih terperinci.

Saintis Data dan Statistik Matematik

Pembangunan kaedah matematik menggunakan data statistik adalah bahagian asas kerja. Statistik matematik adalah berdasarkan teori kebarangkalian, yang memungkinkan untuk membuat kesimpulan yang tepat dan menilai kebolehpercayaannya.

1. Pembelajaran mesin, sebagai subseksyen AI. Terdapat program latihan dan contoh data dengan corak. Kami membentuk model corak, melaksanakannya dan mendapat peluang untuk mencari corak dalam data baharu menggunakan program tersebut.

2. Data Saintis Mesti Tahu pemodelan statistik untuk menguji model dengan isyarat rawak dengan ketumpatan kebarangkalian tertentu. Matlamatnya adalah untuk menentukan secara statistik keputusan yang diperolehi.

3. Reka bentuk eksperimen. Semasa percubaan, satu atau lebih pembolehubah diubah untuk melihat perbezaannya. Dalam kes ini, terdapat kumpulan intervensi dan kumpulan kawalan, yang mana ujian dijalankan.

4. Inferens Bayesian membantu melaraskan kebarangkalian sesuatu hipotesis.

5. Latihan yang diselia:

  • pokok keputusan;
  • hutan rawak;
  • regresi logistik.

6. Pembelajaran tanpa pengawasan:

  • pengelompokan;
  • pengurangan dimensi.

7. Pengoptimuman: keturunan kecerunan dan pilihan.

Kemahiran domain dan perisian

Belajar dan amalkan! Ini adalah asas kepakaran ini. Seorang Saintis Data mesti mempunyai pemahaman yang baik tentang bidang subjek yang dipengaruhi oleh sains, dan juga biasa dengan perisian.

Senarai kemahiran yang diperlukan adalah pelik, tetapi tidak kurang berguna:

Pengaturcaraan dan Pangkalan Data

Daripada asas kepada pengetahuan Python, XaaS, algebra hubungan dan SQL. Secara umum, segala-galanya tanpa percubaan untuk memproses data secara kualitatif adalah sia-sia.

1. Asas sains komputer, sebagai titik permulaan bagi sesiapa sahaja yang menghubungkan kehidupan dengan pengaturcaraan dan automasi proses.

Sains data, pembelajaran mesin - anda mungkin pernah mendengar perkataan besar ini, tetapi sejauh manakah jelas maksudnya kepada anda? Bagi sesetengah mereka adalah umpan yang cantik. Sesetengah orang berpendapat bahawa sains data adalah sihir yang akan membuatkan mesin melakukan apa sahaja yang dipesan secara percuma. Orang lain juga percaya bahawa ia adalah Jalan mudah mendapat wang yang besar. Nikita Nikitinsky, ketua R&D di IRELA dan Polina Kazakova, Saintis Data, menerangkan perkara ini dalam bahasa yang mudah dan boleh difahami.

Saya bekerja dalam pemprosesan bahasa semula jadi automatik, aplikasi sains data, dan sering melihat orang menggunakan istilah ini secara tidak betul, jadi saya ingin menjelaskan sedikit. Artikel ini adalah untuk mereka yang tidak tahu apa itu sains data dan ingin memahami konsepnya.

Mari kita tentukan istilah

Mari kita mulakan dengan fakta bahawa tiada siapa yang benar-benar tahu apa itu sains data, dan tiada definisi yang ketat - ia adalah konsep yang sangat luas dan antara disiplin. Oleh itu, di sini saya akan berkongsi visi saya, yang tidak semestinya bertepatan dengan pendapat orang lain.

Istilah sains data diterjemahkan ke dalam bahasa Rusia sebagai "sains data," dan dalam persekitaran profesional ia sering ditransliterasikan sebagai "sains data." Secara formal, ini adalah satu set beberapa disiplin dan kaedah yang saling berkaitan dari bidang sains komputer dan matematik. Bunyi terlalu abstrak, bukan? Mari kita fikirkan.

Bahagian pertama: data

Komponen pertama sains data, sesuatu yang tanpanya keseluruhan proses selanjutnya adalah mustahil, sebenarnya, data itu sendiri: cara mengumpul, menyimpan dan memprosesnya, serta cara memisahkannya daripada tatasusunan data umum informasi berguna. Pakar menumpukan sehingga 80% masa bekerja mereka untuk membersihkan data dan membawanya ke bentuk yang dikehendaki.

Bahagian penting dalam perkara ini ialah cara mengendalikan data yang mana kaedah penyimpanan dan pemprosesan standard tidak sesuai kerana volum dan/atau kepelbagaiannya yang besar - yang dipanggil data besar. Ngomong-ngomong, jangan biarkan diri anda keliru: data besar dan sains data bukan sinonim: sebaliknya, yang pertama ialah subseksyen kedua. Pada masa yang sama, penganalisis data dalam amalan tidak selalu perlu bekerja dengan data besar—data kecil juga boleh berguna.

Jom kumpul data

Bayangkan kami berminat sama ada terdapat sebarang hubungan antara jumlah kopi yang diminum oleh rakan sekerja anda pada siang hari dan berapa banyak tidur mereka pada malam sebelumnya. Mari catatkan maklumat yang tersedia kepada kami: katakan rakan sekerja anda Gregory tidur selama 4 jam hari ini, jadi dia terpaksa minum 3 cawan kopi; Ellina tidur selama 9 jam dan tidak minum kopi langsung; dan Polina tidur selama 10 jam, tetapi minum 2.5 cawan kopi - dan seterusnya.

Mari paparkan data yang diperoleh pada graf (visualisasi juga merupakan elemen penting dalam mana-mana projek sains data). Mari kita plot masa dalam jam pada paksi X, dan kopi dalam mililiter pada paksi Y. Kami akan mendapat sesuatu seperti ini:

Bahagian kedua: sains

Kami mempunyai data, apa yang boleh kami lakukan dengannya sekarang? Betul, menganalisis, mengekstrak corak yang berguna dan entah bagaimana menggunakannya. Di sini, disiplin seperti statistik, pembelajaran mesin dan pengoptimuman akan membantu kami.

Mereka membentuk komponen seterusnya dan mungkin paling penting dalam sains data - analisis data. Pembelajaran mesin membolehkan anda mencari corak dalam data sedia ada supaya anda boleh meramalkan maklumat yang berkaitan untuk objek baharu.

Mari analisa data

Mari kita kembali kepada contoh kita. Pada pandangan mata, nampaknya kedua-dua parameter itu entah bagaimana saling berkaitan: semakin kurang seseorang tidur, semakin banyak kopi yang akan diminumnya pada hari berikutnya. Pada masa yang sama, kami juga mempunyai contoh yang menonjol dari trend ini - Polina, yang suka tidur dan minum kopi. Namun begitu, anda boleh cuba menganggarkan corak yang terhasil dengan beberapa garis lurus umum supaya ia mendekati semua titik sedekat mungkin:

Garis hijau ialah model pembelajaran mesin kami, ia menyamaratakan data dan boleh diterangkan secara matematik. Sekarang, dengan bantuannya, kita boleh menentukan nilai untuk objek baru: apabila kita ingin meramalkan berapa banyak kopi yang akan diminum Nikita yang memasuki pejabat hari ini, kita akan bertanya berapa banyak dia tidur. Setelah menerima nilai 7.5 jam sebagai jawapan, kami menggantikannya ke dalam model - ia sepadan dengan jumlah kopi yang digunakan dalam jumlah kurang daripada 300 ml. Titik merah mewakili ramalan kami.

Ini kira-kira cara pembelajaran mesin berfungsi, idea yang sangat mudah: cari corak dan lanjutkan kepada data baharu. Malah, dalam pembelajaran mesin terdapat satu lagi kelas tugas apabila anda tidak perlu meramalkan beberapa nilai, seperti dalam contoh kami, tetapi membahagikan data kepada kumpulan tertentu. Tetapi kita akan bercakap tentang perkara ini dengan lebih terperinci di lain masa.

Jom amalkan hasilnya

Walau bagaimanapun, pada pendapat saya, sains data tidak berakhir dengan mengenal pasti corak dalam data. Mana-mana projek sains data adalah penyelidikan gunaan, di mana adalah penting untuk tidak melupakan perkara seperti menetapkan hipotesis, merancang percubaan dan, sudah tentu, menilai keputusan dan kesesuaiannya untuk menyelesaikan kes tertentu.

Yang terakhir ini sangat penting dalam masalah perniagaan sebenar, apabila anda perlu memahami sama ada penyelesaian yang ditemui oleh sains data akan memberi manfaat kepada projek anda atau tidak. Apakah kegunaan model yang dibina dalam contoh kami? Mungkin dengan bantuannya kami boleh mengoptimumkan penghantaran kopi ke pejabat. Pada masa yang sama, kami perlu menilai risiko dan menentukan sama ada model kami akan mengatasinya dengan lebih baik daripada penyelesaian sedia ada - pengurus pejabat Mikhail, yang bertanggungjawab untuk membeli produk.

Mari cari pengecualian

Sudah tentu, contoh kami adalah semudah mungkin. Pada hakikatnya, adalah mungkin untuk membina model yang lebih kompleks yang akan mengambil kira beberapa faktor lain, sebagai contoh, sama ada seseorang itu suka kopi pada dasarnya. Atau model boleh mencari hubungan yang lebih kompleks daripada yang diwakili oleh garis lurus.

Mula-mula kami boleh mencari outlier dalam data kami—objek yang, seperti Polina, sangat berbeza daripada kebanyakan yang lain. Hakikatnya ialah dalam kerja sebenar, contoh sedemikian boleh memberi kesan buruk pada proses membina model dan kualitinya, dan masuk akal untuk memprosesnya dengan cara lain. Dan kadangkala objek sedemikian adalah kepentingan utama, sebagai contoh, dalam tugas mengesan transaksi perbankan yang tidak normal untuk mengelakkan penipuan.

Di samping itu, Polina menunjukkan kepada kita satu lagi idea penting - ketidaksempurnaan algoritma pembelajaran mesin. Model kami meramalkan hanya 100 ml kopi untuk seseorang yang tidur selama 10 jam, manakala sebenarnya Polina minum sebanyak 500. Pelanggan penyelesaian sains data tidak akan percaya ini, tetapi masih mustahil untuk mengajar mesin untuk meramalkan segala-galanya dengan sempurna di dunia : Tidak kira betapa baiknya kita mengenal pasti corak dalam data, akan sentiasa ada unsur yang tidak dapat diramalkan.

Jom sambung cerita

Jadi, sains data ialah satu set kaedah untuk memproses dan menganalisis data dan mengaplikasikannya kepada masalah praktikal. Pada masa yang sama, anda perlu memahami bahawa setiap pakar mempunyai pandangan sendiri mengenai bidang ini dan pendapat mungkin berbeza.

Sains data adalah berdasarkan idea yang agak mudah, tetapi dalam praktiknya banyak kehalusan yang tidak jelas sering ditemui. Bagaimana sains data mengelilingi kita Kehidupan seharian, apakah kaedah analisis data yang wujud, pasukan sains data terdiri daripada siapa, dan apakah kesukaran yang mungkin timbul semasa proses penyelidikan - kita akan membincangkan perkara ini dalam artikel berikut.



Baru di tapak

>

Paling popular