Додому Запах із рота Data scientist де навчатися. Що таке data science та як це працює? Відео: Нова спеціалізація «Великі дані» - Михайло Левін

Запах із рота

Data scientist де навчатися. Що таке data science та як це працює? Відео: Нова спеціалізація «Великі дані» - Михайло Левін

Давно хотіли розібратися, як стати аналітиком даних, вивчити data science, але не знали, з чого почати? Тоді ця стаття є для вас.

Хто з нас не чув про “big data”? Навряд чи знайдеться бодай один. У Останніми рокамиінтерес до роботи з даними значно зріс, оскільки великим IT компаніям потрібно вигадувати нові рішення для аналізу, обробки та подальшого використання даних. Дехто навіть запускає навчальні програмиразом із вузами. Проте більшість не має розуміння, що це за люди, аналітики даних. Якщо ви один із таких людей, і у вас є бажання стати аналітиком даних, то ця стаття для вас. Ми відібрали лише безкоштовні засоби навчання, якими можна користуватися незалежно від вашого розташування.

Чим займаються аналітики даних

Так звані data analyst`и займаються її інформацією та аналізом для отримання наочних, сприйманих людиною результатів. До таких людей зазвичай зараховують фахівців з big data, data mining, машинного навчання, аналізу систем, бізнес-аналітиків.

Що дивитись

Лекції «Школи аналізу даних» від Яндекса

ШАД – курси з аналізу даних від співробітників Яндекса. Вступити туди досить непросто, мінімум, що ставиться до вступників - базові розділи вищої алгебри,математичного аналізу, комбінаторики, теорії ймовірностей та основи програмування. На щастя, курси записуються, щоб усі бажаючі змогли навчатися з відеолекцій.

Курс «Машинне навчання»

На курсі вчать застосовувати теорію ймовірності та статистику, розповідають про основи машинного навчання, вчать будувати алгоритми

Курс «Алгоритми та структури даних пошуку»

Під час лекцій розповідається про алгоритми пошуку та сортування великих обсягів даних, алгоритми та маніпуляції з рядками, теоретико-графові алгоритми, побудову та аналіз структур даних.

Курс «Паралельні та розподілені обчислення»

Для тих, хто хотів давно познайомитися з багатопоточним та паралельним програмуванням, а також MapReduce.

Курс «Дискретний аналіз та теорія ймовірностей»

В рамках курсу розглядаються основні поняття та методи комбінаторного, дискретного та асимптотичного аналізу, теорії ймовірностей, статистики, а також демонструється їх застосування.

Курс «Складність обчислень»

Після перегляду курсу ви дізнаєтеся про імовірнісні класи складності та основні прийоми аналізу та побудови даних.

Лекції Технострім Mail.ru Group

Програми курсів призначені для учнів кількох вишів Москви, але доступні будь-яким охочим. Майбутнім аналітикам ми радимо наступні збірки лекцій:

Лекції Big Data University

Big Data University - онлайн курс, створений спільно з IBM для новачків і людей, які не мають математичної освіти. Лекції, які допомагають ознайомитися з основами роботи з даними, записані зрозумілою англійською мовою.

Welch Labs

На цьому каналі зібрані лекції з математики, інформатики, програмування та машинного навчання. У процесі, наводяться приклади застосування речей, що вивчаються в реального життя. Лекції англійською, але є чудові російські субтитри.

Курс « Навчання за структурованими даними: Введення у імовірнісні графічні моделі»факультету комп'ютерних наук НДУ ВШЕ

Курс орієнтований на поглиблене введення в теорію та застосування одного з найпопулярніших на сьогоднішній день підходів до вирішення таких завдань — дискретних імовірнісних. графічних моделей. Мова курсу – англійська.

Канал sentdex

Канал повністю присвячений роботі з даними. Причому корисні речі собі знайдуть як ті, кому цікава математика. Тут є відео з аналізу та програмування для фінансових аналітиків та робототехніки за допомогою Rasperri Pi.

Канал Siraj Raval

Хлопець розповідає про сучасних технологіяхі як із ними працювати. Навчитися роботі з даними допоможуть курси з глибинного навчання, data science, машинного навчання.

Канал Data School

Якщо ви тільки краєм вуха чули про машинне навчання, але вже зацікавилися, то цей канал для вас. Автор на зрозумілому рівні, з прикладами пояснить, що це, як працює і де застосовується.

Де займатись

Для тих, хто не впевнений, що готовий повністю самостійно навчатися, дивлячись лекції, існують онлайн-курси із завданнями з перевіркою.

Курси з data science на Coursera

Не треба пояснювати, що це за платформа. Потрібно вибирати курс та починати займатися.

Stepik.org

Аналіз даних у R

У першій частині розглядаються всі основні етапи статистичного аналізу R, зчитування даних, передобробка даних, застосування основних статистичних методів та візуалізація результатів. Слухачі навчаться основним елементам програмування мовою R, що дозволить швидко та ефективно вирішувати найширший спектр завдань, що виникають під час обробки даних.

У другій частині розбираються кілька просунутих тем, які були розглянуті у першій: передобробка даних з допомогою пакетів data.table і dplyr, просунуті прийоми візуалізації, робота у R Markdown.

Введення до баз даних

Занурення в СУБД

Курс для тих, хто має деякий досвід спілкування з реляційними СУБД і хоче знати більше про те, як вони працюють. У курсі торкнулися:

проектування схеми бази даних;
керування транзакціями;
оптимізація запитів;
нові можливості реляційних СУБД

Hadoop. Система для обробки великих обсягів даних

Курс присвячений методам обробки великих обсягів даних за допомогою системи Hadoop. Після проходження курсу ви отримаєте знання основних способів зберігання та методів обробки великих обсягів даних, зрозумієте принципи роботи розподілених систем у контексті фреймворку Hadoop та освоїте практичні навички розробки програм, використовуючи програмну модель MapReduce.

Багато роботодавців сьогодні перебувають в активних пошуках дата-саентистів. При цьому вони зацікавлені у залученні тих «науковців», які мають відповідну освіту. При цьому потрібно враховувати всю дезінформацію, якою наповнюється ринок. Ми розповімо вам про найголовніші помилки щодо Data Science і дата-саентистів, про навички, які повинні вони мати, а також про те, ким же насправді є представники цієї рідкісної породи.

Наука про дані(Data Science) є розділом інформатики, який вивчає проблеми аналізу, обробки та подання даних у цифровій формі. Data science поєднує методи обробки даних в умовах великих обсягів і високого рівня паралелізму, статистичні методи, методи інтелектуального аналізу даних і застосування штучного інтелекту для роботи з даними, а також методи проектування та розробки баз даних. Розглядається як академічна дисципліна. З початку 2010-х позиціонується як практична міжгалузева сфера діяльності. Спеціалізація «вчений за даними» з початку 2010-х років вважається однією з найоплачуваніших, найпривабливіших та найперспективніших професій.

Data Science помилки

1. Big data – це статистика та бізнес-аналітика з великою кількістю даних. Тут немає нічого нового

Такої думки дотримуються переважно ті люди, які мають обмежений досвід розробки програмного забезпечення, або не обтяжені взагалі ніяким досвідом. Бажаєте аналогію? Будь ласка. Візьмемо як приклад лід. Його можна назвати дуже холодною водою. Що тут нового? Тим не менш, охолодження води змінює не тільки її температуру, але рішучим чином змінює її якісні характеристики, перетворюючи рідину на тверду речовину. Те саме може бути сказано і щодо великої кількості даних. Великі масиви даних, зрештою, ламають старі парадигми обчислень, розрахунків та викладок. При використанні традиційних методівбізнес-аналітики для проведення тих чи інших розрахунків можуть піти роки. Розпаралелювання та розподілені обчислення є очевидними відповідями на питання про масштабування. Але це не завжди виявляється так легко, навіть у разі такого простого статистичного інструменту, як логістичний регресійний аналіз. Розподілені статистичні обчислення так само відрізняються від традиційної бізнес-аналітики, наскільки лід від води.

2. Дата-саєністи – ті ж інженери-програмісти після ребрендингу

Іноді інженери з великим досвідом розробки програмного забезпечення проходять перекваліфікацію та стають дата-саентистами з метою підвищення заробітної плати. Однак така практика найчастіше призводить до незадовільних результатів. Адже у сфері big data налагодження помилок статистики навіть на найпростішому рівні є досить складним завданням. Інженери навчені виявляти та усувати програмні помилки. Але без твердих знань з теорії ймовірності та статистики навіть крутому програмісту навряд чи вдасться успішно усунути нескладну статистичну помилку.

Інженери вищого рівня можуть будувати прості дискретні моделі, засновані на правилах. Але такі моделі не підходять для більш тонких інсайтів з даних. Звідси і втрачена фінансова вигода. Тому для отримання відповідей на «big data питання» потрібні висококваліфіковані та вузькоспеціалізовані кадри, які будуть основою передиктивного моделювання наступного покоління.

3. Дата-саентистам не потрібно розуміти бізнес – їм усі розкажуть дані

Люди, які мають за плечима освіту та досвід роботи програміста, найчастіше піддаються цій спокусі. І, щоправда, навіщо їм розбиратися у бізнесі, якщо вони мають настільки потужну базу? Потужна, але не всемогутня. Пошук усіх можливих кореляцій неймовірно трудомісткий і витратний за часом, а про статистичної проблематики. Дата-саєністи просто зобов'язані керуватися бізнес-інтуїцією, щоб успішно розрізняти помилкові та реальні кореляції. Відсутність експертних знань у тій чи іншій сфері може призводити до необґрунтованих висновків. Як це вам? Збільшення кількості поліцейських призводить до зростання злочинності – отже, необхідно скоротити кількість правоохоронців у районах із несприятливою криміногенною обстановкою. Нарешті, наявність ділової інтуїції також важлива для переконання основних зацікавлених сторін: розмірковуючи про кореляції мовою, яку розуміють бізнесмени, фахівець за даними буде успішнішим, ніж його колега, який не володіє бізнес-чуттям.

Великі дані та наука про дані – це знання про те, як побудувати оптимальну модель, в якій поєднуватимуться правильний інжиніринг, статистичні та ділові навички. Без цього дата-саентист не зможе досягти всього того, що він має намір зробити.

То хто ж такі дата-саєністи?

Вчені за даними є продуктом еволюції бізнес- і дата-аналітиків. Формально навчання таких фахівців включає інформатику, статистику, аналітику та математику. Що вирізняє першокласного дата-саєніста? Сильна ділова хватка у поєднанні зі здатністю спілкуватися з бізнес- та IT-керівниками у такому форматі, який допомагає впливати на розвиток компанії. Анджул Бамбра, віце-президент відділу big data у компанії IBM, стверджує, що вчені за даними – це «частково аналітики, а частково художники». Це дуже цікаві люди, які можуть дивитися на дані і визначати тенденції. Їх можна порівняти з художниками епохи Відродження, які хотіли не просто вчитися, а й змінювати навколишній світ.

У той час, як традиційний аналітик аналізує дані з одного джерела (наприклад, системи CRM), дата-саентист обов'язково вивчає дані з кількох різнорідних джерел. Він наполегливо просіватиме всі вхідні дані з метою виявлення раніше прихованих інсайтів, які можуть забезпечити конкурентна перевага. Дата-саентист не просто збирає та аналізує дані, але дивиться на них під різними кутами та аналізує у різних контекстах, визначає те, що означають ті чи інші дані для бренду, а потім дає рекомендації щодо застосування наявної інформації.

Дата-саентисти – це люди, які постійно досліджують, задають мільйони питань, проводять «а що, якщо…» аналіз, ставлять під сумнів існуючі припущення та процеси, визначають багаті джерела даних та приєднують до них бідні масиви… У конкурентному середовищі, де завдання постійно змінюються, а бурхлива течія даних ніколи не вичерпується, дата-саентисти допомагають керівництву приймати рішення. І це найцінніша їхня якість.

Чому вчені?

Багато хто стверджує, що називати фахівця за цими вченими дуже і дуже претензійно. Однак якщо постаратися дивитися в корінь, то таке формулювання набуває сенсу. Наприклад, фізики-експериментатори повинні самі розробляти та створювати обладнання, збирати дані, проводити експерименти та узагальнювати всі отримані відомості у звітах. Те саме роблять і дата-саентисти. Тому найбільш висококваліфікованими вченими за даними вважаються люди з науковим ступенем з фізики чи громадських (соціальних) наук.

Найкращими на планеті дата-саентистами є вчені зі ступенем доктора наук у таких езотеричних галузях, як екологія та системна біологія. Яскравий приклад– Джордж Румеліотіс, який очолює команду дата-саентистів компанії Intuit у Силіконовій долині. Він отримав докторський ступінь у галузі астрофізики. Багато дата-саєністи є власниками вчених ступенівз інформатики, математики та економіки. Але, як би там не було, гарний спеціаліст, Що спеціалізується на аналізі даних, може вийти з будь-якої області.

Основні навички, без яких не обійтися дата-саентисту

Базові інструменти. Незалежно від того, які завдання ставить компанія, вчений за даними повинен знати, як використовувати базові інструменти: мова програмування R для статистичної обробки даних та роботи з графікою, високорівнева мова програмування Python, орієнтована на підвищення продуктивності розробника та читання коду, мова структурованих запитів, такий як SQL, що застосовується для створення, модифікації та управління даними у довільній реляційній базі даних.

Базова статистика. Розуміння статистики є життєво необхідним для дата-саентиста. Не секрет, що багато фахівців не в змозі визначити навіть P-значення – величину, яку використовують при тестуванні статистичних гіпотез. Дата-саентист просто повинен бути знайомий зі статистичними тестами, розподілами, оцінками максимальної правдоподібності і т.д. Статистика важлива для різних сфербізнесу, особливо для data-driven компаній

Машинне навчання. Якщо дата-саентист працює у великій компанії з величезними обсягами даних, він повинен бути знайомий з методами машинного навчання. Звичайно, багато хто з цих методів може бути реалізований за допомогою бібліотек R або Python, тому тут не потрібно бути провідним світовим експертом, щоб розібратися в тому, як працюють алгоритми. Набагато важливіше розуміти, коли використання тих чи інших методів буде найдоцільнішим.

Багатоваріантні розрахунки та лінійна алгебра. Ці дисципліни утворюють основу багатьох методів машинного навчання.

Підготовка даних до аналізу. Найчастіше аналізовані дані бувають досить «брудні», значно ускладнюючи роботу з ними. Тому дуже важливо знати, як боротися з усіма недоліками даних. Як приклад недосконалості data можна навести таке суперечливе форматування рядків, як New York - new york - ny, або дати 2014-01-01 - 01/01/2014, або використання системи UNIX- час і послідовність Timestamp.

Візуалізація даних та комунікація. Це неймовірно важливі моменти, особливо якщо йдеться про молоді data-driven компанії, або про ті компанії, в яких дата-саентисти сприймаються як люди, що допомагають приймати data-driven рішення. Дуже знадобляться знання ggplot (розширення мови R) та JavaScript-бібліотеки для обробки та візуалізації даних D3.js.

Програмування. Дата-саєністи, як правило, відповідальні за обробку великої кількості реєстраційних даних та data-driven продуктів.

Думати як дата-саентист. Роботодавець завжди хоче бачити в дата-саентисті людину, яка вирішує проблеми. «Вчений» завжди повинен знати, що є важливим на даному етапі, а що не має особливої цінності. Він має взаємодіяти з проектувальниками і менеджерами, відповідальними за розвиток товару.

Видання Harvard Business Review стверджує, що дата-саентист – найсексуальніша професія 21 століття. І з цим важко не погодитись. Наука про дані тільки розвивається, і всіх сучасних дата-саентистів можна назвати піонерами. І якщо ви можете сказати, що є найкращим IT-фахівцем серед статистиків та найкращим статистиком серед IT-фахівців, тоді ви справжній дата-саентист.

Під час підготовки статті були використані матеріали

Data Scientist— фахівець із обробки, аналізу та зберігання великих масивів даних, так званих «Big Data». Професія підходить тим, кого цікавить фізика, математика та інформатика (див. вибір професії з інтересу до шкільних предметів).

Data Science – наука про дані на стику різних дисциплін: математика та статистика; інформатика та комп'ютерні науки; бізнес та економіка.

(С.Мальцева, В.Корнілов НДУ «ВШЕ»)

Професія нова, актуальна та . Сам термін "Big Data" з'явився у 2008 році. А професія Data Scientist — «Вчений за даними» офіційно зареєстрована як академічна та міжгалузева дисципліна на початку 2010 р. Хоча перша згадка терміна data science була відзначена в книзі Петера Наура 1974 р., але в іншому контексті.

Необхідність виникнення такої професії була продиктована тим, що коли йдеться про Ультра Великих Даних, масиви даних виявляються надто великі для того, щоб обробляти їх стандартними засобами математичної статистики. Щодня через сервери компаній всього світу проходить тисячі петабайт (10 15 байт = 1024 терабайт) інформації. Крім таких обсягів даних, проблему ускладнює їхня різнорідність і висока швидкістьоновлення.

Масиви даних поділяють на 3 види:

структуровані (наприклад, дані касових апаратів у торгівлі);

напівструктуровані (повідомлення E-mail);

неструктуровані (відеофайли, зображення, фотографії).

Більшість даних Big Data є неструктурованими, що значно ускладнює їхню обробку.

Окремо фахівець із статистики, системний аналітик чи бізнес-аналітик не може вирішити завдання з такими обсягами даних. Для цього потрібна людина з міждисциплінарною освітою, компетентна в математиці та статистиці, економіці та бізнесі, інформатиці та комп'ютерних технологіях.

Головне завдання Data Scientist - вміння отримувати необхідну інформацію з найрізноманітніших джерел, використовуючи інформаційні потоки як реального часу; встановлювати приховані закономірності в масивах даних та статистично аналізувати їх для прийняття грамотних бізнес-рішень. Робочим місцем такого фахівця є не один комп'ютер і навіть не один сервер, а кластер серверів.

Особливості професії

У роботі з даними Data Scientist використовує різні способи:

статистичні методи;
моделювання баз даних;
методи інтелектуального аналізу;
застосування штучного інтелекту для роботи з даними;
методи проектування та розробки баз даних.

Посадові обов'язки data scientist залежать від сфери його діяльності, але загальний перелікфункцій виглядає так:

збір даних із різних джерел для подальшої оперативної обробки;
аналіз поведінки споживачів;
моделювання клієнтської бази та персоналізація продуктів;
аналіз ефективності внутрішніх процесівбази;
аналіз різних ризиків;
виявлення можливого шахрайства з вивчення сумнівних операцій;
складання періодичних звітів з прогнозами та презентацією даних.

Data Scientist, як справжній учений, займається не тільки збиранням та аналізом даних, але й вивчає їх у різних контекстах і під різними кутами, ставлячи під сумнів будь-які припущення. Найважливіша якістьфахівця за даними - це вміння бачити логічні зв'язки в системі зібраної інформації та на основі кількісного аналізурозробляти ефективні бізнес-рішення. У сучасному конкурентному і швидко мінливому світі, в постійному зростанні потоку інформації Data Scientist незамінний для керівництва в плані прийняття правильних бізнес-рішень.

Плюси та мінуси професії

Плюси

Професія не лише надзвичайно затребувана, а й існує гострий дефіцит фахівців такого рівня. За даними McKinsey Global Institute до 2018 р. тільки в США знадобиться понад 190 тисяч Data Scientist. Тому так стрімко та широко фінансуються та розвиваються факультети за найпрестижніших вузів з підготовки фахівців за даними. У Росії її також зростає попит на Data Scientist.
Високооплачувана професія.
Необхідність постійно розвиватися, йти в ногу з розвитком IT-технологій, створювати нові методи обробки, аналізу та зберігання даних.

Мінуси

Не кожна людина зможе освоїти цю професію, потрібен особливий розумний склад.
У процесі роботи можуть не спрацювати відомі методи та понад 60% ідей. Багато рішень виявиться неспроможним і потрібно мати велике терпіння, щоб отримати задовільні результати. Вчений не має права сказати: "НІ!" проблемі. Він має знайти спосіб, який допоможе вирішити поставлене завдання.

Місце роботи

Data Scientist займають ключові позиції в:

технологічних галузях (системи автонавігації, виробництво ліків тощо);
IT-сфері (оптимізація пошукової видачі, фільтр спаму, систематизація новин, автоматичні переклади текстів та багато іншого);
медицині (автоматична діагностика хвороб);
фінансових структурах (ухвалення рішень про видачу кредитів) тощо;
телекомпанії;
великих торгових мереж;
виборчі кампанії.

Важливі якості

аналітичний склад розуму;
працьовитість;
наполегливість;
скрупульозність, точність, уважність;
здатність доводити дослідження остаточно, попри невдалі проміжні результати;
комунікабельність;
вміння пояснити складні речі простими словами;
бізнес-інтуїції.

Професійні знання та навички:

знання математики, матаналізу, математичної статистики, теорії ймовірностей;
знання англійської мови;
володіння основними мовами програмування, які мають компоненти до роботи з великими масивами даних: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
володіння статистичними інструментами - SPSS, R, MATLAB, SAS Data Miner, Tableau;
ґрунтовне знання галузі, в якій працює data scientist; якщо це фармацевтична галузь, необхідно знання основних процесів виробництва, компонентів ліків;
головна базова навичка фахівця з data scientist - організація та адміністрація кластерних систем зберігання великих масивів даних;
знання законів розвитку бізнесу;
економічні знання

ВНЗ

МДУ ім. Ломоносова, Факультет обчислювальної математики та кібернетики, спеціальна освітня програма Mail.Ru Group «Техносфера», з навчанням методів інтелектуального аналізу великого обсягу даних, програмування на С++, багатопотокового програмування та технології побудови систем інформаційного пошуку.
МФТІ, Кафедра аналізу даних.
Факультет бізнес-інформатики у НДУ ВШЕ готує системних аналітиків, проектувальників та впроваджувачів складних інформаційних систем, організаторів управління корпоративними інформаційними системами.
Школа аналізу даних Яндекс.
Університет в Іннополісі, університет Данді, університет Південної Каліфорнії, Оклендський університет, Вашингтонський університет: Магістратура за напрямком Big Data.
Бізнес-школа Імперського коледжу Лондона, магістра з науки про дані та менеджмент.

Як і в будь-якій професії тут важлива самоосвіта, безперечну користь якій принесуть такі ресурси, як:

онлайн-курси провідних університетів світу COURSERA;
канал машинного навчання MASHIN LEARNING;
добірка курсів edX;
курси Udacity;
курси Dataquest, на яких можна стати справжнім профі у Data Science;
6-крокові курси Datacamp;
навчальні відео O'Reilly;
скринкасти для початківців та просунутих Data Origami;
щоквартальна конференція фахівців Moskow Data Scients Meetup;
змагання з аналізу даних Kaggle.com

Оплата праці

Зарплатня на 04.07.2019

Росія 50000-200000 ₽

Москва 60000-300000 ₽

Професія Data Scientist є однією з найбільш високооплачуваних. Інформація із сайту hh.ru — зарплата на місяць становить від $8,5 тис. до $9 тис. У США оплата праці такого фахівця становить $110 тис. – $140 тис. на рік.

За результатами опитування дослідницького центру Superjob, зарплата фахівців Data Scientist залежить від досвіду роботи, обсягу обов'язків та регіону. Початківець може розраховувати на 70 тис. руб. у Москві та 57 тис. руб. в Санкт-Петербурзі. З досвідом роботи до 3 років зарплата підвищується до 110 тис. руб. у Москві та 90 тис. руб. в Санкт-Петербурзі. У досвідчених фахівців із науковими публікаціями зарплата може досягати 220 тис. руб. у Москві та 180 тис. руб. у Петербурзі.

Сходинки кар'єри та перспективи

Професія Data Scientist сама по собі є високим досягненням, для якої потрібні серйозні теоретичні знання та практичний досвід кількох професій. У будь-якій організації такий фахівець є ключовою фігурою. Щоб досягти цієї висоти, треба завзято і цілеспрямовано працювати і постійно вдосконалюватися у всіх сферах, що становлять основу професії.

Про Data Scientist жартують: це універсал, який програмує краще за будь-якого фахівця зі статистики, і знає статистику краще за будь-якого програміста. А в бізнес-процесах розбирається краще за керівника компанії.

ЩО ТАКЕ "BIG DATA» у реальних цифрах?

Через кожні 2 дні обсяг даних збільшується на таку кількість інформації, яка була створена людством від Різдва Христового до 2003 року.
90% всіх даних, що існують на сьогодні, з'явилися за останні 2 роки.
До 2020 р. обсяг інформації збільшиться від 3,2 до 40 зеттабайт. 1 зеттабайт = 1021 байт.
Протягом 1 хвилини в мережі Facebook завантажується 200 тисяч фото, надсилається 205 млн листів, виставляється 1,8 млн лайків.
Протягом 1 секунди Google опрацьовує 40 тис. пошукових запитів.
Кожні 1,2 року подвоюється загальний обсяг даних у кожній галузі.
До 2020 р. обсяг ринку Hadoop-сервісів зросте до $50 млрд.
У США у 2015 р. створено 1,9 млн робочих місць для фахівців, які працюють на проектах Big Data.
Технології Big Data збільшують прибуток торгових мереж на 60% на рік.
За прогнозами обсяг ринку Big Data збільшиться до $68,7 млрд. у 2020 р. порівняно з $28,5 млрд. у 2014 р.

Незважаючи на такі позитивні показники зростання, бувають і помилки у прогнозах. Так, наприклад, одна з найгучніших помилок 2016 року: не справдилися прогнози щодо виборів президента США. Прогнози були представлені знаменитими Data Scientist США Нейт Сільвером, Керк Борном та Біллом Шмарзо на користь Хілларі Клінтон. У попередні передвиборчі кампанії вони давали точні прогнози і жодного разу не помилялися.

Цього року Нейт Сільвер, наприклад, дав точний прогноздля 41 штату, але для 9 штатів помилився, що й призвело до перемоги Трампа. Проаналізувавши причини помилок 2016 року, вони дійшли висновку, що:

Математичні моделі об'єктивно відбивають картину на момент їх створення. Але вони мають період напіврозпаду, до кінця якого ситуація може кардинально змінитись. Прогнозні якості моделі поступово погіршуються. У даному випадкуНаприклад, зіграли свою роль посадові злочини, нерівність доходів та інші соціальні потрясіння. Тому модель необхідно регулярно коригувати з урахуванням нових даних. Це було зроблено.
Необхідно шукати та враховувати додаткові дані, які можуть істотно вплинути на прогнози. Так, під час перегляду відео мітингів у передвиборчій кампанії Клінтон та Трампа, не було враховано загальну кількість учасників мітингів. Йшлося приблизно про сотні людей. Виявилося, що на користь Трампа на мітингу були присутні 400-600 осіб у кожному, а на користь Клінтон — лише 150-200, що й позначилося на результатах.
Математичні моделі у передвиборних кампаніях ґрунтуються на демографічних даних: вік, раса, стать, доходи, статус у суспільстві тощо. Вага кожної групи визначається тим, як вони голосували на минулих виборах. Такий прогноз має похибку 3-4% і працює достовірно за великого розриву між кандидатами. Але в цьому випадку розрив між Клінтон і Трампом був невеликим, і ця похибка вплинула на результати виборів.
Не було враховано ірраціональну поведінку людей. Проведені опитування громадської думки творять ілюзію, що люди проголосують так, як відповіли в опитуваннях. Але іноді вони чинять протилежним чином. В даному випадку слід додатково провести аналітику особи і мови, щоб виявити несумлінне ставлення до голосування.

Загалом помилковий прогноз виявився таким через невеликий розрив між кандидатами. У разі великого розриву ці похибки у відсутності такого вирішального значення.

Відео: Нова спеціалізація «Великі дані» - Михайло Левін

Data Scientist в інфографіці. Професія свіжа, високооплачувана та на слуху. Але які навички повинен мати такий фахівець? Розглянемо.

Поговоримо про навички

Data Scientist – це універсальний співробітник, який охоплює аналітику та обробку інформації. Вчений за даними розбирається у статистиці та програмуванні. Корисно, чи не так? Спектр можливостей кожного окремо взятого Data Scientist є градацією і може переміщатися у бік кодингу або чистої статистики.

Аналітик даних із Сан-Франциско. Деякі компанії справді порівнюють Data Scientist із аналітиками. Робота такого фахівця зводиться до вилучення інформації з БД, взаємодії з Excel та до базової візуалізації.
Величезний трафік та велика кількість даних змушують деякі фірми терміново шукати потрібного фахівця. Часто вони кидають оголошення з пошуком інженерів, аналітиків, програмістів чи вчених, при цьому маючи на увазі ту саму посаду.
Є компанії, котрим дані є продуктом. В цьому випадку знадобиться інтенсивний аналіз та машинне навчання.
Для інших компаній дані – не продукт, але саме управління або робочий процес побудовані на них. З метою структурування даних компаній також розшукуються Data Scientist.

Заголовки рясніють назвами в стилі «Найсексуальніша професія 21-го століття». Не знаємо, чи це правда, але точно знаємо, що вчений за даними повинен розбиратися в:

Математики та статистики.
Предметної області та софті.
Програмування та БД.
Обмін даних і візуалізації.

Розглянемо кожний пункт докладніше.

Data Scientist та математична статистика

Розробка математичних методівіз застосуванням статистичних даних – основна частина роботи. Математична статистика спирається на теорію ймовірностей, завдяки чому можна робити точні висновки та оцінювати їхню надійність.

1. Машинне навчання, як підрозділ ІІ. Є програма, що навчається, і приклади даних із закономірностями. Формуємо модель закономірностей, впроваджуємо її та отримуємо можливість шукати закономірності у нових даних за допомогою програми.

2. Data Scientist має знати статистичне моделювання, щоб випробовувати модель випадковими сигналами з певною густиною ймовірності. Ціль – статистичне визначення отриманих результатів.

3. Експериментальний дизайн. У ході дослідів змінюють одну або кілька змінних, щоби побачити різницю. При цьому є група для впливу та контрольна група, завдяки чому здійснюється перевірка.

4. Байєсовський висновок сприяє підправленню ймовірності гіпотези.

5. Контрольоване навчання:

дерева рішень;
випадкові риштування;
логістична регресія.

6. Неконтрольоване навчання:

кластеризація;
зменшення розмірності.

7. Оптимізація: градієнтний спускта варіанти.

Навички в предметній галузі та софті

Вивчайте та практикуйтеся! Такий фундамент цієї спеціальності. Data Scientist повинен добре розумітися на предметній області, яку зачіпає наука, а також бути на «ти» із софтом.

Перелік необхідних скіллів дивовижний, але не менш корисний:

Програмування та бази даних

Від основ до знання Python, XaaS, реляційної алгебри та SQL. Загалом все те, без чого спроби якісно обробити дані марні.

1. Основи інформатики, як відправна точка для будь-кого, хто пов'язує життя з програмуванням та автоматизацією процесів.

Data science, машинне навчання – ви, напевно, чули ці гучні слова, але наскільки зрозумілим був для вас їхній сенс? Для когось вони є гарними приманками. Хтось думає, що data science це магія, яка безкоштовно змусить машину робити, що накажуть. Інші взагалі вважають, що це легкий спосібзаробляти величезні гроші Микита Нікітінський, глава R&D в IRELA та Поліна Казакова, Data Scientist, пояснюють, що це таке простою та зрозумілою мовою.

Я працюю у сфері автоматичної обробки природної мови, однієї з програм data science, і часто спостерігаю, як люди не зовсім коректно вживають ці терміни, тому мені захотілося внести трохи ясності. Ця стаття для тих, хто погано уявляє, що таке data science і хоче розібратися в поняттях.

Визначимося з термінологією

Почнемо з того, що насправді ніхто достеменно не знає, що таке data science, і строгого визначення не існує – це дуже широкий і міждисциплінарний концепт. Тому тут я поділюся своїм баченням, яке зовсім не обов'язково збігається з думкою інших.

Термін data science російською перекладають як «наука про дані», а в професійному середовищі часто просто транслітерують – «дата сайєнс». Формально це набір деяких взаємопов'язаних дисциплін та методів з галузі інформатики та математики. Звучить надто абстрактно, правда? Давайте розумітися.

Перша частина: data

Перша складова науки про дані, те, без чого весь подальший процес неможливий, – це, власне, самі дані: як їх збирати, зберігати та обробляти, а також як виділяти із загального масиву даних корисну інформацію. Саме очищенню даних та приведенню їх до потрібного вигляду фахівці присвячують до 80% свого робочого часу.

Важлива частина цього пункту – як поводитись з даними, для яких не підходять стандартні способи зберігання та обробки через їх величезний обсяг та/або різноманітність – так звані великі дані, big data. До речі, не дайте себе заплутати: big data і data science – не синоніми: швидше за все, перший підрозділ другого. При цьому не завжди фахівцям з аналізу даних на практиці доводиться працювати саме з великими даними – корисними можуть бути маленькі.

Зберемо дані

Уявіть, що нас цікавить, чи є якийсь взаємозв'язок між тим, скільки ваших колег по роботі випивають каву за день, і тим, скільки вони спали напередодні. Запишемо доступну нам інформацію: припустимо, ваш колега Григорій сьогодні спав 4 години, тож йому довелося випити 3 чашки кави; Елліна спала 9 годин і не пила кави взагалі; а Поліна спала всі 10 годин, але випила 2,5 чашки кави - і таке інше.

Зобразимо отримані дані на графіку (візуалізація - теж важливий елемент будь-якого data science-проекту). Відкладемо по осі X час у годинах, а по осі Y – каву в мілілітрах. Отримаємо щось на кшталт такого:

Друга частина: science

У нас є дані, що тепер із ними можна робити? Правильно, аналізувати, отримувати корисні закономірності та якось їх використовувати. Тут нам допоможуть такі дисципліни як статистика, машинне навчання, оптимізація.

Вони формують наступну і, можливо, найважливішу складову data science – аналіз даних. Машинне навчання дозволяє знаходити закономірності в існуючих даних, щоб потім передбачати потрібну інформацію нових об'єктів.

Проаналізуємо дані

Повернемося до нашого прикладу. На око здається, що два параметри якось взаємопов'язані: чим менше людина спала, тим більше вона вип'є каву наступного дня. При цьому у нас є і приклад, що вибивається з цієї тенденції – любителька поспати і попити кави Поліна. Тим не менш, можна спробувати наблизити отриману закономірність деякою загальною прямою лінією так, щоб вона максимально близько підходила до всіх точок:

Зелена лінія – і є наша модель машинного навчання, вона узагальнює дані та її можна описати математично. Тепер за допомогою неї ми можемо визначати значення для нових об'єктів: коли ми захочемо передбачити, скільки кави сьогодні вип'є Микита, що увійшов до кабінету, ми поцікавимося, скільки вона спала. Отримавши як відповідь значення о 7,5 годині, підставимо його в модель – йому відповідає кількість випитої кави в обсязі трохи менше 300 мл. Червона точка означає наше передбачення.

Приблизно так і працює машинне навчання, ідея якого дуже проста: знайти закономірність та поширити її на нові дані. Насправді, у машинному навчанні виділяється ще один клас завдань, коли потрібно не передбачати якісь значення, як у нашому прикладі, а розбивати дані на деякі групи. Але про це ми докладніше поговоримо іншим разом.

Застосуємо результат

Однак, на мій погляд, data science не закінчується на виявленні закономірностей даних. Будь-який data science-проект – це прикладне дослідження, де важливо не забувати про такі речі, як постановка гіпотези, планування експерименту і, звичайно, оцінка результату та його придатності для вирішення конкретного кейсу.

Останнє дуже важливо у реальних бізнес-завданнях, коли необхідно зрозуміти, чи принесе знайдене data science рішення користь вашому проекту чи ні. Якою б могла бути корисність побудованої моделі в нашому прикладі? Можливо, за її допомогою ми могли б оптимізувати доставку кави до офісу. При цьому нам потрібно оцінити ризики та визначити, чи краще наша модель справлялася б із цим, ніж існуюче рішення – офіс-менеджер Михайло, відповідальний за закупівлю продукту.

Знайдемо винятки

Звісно, наш приклад максимально спрощений. Насправді можна було б побудувати складнішу модель, яка б враховувала якісь інші фактори, наприклад, чи любить людина каву в принципі. Або модель могла б знаходити складніші, ніж прямі лінії, взаємозв'язки.

Можна було б спершу знайти в наших даних викиди – об'єкти, які, як Поліна, несхожі на більшість інших. Справа в тому, що при реальній роботі такі приклади можуть погано вплинути на процес побудови моделі та її якість, та їх має сенс обробляти якось інакше. А іноді такі об'єкти становлять першочерговий інтерес, наприклад, завдання виявлення аномальних банківських транзакцій з метою запобігання шахрайству.

Крім того, Поліна демонструє нам ще одну важливу ідею – недосконалість алгоритмів машинного навчання. Наша модель прогнозує всього 100 мл кави для людини, яка спала 10 годин, у той час як насправді Поліна випила аж цілих 500. У це ніколи не повірять замовники data science-рішень, але поки що неможливо навчити машину ідеально передбачати все на світі Як би добре ми не виділяли закономірності в даних, завжди знайдуться непередбачувані елементи.

Продовжимо оповідання

Отже, data science – це набір методів обробки та аналізу даних та застосування їх до практичних завдань. При цьому треба розуміти, що у кожного фахівця свій погляд на цю сферу та думки можуть відрізнятися.

В основі data science лежать досить прості ідеї, проте практично часто виявляється багато неочевидних тонкощів. Як data science оточує нас у повсякденному життіЯкі існують методи аналізу даних, з кого складається команда data science і які складності можуть виникнути в процесі дослідження – про це ми розповімо в наступних статтях.