Hogar Olor de la boca Científico de datos donde estudiar. ¿Qué es la ciencia de datos y cómo funciona? Vídeo: Nueva especialización "Big Data" - Mikhail Levin

Científico de datos donde estudiar. ¿Qué es la ciencia de datos y cómo funciona? Vídeo: Nueva especialización "Big Data" - Mikhail Levin

¿Hace tiempo que desea descubrir cómo convertirse en analista de datos, estudiar ciencia de datos, pero no sabe por dónde empezar? Entonces este articulo es para usted.

¿Quién de nosotros no ha oído hablar del “big data”? Es poco probable que haya al menos uno. EN últimos años El interés por trabajar con datos ha aumentado considerablemente, ya que las grandes empresas de TI necesitan encontrar cada vez más soluciones nuevas para analizar, procesar y posteriormente utilizar datos. Algunos incluso lanzan programas de aprendizaje junto con las universidades. Sin embargo, la mayoría de las personas no comprenden qué tipo de personas son los analistas de datos. Si usted es una de esas personas y desea convertirse en analista de datos, entonces este artículo es para usted. Hemos seleccionado solo herramientas de capacitación gratuitas que puede utilizar independientemente de su ubicación.

¿Qué hacen los analistas de datos?

Los llamados analistas de datos se ocupan de su información y análisis para obtener resultados visuales y perceptibles por el ser humano. Estas personas suelen incluir especialistas en big data, minería de datos, aprendizaje automático, análisis de sistemas y analistas de negocios.

Qué ver

Conferencias “Escuela de Análisis de Datos” de Yandex

SHAD: cursos sobre análisis de datos impartidos por empleados de Yandex. Es bastante difícil ingresar allí; el mínimo requerido para los solicitantes son las secciones básicas de álgebra superior,análisis matemático, combinatoria, teoría de la probabilidad, así como los conceptos básicos de programación. Afortunadamente, los cursos están grabados para que todos puedan aprender mediante videoconferencias.

Curso de aprendizaje automático

El curso enseña cómo aplicar la teoría de la probabilidad y la estadística, habla sobre los conceptos básicos del aprendizaje automático y enseña cómo construir algoritmos.

Curso “Algoritmos y estructuras de datos de búsqueda”

Las conferencias cubren algoritmos para buscar y clasificar grandes volúmenes de datos, algoritmos y manipulación de cadenas, algoritmos de teoría de grafos, construcción y análisis de estructuras de datos.

Curso "Computación paralela y distribuida"

Para aquellos que durante mucho tiempo han querido familiarizarse con la programación paralela y multiproceso, así como con MapReduce.

Curso "Análisis Discreto y Teoría de la Probabilidad"

El curso examina los conceptos y métodos básicos de análisis combinatorio, discreto y asintótico, teoría de probabilidad, estadística y también demuestra su aplicación.

Curso "Complejidad Computacional"

Después de ver el curso, aprenderá sobre clases de complejidad probabilística y técnicas básicas para analizar y construir datos.

Conferencias Grupo Technostream Mail.ru

Los programas del curso están destinados a estudiantes de varias universidades de Moscú, pero están disponibles para todos. Recomendamos las siguientes colecciones de conferencias a futuros analistas:

Conferencias Universidad Big Data

Universidad de Big Data - curso por Internet, creado conjuntamente con IBM para principiantes y personas sin conocimientos matemáticos. Las conferencias que le ayudarán a familiarizarse con los conceptos básicos del trabajo con datos están grabadas en un inglés claro.

Laboratorios Welch

Este canal contiene conferencias sobre matemáticas, informática, programación y aprendizaje automático. En el proceso, se dan ejemplos de la aplicación de las cosas que se estudian en vida real. Las conferencias son en inglés, pero hay excelentes subtítulos en ruso.

Bien " Aprender de datos estructurados: una introducción a los modelos gráficos probabilísticos"Facultad de Ciencias de la Computación, Escuela Superior de Economía de la Universidad Nacional de Investigación

El curso se centra en una introducción profunda a la teoría y las aplicaciones de uno de los enfoques más populares para resolver este tipo de problemas en la actualidad: la probabilística discreta. modelos graficos. El idioma del curso es el inglés.

Senddex del canal

El canal está íntegramente dedicado a trabajar con datos. Además, no sólo aquellos que estén interesados ​​en las matemáticas encontrarán cosas útiles. Hay vídeos de análisis y programación para analistas financieros y robótica utilizando el Rasperri Pi.

Canal Siraj Raval

El chico habla de tecnologías modernas y cómo trabajar con ellos. Los cursos de aprendizaje profundo, ciencia de datos y aprendizaje automático le ayudarán a aprender a trabajar con datos.

Canal de la escuela de datos

Si solo ha oído algo sobre el aprendizaje automático, pero ya está interesado, este canal es para usted. El autor explicará a un nivel comprensible, con ejemplos, qué es, cómo funciona y dónde se utiliza.

donde practicar

Para aquellos que no están seguros de estar preparados para estudiar de forma totalmente independiente viendo conferencias, existen cursos en línea con tareas con verificación.

Cursos de ciencia de datos en Coursera

No es necesario explicar qué tipo de plataforma es esta. Necesitas elegir un curso y empezar a estudiar.

Stepik.org

Análisis de datos en R

La primera parte cubre todos los pasos principales del análisis estadístico en R, lectura de datos, preprocesamiento de datos, aplicación de métodos estadísticos básicos y visualización de resultados. Los estudiantes aprenderán los elementos básicos de programación en el lenguaje R, lo que les permitirá resolver de manera rápida y eficiente una amplia gama de problemas que surgen al procesar datos.

La segunda parte cubre varios temas avanzados que no se trataron en la primera: preprocesamiento de datos utilizando los paquetes data.table y dplyr, técnicas avanzadas de visualización y trabajo en R Markdown.

Introducción a las bases de datos

Sumérgete en el DBMS

El curso es para aquellos que tienen alguna experiencia con DBMS relacionales y quieren saber más sobre cómo funcionan. El curso cubre:

  • diseño de esquemas de bases de datos;
  • Gestión de transacciones;
  • optimización de consultas;
  • nuevas características del DBMS relacional

Hadoop. Sistema para procesar grandes volúmenes de datos.

El curso está dedicado a los métodos de procesamiento de grandes volúmenes de datos utilizando el sistema Hadoop. Después de completar el curso, obtendrá conocimientos sobre los métodos básicos para almacenar y procesar grandes volúmenes de datos, comprenderá los principios de los sistemas distribuidos en el contexto del marco Hadoop y dominará las habilidades prácticas de desarrollo de aplicaciones utilizando el modelo de programación MapReduce.

Hoy en día, muchos empleadores buscan activamente científicos de datos. Al mismo tiempo, están interesados ​​en atraer a aquellos "científicos" que tengan la educación adecuada. Al mismo tiempo, es necesario tener en cuenta toda la desinformación que abunda en el mercado. Le contaremos los mayores conceptos erróneos sobre los científicos de datos y los científicos de datos, las habilidades que deben poseer y quién es en realidad esta rara raza.

Ciencia de los datos(Ciencia de datos) es una rama de la informática que estudia los problemas de análisis, procesamiento y presentación de datos en forma digital. La ciencia de datos combina métodos para procesar datos en grandes volúmenes y altos niveles de paralelismo, métodos estadísticos, métodos de minería de datos y aplicaciones de inteligencia artificial para trabajar con datos, así como métodos para diseñar y desarrollar bases de datos. Tratada como una disciplina académica. Desde principios de la década de 2010, se ha posicionado como un campo de actividad intersectorial práctico. Desde principios de la década de 2010, la especialización en “científico de datos” se considera una de las profesiones mejor pagadas, atractivas y prometedoras.

Conceptos erróneos sobre la ciencia de datos

1. Big data son estadísticas y análisis empresariales con una gran cantidad de datos. No hay nada nuevo aquí

Esta opinión la comparten principalmente aquellas personas que tienen una experiencia limitada en el desarrollo de software o que no tienen ninguna experiencia. ¿Quieres una analogía? Por favor. Tomemos como ejemplo el hielo. Se le puede llamar agua muy fría. ¿Qué hay de nuevo aquí? Sin embargo, el agua de refrigeración no sólo cambia su temperatura, sino que cambia radicalmente sus características de calidad, convirtiendo el líquido en sólido. Lo mismo puede decirse de grandes cantidades de datos. Grandes cantidades de datos acaban rompiendo los viejos paradigmas de cálculos, cálculos y cálculos. Usando métodos tradicionales Para los analistas de negocios, realizar ciertos cálculos puede llevar años. La paralelización y la computación distribuida son respuestas obvias a la cuestión del escalamiento. Pero esto no siempre es tan fácil, incluso con una herramienta estadística tan simple como el análisis de regresión logística. La computación estadística distribuida es tan diferente del análisis empresarial tradicional como el hielo lo es del agua.

2. Los científicos de datos son los mismos ingenieros de software después del cambio de marca.

A veces, los ingenieros con amplia experiencia en el desarrollo de software se vuelven a capacitar y se convierten en científicos de datos para mejorar. salarios. Sin embargo, esta práctica a menudo conduce a resultados insatisfactorios. De hecho, en el campo del big data, depurar errores estadísticos incluso al nivel más simple parece una tarea bastante difícil. Los ingenieros están capacitados para detectar y corregir errores de software. Pero sin un conocimiento sólido de la teoría de la probabilidad y la estadística, es poco probable que incluso un programador genial pueda eliminar con éxito un simple error estadístico.


Los ingenieros de nivel superior pueden construir modelos simples, discretos y basados ​​en reglas. Pero estos modelos no son adecuados para obtener información más matizada a partir de los datos. De ahí el beneficio financiero perdido. Por tanto, para obtener respuestas a las “preguntas de big data” se necesita personal altamente cualificado y especializado, que será la base de la próxima generación de modelos predictivos.

3. Los científicos de datos no necesitan entender los negocios: los datos les dirán todo

Las personas que tienen educación y experiencia como programadores suelen sucumbir a esta tentación. Y, realmente, ¿por qué necesitan entender los negocios si tienen una base tan poderosa? Poderoso, pero no omnipotente. Encontrar todas las correlaciones posibles requiere mucho trabajo y tiempo, además de ser estadísticamente problemático. Los científicos de datos simplemente deben utilizar su intuición empresarial para distinguir con éxito entre correlaciones reales y falsas. La falta de conocimiento experto en un área particular puede llevar a conclusiones infundadas. ¿Como te gusta esto? Un aumento en el número de agentes de policía conduce a un aumento de la delincuencia, lo que significa que es necesario reducir el número de agentes encargados de hacer cumplir la ley en zonas con una situación delictiva desfavorable. Por último, tener intuición empresarial también es importante para convencer a las partes interesadas clave: al hablar de correlaciones en un lenguaje que los empresarios entiendan, un científico de datos tendrá más éxito que un colega que no tenga visión para los negocios.


Big data y ciencia de datos es el conocimiento de cómo construir un modelo óptimo que combine las habilidades comerciales, estadísticas y de ingeniería adecuadas. Sin esto, un científico de datos no podrá lograr todo lo que se proponga.

Entonces, ¿quiénes son los científicos de datos?

Los científicos de datos son producto de la evolución de los analistas de datos y negocios. La formación formal para estos especialistas incluye informática, estadística, análisis y matemáticas. ¿Qué caracteriza a un científico de datos de primer nivel? Fuerte visión para los negocios combinada con la capacidad de comunicarse con líderes empresariales y de TI de una manera que ayude a influir en el crecimiento de la empresa. Anjul Bambra, vicepresidente de big data de IBM, dice que los científicos de datos son “en parte analistas y en parte artistas”. Se trata de personas muy curiosas que pueden observar datos y detectar tendencias. Se les puede comparar con los artistas del Renacimiento, que querían no sólo aprender, sino también cambiar el mundo que los rodeaba.

Mientras que un analista tradicional analiza datos de una única fuente (p. ej. Sistemas CRM), un científico de datos necesariamente estudia datos de varias fuentes diferentes. Examinará agresivamente todos los datos entrantes para descubrir información previamente oculta que pueda proporcionar ventaja competitiva. Un científico de datos no solo recopila y analiza datos, sino que los mira desde diferentes ángulos y los analiza en diferentes contextos, determina qué significan ciertos datos para una marca y luego hace recomendaciones sobre cómo utilizar la información disponible.


Los científicos de datos son personas que investigan constantemente, hacen millones de preguntas, hacen análisis de "¿qué pasaría si...?", cuestionan suposiciones y procesos existentes, identifican fuentes de datos ricas y las conectan con conjuntos de datos deficientes... En un entorno competitivo donde las tareas son constantemente cambio y el rápido flujo de datos nunca termina, los científicos de datos ayudan a la gestión decisiones. Y esta es su cualidad más valiosa.

¿Por qué "científicos"?

Muchos argumentan que llamar “científico de datos” a un científico de datos es muy, muy pretencioso. Sin embargo, si intentas mirar la raíz, entonces esta formulación tiene sentido. Por ejemplo, los físicos experimentales deben diseñar y construir sus propios equipos, recopilar datos, realizar experimentos y resumir todos los hallazgos en informes. Los científicos de datos hacen lo mismo. Por lo tanto, se considera que los científicos de datos más calificados son personas con títulos avanzados en física o ciencias sociales.


Los mejores científicos de datos del planeta son científicos con doctorados en campos esotéricos como la ecología y la biología de sistemas. Un ejemplo sorprendente– George Roumeliotis, que dirige un equipo de científicos de datos en Intuit en Silicon Valley. Recibió su doctorado en astrofísica. Muchos científicos de datos son propietarios Grado Académico (s en informática, matemáticas y economía. Pero, sea como sea, buen especialista, especializado en análisis de datos, puede provenir de cualquier campo.


Habilidades básicas de las que un científico de datos no puede prescindir

Herramientas básicas. Independientemente de la misión de la empresa, un científico de datos debe saber utilizar herramientas básicas: el lenguaje de programación R para procesamiento de datos estadísticos y gráficos, el lenguaje de programación Python de alto nivel destinado a mejorar la productividad de los desarrolladores y la legibilidad del código, el lenguaje de consulta estructurado, como SQL, utilizado para crear, modificar y manipular datos en una base de datos relacional arbitraria.

Estadísticas Básicas. Comprender las estadísticas es vital para un científico de datos. No es ningún secreto que muchos expertos no pueden determinar ni siquiera el valor P, el valor utilizado en las pruebas. hipótesis estadísticas. Un científico de datos simplemente debe estar familiarizado con pruebas estadísticas, distribuciones, estimación de máxima verosimilitud, etc. Las estadísticas son importantes para Diferentes areas negocios, especialmente para empresas basadas en datos


Aprendizaje automático. Si un científico de datos trabaja en una gran empresa con grandes volúmenes de datos, debería estar familiarizado con los métodos de aprendizaje automático. Por supuesto, muchos de estos métodos se pueden implementar utilizando bibliotecas R o Python, por lo que no es necesario ser un experto líder a nivel mundial para comprender cómo funcionan los algoritmos. Es mucho más importante comprender cuándo será más apropiado el uso de determinados métodos.

Cálculos multivariados y álgebra lineal.. Estas disciplinas forman la base de muchos métodos de aprendizaje automático.

Preparar datos para el análisis.. A menudo los datos analizados están bastante “sucios”, lo que hace mucho más difícil trabajar con ellos. Por tanto, es muy importante saber cómo afrontar todas las deficiencias de los datos. Un ejemplo de datos imperfectos es el formato inconsistente de cadenas como “Nueva York” - “nueva york” - “ny”, o las fechas “2014-01-01” - “01/01/2014”, o el uso de la Hora y secuencia del sistema UNIX. Marca de tiempo.

Visualización y comunicación de datos.. Esto es increíble puntos importantes, especialmente cuando hablamos de empresas jóvenes basadas en datos, o aquellas empresas en las que los científicos de datos son percibidos como personas que ayudan a tomar decisiones basadas en datos. Será muy útil el conocimiento de ggplot (una extensión del lenguaje R) y la biblioteca JavaScript para procesar y visualizar datos D3.js.

Programación. Los científicos de datos suelen ser responsables de manejar grandes cantidades de datos de registro y productos basados ​​en datos.

Piensa como un científico de datos. Un empleador siempre quiere ver a un científico de datos como un solucionador de problemas. El "científico" siempre debe saber qué es importante en esta etapa y qué no tiene un valor particular. Debe interactuar con diseñadores y gerentes responsables del desarrollo de productos.


Harvard Business Review afirma que el científico de datos es la profesión más sexy del siglo XXI. Y es difícil no estar de acuerdo con esto. La ciencia de datos recién se está desarrollando y todos los científicos de datos modernos pueden considerarse pioneros con seguridad. Y si puedes decir que eres el mejor especialista en TI entre los estadísticos y el mejor estadístico entre los especialistas en TI, entonces eres un verdadero científico de datos.

Materiales utilizados en la preparación de este artículo.

científico de datos- especialista en procesamiento, análisis y almacenamiento de grandes cantidades de datos, el llamado “Big Data”. La profesión es adecuada para quienes estén interesados ​​en la física, las matemáticas y la informática (consulte Elegir una profesión en función del interés en las materias escolares).

Ciencia de datos: ciencia de datos en la intersección de diferentes disciplinas: matemáticas y estadística; Informática e Informática; negocios y Economía.

(S. Maltseva, Universidad Nacional de Investigación V. Kornilov “Escuela Superior de Economía”)

La profesión es nueva, relevante y... El término "Big Data" apareció en 2008. Y la profesión de científico de datos - "Científico de datos" se registró oficialmente como disciplina académica e interdisciplinaria a principios de 2010. Aunque la primera mención del término "ciencia de datos" se mencionó en el libro de Peter Naur en 1974, pero en otra contexto.

La necesidad del surgimiento de esta profesión vino dictada por el hecho de que cuando se trata de Ultra Big Data, las matrices de datos resultan ser demasiado grandes para ser procesadas con los medios estándar de estadística matemática. Cada día, miles de petabytes (10 15 bytes = 1024 terabytes) de información pasan por los servidores de empresas de todo el mundo. Además de tales volúmenes de datos, el problema se complica por su heterogeneidad y alta velocidad actualizaciones.

Las matrices de datos se dividen en 3 tipos:

estructurado (por ejemplo, datos de cajas registradoras en el comercio);

semiestructurado (mensajes de correo electrónico);

no estructurados (archivos de vídeo, imágenes, fotografías).

La mayor parte del Big Data no está estructurado, lo que dificulta mucho su procesamiento.

Individualmente, un estadístico, un analista de sistemas o un analista de negocios no pueden resolver problemas con tales volúmenes de datos. Esto requiere una persona con una formación interdisciplinaria, competente en matemáticas y estadística, economía y negocios, informática y tecnología informática.

La principal tarea de un Data Scientist es la capacidad de extraer la información necesaria de una amplia variedad de fuentes, utilizando flujos de información en tiempo real; identifique patrones ocultos en conjuntos de datos y analícelos estadísticamente para tomar decisiones comerciales inteligentes. El lugar de trabajo de un especialista de este tipo no es 1 computadora o incluso 1 servidor, sino un grupo de servidores.

Características de la profesión.

Cuando trabaja con datos, un científico de datos utiliza varios métodos:

  • métodos de estadística;
  • modelado de bases de datos;
  • métodos de minería;
  • aplicaciones de inteligencia artificial para trabajar con datos;
  • Métodos de diseño y desarrollo de bases de datos.

Las responsabilidades laborales de un científico de datos dependen de su campo de actividad, pero lista general funciones se ve así:

  • recopilación de datos de diversas fuentes para su posterior procesamiento operativo;
  • análisis del comportamiento del consumidor;
  • modelado de base de clientes y personalización de productos;
  • análisis de eficiencia procesos internos bases;
  • análisis de diversos riesgos;
  • identificar posibles fraudes mediante el estudio de transacciones cuestionables;
  • Elaboración de informes periódicos con previsiones y presentación de datos.

Un científico de datos, como un científico real, no sólo recopila y analiza datos, sino que también los estudia en diferentes contextos y desde diferentes ángulos, cuestionando cualquier suposición. La cualidad más importante El científico de datos es la capacidad de ver conexiones lógicas en un sistema de información recopilada y, en base a ella, análisis cuantitativo Desarrollar soluciones comerciales efectivas. En el mundo competitivo y rápidamente cambiante de hoy, en el que el flujo de información es cada vez mayor, un científico de datos es indispensable para la gestión en términos de tomar las decisiones comerciales correctas.

Pros y contras de la profesión.

pros

  • La profesión no sólo tiene una gran demanda, sino que además existe una gran escasez de especialistas de este nivel. Según el McKinsey Global Institute, para 2018, sólo en Estados Unidos se necesitarán más de 190 mil científicos de datos. Es por eso que las facultades de las universidades más prestigiosas para la formación de científicos de datos reciben una financiación y un desarrollo tan rápido y amplio. En Rusia también está creciendo la demanda de científicos de datos.
  • Profesión altamente remunerada.
  • La necesidad de desarrollarse constantemente, mantenerse al día con el desarrollo de las tecnologías de TI y crear nuevos métodos para procesar, analizar y almacenar datos.

Desventajas

  • No todas las personas pueden dominar esta profesión; requiere una mentalidad especial.
  • En el proceso de trabajo, es posible que los métodos conocidos y más del 60% de las ideas no funcionen. Muchas soluciones fracasarán y es necesario tener mucha paciencia para obtener resultados satisfactorios. Un científico no tiene derecho a decir: “¡NO!” problema. Debe encontrar una manera que ayude a resolver el problema.

Lugar de trabajo

Los científicos de datos ocupan puestos clave en:

  • industrias tecnológicas (sistemas de navegación para automóviles, producción de medicamentos, etc.);
  • Ámbito informático (optimización de motores de búsqueda, filtro de spam, sistematización de noticias, traducción automática de textos y mucho más);
  • medicina (diagnóstico automático de enfermedades);
  • estructuras financieras (tomar decisiones sobre la concesión de préstamos), etc.;
  • compañías de televisión;
  • grandes cadenas minoristas;
  • campañas electorales.

Cualidades importantes

  • Mente analítica;
  • trabajo duro;
  • persistencia;
  • escrupulosidad, precisión, atención;
  • la capacidad de completar la investigación a pesar de los resultados intermedios fallidos;
  • habilidades de comunicación;
  • la capacidad de explicar cosas complejas con palabras sencillas;
  • intuición empresarial.

Conocimientos y habilidades profesionales:

  • conocimiento de matemáticas, análisis matemático, estadística matemática, teoría de probabilidades;
  • conocimiento de Inglés;
  • conocimiento de los principales lenguajes de programación que cuentan con componentes para trabajar con grandes conjuntos de datos: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • conocimiento de herramientas estadísticas: SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • conocimiento profundo de la industria en la que trabaja el científico de datos; si se trata de la industria farmacéutica, entonces es necesario conocer los procesos básicos de producción y los componentes de los medicamentos;
  • La principal habilidad básica de un científico de datos es la organización y administración de sistemas de almacenamiento en clústeres para grandes cantidades de datos;
  • conocimiento de las leyes de desarrollo empresarial;
  • conocimiento económico.

universidades

  • Universidad Estatal de Moscú que lleva el nombre Lomonosov, Facultad de Matemática Computacional y Cibernética, especial programa educativo Grupo Mail.Ru "Tecnosfera", con formación en métodos de análisis inteligente de grandes cantidades de datos, programación en C++, programación multihilo y tecnología para la construcción de sistemas de recuperación de información.
  • MIPT, Departamento de Análisis de Datos.
  • La Facultad de Informática Empresarial de la Escuela Superior de Economía de la Universidad Nacional de Investigación forma analistas de sistemas, diseñadores e implementadores de sistemas de información complejos y organizadores de la gestión de sistemas de información corporativos.
  • Escuela de análisis de datos Yandex.
  • Universidad de Innopolis, Universidad de Dundee, Universidad del Sur de California, Universidad de Auckland, Universidad de Washington: programas de maestría en Big Data.
  • Imperial College London Business School, Maestría en Ciencia y Gestión de Datos.

Como en cualquier profesión, aquí cobra importancia la autoformación, que sin duda se beneficiará de recursos como:

  • cursos en línea de universidades líderes del mundo COURSERA;
  • canal de aprendizaje automático MASHIN LEARNING;
  • selección de cursos edX;
  • cursos de udacidad;
  • Cursos de Dataquest, donde podrás convertirte en un verdadero profesional en Ciencia de Datos;
  • Cursos de Datacamp de 6 pasos;
  • vídeos de formación de O'Reilly;
  • screencasts para principiantes y avanzados Data Origami;
  • conferencia trimestral de especialistas Meetup de científicos de datos de Moscú;
  • concursos de análisis de datos Kaggle.сom

Salario

Salario al 04/07/2019

Rusia 50.000—200.000 ₽

Moscú 60.000—300.000 ₽

La profesión de Data Scientist es una de las mejor pagadas. Información del sitio web hh.ru: el salario mensual oscila entre 8,5 mil y 9 mil dólares, en Estados Unidos el salario de un especialista de este tipo es de 110 mil a 140 mil dólares al año.

Según una encuesta del centro de investigación Superjob, el salario de los especialistas en científicos de datos depende de la experiencia laboral, el alcance de las responsabilidades y la región. Un especialista novato puede contar con 70 mil rublos. en Moscú y 57 mil rublos. En San Petersburgo. Con hasta 3 años de experiencia laboral, el salario aumenta a 110 mil rublos. en Moscú y 90 mil rublos. En San Petersburgo. Para especialistas experimentados con publicaciones científicas, el salario puede alcanzar los 220 mil rublos. en Moscú y 180 mil rublos. En Petersburgo.

Pasos profesionales y perspectivas

La profesión de científico de datos en sí misma es un gran logro, que requiere conocimientos teóricos serios y experiencia práctica en varias profesiones. En cualquier organización, un especialista así es una figura clave. Para alcanzar esta altura, es necesario trabajar duro y con determinación y mejorar constantemente en todas las áreas que forman la base de la profesión.

Hay un chiste sobre un científico de datos: es un generalista que programa mejor que cualquier estadístico y conoce la estadística mejor que cualquier programador. Y comprende los procesos comerciales mejor que el director de la empresa.

QUÉ HA PASADO "GRANDE DATOS"en números reales?

  1. Cada 2 días, el volumen de datos aumenta en la cantidad de información que fue creada por la humanidad desde el nacimiento de Cristo hasta 2003.
  2. El 90% de todos los datos existentes hoy aparecieron en los últimos 2 años.
  3. Para 2020, el volumen de información aumentará de 3,2 a 40 zettabytes. 1 zettabyte = 10 21 bytes.
  4. En 1 minuto, se cargan 200 mil fotos en Facebook, se envían 205 millones de cartas y se publican 1,8 millones de me gusta.
  5. En 1 segundo, Google procesa 40 mil consultas de búsqueda.
  6. Cada 1,2 años, el volumen total de datos en cada industria se duplica.
  7. Para 2020, el mercado de servicios de Hadoop crecerá hasta alcanzar los 50 mil millones de dólares.
  8. En Estados Unidos, en 2015 se crearon 1,9 millones de puestos de trabajo para especialistas que trabajan en proyectos de Big Data.
  9. Las tecnologías Big Data aumentan los beneficios de las cadenas minoristas en un 60% anual.
  10. Según las previsiones, el tamaño del mercado de Big Data aumentará hasta los 68.700 millones de dólares en 2020, frente a los 28.500 millones de dólares de 2014.

A pesar de estos indicadores de crecimiento positivos, también hay errores en las previsiones. Por ejemplo, uno de los errores más notorios de 2016: las previsiones sobre las elecciones presidenciales de Estados Unidos no se cumplieron. Los pronósticos fueron presentados por los famosos científicos de datos estadounidenses Nate Silver, Kirk Bourne y Bill Shmarzo a favor de Hillary Clinton. En campañas electorales anteriores dieron pronósticos precisos y nunca se equivocaron.

Este año, Nate Silver, por ejemplo, dio pronóstico preciso en 41 estados, pero en 9 estados se equivocó, lo que llevó a la victoria de Trump. Tras analizar las causas de los errores de 2016, concluyeron que:

  1. Los modelos matemáticos reflejan objetivamente la imagen en el momento de su creación. Pero tienen una vida media, al final de la cual la situación puede cambiar drásticamente. Las cualidades predictivas del modelo se deterioran con el tiempo. EN en este caso, por ejemplo, la mala conducta, la desigualdad de ingresos y otros trastornos sociales influyeron. Por lo tanto, el modelo debe ajustarse periódicamente para tener en cuenta nuevos datos. Esto no se hizo.
  2. Es necesario buscar y considerar datos adicionales que puedan tener un impacto significativo en los pronósticos. Así, al ver vídeos de mítines de las campañas electorales de Clinton y Trump, no se tuvo en cuenta el número total de participantes en los mítines. Se trataba de cientos de personas. Resultó que a cada manifestación a favor de Trump asistieron entre 400 y 600 personas, y solo entre 150 y 200 a favor de Clinton, lo que afectó los resultados.
  3. Los modelos matemáticos en las campañas electorales se basan en datos demográficos: edad, raza, género, ingresos, estatus en la sociedad, etc. El peso de cada grupo está determinado por cómo votaron en las últimas elecciones. Este pronóstico tiene un error del 3-4% y funciona de manera confiable cuando hay una gran diferencia entre los candidatos. Pero en este caso la brecha entre Clinton y Trump fue pequeña y este error tuvo un impacto significativo en los resultados electorales.
  4. No se tuvo en cuenta el comportamiento irracional de las personas. Las encuestas de opinión pública realizadas crean la ilusión de que la gente votará de la forma en que respondieron en las encuestas. Pero a veces hacen todo lo contrario. En este caso, sería necesario realizar análisis adicionales de la cara y el habla para identificar actitudes deshonestas hacia la votación.

En general, la predicción resultó errónea debido a la pequeña brecha entre los candidatos. En el caso de una brecha grande, estos errores no serían tan decisivos.

Vídeo: Nueva especialización "Big Data" - Mikhail Levin

Científico de datos en infografías. La profesión es nueva, bien remunerada y reconocida. Pero, ¿qué habilidades debería tener un especialista así? Consideremos.

Hablemos de habilidades

Un científico de datos es un generalista que cubre análisis y procesamiento de información. Un científico de datos comprende la estadística y la programación. Útil, ¿no? La gama de capacidades de cada científico de datos individual es una gradación y puede avanzar hacia la codificación o la estadística pura.

  • Analista de datos con base en San Francisco. De hecho, algunas empresas comparan a los científicos de datos con los analistas. El trabajo de un especialista de este tipo se reduce a extraer información de una base de datos, interactuar con Excel y visualización básica.
  • El enorme tráfico y las grandes cantidades de datos obligan a algunas empresas a buscar urgentemente el especialista adecuado. A menudo publican anuncios buscando ingenieros, analistas, programadores o científicos, todos con el mismo puesto de trabajo en mente.
  • Hay empresas para las que los datos son un producto. En este caso, será necesario un análisis intensivo y aprendizaje automático.
  • Para otras empresas, los datos no son un producto, sino que la gestión o el flujo de trabajo en sí se construye sobre ellos. También se buscan científicos de datos para estructurar los datos de la empresa.

Los titulares están llenos de títulos al estilo de “La profesión más sexy del siglo XXI”. No sabemos si esto es cierto, pero sí sabemos que un científico de datos debe comprender:

  1. Matemáticas y estadística.
  2. Área temática y software.
  3. Programación y base de datos.
  4. Intercambio y visualización de datos.

Veamos cada punto con más detalle.

Científico de datos y estadística matemática

Desarrollo métodos matemáticos el uso de datos estadísticos es parte fundamental del trabajo. La estadística matemática se basa en la teoría de la probabilidad, lo que permite sacar conclusiones precisas y evaluar su fiabilidad.

1. Aprendizaje automático, como subsección de la IA. Hay un programa de formación y ejemplos de datos con patrones. Formamos un modelo de patrón, lo implementamos y tenemos la oportunidad de buscar patrones en nuevos datos usando el programa.

2. El científico de datos debe saberlo modelado estadístico probar el modelo con señales aleatorias con una cierta densidad de probabilidad. El objetivo es determinar estadísticamente los resultados obtenidos.

3. Diseño experimental. Durante los experimentos, se cambian una o más variables para ver la diferencia. En este caso, existe un grupo de intervención y un grupo de control, por lo que se realiza la prueba.

4. La inferencia bayesiana ayuda a ajustar la probabilidad de una hipótesis.

5. Formación supervisada:

  • árboles de decisión;
  • bosques aleatorios;
  • Regresión logística.

6. Aprendizaje no supervisado:

  • agrupamiento;
  • reducción de dimensiones.

7. Optimización: descenso de gradiente y opciones.

Habilidades de dominio y software.

¡Estudia y practica! Esta es la base de esta especialidad. Un científico de datos debe tener una buena comprensión del área temática a la que afecta la ciencia y también estar familiarizado con el software.

La lista de habilidades requeridas es extraña, pero no menos útil:

Programación y Bases de Datos

Desde lo básico hasta conocimientos de Python, XaaS, álgebra relacional y SQL. En general, todo aquello sin lo cual los intentos de procesar datos cualitativamente son inútiles.

1. Fundamentos de la informática, como punto de partida para cualquiera que conecte la vida con la programación y la automatización de procesos.

Ciencia de datos, aprendizaje automático: probablemente haya escuchado estas grandes palabras, pero ¿qué tan claro fue para usted su significado? Para algunos son unos cebos preciosos. Algunas personas piensan que la ciencia de datos es magia que hará que una máquina haga lo que se le ordene de forma gratuita. Otros incluso creen que es camino fácil ganar mucho dinero. Nikita Nikitinsky, jefa de I+D de IRELA y Polina Kazakova, científica de datos, explican qué es esto en un lenguaje sencillo y comprensible.

Trabajo en el procesamiento automático del lenguaje natural, una aplicación de la ciencia de datos, y a menudo veo personas que usan estos términos incorrectamente, así que quería aclarar un poco. Este artículo es para aquellos que tienen poca idea de qué es la ciencia de datos y quieren comprender los conceptos.

Definamos la terminología.

Comencemos con el hecho de que nadie sabe exactamente qué es la ciencia de datos y no existe una definición estricta: es un concepto muy amplio e interdisciplinario. Por eso, aquí compartiré mi visión, que no necesariamente coincide con las opiniones de los demás.

El término ciencia de datos se traduce al ruso como “ciencia de datos” y en un entorno profesional a menudo se translitera simplemente como “ciencia de datos”. Formalmente, se trata de un conjunto de algunas disciplinas y métodos interrelacionados del campo de la informática y las matemáticas. Suena demasiado abstracto, ¿verdad? Vamos a resolverlo.

Primera parte: datos

El primer componente de la ciencia de datos, algo sin el cual todo el proceso posterior es imposible, son, de hecho, los datos en sí: cómo recopilarlos, almacenarlos y procesarlos, así como cómo separarlos del conjunto general de datos. información útil. Los especialistas dedican hasta el 80% de su tiempo de trabajo a limpiar los datos y darles la forma deseada.

Una parte importante de este punto es cómo tratar datos para los que los métodos estándar de almacenamiento y procesamiento no son adecuados debido a su gran volumen y/o diversidad: los llamados big data. Por cierto, no os dejéis confundir: big data y ciencia de datos no son sinónimos: más bien, el primero es un inciso del segundo. Al mismo tiempo, en la práctica los analistas de datos no siempre tienen que trabajar con big data; los datos pequeños también pueden ser útiles.

recopilemos datos

Imaginemos que nos interesa saber si existe alguna relación entre la cantidad de café que beben tus compañeros de trabajo durante el día y cuánto durmieron la noche anterior. Anotemos la información que tenemos a nuestra disposición: digamos que su colega Gregory durmió hoy 4 horas, por lo que tuvo que beber 3 tazas de café; Ellina durmió 9 horas y no tomó café en absoluto; y Polina durmió las 10 horas, pero bebió 2,5 tazas de café, y así sucesivamente.

Muestremos los datos obtenidos en un gráfico (la visualización también es un elemento importante de cualquier proyecto de ciencia de datos). Tracemos el tiempo en horas en el eje X y el café en mililitros en el eje Y. Obtendremos algo como esto:

Segunda parte: ciencia

Tenemos los datos, ¿qué podemos hacer con ellos ahora? Así es, analiza, extrae patrones útiles y úsalos de alguna manera. Aquí nos ayudarán disciplinas como la estadística, el aprendizaje automático y la optimización.

Forman el siguiente componente, y quizás el más importante, de la ciencia de datos: el análisis de datos. El aprendizaje automático le permite encontrar patrones en los datos existentes para luego poder predecir información relevante para nuevos objetos.

Analicemos los datos.

Volvamos a nuestro ejemplo. A primera vista, parece que los dos parámetros están de alguna manera interconectados: cuanto menos duerma una persona, más café beberá al día siguiente. Al mismo tiempo, también tenemos un ejemplo que se destaca de esta tendencia: Polina, a quien le encanta dormir y tomar café. Sin embargo, puedes intentar aproximar el patrón resultante con alguna línea recta general para que se acerque lo más posible a todos los puntos:

La línea verde es nuestro modelo de aprendizaje automático, generaliza los datos y se puede describir matemáticamente. Ahora, con su ayuda, podemos determinar los valores de nuevos objetos: cuando queramos predecir cuánto café beberá hoy Nikita, que entró a la oficina, le preguntaremos cuánto durmió. Habiendo recibido como respuesta el valor de 7,5 horas, lo sustituimos en el modelo: corresponde a la cantidad de café consumido en un volumen de poco menos de 300 ml. El punto rojo representa nuestra predicción.

Así es aproximadamente como funciona el aprendizaje automático, cuya idea es muy simple: encontrar un patrón y extenderlo a nuevos datos. De hecho, en el aprendizaje automático existe otra clase de tareas en las que no es necesario predecir algunos valores, como en nuestro ejemplo, sino dividir los datos en ciertos grupos. Pero hablaremos de esto con más detalle en otra ocasión.

Apliquemos el resultado

Sin embargo, en mi opinión, la ciencia de datos no termina con la identificación de patrones en los datos. Cualquier proyecto de ciencia de datos es investigación aplicada, donde es importante no olvidarse de cosas como plantear una hipótesis, planificar un experimento y, por supuesto, valorar el resultado y su idoneidad para resolver un caso concreto.

Esto último es muy importante en problemas empresariales reales, cuando es necesario comprender si la solución encontrada por la ciencia de datos beneficiará a su proyecto o no. ¿Cuál sería la utilidad del modelo construido en nuestro ejemplo? Quizás con su ayuda podamos optimizar la entrega de café a la oficina. Al mismo tiempo, debemos evaluar los riesgos y determinar si nuestro modelo lo afrontará mejor que la solución existente: el director de oficina Mikhail, responsable de la compra del producto.

Busquemos excepciones

Por supuesto, nuestro ejemplo es lo más simplificado posible. En realidad, sería posible construir un modelo más complejo que tuviera en cuenta otros factores, por ejemplo, si a una persona le gusta el café en principio. O el modelo podría encontrar relaciones que sean más complejas que las representadas por una línea recta.

Primero podríamos buscar valores atípicos en nuestros datos: objetos que, como Polina, sean muy diferentes de la mayoría de los demás. El hecho es que en el trabajo real, estos ejemplos pueden tener un efecto negativo en el proceso de construcción de un modelo y su calidad, y tiene sentido procesarlos de otra manera. Y a veces estos objetos son de primordial interés, por ejemplo, en la tarea de detectar transacciones bancarias anómalas para prevenir fraudes.

Además, Polina nos muestra otra idea importante: la imperfección de los algoritmos de aprendizaje automático. Nuestro modelo predice sólo 100 ml de café para una persona que durmió 10 horas, mientras que en realidad Polina bebió hasta 500. Los clientes de soluciones de ciencia de datos nunca lo creerán, pero todavía es imposible enseñar a una máquina a predecir todo perfectamente. en el mundo: No importa qué tan buenos seamos identificando patrones en los datos, siempre habrá elementos impredecibles.

continuemos la historia

Entonces, la ciencia de datos es un conjunto de métodos para procesar y analizar datos y aplicarlos a problemas prácticos. Al mismo tiempo, es necesario comprender que cada especialista tiene su propia opinión en esta área y las opiniones pueden diferir.

La ciencia de datos se basa en ideas bastante simples, pero en la práctica a menudo se descubren muchas sutilezas no obvias. Cómo nos rodea la ciencia de datos La vida cotidiana, qué métodos de análisis de datos existen, de quién está compuesto el equipo de ciencia de datos y qué dificultades pueden surgir durante el proceso de investigación; hablaremos de esto en los siguientes artículos.



Nuevo en el sitio

>

Más popular