صفحه اصلی بوی بد دهان دانشمند داده کجا مطالعه کنیم. علم داده چیست و چگونه کار می کند؟ ویدئو: تخصص جدید "داده های بزرگ" - میخائیل لوین

بوی بد دهان

دانشمند داده کجا مطالعه کنیم. علم داده چیست و چگونه کار می کند؟ ویدئو: تخصص جدید "داده های بزرگ" - میخائیل لوین

آیا مدت هاست می خواهید بفهمید که چگونه یک تحلیلگر داده شوید، علم داده را مطالعه کنید، اما نمی دانستید از کجا شروع کنید؟ پس این مقاله برای شماست.

کدام یک از ما درباره "داده های بزرگ" نشنیده است؟ بعید است که حداقل یکی وجود داشته باشد. در سال های اخیرعلاقه به کار با داده ها به طور قابل توجهی افزایش یافته است، زیرا شرکت های بزرگ فناوری اطلاعات نیاز به ارائه راه حل های جدید بیشتر و بیشتری برای تجزیه و تحلیل، پردازش و متعاقباً استفاده از داده ها دارند. برخی حتی راه اندازی می کنند برنامه های آموزشیهمراه با دانشگاه ها با این حال، اکثر مردم درک درستی از اینکه تحلیلگران داده چه نوع افرادی هستند ندارند. اگر شما یکی از این افراد هستید و تمایل دارید که یک تحلیلگر داده شوید، پس این مقاله برای شما مناسب است. ما فقط ابزارهای آموزشی رایگانی را انتخاب کرده ایم که می توانید بدون توجه به موقعیت مکانی خود از آنها استفاده کنید.

تحلیلگران داده چه می کنند؟

به اصطلاح تحلیلگران داده درگیر اطلاعات و تجزیه و تحلیل آن برای به دست آوردن نتایج بصری و قابل درک برای انسان هستند. چنین افرادی معمولاً شامل متخصصان کلان داده، داده کاوی، یادگیری ماشینی، تجزیه و تحلیل سیستم ها و تحلیلگران تجاری هستند.

چه چیزی را تماشا کنیم

سخنرانی "مدرسه تجزیه و تحلیل داده ها" از Yandex

SHAD - دوره های تجزیه و تحلیل داده ها از کارکنان Yandex. ورود به آنجا بسیار دشوار است.تجزیه و تحلیل ریاضی، ترکیبات، نظریه احتمال، و همچنین مبانی برنامه نویسی. خوشبختانه دوره ها ضبط می شوند تا همه بتوانند از سخنرانی های ویدیویی یاد بگیرند.

دوره یادگیری ماشین

این دوره نحوه به کارگیری نظریه احتمال و آمار را آموزش می دهد، در مورد اصول یادگیری ماشین صحبت می کند، و نحوه ساخت الگوریتم ها را آموزش می دهد.

دوره آموزشی الگوریتم ها و ساختارهای داده های جستجو

سخنرانی ها الگوریتم هایی برای جستجو و مرتب سازی حجم زیادی از داده ها، الگوریتم ها و دستکاری رشته ها، الگوریتم های نظری گراف، ساخت و تجزیه و تحلیل ساختارهای داده را پوشش می دهند.

دوره آموزشی "محاسبات موازی و توزیعی"

برای کسانی که مدت هاست می خواهند با برنامه نویسی چند رشته ای و موازی و همچنین MapReduce آشنا شوند.

درس "تحلیل گسسته و نظریه احتمال"

این دوره به بررسی مفاهیم و روش های اساسی تجزیه و تحلیل ترکیبی، گسسته و مجانبی، نظریه احتمالات، آمار می پردازد و همچنین کاربرد آنها را نشان می دهد.

دوره "پیچیدگی محاسباتی"

پس از تماشای دوره، با کلاس‌های پیچیدگی احتمالی و تکنیک‌های پایه برای تجزیه و تحلیل و ساخت داده‌ها آشنا می‌شوید.

سخنرانی گروه Mail.ru Technostream

برنامه های دوره برای دانشجویان چندین دانشگاه مسکو در نظر گرفته شده است، اما برای همه در دسترس است. ما مجموعه‌های سخنرانی‌های زیر را به تحلیل‌گران آینده توصیه می‌کنیم:

سخنرانی در دانشگاه داده های بزرگ

دانشگاه داده های بزرگ - دوره آنلاین، به طور مشترک با IBM برای مبتدیان و افراد بدون پیشینه ریاضی ایجاد شده است. سخنرانی هایی که به شما کمک می کند با اصول کار با داده ها آشنا شوید به زبان انگلیسی واضح ضبط می شوند.

آزمایشگاه ولش

این کانال شامل سخنرانی هایی در زمینه ریاضیات، علوم کامپیوتر، برنامه نویسی و یادگیری ماشین است. در این فرآیند، مثال‌هایی از کاربرد مواردی که در آنها مطالعه می‌شود، ارائه می‌شود زندگی واقعی. سخنرانی ها به زبان انگلیسی هستند، اما زیرنویس های روسی عالی وجود دارد.

خوب " یادگیری از داده های ساخت یافته: مقدمه ای بر مدل های گرافیکی احتمالیدانشکده علوم کامپیوتر، دانشکده عالی اقتصاد دانشگاه تحقیقات ملی

این دوره بر مقدمه ای عمیق بر تئوری و کاربردهای یکی از محبوب ترین رویکردهای امروزی برای حل چنین مسائلی متمرکز شده است - احتمالات گسسته مدل های گرافیکی. زبان دوره انگلیسی است.

کانال senddex

این کانال کاملاً به کار با داده اختصاص داده شده است. علاوه بر این، نه تنها کسانی که به ریاضیات علاقه دارند چیزهای مفیدی برای خود پیدا می کنند. ویدیوهایی در مورد تجزیه و تحلیل و برنامه نویسی برای تحلیلگران مالی و روباتیک با استفاده از Rasperri Pi وجود دارد.

کانال سراج راوال

آن پسر در مورد فن آوری های مدرنو نحوه کار با آنها دوره های یادگیری عمیق، علم داده و یادگیری ماشین به شما کمک می کند تا نحوه کار با داده ها را بیاموزید.

کانال مدرسه داده

اگر فقط چیزی در مورد یادگیری ماشین شنیده اید، اما از قبل علاقه مند هستید، پس این کانال برای شما مناسب است. نویسنده در سطح قابل فهمی با مثال هایی توضیح می دهد که چیست، چگونه کار می کند و کجا استفاده می شود.

کجا تمرین کنیم

برای کسانی که مطمئن نیستند با تماشای سخنرانی ها آماده مطالعه کاملاً مستقل هستند، دوره های آنلاین با وظایف با تأیید وجود دارد.

دوره های علوم داده در Coursera

نیازی به توضیح نیست که این چه نوع پلتفرمی است. شما باید یک رشته را انتخاب کنید و شروع به مطالعه کنید.

Stepik.org

تجزیه و تحلیل داده ها در R

بخش اول تمام مراحل اصلی تجزیه و تحلیل آماری در R، خواندن داده ها، پیش پردازش داده ها، به کارگیری روش های آماری پایه و تجسم نتایج را پوشش می دهد. دانش آموزان عناصر اساسی برنامه نویسی را در زبان R می آموزند، که به آنها اجازه می دهد تا به سرعت و کارآمد طیف گسترده ای از مشکلات را که هنگام پردازش داده ها ایجاد می شوند، حل کنند.

بخش دوم چندین موضوع پیشرفته را پوشش می دهد که در اولی پوشش داده نشدند: پیش پردازش داده ها با استفاده از بسته های data.table و dplyr، تکنیک های تجسم پیشرفته، کار در R Markdown.

مقدمه ای بر پایگاه های داده

در DBMS شیرجه بزنید

این دوره برای کسانی است که تجربه ای با DBMS رابطه ای دارند و می خواهند در مورد نحوه کار آنها بیشتر بدانند. دوره شامل:

طراحی شمای پایگاه داده؛
مدیریت تراکنش؛
بهینه سازی پرس و جو؛
ویژگی های جدید DBMS رابطه ای

هادوپ سیستمی برای پردازش حجم زیادی از داده ها

این دوره به روش های پردازش حجم زیادی از داده ها با استفاده از سیستم Hadoop اختصاص دارد. پس از اتمام دوره، دانشی در مورد روش های اساسی ذخیره و پردازش حجم زیادی از داده ها به دست خواهید آورد، اصول سیستم های توزیع شده را در چارچوب Hadoop درک خواهید کرد و با استفاده از مدل برنامه نویسی MapReduce بر مهارت های توسعه کاربردی کاربردی مسلط خواهید شد.

امروزه بسیاری از کارفرمایان به طور فعال به دنبال دانشمندان داده هستند. در عین حال، آنها علاقه مند به جذب آن "دانشمندان" هستند که تحصیلات مناسبی دارند. در عین حال، باید تمام اطلاعات غلطی که بازار پر از آن است را در نظر بگیرید. ما در مورد بزرگترین تصورات غلط در مورد علوم داده و دانشمندان داده، مهارت هایی که آنها باید داشته باشند و اینکه این نژاد نادر واقعاً چه کسی است به شما خواهیم گفت.

علم داده(Data Science) شاخه ای از علوم کامپیوتر است که به بررسی مشکلات تجزیه و تحلیل، پردازش و ارائه داده ها به صورت دیجیتال می پردازد. علم داده روش‌هایی را برای پردازش داده‌ها در حجم زیاد و سطوح موازی بالا، روش‌های آماری، روش‌های داده کاوی و کاربردهای هوش مصنوعی برای کار با داده‌ها و همچنین روش‌هایی برای طراحی و توسعه پایگاه‌های اطلاعاتی ترکیب می‌کند. به عنوان یک رشته دانشگاهی در نظر گرفته می شود. از آغاز دهه 2010، به عنوان یک حوزه عملی فعالیت بین بخشی مطرح شده است. از اوایل دهه 2010، تخصص «دانشمند داده» یکی از پردرآمدترین، جذاب‌ترین و امیدوارکننده‌ترین حرفه‌ها محسوب می‌شود.

تصورات غلط علم داده

1. کلان داده آمار و تجزیه و تحلیل تجاری با حجم زیادی از داده ها است. اینجا چیز جدیدی نیست

این نظر عمدتاً توسط افرادی است که تجربه محدودی در توسعه نرم افزار دارند یا اصلاً بار تجربه ای بر دوش ندارند. تشبیه می خواهید؟ لطفا بیایید یخ را به عنوان مثال در نظر بگیریم. می توان آن را آب بسیار سرد نامید. اینجا چه خبر است؟ با این حال، آب خنک کننده نه تنها دمای خود را تغییر می دهد، بلکه به طور قاطع ویژگی های کیفی آن را تغییر می دهد و مایع را به جامد تبدیل می کند. همین امر را می توان در مورد حجم زیاد داده نیز گفت. حجم زیاد داده در نهایت پارادایم های قدیمی محاسبات، محاسبات و محاسبات را می شکند. هنگام استفاده روش های سنتیبرای تحلیلگران تجاری، انجام محاسبات خاص ممکن است سالها طول بکشد. موازی سازی و محاسبات توزیع شده پاسخ های واضحی به پرسش مقیاس بندی هستند. اما این کار همیشه به این سادگی نیست، حتی با یک ابزار آماری به سادگی تحلیل رگرسیون لجستیک. محاسبات آماری توزیع شده به همان اندازه که یخ از آب متفاوت است با تجزیه و تحلیل تجاری سنتی متفاوت است.

2. دانشمندان داده همان مهندسان نرم افزار پس از تغییر نام تجاری هستند

گاهی اوقات مهندسان با تجربه گسترده در توسعه نرم افزار تحت آموزش مجدد قرار می گیرند و به منظور بهبود به دانشمند داده تبدیل می شوند. دستمزد. با این حال، این عمل اغلب به نتایج رضایت بخشی منجر می شود. در واقع، در زمینه داده های بزرگ، اشکال زدایی خطاهای آماری حتی در ساده ترین سطح کار نسبتاً دشواری به نظر می رسد. مهندسان برای شناسایی و رفع خطاهای نرم افزار آموزش دیده اند. اما بدون دانش کامل از تئوری احتمالات و آمار، حتی یک برنامه نویس جالب بعید است که بتواند با موفقیت یک خطای آماری ساده را حذف کند.

مهندسان سطح بالاتر قادر به ساخت مدل های ساده، گسسته و مبتنی بر قوانین هستند. اما چنین مدل هایی برای به دست آوردن بینش دقیق تر از داده ها مناسب نیستند. از این رو سود مالی از دست رفته است. بنابراین، برای به دست آوردن پاسخ به "سوالات کلان داده"، به پرسنل بسیار ماهر و بسیار متخصص نیاز است که پایه و اساس نسل بعدی مدل سازی پیش بینی خواهد شد.

3. دانشمندان داده نیازی به درک تجارت ندارند - داده ها همه چیز را به آنها می گوید

افرادی که تحصیلات و تجربه برنامه نویسی دارند اغلب تسلیم این وسوسه می شوند. و، واقعاً، اگر چنین پایگاه قدرتمندی دارند، چرا باید تجارت را درک کنند؟ قدرتمند، اما قادر مطلق نیست. یافتن همه همبستگی‌های ممکن به‌طور باورنکردنی کار فشرده و زمان‌بر است، از نظر آماری هم مشکل‌ساز نیست. دانشمندان داده به سادگی باید از شهود تجاری خود برای تشخیص موفقیت آمیز بین همبستگی های نادرست و واقعی استفاده کنند. فقدان دانش تخصصی در یک زمینه خاص می تواند منجر به نتیجه گیری های بی اساس شود. چگونه آن را دوست دارید؟ افزایش تعداد افسران پلیس منجر به افزایش جرم و جنایت می شود، به این معنی که باید تعداد افسران مجری قانون را در مناطقی که وضعیت جرم و جنایت نامطلوب دارند کاهش داد. در نهایت، داشتن شهود تجاری برای متقاعد کردن ذینفعان کلیدی نیز مهم است: با صحبت در مورد همبستگی ها به زبانی که افراد تجاری آن را درک می کنند، یک دانشمند داده موفق تر از یک همکار بدون حس تجاری خواهد بود.

کلان داده و علم داده دانش چگونگی ساخت یک مدل بهینه است که مهارت های مهندسی، آماری و تجاری مناسب را با هم ترکیب می کند. بدون این، یک دانشمند داده نمی تواند به هر آنچه که در نظر دارد دست یابد.

پس دانشمندان داده چه کسانی هستند؟

دانشمندان داده محصول تکامل تجارت و تحلیلگران داده هستند. آموزش رسمی برای چنین متخصصانی شامل علوم کامپیوتر، آمار، تجزیه و تحلیل و ریاضیات است. چه چیزی یک دانشمند داده درجه یک را می سازد؟ هوش تجاری قوی همراه با توانایی برقراری ارتباط با رهبران کسب و کار و فناوری اطلاعات به گونه ای که به رشد شرکت کمک می کند. آنجول بامبرا، معاون کل داده‌های آی‌بی‌ام، می‌گوید که دانشمندان داده «بخشی تحلیلگر و بخشی هنرمند هستند». این افراد بسیار کنجکاو هستند که می توانند به داده ها نگاه کنند و روندها را مشخص کنند. آنها را می توان با هنرمندان رنسانس مقایسه کرد که می خواستند نه تنها یاد بگیرند، بلکه دنیای اطراف خود را نیز تغییر دهند.

در حالی که یک تحلیلگر سنتی داده ها را از یک منبع واحد تجزیه و تحلیل می کند (به عنوان مثال. سیستم های CRM، یک دانشمند داده لزوماً داده ها را از چندین منبع مختلف مطالعه می کند. تمام داده‌های دریافتی را به‌شدت غربال می‌کند تا بینش‌های پنهان قبلی را که می‌تواند ارائه کند، کشف کند. مزیت رقابتی. یک دانشمند داده فقط داده ها را جمع آوری و تجزیه و تحلیل نمی کند، بلکه از زوایای مختلف به آن نگاه می کند و آن را در زمینه های مختلف تجزیه و تحلیل می کند، تعیین می کند که داده ها برای برند چه معنایی دارند و سپس توصیه هایی در مورد نحوه استفاده از اطلاعات موجود ارائه می دهند.

دانشمندان داده افرادی هستند که دائماً در حال تحقیق هستند، میلیون‌ها سؤال می‌پرسند، تجزیه و تحلیل «چه می‌شود اگر...»، مفروضات و فرآیندهای موجود را زیر سؤال می‌برند، منابع داده غنی را شناسایی می‌کنند و مجموعه‌های داده ضعیف را به هم متصل می‌کنند... در یک محیط رقابتی که وظایف به طور مداوم انجام می‌شوند. دانشمندان داده به مدیریت کمک می کنند و جریان سریع داده ها هرگز پایان نمی یابد تصمیم گیری کنند. و این با ارزش ترین کیفیت آنهاست.

چرا "دانشمندان"؟

بسیاری استدلال می کنند که نامیدن یک دانشمند داده "دانشمند داده" بسیار بسیار پرمدعا است. با این حال، اگر سعی کنید به ریشه نگاه کنید، این فرمول منطقی است. به عنوان مثال، فیزیکدانان تجربی باید تجهیزاتی را طراحی و بسازند، داده ها را جمع آوری کنند، آزمایش ها را انجام دهند و همه یافته ها را در گزارش ها خلاصه کنند. دانشمندان داده نیز همین کار را می کنند. بنابراین، واجد شرایط ترین دانشمندان داده را افرادی با مدارک پیشرفته در فیزیک یا علوم اجتماعی می دانند.

بهترین دانشمندان داده در این سیاره، دانشمندانی هستند که دارای مدرک دکترا در زمینه های باطنی مانند اکولوژی و زیست شناسی سیستم هستند. یک مثال قابل توجه- جورج روملیوتیس، که تیمی از دانشمندان داده را در Intuit در سیلیکون ولی رهبری می کند. او دکترای خود را در رشته اخترفیزیک دریافت کرد. بسیاری از دانشمندان داده مالک هستند مدارک تحصیلیدر علوم کامپیوتر، ریاضیات و اقتصاد. اما، هر چه باشد، متخصص خوب، متخصص در تجزیه و تحلیل داده ها، می تواند از هر زمینه ای باشد.

مهارت های اولیه ای که یک دانشمند داده نمی تواند بدون آن کار کند

ابزارهای اساسی. صرف نظر از مأموریت شرکت، یک دانشمند داده باید نحوه استفاده از ابزارهای اساسی را بداند: زبان برنامه نویسی R برای پردازش داده های آماری و گرافیک، زبان برنامه نویسی سطح بالا پایتون با هدف بهبود بهره وری توسعه دهندگان و خوانایی کد، زبان پرس و جو ساختاریافته، مانند SQL، برای ایجاد، اصلاح و دستکاری داده ها در یک پایگاه داده رابطه ای دلخواه استفاده می شود.

آمار پایه. درک آمار برای یک دانشمند داده حیاتی است. این راز نیست که بسیاری از کارشناسان قادر به تعیین حتی P-value - مقدار مورد استفاده در آزمایش نیستند فرضیه های آماری. یک دانشمند داده به سادگی باید با آزمون های آماری، توزیع ها، تخمین حداکثر احتمال و غیره آشنا باشد. آمار برای مناطق مختلفکسب و کار، به ویژه برای شرکت های داده محور

یادگیری ماشینی. اگر یک دانشمند داده در یک شرکت بزرگ با حجم عظیم داده کار می کند، باید با روش های یادگیری ماشینی آشنا باشد. البته، بسیاری از این روش‌ها را می‌توان با استفاده از کتابخانه‌های R یا Python پیاده‌سازی کرد، بنابراین برای درک نحوه عملکرد الگوریتم‌ها نیازی نیست که یک متخصص پیشرو در جهان باشید. درک اینکه چه زمانی استفاده از روش‌های خاص مناسب‌تر است، بسیار مهم‌تر است.

محاسبات چند متغیره و جبر خطی. این رشته ها اساس بسیاری از روش های یادگیری ماشینی را تشکیل می دهند.

آماده سازی داده ها برای تجزیه و تحلیل. اغلب داده های تجزیه و تحلیل شده کاملاً "کثیف" هستند و کار با آنها را بسیار دشوارتر می کند. بنابراین، بسیار مهم است که بدانیم چگونه با تمام کاستی های داده ها مقابله کنیم. به عنوان نمونه ای از داده های ناقص، می توان از قالب بندی متناقض رشته ها مانند "نیویورک" - "نیویورک" - "ny" یا تاریخ های "01-01-2014" - "01/01/2014" نام برد. استفاده از زمان و ترتیب زمان سیستم یونیکس.

تجسم داده ها و ارتباطات. این باور نکردنی است نکات مهم، به خصوص وقتی در مورد شرکت های جوان داده محور صحبت می کنیم، یا شرکت هایی که در آنها دانشمندان داده به عنوان افرادی تلقی می شوند که به تصمیم گیری های مبتنی بر داده کمک می کنند. دانش ggplot (برنامه افزودنی از زبان R) و کتابخانه جاوا اسکریپت برای پردازش و تجسم داده های D3.js بسیار مفید خواهد بود.

برنامه نویسی. دانشمندان داده معمولاً مسئول رسیدگی به حجم زیادی از داده های ثبت نام و محصولات مبتنی بر داده هستند.

مانند یک دانشمند داده فکر کنید. یک کارفرما همیشه می خواهد یک دانشمند داده را به عنوان حل کننده مشکل ببیند. «دانشمند» همیشه باید بداند که در این مرحله چه چیزی مهم است و چه چیزی ارزش خاصی ندارد. او ملزم به تعامل با طراحان و مدیران مسئول توسعه محصول است.

هاروارد بیزینس ریویو ادعا می کند که دانشمند داده جذاب ترین حرفه قرن بیست و یکم است. و مخالفت با این امر سخت است. علم داده به تازگی در حال توسعه است و همه دانشمندان داده مدرن را می توان با خیال راحت پیشگام نامید. و اگر می توانید بگویید که شما بهترین متخصص IT در بین آماردانان و بهترین آمارگر در بین متخصصان فناوری اطلاعات هستید، پس شما یک دانشمند داده واقعی هستید.

مواد مورد استفاده در تهیه این مقاله

دانشمند داده- متخصص در پردازش، تجزیه و تحلیل و ذخیره سازی مقادیر زیادی از داده ها، به اصطلاح "داده های بزرگ". این حرفه برای کسانی که به فیزیک، ریاضیات و علوم کامپیوتر علاقه دارند مناسب است (به انتخاب حرفه بر اساس علاقه به دروس مدرسه مراجعه کنید).

علم داده - علم داده در تقاطع رشته های مختلف: ریاضیات و آمار؛ انفورماتیک و علوم کامپیوتر; تجارت و اقتصاد

(S. Maltseva، V. Kornilov دانشگاه ملی تحقیقاتی "مدرسه عالی اقتصاد")

این حرفه جدید، مرتبط و ... خود اصطلاح Big Data در سال 2008 ظاهر شد. و حرفه دانشمند داده - "دانشمند داده" در اوایل سال 2010 به طور رسمی به عنوان یک رشته دانشگاهی و بین رشته ای ثبت شد. اگرچه اولین ذکر اصطلاح "علم داده" در کتاب پیتر ناور در سال 1974 ذکر شد، اما در یک رشته متفاوت. زمینه

نیاز به ظهور چنین حرفه ای با این واقعیت دیکته می شود که وقتی صحبت از داده های فوق العاده بزرگ می شود، آرایه های داده ها بیش از حد بزرگ هستند که نمی توانند با ابزارهای استاندارد آمار ریاضی پردازش شوند. هر روز هزاران پتابایت (10 15 بایت = 1024 ترابایت) اطلاعات از سرورهای شرکت ها در سراسر جهان عبور می کند. علاوه بر چنین حجمی از داده ها، مشکل به دلیل ناهمگونی آنها پیچیده است سرعت بالابه روز رسانی ها

آرایه های داده به 3 نوع تقسیم می شوند:

ساختار یافته (به عنوان مثال، داده های صندوق های نقدی در تجارت)؛

نیمه ساختار یافته (پیام های ایمیل)؛

بدون ساختار (فایل های ویدئویی، تصاویر، عکس).

بیشتر Big Data بدون ساختار هستند، که پردازش آن را بسیار دشوارتر می کند.

به طور جداگانه، یک آمارگیر، تحلیلگر سیستم یا تحلیلگر تجاری نمی تواند مشکلات را با چنین حجمی از داده ها حل کند. این نیاز به فردی با تحصیلات بین رشته ای، صالح در ریاضیات و آمار، اقتصاد و تجارت، علوم کامپیوتر و فناوری کامپیوتر دارد.

وظیفه اصلی یک دانشمند داده توانایی استخراج اطلاعات لازم از منابع مختلف، با استفاده از جریان اطلاعات در زمان واقعی است. شناسایی الگوهای پنهان در مجموعه داده ها و تجزیه و تحلیل آماری آنها برای اتخاذ تصمیمات تجاری هوشمند. محل کار چنین متخصصی 1 کامپیوتر یا حتی 1 سرور نیست، بلکه مجموعه ای از سرورها است.

ویژگی های این حرفه

هنگام کار با داده ها، یک دانشمند داده از روش های مختلفی استفاده می کند:

روش های آماری؛
مدل سازی پایگاه داده;
روش های استخراج؛
برنامه های کاربردی هوش مصنوعی برای کار با داده ها؛
روش های طراحی و توسعه پایگاه های داده

مسئولیت های شغلی یک دانشمند داده به حوزه فعالیت او بستگی دارد، اما لیست کلیتوابع به شکل زیر است:

جمع آوری داده ها از منابع مختلف برای پردازش عملیاتی بعدی؛
تجزیه و تحلیل رفتار مصرف کننده؛
مدل سازی پایگاه مشتری و شخصی سازی محصول؛
تجزیه و تحلیل کارایی فرآیندهای داخلیپایه ها
تجزیه و تحلیل خطرات مختلف؛
شناسایی تقلب های احتمالی با مطالعه تراکنش های مشکوک؛
تهیه گزارش های دوره ای با پیش بینی ها و ارائه داده ها.

یک دانشمند داده، مانند یک دانشمند واقعی، نه تنها داده ها را جمع آوری و تجزیه و تحلیل می کند، بلکه آنها را در زمینه های مختلف و از زوایای مختلف مورد مطالعه قرار می دهد و هرگونه فرضی را زیر سوال می برد. مهمترین کیفیتدانشمند داده توانایی دیدن ارتباطات منطقی در سیستمی از اطلاعات جمع آوری شده و بر اساس آن است تجزیه و تحلیل کمیتوسعه راه حل های تجاری موثر در دنیای رقابتی و به سرعت در حال تغییر امروز، در جریان روزافزون اطلاعات، یک دانشمند داده برای مدیریت از نظر تصمیم گیری صحیح تجاری ضروری است.

مزایا و معایب این حرفه

جوانب مثبت

این حرفه نه تنها بسیار مورد تقاضا است، بلکه کمبود شدید متخصصان در این سطح وجود دارد. طبق گزارش موسسه جهانی مک کینزی، تا سال 2018، تنها در ایالات متحده به بیش از 190 هزار دانشمند داده نیاز خواهد بود. به همین دلیل است که دانشکده های معتبرترین دانشگاه ها برای آموزش دانشمندان داده به سرعت و به طور گسترده تامین و توسعه می یابند. تقاضا برای دانشمندان داده نیز در روسیه در حال افزایش است.
حرفه ای با درآمد بالا
نیاز به توسعه مداوم، همگام شدن با توسعه فناوری های IT، و ایجاد روش های جدید برای پردازش، تجزیه و تحلیل و ذخیره داده ها.

منفی

هر فردی نمی تواند به این حرفه تسلط پیدا کند.
در روند کار، روش های شناخته شده و بیش از 60 درصد ایده ها ممکن است کارساز نباشند. بسیاری از راه حل ها شکست خواهند خورد و برای به دست آوردن نتایج رضایت بخش باید صبر زیادی داشته باشید. یک دانشمند حق ندارد بگوید: "نه!" مشکل او باید راهی پیدا کند که به حل مشکل کمک کند.

محل کار

دانشمندان داده موقعیت های کلیدی را در موارد زیر اشغال می کنند:

صنایع فن آوری (سیستم های ناوبری خودرو، تولید دارو و غیره)؛
حوزه فناوری اطلاعات (بهینه سازی موتور جستجو، فیلتر هرزنامه، سیستم سازی اخبار، ترجمه خودکار متن و موارد دیگر)؛
پزشکی (تشخیص خودکار بیماری ها)؛
ساختارهای مالی (تصمیم گیری در مورد صدور وام) و غیره؛
شرکت های تلویزیونی؛
زنجیره های خرده فروشی بزرگ؛
مبارزات انتخاباتی

کیفیت های مهم

ذهن تحلیلی؛
کار سخت؛
پایداری؛
دقت، دقت، توجه؛
توانایی تکمیل تحقیقات علیرغم نتایج ناموفق میانی؛
مهارت های ارتباطی؛
توانایی توضیح چیزهای پیچیده با کلمات ساده؛
شهود تجاری

دانش و مهارت های حرفه ای:

دانش ریاضیات، تجزیه و تحلیل ریاضی، آمار ریاضی، نظریه احتمال.
دانش زبان انگلیسی؛
دانش زبان های برنامه نویسی اصلی که دارای اجزایی برای کار با مجموعه داده های بزرگ هستند: جاوا (Hadoop)، C++ (BigARTM، Vowpel Wabbit، XGBoost)، Python (Matplotlib، Numpy، Scikit، Skipy).
دانش ابزارهای آماری - SPSS، R، MATLAB، SAS Data Miner، Tableau;
دانش کامل از صنعتی که دانشمند داده در آن کار می کند. اگر این صنعت داروسازی است، دانش فرآیندهای تولید اولیه و اجزای دارو ضروری است.
مهارت اصلی یک دانشمند داده، سازماندهی و مدیریت سیستم های ذخیره سازی خوشه ای برای مقادیر زیاد داده است.
دانش قوانین توسعه تجارت؛
دانش اقتصادی

دانشگاه ها

دانشگاه دولتی مسکو به نام لومونوسوف، دانشکده ریاضیات محاسباتی و سایبرنتیک، ویژه برنامه آموزشی Mail.Ru Group "Technosphere" با آموزش روش های تحلیل هوشمند حجم زیاد داده، برنامه نویسی به زبان C ++، برنامه نویسی چند رشته ای و فناوری ساخت سیستم های بازیابی اطلاعات.
MIPT، بخش تجزیه و تحلیل داده ها.
دانشکده انفورماتیک بازرگانی در دانشکده عالی اقتصاد دانشگاه تحقیقات ملی، تحلیلگران سیستم، طراحان و پیاده‌کنندگان سیستم‌های اطلاعاتی پیچیده و سازمان‌دهندگان مدیریت سیستم‌های اطلاعات شرکتی را آموزش می‌دهد.
مدرسه تجزیه و تحلیل داده ها Yandex.
دانشگاه در اینوپولیس، دانشگاه داندی، دانشگاه کالیفرنیای جنوبی، دانشگاه اوکلند، دانشگاه واشنگتن: برنامه های کارشناسی ارشد در داده های بزرگ.
دانشکده بازرگانی کالج امپریال لندن، کارشناسی ارشد علوم داده و مدیریت.

مانند هر حرفه ای، خودآموزی در اینجا مهم است که بدون شک از منابعی مانند:

دوره های آنلاین از دانشگاه های پیشرو در جهان COURSERA;
کانال یادگیری ماشینی MASHIN LEARNING;
انتخاب دوره های edX؛
دوره های بی ادبی;
دوره های Dataquest، که در آن می توانید یک حرفه ای واقعی در علم داده شوید.
دوره های 6 مرحله ای دیتاکمپ;
فیلم های آموزشی اوریلی;
صفحه نمایش برای مبتدیان و پیشرفته دیتا اوریگامی.
کنفرانس فصلی متخصصان مسکو ملاقات دانشمندان داده;
مسابقات تحلیل داده ها Kaggle.сom

دستمزد

حقوق از تاریخ 1398/07/04

روسیه 50000-200000 ₽

مسکو 60000-300000 ₽

حرفه دانشمند داده یکی از پردرآمدترین حرفه هاست. اطلاعات از وب سایت hh.ru - حقوق ماهانه از 8.5 هزار دلار تا 9 هزار دلار در ایالات متحده آمریکا، حقوق چنین متخصصی 110 هزار دلار - 140 هزار دلار در سال است.

بر اساس نظرسنجی مرکز تحقیقات Superjob، حقوق متخصصان Data Scientist به تجربه کاری، محدوده مسئولیت ها و منطقه بستگی دارد. یک متخصص تازه کار می تواند روی 70 هزار روبل حساب کند. در مسکو و 57 هزار روبل. در سن پترزبورگ با حداکثر 3 سال سابقه کار، حقوق به 110 هزار روبل افزایش می یابد. در مسکو و 90 هزار روبل. در سن پترزبورگ برای متخصصان با تجربه با انتشارات علمی، حقوق می تواند به 220 هزار روبل برسد. در مسکو و 180 هزار روبل. در سن پترزبورگ

مراحل و چشم اندازهای شغلی

حرفه دانشمند داده به خودی خود یک دستاورد عالی است که نیاز به دانش نظری جدی و تجربه عملی چندین حرفه دارد. در هر سازمانی چنین متخصصی یک چهره کلیدی است. برای رسیدن به این ارتفاع، باید سخت و هدفمند کار کنید و دائماً در تمام زمینه هایی که اساس این حرفه را تشکیل می دهند، پیشرفت کنید.

یک شوخی در مورد یک دانشمند داده وجود دارد: او یک متخصص عمومی است که بهتر از هر آماردانی برنامه ریزی می کند و آمار را بهتر از هر برنامه نویسی می داند. و فرآیندهای تجاری را بهتر از رئیس شرکت درک می کند.

چه اتفاقی افتاده"بزرگ داده ها"به اعداد واقعی؟

هر 2 روز، حجم داده ها به میزان اطلاعاتی که بشریت از تولد مسیح تا سال 2003 ایجاد کرده است، افزایش می یابد.
90٪ از کل داده های موجود امروز در 2 سال گذشته ظاهر شده است.
تا سال 2020 حجم اطلاعات از 3.2 به 40 زتابایت افزایش خواهد یافت. 1 زتابایت = 10 21 بایت.
در عرض 1 دقیقه، 200 هزار عکس در فیس بوک آپلود می شود، 205 میلیون نامه ارسال می شود و 1.8 میلیون لایک پست می شود.
در عرض 1 ثانیه، گوگل 40 هزار درخواست جستجو را پردازش می کند.
هر 1.2 سال، حجم کل داده ها در هر صنعت دو برابر می شود.
تا سال 2020، بازار خدمات Hadoop به 50 میلیارد دلار افزایش خواهد یافت.
در ایالات متحده در سال 2015، 1.9 میلیون شغل برای متخصصانی که در پروژه های Big Data کار می کردند ایجاد شد.
فناوری‌های کلان داده سود زنجیره‌های خرده‌فروشی را تا 60 درصد در سال افزایش می‌دهند.
بر اساس پیش‌بینی‌ها، اندازه بازار داده‌های بزرگ در سال 2020 به 68.7 میلیارد دلار در مقایسه با 28.5 میلیارد دلار در سال 2014 افزایش خواهد یافت.

با وجود چنین شاخص های رشد مثبت، در پیش بینی ها نیز اشتباهاتی وجود دارد. به عنوان مثال، یکی از بدنام ترین اشتباهات سال 2016: پیش بینی ها در مورد انتخابات ریاست جمهوری آمریکا محقق نشد. پیش‌بینی‌هایی توسط دانشمندان مشهور آمریکایی، نیت سیلور، کرک بورن و بیل اشمارزو به نفع هیلاری کلینتون ارائه شد. در مبارزات انتخاباتی قبلی پیش بینی های درستی می کردند و هرگز اشتباه نمی کردند.

امسال نیت سیلور مثلا داد پیش بینی دقیقبرای 41 ایالت، اما برای 9 ایالت اشتباه کرد که منجر به پیروزی ترامپ شد. پس از تجزیه و تحلیل علل خطاهای 2016، آنها به این نتیجه رسیدند که:

مدل های ریاضی به طور عینی تصویر را در زمان ایجاد خود منعکس می کنند. اما آنها یک نیمه عمر دارند که در پایان آن وضعیت می تواند به طور چشمگیری تغییر کند. کیفیت پیش بینی مدل با گذشت زمان بدتر می شود. در در این موردبه عنوان مثال، تخلفات، نابرابری درآمد، و سایر تحولات اجتماعی نقش داشتند. بنابراین، مدل باید به طور منظم برای در نظر گرفتن داده های جدید تنظیم شود. این کار انجام نشد.
باید به دنبال داده های اضافی و در نظر گرفتن آنها بود که می تواند تأثیر قابل توجهی بر پیش بینی ها داشته باشد. به این ترتیب، هنگام تماشای ویدئوهای تجمعات در مبارزات انتخاباتی کلینتون و ترامپ، تعداد کل شرکت کنندگان در تجمعات در نظر گرفته نشد. حدود صدها نفر بود. مشخص شد که در هر تجمع 400 تا 600 نفر به نفع ترامپ شرکت کردند و تنها 150 تا 200 نفر به نفع کلینتون شرکت کردند که بر نتایج تأثیر گذاشت.
مدل‌های ریاضی در مبارزات انتخاباتی بر اساس داده‌های جمعیت‌شناختی است: سن، نژاد، جنسیت، درآمد، وضعیت در جامعه و غیره. وزن هر گروه بر اساس نحوه رای آنها در انتخابات گذشته مشخص می شود. این پیش بینی دارای خطای 3-4 درصد است و زمانی که فاصله زیادی بین نامزدها وجود داشته باشد به طور قابل اعتماد عمل می کند. اما در این مورد، شکاف کلینتون و ترامپ کم بود و این اشتباه تاثیر بسزایی در نتایج انتخابات داشت.
رفتار غیرمنطقی مردم در نظر گرفته نشد. نظرسنجی های انجام شده از افکار عمومی این توهم را ایجاد می کند که مردم همانطور که در نظرسنجی ها پاسخ داده اند رای خواهند داد. اما گاهی برعکس عمل می کنند. در این مورد، برای شناسایی نگرش‌های غیرصادقانه نسبت به رای دادن، لازم است تجزیه و تحلیل‌های صورت و گفتار نیز انجام شود.

به طور کلی به دلیل فاصله کم بین کاندیداها، پیش بینی اشتباه بود. در صورت وجود شکاف بزرگ، این خطاها چندان تعیین کننده نیستند.

ویدئو: تخصص جدید "داده های بزرگ" - میخائیل لوین

دانشمند داده در اینفوگرافیک. این حرفه تازه، پردرآمد و شناخته شده است. اما چنین متخصصی باید چه مهارت هایی داشته باشد؟ در نظر بگیریم.

بیایید در مورد مهارت ها صحبت کنیم

دانشمند داده یک متخصص عمومی است که تجزیه و تحلیل و پردازش اطلاعات را پوشش می دهد. یک دانشمند داده آمار و برنامه نویسی را درک می کند. مفید است، اینطور نیست؟ دامنه توانایی های هر دانشمند داده یک درجه بندی است و می تواند به سمت کدگذاری یا آمار خالص حرکت کند.

تحلیلگر داده مستقر در سانفرانسیسکو. برخی از شرکت ها در واقع Data Scientists را با تحلیلگران مقایسه می کنند. کار چنین متخصصی به استخراج اطلاعات از پایگاه داده، تعامل با اکسل و تجسم اولیه خلاصه می شود.
ترافیک عظیم و حجم زیاد داده، برخی از شرکت ها را مجبور می کند که فوراً به دنبال آن باشند متخصص مناسب. آنها اغلب آگهی هایی را به دنبال مهندسان، تحلیلگران، برنامه نویسان یا دانشمندان ارسال می کنند که همگی با عنوان شغلی مشابهی در ذهن دارند.
شرکت‌هایی هستند که داده‌ها برایشان محصول است. در این مورد، تجزیه و تحلیل فشرده و یادگیری ماشینی مورد نیاز خواهد بود.
برای سایر شرکت ها، داده ها یک محصول نیستند، بلکه خود مدیریت یا گردش کار بر روی آن ساخته شده است. همچنین برای ساختاردهی داده‌های شرکت به دنبال دانشمندان داده می‌گردند.

تیترها پر از عناوین به سبک "سکسی ترین حرفه قرن بیست و یکم" است. ما نمی دانیم که این درست است یا نه، اما می دانیم که یک دانشمند داده باید درک کند:

ریاضیات و آمار.
حوزه موضوعی و نرم افزار.
برنامه نویسی و پایگاه داده
تبادل و تجسم داده ها.

بیایید به هر نقطه با جزئیات بیشتری نگاه کنیم.

دانشمند داده و آمار ریاضی

توسعه روش های ریاضیاستفاده از داده های آماری بخش اساسی کار است. آمار ریاضی مبتنی بر نظریه احتمال است که نتیجه گیری دقیق و ارزیابی پایایی آنها را ممکن می سازد.

1. یادگیری ماشینی، به عنوان زیربخش هوش مصنوعی. یک برنامه آموزشی و نمونه هایی از داده ها با الگوها وجود دارد. ما یک مدل الگو تشکیل می دهیم، آن را پیاده سازی می کنیم و این فرصت را پیدا می کنیم که با استفاده از برنامه به دنبال الگوها در داده های جدید بگردیم.

2. دانشمند داده باید بداند مدل سازی آماریبرای آزمایش مدل با سیگنال های تصادفی با چگالی احتمال معین. هدف تعیین آماری نتایج به دست آمده است.

3. طراحی آزمایشی. در طول آزمایش، یک یا چند متغیر تغییر می‌کنند تا تفاوت مشاهده شود. در این مورد، یک گروه مداخله و یک گروه کنترل وجود دارد که به همین دلیل آزمایش انجام می شود.

4. استنتاج بیزی به تنظیم احتمال یک فرضیه کمک می کند.

5. آموزش تحت نظارت:

درختان تصمیم
جنگل های تصادفی؛
رگرسیون لجستیک

6. یادگیری بدون نظارت:

خوشه بندی؛
کاهش ابعاد

7. بهینه سازی: شیب نزولو گزینه ها

مهارت های دامنه و نرم افزار

مطالعه و تمرین! این پایه و اساس این تخصص است. یک دانشمند داده باید درک خوبی از حوزه موضوعی که علم بر آن تأثیر می گذارد داشته باشد و همچنین با نرم افزار آشنا باشد.

لیست مهارت های مورد نیاز عجیب است، اما کمتر مفید نیست:

برنامه نویسی و پایگاه های داده

از مبانی تا دانش پایتون، XaaS، جبر رابطه ای و SQL. به طور کلی، هر چیزی که بدون آن تلاش برای پردازش کیفی داده ها بی فایده است.

1. مبانی علوم کامپیوتر، به عنوان نقطه شروع برای هر کسی که زندگی را با برنامه نویسی و اتوماسیون فرآیند مرتبط می کند.

علم داده، یادگیری ماشین - احتمالاً این کلمات بزرگ را شنیده اید، اما معنای آنها چقدر برای شما واضح بود؟ برای برخی آنها طعمه های زیبایی هستند. برخی از مردم فکر می کنند که علم داده جادویی است که باعث می شود ماشین هر کاری را که سفارش داده است به صورت رایگان انجام دهد. برخی دیگر حتی معتقدند که اینطور است راه آسانکسب درآمد هنگفت نیکیتا نیکیتینسکی، رئیس تحقیق و توسعه در IRELA و پولینا کازاکوا، دانشمند داده، به زبانی ساده و قابل فهم توضیح می دهند که این چیست.

من در پردازش خودکار زبان طبیعی، یک کاربرد علم داده، کار می‌کنم و اغلب می‌بینم که مردم از این اصطلاحات به اشتباه استفاده می‌کنند، بنابراین می‌خواستم کمی توضیح بدهم. این مقاله برای کسانی است که نمی دانند علم داده چیست و می خواهند مفاهیم را درک کنند.

بیایید اصطلاحات را تعریف کنیم

بیایید با این واقعیت شروع کنیم که هیچ کس دقیقاً نمی داند علم داده چیست و هیچ تعریف دقیقی وجود ندارد - این یک مفهوم بسیار گسترده و بین رشته ای است. بنابراین، در اینجا دیدگاه خود را که لزوماً با نظرات دیگران مطابقت ندارد، به اشتراک می گذارم.

اصطلاح علم داده به روسی به عنوان "علم داده" ترجمه می شود و در یک محیط حرفه ای اغلب به سادگی به عنوان "علم داده" ترجمه می شود. به طور رسمی، این مجموعه ای از برخی رشته ها و روش های مرتبط با هم از رشته علوم کامپیوتر و ریاضیات است. خیلی انتزاعی به نظر می رسد، درست است؟ بیایید آن را بفهمیم.

بخش اول: داده ها

اولین مؤلفه علم داده، چیزی که بدون آن کل فرآیند بعدی غیرممکن است، در واقع خود داده است: نحوه جمع آوری، ذخیره و پردازش آنها، و همچنین نحوه جدا کردن آنها از آرایه داده های عمومی. اطلاعات مفید. متخصصان تا 80 درصد از زمان کار خود را به تمیز کردن داده ها و رساندن آنها به فرم مورد نظر اختصاص می دهند.

بخش مهمی از این نکته نحوه مدیریت داده‌هایی است که روش‌های ذخیره‌سازی و پردازش استاندارد برای آن‌ها به دلیل حجم زیاد و/یا تنوع مناسب نیستند - به اصطلاح داده‌های بزرگ. به هر حال، اجازه ندهید که گیج شوید: کلان داده و علم داده مترادف نیستند: بلکه اولی زیربخش دومی است. در عین حال، تحلیلگران داده در عمل همیشه مجبور نیستند با داده های بزرگ کار کنند - داده های کوچک نیز می توانند مفید باشند.

بیایید داده ها را جمع آوری کنیم

تصور کنید که ما به این موضوع علاقه مندیم که آیا رابطه ای بین میزان قهوه نوشیدنی همکاران کاری شما در طول روز و میزان خواب شب قبل وجود دارد یا خیر. بیایید اطلاعاتی را که در اختیار داریم بنویسیم: فرض کنید همکار شما گرگوری امروز 4 ساعت خوابیده است، بنابراین مجبور شد 3 فنجان قهوه بنوشد. الینا 9 ساعت خوابید و اصلا قهوه ننوشید. و پولینا تمام 10 ساعت را خوابیدند، اما 2.5 فنجان قهوه نوشید - و غیره.

بیایید داده های به دست آمده را روی یک نمودار نمایش دهیم (تجسم نیز عنصر مهمی از هر پروژه علم داده است). بیایید زمان را بر حسب ساعت در محور X و قهوه را بر حسب میلی لیتر در محور Y ترسیم کنیم. ما چیزی شبیه به این دریافت خواهیم کرد:

بخش دوم: علم

ما داده ها را داریم، حالا با آن چه کنیم؟ درست است، تجزیه و تحلیل کنید، الگوهای مفید را استخراج کنید و به نوعی از آنها استفاده کنید. در اینجا رشته هایی مانند آمار، یادگیری ماشین و بهینه سازی به ما کمک خواهند کرد.

آنها بعدی و شاید مهم ترین مؤلفه علم داده را تشکیل می دهند - تجزیه و تحلیل داده ها. یادگیری ماشینی به شما امکان می دهد الگوهایی را در داده های موجود بیابید تا بتوانید اطلاعات مربوطه را برای اشیاء جدید پیش بینی کنید.

بیایید داده ها را تجزیه و تحلیل کنیم

بیایید به مثال خود بازگردیم. از نظر چشم، به نظر می رسد که این دو پارامتر به نوعی به هم مرتبط هستند: هر چه فرد کمتر بخوابد، روز بعد قهوه بیشتری خواهد نوشید. در عین حال، نمونه ای نیز داریم که از این روند متمایز است - پولینا که عاشق خوابیدن و نوشیدن قهوه است. با این وجود، می توانید سعی کنید الگوی حاصل را با یک خط مستقیم کلی تقریب بزنید تا تا حد امکان به همه نقاط نزدیک شود:

خط سبز مدل یادگیری ماشین ما است، داده ها را تعمیم می دهد و می توان آن را به صورت ریاضی توصیف کرد. اکنون با کمک آن می‌توانیم مقادیری را برای اشیاء جدید تعیین کنیم: وقتی می‌خواهیم پیش‌بینی کنیم که نیکیتا که وارد دفتر شده است امروز چقدر قهوه می‌نوشد، از او می‌پرسیم که چقدر خوابیده است. با دریافت مقدار 7.5 ساعت به عنوان پاسخ، آن را در مدل جایگزین می کنیم - این مربوط به مقدار قهوه مصرف شده در حجم کمی کمتر از 300 میلی لیتر است. نقطه قرمز نشان دهنده پیش بینی ما است.

یادگیری ماشین تقریباً به این صورت است که ایده آن بسیار ساده است: پیدا کردن یک الگو و گسترش آن به داده های جدید. در واقع، در یادگیری ماشین دسته دیگری از کارها وجود دارد که در آنها نیازی به پیش‌بینی مقادیری مانند مثال ما نیست، بلکه داده‌ها را به گروه‌های خاصی تقسیم می‌کنید. اما در فرصتی دیگر در این مورد با جزئیات بیشتر صحبت خواهیم کرد.

بیایید نتیجه را اعمال کنیم

با این حال، به نظر من، علم داده به شناسایی الگوها در داده ها ختم نمی شود. هر پروژه علم داده است تحقیق کاربردی، جایی که مهم است مواردی مانند تنظیم فرضیه، برنامه ریزی آزمایش و البته ارزیابی نتیجه و مناسب بودن آن برای حل یک مورد خاص فراموش نشود.

مورد دوم در مشکلات واقعی کسب و کار بسیار مهم است، زمانی که شما نیاز به درک اینکه آیا راه حلی که توسط علم داده پیدا شده است به نفع پروژه شما خواهد بود یا خیر. فایده مدل ساخته شده در مثال ما چه خواهد بود؟ شاید با کمک آن بتوانیم تحویل قهوه به دفتر را بهینه کنیم. در عین حال، ما باید خطرات را ارزیابی کنیم و تعیین کنیم که آیا مدل ما بهتر از راه حل موجود - مدیر دفتر میخائیل، مسئول خرید محصول - با این مشکل کنار می آید یا خیر.

بیایید استثناها را پیدا کنیم

البته مثال ما تا حد امکان ساده شده است. در واقعیت، می‌توان مدل پیچیده‌تری ساخت که برخی عوامل دیگر را در نظر بگیرد، مثلاً اینکه آیا یک فرد اصولاً قهوه دوست دارد یا خیر. یا این مدل می تواند روابطی پیدا کند که پیچیده تر از آنهایی هستند که با یک خط مستقیم نشان داده می شوند.

ابتدا می‌توانیم در داده‌های خود به دنبال موارد پرت بگردیم - اشیایی که مانند پولینا با بسیاری از موارد دیگر بسیار متفاوت هستند. واقعیت این است که در کار واقعی، چنین نمونه هایی می توانند تاثیر بدی بر روند ساخت مدل و کیفیت آن داشته باشند و پردازش آنها به شکل دیگری منطقی است. و گاهی اوقات چنین اشیایی مورد توجه اولیه قرار می گیرند، به عنوان مثال، در وظیفه کشف تراکنش های بانکی غیرعادی به منظور جلوگیری از کلاهبرداری.

علاوه بر این، پولینا ایده مهم دیگری را به ما نشان می دهد - نقص الگوریتم های یادگیری ماشین. مدل ما فقط 100 میلی لیتر قهوه را برای فردی که 10 ساعت می خوابد پیش بینی می کند، در حالی که در واقع پولینا 500 ساعت نوشیده است. مشتریان راه حل های علم داده هرگز این را باور نخواهند کرد، اما هنوز غیرممکن است که به یک دستگاه یاد دهیم که همه چیز را کاملاً پیش بینی کند. در جهان: مهم نیست که چقدر در شناسایی الگوها در داده ها خوب باشیم، همیشه عناصر غیرقابل پیش بینی وجود خواهند داشت.

بیایید داستان را ادامه دهیم

بنابراین علم داده مجموعه ای از روش ها برای پردازش و تجزیه و تحلیل داده ها و به کارگیری آنها در مسائل عملی است. در عین حال، باید درک کنید که هر متخصص دیدگاه خاص خود را در این زمینه دارد و ممکن است نظرات متفاوت باشد.

علم داده مبتنی بر ایده های نسبتاً ساده است، اما در عمل بسیاری از ظرافت های غیر آشکار اغلب کشف می شوند. علم داده چگونه ما را احاطه کرده است زندگی روزمره، چه روش هایی برای تجزیه و تحلیل داده ها وجود دارد، تیم علم داده از چه کسانی تشکیل شده است و چه مشکلاتی ممکن است در طول فرآیند تحقیق ایجاد شود - در مقالات بعدی در مورد این صحبت خواهیم کرد.