घर मुँह से बदबू आना डेटा साइंटिस्ट को कहां पढ़ाई करनी है. डेटा साइंस क्या है और यह कैसे काम करता है? वीडियो: नई विशेषज्ञता "बिग डेटा" - मिखाइल लेविन

डेटा साइंटिस्ट को कहां पढ़ाई करनी है. डेटा साइंस क्या है और यह कैसे काम करता है? वीडियो: नई विशेषज्ञता "बिग डेटा" - मिखाइल लेविन

क्या आप लंबे समय से जानना चाहते थे कि डेटा विश्लेषक कैसे बनें, डेटा विज्ञान का अध्ययन कैसे करें, लेकिन यह नहीं जानते थे कि कहां से शुरू करें? तब तो यह लेख तुम्हारे लिए है।

हममें से किसने "बड़े डेटा" के बारे में नहीं सुना है? इसकी संभावना नहीं है कि कम से कम एक तो होगा. में पिछले साल काडेटा के साथ काम करने में रुचि काफी बढ़ गई है, क्योंकि बड़ी आईटी कंपनियों को विश्लेषण, प्रसंस्करण और बाद में डेटा का उपयोग करने के लिए अधिक से अधिक नए समाधान लाने की जरूरत है। कुछ लॉन्च भी करते हैं सीखने के कार्यक्रमविश्वविद्यालयों के साथ मिलकर। हालाँकि, अधिकांश लोगों को यह समझ नहीं है कि डेटा विश्लेषक किस तरह के लोग हैं। अगर आप ऐसे लोगों में से एक हैं और आपकी इच्छा डेटा एनालिस्ट बनने की है तो यह आर्टिकल आपके लिए है। हमने केवल निःशुल्क प्रशिक्षण उपकरण चुने हैं जिनका उपयोग आप अपने स्थान की परवाह किए बिना कर सकते हैं।

डेटा विश्लेषक क्या करते हैं?

तथाकथित डेटा विश्लेषक दृश्य, मानव-बोधगम्य परिणाम प्राप्त करने के लिए इसकी जानकारी और विश्लेषण में लगे हुए हैं। ऐसे लोगों में आमतौर पर बड़े डेटा, डेटा माइनिंग, मशीन लर्निंग, सिस्टम विश्लेषण और व्यवसाय विश्लेषकों के विशेषज्ञ शामिल होते हैं।

देखने के लिए क्या है

यांडेक्स से व्याख्यान "डेटा विश्लेषण स्कूल"।

SHAD - यांडेक्स कर्मचारियों से डेटा विश्लेषण पर पाठ्यक्रम। वहां प्रवेश करना काफी कठिन है; आवेदकों के लिए न्यूनतम आवश्यक उच्च बीजगणित के मूल अनुभाग हैं,गणितीय विश्लेषण, कॉम्बिनेटरिक्स, संभाव्यता सिद्धांत, साथ ही प्रोग्रामिंग की मूल बातें। सौभाग्य से, पाठ्यक्रम रिकॉर्ड किए गए हैं ताकि हर कोई वीडियो व्याख्यान से सीख सके।

मशीन लर्निंग कोर्स

पाठ्यक्रम सिखाता है कि संभाव्यता सिद्धांत और आँकड़ों को कैसे लागू किया जाए, मशीन लर्निंग की मूल बातें के बारे में बात की जाती है, और एल्गोरिदम का निर्माण करना सिखाया जाता है

पाठ्यक्रम "खोज डेटा एल्गोरिदम और संरचनाएं"

व्याख्यान बड़ी मात्रा में डेटा को खोजने और सॉर्ट करने के लिए एल्गोरिदम, एल्गोरिदम और स्ट्रिंग हेरफेर, ग्राफ-सैद्धांतिक एल्गोरिदम, डेटा संरचनाओं के निर्माण और विश्लेषण को कवर करते हैं।

पाठ्यक्रम "समानांतर और वितरित कंप्यूटिंग"

उन लोगों के लिए जो लंबे समय से मल्टी-थ्रेडेड और समानांतर प्रोग्रामिंग के साथ-साथ MapReduce से परिचित होना चाहते हैं।

पाठ्यक्रम "असतत विश्लेषण और संभाव्यता सिद्धांत"

पाठ्यक्रम संयोजनात्मक, असतत और स्पर्शोन्मुख विश्लेषण, संभाव्यता सिद्धांत, सांख्यिकी की बुनियादी अवधारणाओं और तरीकों की जांच करता है, और उनके अनुप्रयोग को भी प्रदर्शित करता है।

पाठ्यक्रम "कम्प्यूटेशनल जटिलता"

पाठ्यक्रम देखने के बाद, आप संभाव्य जटिलता वर्गों और डेटा का विश्लेषण और निर्माण करने की बुनियादी तकनीकों के बारे में सीखेंगे।

व्याख्यान टेक्नोस्ट्रीम Mail.ru समूह

पाठ्यक्रम कार्यक्रम मॉस्को के कई विश्वविद्यालयों के छात्रों के लिए हैं, लेकिन किसी के लिए भी उपलब्ध हैं। हम भावी विश्लेषकों को व्याख्यानों के निम्नलिखित संग्रह की अनुशंसा करते हैं:

व्याख्यान बिग डेटा विश्वविद्यालय

बिग डेटा यूनिवर्सिटी - ऑनलाइन पाठ्यक्रम, शुरुआती लोगों और गणितीय पृष्ठभूमि के बिना लोगों के लिए आईबीएम के साथ संयुक्त रूप से बनाया गया। डेटा के साथ काम करने की बुनियादी बातों से परिचित होने में आपकी मदद करने वाले व्याख्यान स्पष्ट अंग्रेजी में रिकॉर्ड किए जाते हैं।

वेल्च लैब्स

इस चैनल में गणित, कंप्यूटर विज्ञान, प्रोग्रामिंग और मशीन लर्निंग पर व्याख्यान शामिल हैं। इस प्रक्रिया में, अध्ययन की जा रही चीज़ों के अनुप्रयोग के उदाहरण दिए जाते हैं वास्तविक जीवन. व्याख्यान अंग्रेजी में हैं, लेकिन उत्कृष्ट रूसी उपशीर्षक भी हैं।

कुंआ " संरचित डेटा से सीखना: संभाव्य ग्राफिकल मॉडल का एक परिचय"कंप्यूटर विज्ञान संकाय, नेशनल रिसर्च यूनिवर्सिटी हायर स्कूल ऑफ इकोनॉमिक्स

यह पाठ्यक्रम आज ऐसी समस्याओं को हल करने के लिए सबसे लोकप्रिय दृष्टिकोणों में से एक के सिद्धांत और अनुप्रयोगों के गहन परिचय पर केंद्रित है - असतत संभाव्यता ग्राफिक मॉडल. पाठ्यक्रम की भाषा अंग्रेजी है.

चैनल सेंडडेक्स

चैनल पूरी तरह से डेटा के साथ काम करने के लिए समर्पित है। इसके अलावा, न केवल गणित में रुचि रखने वाले लोग अपने लिए उपयोगी चीजें ढूंढेंगे। रास्पररी पाई का उपयोग करके वित्तीय विश्लेषकों और रोबोटिक्स के लिए विश्लेषण और प्रोग्रामिंग पर वीडियो हैं।

सिराज रावल चैनल

लड़का बात करता है आधुनिक प्रौद्योगिकियाँऔर उनके साथ कैसे काम करना है। गहन शिक्षण, डेटा विज्ञान और मशीन लर्निंग के पाठ्यक्रम आपको डेटा के साथ काम करना सीखने में मदद करेंगे।

डेटा स्कूल चैनल

यदि आपने मशीन लर्निंग के बारे में केवल कुछ सुना है, लेकिन पहले से ही रुचि रखते हैं, तो यह चैनल आपके लिए है। लेखक समझने योग्य स्तर पर उदाहरणों के साथ समझाएगा कि यह क्या है, यह कैसे काम करता है और इसका उपयोग कहाँ किया जाता है।

कहां अभ्यास करें

उन लोगों के लिए जो सुनिश्चित नहीं हैं कि वे व्याख्यान देखकर पूरी तरह से स्वतंत्र रूप से अध्ययन करने के लिए तैयार हैं, सत्यापन के साथ कार्यों के साथ ऑनलाइन पाठ्यक्रम हैं।

कौरसेरा पर डेटा विज्ञान पाठ्यक्रम

ये किस तरह का प्लेटफॉर्म है ये बताने की जरूरत नहीं है. आपको एक कोर्स चुनना होगा और पढ़ाई शुरू करनी होगी।

स्टेपिक.ऑर्ग

आर में डेटा विश्लेषण

पहले भाग में आर में सांख्यिकीय विश्लेषण के सभी मुख्य चरण, डेटा पढ़ना, डेटा प्रीप्रोसेसिंग, बुनियादी सांख्यिकीय तरीकों को लागू करना और परिणामों की कल्पना करना शामिल है। छात्र आर भाषा में प्रोग्रामिंग के बुनियादी तत्वों को सीखेंगे, जो उन्हें डेटा संसाधित करते समय उत्पन्न होने वाली समस्याओं की एक विस्तृत श्रृंखला को जल्दी और कुशलता से हल करने की अनुमति देगा।

दूसरे भाग में कई उन्नत विषयों को शामिल किया गया है जो पहले में शामिल नहीं थे: data.table और dplyr पैकेज का उपयोग करके डेटा प्रीप्रोसेसिंग, उन्नत विज़ुअलाइज़ेशन तकनीक, आर मार्कडाउन में काम करना।

डेटाबेस का परिचय

डीबीएमएस में गोता लगाएँ

यह पाठ्यक्रम उन लोगों के लिए है जिनके पास रिलेशनल डीबीएमएस के साथ कुछ अनुभव है और वे कैसे काम करते हैं इसके बारे में अधिक जानना चाहते हैं। पाठ्यक्रम में शामिल हैं:

  • डेटाबेस स्कीमा डिज़ाइन;
  • आदान - प्रदान प्रबंधन;
  • क्वेरी अनुकूलन;
  • रिलेशनल डीबीएमएस की नई विशेषताएं

Hadoop. बड़ी मात्रा में डेटा संसाधित करने की प्रणाली

यह पाठ्यक्रम Hadoop सिस्टम का उपयोग करके बड़ी मात्रा में डेटा संसाधित करने के तरीकों के लिए समर्पित है। पाठ्यक्रम पूरा करने के बाद, आप बड़ी मात्रा में डेटा को संग्रहीत और संसाधित करने के बुनियादी तरीकों का ज्ञान प्राप्त करेंगे, Hadoop ढांचे के संदर्भ में वितरित सिस्टम के सिद्धांतों को समझेंगे, और MapReduce प्रोग्रामिंग मॉडल का उपयोग करके व्यावहारिक अनुप्रयोग विकास कौशल में महारत हासिल करेंगे।

कई नियोक्ता आज सक्रिय रूप से डेटा वैज्ञानिकों की तलाश कर रहे हैं। साथ ही, वे उन "वैज्ञानिकों" को आकर्षित करने में रुचि रखते हैं जिनके पास उचित शिक्षा है। साथ ही, आपको उन सभी ग़लत सूचनाओं को भी ध्यान में रखना होगा जिनसे बाज़ार भरा पड़ा है। हम आपको डेटा वैज्ञानिकों और डेटा वैज्ञानिकों के बारे में सबसे बड़ी गलतफहमियों के बारे में बताएंगे, उनके पास कौन से कौशल होने चाहिए, और यह दुर्लभ नस्ल वास्तव में कौन है।

डेटा विज्ञान(डेटा साइंस) कंप्यूटर विज्ञान की एक शाखा है जो डेटा का विश्लेषण, प्रसंस्करण और डिजिटल रूप में प्रस्तुत करने की समस्याओं का अध्ययन करती है। डेटा विज्ञान बड़ी मात्रा में डेटा को संसाधित करने और उच्च स्तर की समानता, सांख्यिकीय विधियों, डेटा खनन विधियों और डेटा के साथ काम करने के लिए कृत्रिम बुद्धिमत्ता अनुप्रयोगों के साथ-साथ डेटाबेस को डिजाइन करने और विकसित करने के तरीकों को जोड़ता है। एक शैक्षणिक अनुशासन के रूप में माना जाता है। 2010 की शुरुआत से, इसे गतिविधि के एक व्यावहारिक अंतरक्षेत्रीय क्षेत्र के रूप में तैनात किया गया है। 2010 की शुरुआत से, "डेटा वैज्ञानिक" विशेषज्ञता को सबसे अधिक भुगतान वाले, आकर्षक और आशाजनक व्यवसायों में से एक माना गया है।

डेटा विज्ञान की ग़लतफ़हमियाँ

1. बिग डेटा बड़ी मात्रा में डेटा के साथ सांख्यिकी और बिजनेस एनालिटिक्स है। यहां कुछ भी नया नहीं है

यह राय मुख्य रूप से उन लोगों की है जिनके पास सॉफ्टवेयर विकास में सीमित अनुभव है, या उन पर किसी भी अनुभव का बोझ नहीं है। एक सादृश्य चाहते हैं? कृपया। आइए उदाहरण के तौर पर बर्फ को लें। इसे बहुत ठंडा पानी कहा जा सकता है. यहाँ नया क्या है? हालाँकि, ठंडा पानी न केवल इसका तापमान बदलता है, बल्कि इसकी गुणवत्ता विशेषताओं को भी मौलिक रूप से बदल देता है, जिससे तरल पदार्थ ठोस में परिवर्तित हो जाता है। बड़ी मात्रा में डेटा के लिए भी यही कहा जा सकता है। बड़ी मात्रा में डेटा अंततः गणना, गणना और गणना के पुराने प्रतिमानों को तोड़ देता है। का उपयोग करते हुए पारंपरिक तरीकेव्यावसायिक विश्लेषकों के लिए, कुछ गणनाएँ करने में वर्षों लग सकते हैं। समानांतरीकरण और वितरित कंप्यूटिंग स्केलिंग के प्रश्न के स्पष्ट उत्तर हैं। लेकिन यह हमेशा इतना आसान नहीं होता, यहां तक ​​कि लॉजिस्टिक रिग्रेशन विश्लेषण जैसे सरल सांख्यिकीय उपकरण के साथ भी। वितरित सांख्यिकीय कंप्यूटिंग पारंपरिक व्यवसाय विश्लेषण से उतनी ही अलग है जितनी बर्फ पानी से।

2. रीब्रांडिंग के बाद डेटा वैज्ञानिक वही सॉफ्टवेयर इंजीनियर हैं

कभी-कभी सॉफ़्टवेयर विकास में व्यापक अनुभव वाले इंजीनियर सुधार के लिए पुनः प्रशिक्षण से गुजरते हैं और डेटा वैज्ञानिक बन जाते हैं वेतन. हालाँकि, यह अभ्यास अक्सर असंतोषजनक परिणाम देता है। दरअसल, बड़े डेटा के क्षेत्र में, सबसे सरल स्तर पर भी सांख्यिकीय त्रुटियों को डीबग करना एक कठिन काम लगता है। इंजीनियरों को सॉफ़्टवेयर त्रुटियों का पता लगाने और उन्हें ठीक करने के लिए प्रशिक्षित किया जाता है। लेकिन संभाव्यता सिद्धांत और आंकड़ों के ठोस ज्ञान के बिना, एक अच्छा प्रोग्रामर भी एक साधारण सांख्यिकीय त्रुटि को सफलतापूर्वक समाप्त करने में सक्षम होने की संभावना नहीं है।


उच्च-स्तरीय इंजीनियर सरल, पृथक, नियम-आधारित मॉडल बनाने में सक्षम हैं। लेकिन ऐसे मॉडल डेटा से अधिक सूक्ष्म अंतर्दृष्टि प्राप्त करने के लिए उपयुक्त नहीं हैं। इसलिए वित्तीय लाभ खो गया। इसलिए, "बड़े डेटा प्रश्नों" के उत्तर प्राप्त करने के लिए अत्यधिक योग्य और अत्यधिक विशिष्ट कर्मियों की आवश्यकता होती है, जो भविष्य कहनेवाला मॉडलिंग की अगली पीढ़ी की नींव होगी।

3. डेटा वैज्ञानिकों को व्यवसाय को समझने की ज़रूरत नहीं है - डेटा उन्हें सब कुछ बता देगा

जिन लोगों के पास प्रोग्रामर के रूप में शिक्षा और अनुभव है वे अक्सर इस प्रलोभन का शिकार हो जाते हैं। और, वास्तव में, यदि उनके पास इतना शक्तिशाली आधार है तो उन्हें व्यवसाय को समझने की आवश्यकता क्यों है? शक्तिशाली, लेकिन सर्वशक्तिमान नहीं. सभी संभावित सहसंबंधों को ढूंढना अविश्वसनीय रूप से श्रमसाध्य और समय लेने वाला है, सांख्यिकीय रूप से समस्याग्रस्त होने का तो जिक्र ही नहीं। डेटा वैज्ञानिकों को झूठे और वास्तविक सहसंबंधों के बीच सफलतापूर्वक अंतर करने के लिए बस अपने व्यावसायिक अंतर्ज्ञान का उपयोग करना चाहिए। किसी विशेष क्षेत्र में विशेषज्ञ ज्ञान की कमी से निराधार निष्कर्ष निकल सकते हैं। आपको यह कैसे लगता है? पुलिस अधिकारियों की संख्या में वृद्धि से अपराध में वृद्धि होती है, जिसका अर्थ है कि प्रतिकूल अपराध स्थिति वाले क्षेत्रों में कानून प्रवर्तन अधिकारियों की संख्या को कम करना आवश्यक है। अंत में, प्रमुख हितधारकों को समझाने के लिए व्यावसायिक अंतर्ज्ञान का होना भी महत्वपूर्ण है: सहसंबंधों के बारे में उस भाषा में बात करना जिसे व्यवसायी लोग समझते हैं, एक डेटा वैज्ञानिक उस सहकर्मी की तुलना में अधिक सफल होगा जिसके पास व्यावसायिक कौशल नहीं है।


बिग डेटा और डेटा साइंस एक इष्टतम मॉडल बनाने का ज्ञान है जो सही इंजीनियरिंग, सांख्यिकीय और व्यावसायिक कौशल को जोड़ता है। इसके बिना, एक डेटा वैज्ञानिक वह सब कुछ हासिल नहीं कर पाएगा जो वह करना चाहता है।

तो डेटा वैज्ञानिक कौन हैं?

डेटा वैज्ञानिक व्यवसाय और डेटा विश्लेषकों के विकास का एक उत्पाद हैं। ऐसे विशेषज्ञों के लिए औपचारिक प्रशिक्षण में कंप्यूटर विज्ञान, सांख्यिकी, विश्लेषण और गणित शामिल हैं। एक शीर्ष पायदान का डेटा वैज्ञानिक क्या बनता है? मजबूत व्यावसायिक कौशल के साथ व्यापार और आईटी नेताओं के साथ इस तरह से संवाद करने की क्षमता है जो कंपनी के विकास को प्रभावित करने में मदद करती है। आईबीएम में बिग डेटा के उपाध्यक्ष अंजुल बाम्बरा का कहना है कि डेटा वैज्ञानिक "आंशिक विश्लेषक और आंशिक कलाकार" हैं। ये बहुत जिज्ञासु लोग हैं जो डेटा देख सकते हैं और रुझान पहचान सकते हैं। उनकी तुलना पुनर्जागरण के कलाकारों से की जा सकती है, जो न केवल सीखना चाहते थे, बल्कि अपने आसपास की दुनिया को बदलना भी चाहते थे।

जबकि एक पारंपरिक विश्लेषक एक ही स्रोत से डेटा का विश्लेषण करता है (उदाहरण के लिए) सीआरएम सिस्टम), एक डेटा वैज्ञानिक आवश्यक रूप से कई अलग-अलग स्रोतों से डेटा का अध्ययन करता है। यह पहले से छिपी हुई अंतर्दृष्टि की खोज करने के लिए आने वाले सभी डेटा को आक्रामक रूप से छान-बीन करेगा जो प्रदान कर सकता है प्रतिस्पर्धात्मक लाभ. एक डेटा वैज्ञानिक केवल डेटा एकत्र और विश्लेषण नहीं करता है, बल्कि इसे विभिन्न कोणों से देखता है और विभिन्न संदर्भों में इसका विश्लेषण करता है, यह निर्धारित करता है कि किसी ब्रांड के लिए इस या उस डेटा का क्या अर्थ है, और फिर उपलब्ध जानकारी का उपयोग करने के तरीके के बारे में सिफारिशें करता है।


डेटा वैज्ञानिक वे लोग हैं जो लगातार शोध कर रहे हैं, लाखों प्रश्न पूछ रहे हैं, "क्या होगा अगर..." विश्लेषण कर रहे हैं, मौजूदा मान्यताओं और प्रक्रियाओं पर सवाल उठा रहे हैं, समृद्ध डेटा स्रोतों की पहचान कर रहे हैं और उन्हें खराब डेटा सेट से जोड़ रहे हैं... एक प्रतिस्पर्धी माहौल में जहां कार्य लगातार होते रहते हैं परिवर्तन, और डेटा का तीव्र प्रवाह कभी समाप्त नहीं होता, डेटा वैज्ञानिक प्रबंधन में मदद करते हैं फैसले. और यही उनका सबसे मूल्यवान गुण है.

"वैज्ञानिक" क्यों?

कई लोग तर्क देते हैं कि डेटा वैज्ञानिक को "डेटा वैज्ञानिक" कहना बहुत ही दिखावा है। हालाँकि, यदि आप मूल को देखने का प्रयास करें तो यह सूत्रीकरण समझ में आता है। उदाहरण के लिए, प्रयोगात्मक भौतिकविदों को अपने स्वयं के उपकरण डिजाइन और निर्माण करने होंगे, डेटा एकत्र करना होगा, प्रयोग करना होगा और रिपोर्ट में सभी निष्कर्षों को सारांशित करना होगा। डेटा वैज्ञानिक भी ऐसा ही करते हैं. इसलिए, सबसे उच्च योग्य डेटा वैज्ञानिकों को भौतिकी या सामाजिक विज्ञान में उन्नत डिग्री वाले लोग माना जाता है।


ग्रह पर सबसे अच्छे डेटा वैज्ञानिक पारिस्थितिकी और सिस्टम जीवविज्ञान जैसे गूढ़ क्षेत्रों में पीएचडी वाले वैज्ञानिक हैं। एक ज्वलंत उदाहरण- जॉर्ज रूमेलियोटिस, जो सिलिकॉन वैली में इंटुइट में डेटा वैज्ञानिकों की एक टीम का नेतृत्व करते हैं। उन्होंने खगोल भौतिकी में पीएचडी प्राप्त की। कई डेटा वैज्ञानिक मालिक हैं शैक्षणिक डिग्री (sकंप्यूटर विज्ञान, गणित और अर्थशास्त्र में। लेकिन, जैसा भी हो, अच्छा विशेषज्ञडेटा विश्लेषण में विशेषज्ञता, किसी भी क्षेत्र से आ सकती है।


बुनियादी कौशल जिनके बिना एक डेटा वैज्ञानिक कुछ नहीं कर सकता

बुनियादी उपकरण. कंपनी के मिशन के बावजूद, एक डेटा वैज्ञानिक को बुनियादी उपकरणों का उपयोग करना आना चाहिए: सांख्यिकीय डेटा प्रोसेसिंग और ग्राफिक्स के लिए आर प्रोग्रामिंग भाषा, डेवलपर उत्पादकता और कोड पठनीयता में सुधार लाने के उद्देश्य से उच्च स्तरीय पायथन प्रोग्रामिंग भाषा, संरचित क्वेरी भाषा, जैसे SQL, एक मनमाना संबंधपरक डेटाबेस में डेटा बनाने, संशोधित करने और हेरफेर करने के लिए उपयोग किया जाता है।

बुनियादी सांख्यिकी. एक डेटा वैज्ञानिक के लिए सांख्यिकी को समझना महत्वपूर्ण है। यह कोई रहस्य नहीं है कि कई विशेषज्ञ पी-वैल्यू - परीक्षण में प्रयुक्त मूल्य - भी निर्धारित करने में सक्षम नहीं हैं सांख्यिकीय परिकल्पनाएँ. एक डेटा वैज्ञानिक को सांख्यिकीय परीक्षण, वितरण, अधिकतम संभावना अनुमान आदि से परिचित होना चाहिए। सांख्यिकी के लिए महत्वपूर्ण हैं अलग - अलग क्षेत्रव्यवसाय, विशेष रूप से डेटा-संचालित कंपनियों के लिए


यंत्र अधिगम. यदि कोई डेटा वैज्ञानिक बड़ी मात्रा में डेटा वाली बड़ी कंपनी में काम करता है, तो उसे मशीन लर्निंग विधियों से परिचित होना चाहिए। बेशक, इनमें से कई तरीकों को आर या पायथन पुस्तकालयों का उपयोग करके कार्यान्वित किया जा सकता है, इसलिए आपको यह समझने के लिए विश्व-अग्रणी विशेषज्ञ होने की आवश्यकता नहीं है कि एल्गोरिदम कैसे काम करते हैं। यह समझना अधिक महत्वपूर्ण है कि कुछ विधियों का उपयोग कब सबसे उपयुक्त होगा।

बहुभिन्नरूपी गणना और रैखिक बीजगणित. ये अनुशासन कई मशीन सीखने के तरीकों का आधार बनते हैं।

विश्लेषण के लिए डेटा तैयार करना. अक्सर विश्लेषण किया गया डेटा काफी "गंदा" होता है, जिससे इसके साथ काम करना अधिक कठिन हो जाता है। इसलिए, यह जानना बहुत ज़रूरी है कि डेटा की सभी कमियों से कैसे निपटा जाए। अपूर्ण डेटा का एक उदाहरण "न्यूयॉर्क" - "न्यूयॉर्क" - "एनवाई", या दिनांक "2014-01-01" - "01/01/2014", या का उपयोग जैसे स्ट्रिंग्स का असंगत स्वरूपण है। UNIX सिस्टम समय और अनुक्रम टाइमस्टैम्प।

डेटा विज़ुअलाइज़ेशन और संचार. बहुत शानदार महत्वपूर्ण बिंदु, खासकर जब हम युवा डेटा-संचालित कंपनियों के बारे में बात कर रहे हैं, या उन कंपनियों के बारे में जिनमें डेटा वैज्ञानिकों को ऐसे लोगों के रूप में माना जाता है जो डेटा-संचालित निर्णय लेने में मदद करते हैं। D3.js डेटा को संसाधित करने और विज़ुअलाइज़ करने के लिए ggplot (R भाषा का एक विस्तार) और जावास्क्रिप्ट लाइब्रेरी का ज्ञान बहुत उपयोगी होगा।

प्रोग्रामिंग. डेटा वैज्ञानिक आमतौर पर बड़ी मात्रा में पंजीकरण डेटा और डेटा-संचालित उत्पादों को संभालने के लिए जिम्मेदार होते हैं।

एक डेटा वैज्ञानिक की तरह सोचें. एक नियोक्ता हमेशा एक डेटा वैज्ञानिक को समस्या समाधानकर्ता के रूप में देखना चाहता है। "वैज्ञानिक" को हमेशा यह जानना चाहिए कि इस स्तर पर क्या महत्वपूर्ण है और क्या विशेष मूल्य का नहीं है। उन्हें उत्पाद विकास के लिए जिम्मेदार डिजाइनरों और प्रबंधकों के साथ बातचीत करना आवश्यक है।


हार्वर्ड बिजनेस रिव्यू का दावा है कि डेटा साइंटिस्ट 21वीं सदी का सबसे सेक्सी पेशा है। और इससे असहमत होना कठिन है। डेटा विज्ञान अभी विकसित हो रहा है, और सभी आधुनिक डेटा वैज्ञानिकों को सुरक्षित रूप से अग्रणी कहा जा सकता है। और यदि आप कह सकते हैं कि आप सांख्यिकीविदों में सर्वश्रेष्ठ आईटी विशेषज्ञ हैं और आईटी विशेषज्ञों में सर्वश्रेष्ठ सांख्यिकीविद् हैं, तो आप एक सच्चे डेटा वैज्ञानिक हैं।

इस लेख को तैयार करने में प्रयुक्त सामग्री

डेटा वैज्ञानिक- बड़ी मात्रा में डेटा, तथाकथित "बिग डेटा" के प्रसंस्करण, विश्लेषण और भंडारण में विशेषज्ञ। यह पेशा उन लोगों के लिए उपयुक्त है जो भौतिकी, गणित और कंप्यूटर विज्ञान में रुचि रखते हैं (स्कूल के विषयों में रुचि के आधार पर पेशा चुनना देखें)।

डेटा विज्ञान - विभिन्न विषयों के प्रतिच्छेदन पर डेटा विज्ञान: गणित और सांख्यिकी; सूचना विज्ञान और कंप्यूटर विज्ञान; व्यापार और अर्थशास्त्र.

(एस. माल्टसेवा, वी. कोर्निलोव नेशनल रिसर्च यूनिवर्सिटी "हायर स्कूल ऑफ इकोनॉमिक्स")

पेशा नया, प्रासंगिक और... "बिग डेटा" शब्द 2008 में ही सामने आया था। और डेटा साइंटिस्ट का पेशा - "डेटा साइंटिस्ट" आधिकारिक तौर पर 2010 की शुरुआत में एक अकादमिक और अंतःविषय अनुशासन के रूप में पंजीकृत किया गया था। हालांकि "डेटा विज्ञान" शब्द का पहला उल्लेख 1974 में पीटर नौर की पुस्तक में किया गया था, लेकिन एक अलग प्रसंग।

इस तरह के पेशे के उद्भव की आवश्यकता इस तथ्य से तय हुई थी कि जब अल्ट्रा बिग डेटा की बात आती है, तो गणितीय आंकड़ों के मानक माध्यमों द्वारा संसाधित किए जाने के लिए डेटा सरणियाँ बहुत बड़ी हो जाती हैं। हर दिन, हजारों पेटाबाइट (10 15 बाइट्स = 1024 टेराबाइट्स) जानकारी दुनिया भर की कंपनियों के सर्वर से गुजरती है। डेटा की इतनी मात्रा के अलावा, समस्या उनकी विविधता और से जटिल है उच्च गतिअद्यतन.

डेटा सरणियों को 3 प्रकारों में विभाजित किया गया है:

संरचित (उदाहरण के लिए, व्यापार में नकदी रजिस्टर से डेटा);

अर्ध-संरचित (ई-मेल संदेश);

असंरचित (वीडियो फ़ाइलें, चित्र, तस्वीरें)।

अधिकांश बड़ा डेटा असंरचित होता है, जिससे इसे संसाधित करना अधिक कठिन हो जाता है।

व्यक्तिगत रूप से, एक सांख्यिकीविद्, सिस्टम विश्लेषक या व्यवसाय विश्लेषक इतनी मात्रा में डेटा के साथ समस्याओं का समाधान नहीं कर सकता है। इसके लिए अंतःविषय शिक्षा वाले, गणित और सांख्यिकी, अर्थशास्त्र और व्यवसाय, कंप्यूटर विज्ञान और कंप्यूटर प्रौद्योगिकी में सक्षम व्यक्ति की आवश्यकता होती है।

डेटा साइंटिस्ट का मुख्य कार्य वास्तविक समय में सूचना प्रवाह का उपयोग करके विभिन्न प्रकार के स्रोतों से आवश्यक जानकारी निकालने की क्षमता है; डेटा सेट में छिपे हुए पैटर्न की पहचान करें और स्मार्ट व्यावसायिक निर्णय लेने के लिए उनका सांख्यिकीय विश्लेषण करें। ऐसे विशेषज्ञ का कार्यस्थल 1 कंप्यूटर या 1 सर्वर नहीं, बल्कि सर्वरों का एक समूह होता है।

पेशे की विशेषताएं

डेटा के साथ काम करते समय, एक डेटा वैज्ञानिक विभिन्न तरीकों का उपयोग करता है:

  • सांख्यिकीय पद्धतियां;
  • डेटाबेस मॉडलिंग;
  • खनन के तरीके;
  • डेटा के साथ काम करने के लिए कृत्रिम बुद्धिमत्ता अनुप्रयोग;
  • डेटाबेस को डिज़ाइन और विकसित करने की विधियाँ।

एक डेटा वैज्ञानिक की नौकरी की जिम्मेदारियां उसकी गतिविधि के क्षेत्र पर निर्भर करती हैं, लेकिन सामान्य सूचीफ़ंक्शन इस तरह दिखते हैं:

  • बाद के परिचालन प्रसंस्करण के लिए विभिन्न स्रोतों से डेटा का संग्रह;
  • उपभोक्ता व्यवहार का विश्लेषण;
  • ग्राहक आधार मॉडलिंग और उत्पाद वैयक्तिकरण;
  • दक्षता विश्लेषण आंतरिक प्रक्रियाएँआधार;
  • विभिन्न जोखिमों का विश्लेषण;
  • संदिग्ध लेनदेन का अध्ययन करके संभावित धोखाधड़ी की पहचान करना;
  • पूर्वानुमानों और डेटा प्रस्तुति के साथ आवधिक रिपोर्ट तैयार करना।

एक डेटा वैज्ञानिक, एक वास्तविक वैज्ञानिक की तरह, न केवल डेटा एकत्र करता है और उसका विश्लेषण करता है, बल्कि किसी भी धारणा पर सवाल उठाते हुए, विभिन्न संदर्भों और विभिन्न कोणों से इसका अध्ययन भी करता है। सबसे महत्वपूर्ण गुणडेटा साइंटिस्ट एकत्रित जानकारी की प्रणाली में तार्किक कनेक्शन देखने और उसके आधार पर करने की क्षमता है मात्रात्मक विश्लेषणप्रभावी व्यावसायिक समाधान विकसित करें। आज की प्रतिस्पर्धी और तेजी से बदलती दुनिया में, सूचना के बढ़ते प्रवाह में, सही व्यावसायिक निर्णय लेने के मामले में प्रबंधन के लिए एक डेटा वैज्ञानिक अपरिहार्य है।

पेशे के पक्ष और विपक्ष

पेशेवरों

  • इस पेशे की न केवल अत्यधिक मांग है, बल्कि इस स्तर के विशेषज्ञों की भी भारी कमी है। मैकिन्से ग्लोबल इंस्टीट्यूट के अनुसार, 2018 तक अकेले संयुक्त राज्य अमेरिका में 190 हजार से अधिक डेटा वैज्ञानिकों की आवश्यकता होगी। यही कारण है कि डेटा वैज्ञानिकों को प्रशिक्षित करने के लिए सबसे प्रतिष्ठित विश्वविद्यालयों में संकायों को इतनी तेजी से और व्यापक रूप से वित्त पोषित और विकसित किया जाता है। रूस में भी डेटा वैज्ञानिकों की मांग बढ़ रही है।
  • अत्यधिक भुगतान वाला पेशा।
  • आईटी प्रौद्योगिकियों के निरंतर विकास, विकास के साथ बने रहने और डेटा के प्रसंस्करण, विश्लेषण और भंडारण के लिए नए तरीके बनाने की आवश्यकता है।

विपक्ष

  • हर व्यक्ति इस पेशे में महारत हासिल नहीं कर सकता, इसके लिए एक विशेष मानसिकता की आवश्यकता होती है।
  • काम की प्रक्रिया में, जाने-माने तरीके और 60% से अधिक विचार काम नहीं कर सकते हैं। कई समाधान विफल हो जाएंगे और संतोषजनक परिणाम प्राप्त करने के लिए आपको बहुत धैर्य रखने की आवश्यकता है। एक वैज्ञानिक को यह कहने का कोई अधिकार नहीं है: "नहीं!" संकट। उसे कोई ऐसा रास्ता खोजना होगा जिससे समस्या का समाधान हो सके।

काम की जगह

डेटा वैज्ञानिक निम्नलिखित में प्रमुख पदों पर कार्यरत हैं:

  • तकनीकी उद्योग (कार नेविगेशन सिस्टम, दवा उत्पादन, आदि);
  • आईटी क्षेत्र (खोज इंजन अनुकूलन, स्पैम फ़िल्टर, समाचार व्यवस्थितकरण, स्वचालित पाठ अनुवाद और बहुत कुछ);
  • चिकित्सा (रोगों का स्वचालित निदान);
  • वित्तीय संरचनाएं (ऋण जारी करने पर निर्णय लेना), आदि;
  • टेलीविजन कंपनियाँ;
  • बड़ी खुदरा शृंखलाएं;
  • चुनाव अभियान.

महत्वपूर्ण गुण

  • विश्लेषणात्मक दिमाग;
  • कड़ी मेहनत;
  • अटलता;
  • ईमानदारी, सटीकता, सावधानी;
  • असफल मध्यवर्ती परिणामों के बावजूद अनुसंधान पूरा करने की क्षमता;
  • संचार कौशल;
  • जटिल चीज़ों को सरल शब्दों में समझाने की क्षमता;
  • व्यापार अंतर्ज्ञान.

व्यावसायिक ज्ञान और कौशल:

  • गणित, गणितीय विश्लेषण, गणितीय सांख्यिकी, संभाव्यता सिद्धांत का ज्ञान;
  • अंग्रेजी का ज्ञान;
  • मुख्य प्रोग्रामिंग भाषाओं का ज्ञान जिनमें बड़े डेटा सेट के साथ काम करने के लिए घटक हैं: जावा (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • सांख्यिकीय उपकरणों का ज्ञान - एसपीएसएस, आर, मैटलैब, एसएएस डेटा माइनर, टेबलौ;
  • उस उद्योग का संपूर्ण ज्ञान जिसमें डेटा वैज्ञानिक काम करता है; यदि यह फार्मास्युटिकल उद्योग है, तो बुनियादी उत्पादन प्रक्रियाओं और दवा घटकों का ज्ञान आवश्यक है;
  • डेटा वैज्ञानिक का मुख्य बुनियादी कौशल बड़ी मात्रा में डेटा के लिए क्लस्टर स्टोरेज सिस्टम का संगठन और प्रशासन करना है;
  • व्यवसाय विकास कानूनों का ज्ञान;
  • आर्थिक ज्ञान.

विश्वविद्यालयों

  • मॉस्को स्टेट यूनिवर्सिटी का नाम रखा गया लोमोनोसोव, कम्प्यूटेशनल गणित और साइबरनेटिक्स संकाय, विशेष शैक्षिक कार्यक्रम Mail.Ru ग्रुप "टेक्नोस्फीयर", बड़ी मात्रा में डेटा के बुद्धिमान विश्लेषण, C++ में प्रोग्रामिंग, मल्टी-थ्रेडेड प्रोग्रामिंग और सूचना पुनर्प्राप्ति प्रणाली के निर्माण के लिए प्रौद्योगिकी के प्रशिक्षण के साथ।
  • एमआईपीटी, डेटा विश्लेषण विभाग।
  • नेशनल रिसर्च यूनिवर्सिटी हायर स्कूल ऑफ इकोनॉमिक्स में बिजनेस इंफॉर्मेटिक्स संकाय सिस्टम विश्लेषकों, डिजाइनरों और जटिल सूचना प्रणालियों के कार्यान्वयनकर्ताओं और कॉर्पोरेट सूचना प्रणाली प्रबंधन के आयोजकों को प्रशिक्षित करता है।
  • डेटा विश्लेषण स्कूल यांडेक्स।
  • इनोपोलिस विश्वविद्यालय, डंडी विश्वविद्यालय, दक्षिणी कैलिफोर्निया विश्वविद्यालय, ऑकलैंड विश्वविद्यालय, वाशिंगटन विश्वविद्यालय: बिग डेटा में मास्टर कार्यक्रम।
  • इंपीरियल कॉलेज लंदन बिजनेस स्कूल, एमएससी डेटा साइंस एंड मैनेजमेंट।

किसी भी पेशे की तरह, स्व-शिक्षा यहां महत्वपूर्ण है, जो निस्संदेह ऐसे संसाधनों से लाभान्वित होगी:

  • विश्व के अग्रणी विश्वविद्यालयों COURSERA से ऑनलाइन पाठ्यक्रम;
  • मशीन लर्निंग चैनल मैशिन लर्निंग;
  • ईडीएक्स पाठ्यक्रमों का चयन;
  • उडेसिटी पाठ्यक्रम;
  • डेटाक्वेस्ट पाठ्यक्रम, जहां आप डेटा विज्ञान में वास्तविक विशेषज्ञ बन सकते हैं;
  • 6-चरणीय डेटाकैंप पाठ्यक्रम;
  • ओ'रेली प्रशिक्षण वीडियो;
  • शुरुआती और उन्नत डेटा ओरिगेमी के लिए स्क्रीनकास्ट;
  • विशेषज्ञों का त्रैमासिक सम्मेलन मॉस्को डेटा साइंटिस्ट मीटअप;
  • डेटा विश्लेषण प्रतियोगिताएं Kaggle.com

वेतन

वेतन 07/04/2019 तक

रूस 50000—200000 ₽

मॉस्को 60000—300000 ₽

डेटा साइंटिस्ट का पेशा सबसे अधिक वेतन पाने वालों में से एक है। वेबसाइट hh.ru से जानकारी - मासिक वेतन $8.5 हजार से $9 हजार तक होता है। संयुक्त राज्य अमेरिका में, ऐसे विशेषज्ञ का वेतन $110 हजार - $140 हजार प्रति वर्ष है।

सुपरजॉब रिसर्च सेंटर के एक सर्वेक्षण के अनुसार, डेटा साइंटिस्ट विशेषज्ञों का वेतन कार्य अनुभव, जिम्मेदारियों के दायरे और क्षेत्र पर निर्भर करता है। एक नौसिखिया विशेषज्ञ 70 हजार रूबल पर भरोसा कर सकता है। मास्को में और 57 हजार रूबल। सेंट पीटर्सबर्ग में. 3 साल तक के कार्य अनुभव के साथ, वेतन बढ़कर 110 हजार रूबल हो जाता है। मास्को में और 90 हजार रूबल। सेंट पीटर्सबर्ग में. वैज्ञानिक प्रकाशन वाले अनुभवी विशेषज्ञों के लिए वेतन 220 हजार रूबल तक पहुंच सकता है। मास्को में और 180 हजार रूबल। पीटर्सबर्ग में.

कैरियर के कदम और संभावनाएँ

डेटा साइंटिस्ट पेशा अपने आप में एक उच्च उपलब्धि है, जिसके लिए कई व्यवसायों के गंभीर सैद्धांतिक ज्ञान और व्यावहारिक अनुभव की आवश्यकता होती है। किसी भी संगठन में ऐसा विशेषज्ञ एक प्रमुख व्यक्ति होता है। इस ऊंचाई तक पहुंचने के लिए, आपको कड़ी मेहनत और उद्देश्यपूर्ण ढंग से काम करने की जरूरत है और उन सभी क्षेत्रों में लगातार सुधार करना होगा जो पेशे का आधार हैं।

एक डेटा वैज्ञानिक के बारे में एक चुटकुला है: वह एक सामान्यज्ञ है जो किसी भी सांख्यिकीविद् से बेहतर प्रोग्राम करता है और किसी भी प्रोग्रामर से बेहतर आंकड़ों को जानता है। और वह व्यावसायिक प्रक्रियाओं को कंपनी के प्रमुख से बेहतर समझता है।

क्या हुआ है "बड़ा डेटा"वास्तविक संख्या में?

  1. हर 2 दिन में, डेटा की मात्रा ईसा मसीह के जन्म से लेकर 2003 तक मानवता द्वारा बनाई गई जानकारी की मात्रा से बढ़ जाती है।
  2. आज मौजूद सभी डेटा का 90% पिछले 2 वर्षों में सामने आया है।
  3. 2020 तक सूचना की मात्रा 3.2 से बढ़कर 40 ज़ेटाबाइट्स हो जाएगी। 1 ज़ेटाबाइट = 10 21 बाइट्स।
  4. 1 मिनट के भीतर फेसबुक पर 200 हजार तस्वीरें अपलोड की जाती हैं, 205 मिलियन पत्र भेजे जाते हैं और 1.8 मिलियन लाइक्स पोस्ट किए जाते हैं।
  5. 1 सेकंड के भीतर, Google 40 हजार खोज क्वेरी संसाधित करता है।
  6. प्रत्येक 1.2 वर्ष में, प्रत्येक उद्योग में डेटा की कुल मात्रा दोगुनी हो जाती है।
  7. 2020 तक, Hadoop सेवा बाज़ार बढ़कर $50 बिलियन का हो जाएगा।
  8. संयुक्त राज्य अमेरिका में 2015 में, बिग डेटा परियोजनाओं पर काम करने वाले विशेषज्ञों के लिए 1.9 मिलियन नौकरियां सृजित की गईं।
  9. बिग डेटा प्रौद्योगिकियां खुदरा श्रृंखलाओं के मुनाफे में प्रति वर्ष 60% की वृद्धि करती हैं।
  10. पूर्वानुमानों के अनुसार, बिग डेटा बाज़ार का आकार 2014 के 28.5 बिलियन डॉलर की तुलना में 2020 में बढ़कर 68.7 बिलियन डॉलर हो जाएगा।

ऐसे सकारात्मक विकास संकेतकों के बावजूद, पूर्वानुमानों में त्रुटियां भी हैं। उदाहरण के लिए, 2016 की सबसे कुख्यात गलतियों में से एक: अमेरिकी राष्ट्रपति चुनाव के बारे में पूर्वानुमान सच नहीं हुए। हिलेरी क्लिंटन के पक्ष में मशहूर अमेरिकी डेटा साइंटिस्ट नैट सिल्वर, किर्क बॉर्न और बिल श्मार्जो ने पूर्वानुमान पेश किए थे. पिछले चुनाव अभियानों में, उन्होंने सटीक पूर्वानुमान दिए और कभी ग़लती नहीं हुई।

उदाहरण के लिए, इस वर्ष नैट सिल्वर ने दिया सटीक पूर्वानुमान 41 राज्यों के लिए, लेकिन 9 राज्यों के लिए वह गलत थे, जिसके कारण ट्रम्प की जीत हुई। 2016 की त्रुटियों के कारणों का विश्लेषण करने के बाद, उन्होंने निष्कर्ष निकाला कि:

  1. गणितीय मॉडल अपने निर्माण के समय की तस्वीर को वस्तुनिष्ठ रूप से प्रतिबिंबित करते हैं। लेकिन उनका आधा जीवन होता है, जिसके अंत तक स्थिति नाटकीय रूप से बदल सकती है। मॉडल के पूर्वानुमानित गुण समय के साथ ख़राब होते जाते हैं। में इस मामले मेंउदाहरण के लिए, कदाचार, आय असमानता और अन्य सामाजिक उथल-पुथल ने भूमिका निभाई। इसलिए, नए डेटा को ध्यान में रखने के लिए मॉडल को नियमित रूप से समायोजित किया जाना चाहिए। ऐसा नहीं किया गया.
  2. अतिरिक्त डेटा को देखना और उस पर विचार करना आवश्यक है जो पूर्वानुमानों पर महत्वपूर्ण प्रभाव डाल सकता है। इस प्रकार, क्लिंटन और ट्रम्प के चुनाव अभियानों में रैलियों के वीडियो देखते समय, रैलियों में भाग लेने वालों की कुल संख्या पर ध्यान नहीं दिया गया। यह लगभग सैकड़ों लोग थे। पता चला कि ट्रम्प के पक्ष में प्रत्येक रैली में 400-600 लोग शामिल हुए, और क्लिंटन के पक्ष में केवल 150-200 लोग शामिल हुए, जिससे नतीजों पर असर पड़ा।
  3. चुनाव अभियानों में गणितीय मॉडल जनसांख्यिकीय डेटा पर आधारित होते हैं: आयु, जाति, लिंग, आय, समाज में स्थिति, आदि। प्रत्येक समूह का महत्व इस बात से निर्धारित होता है कि उन्होंने पिछले चुनाव में कैसे मतदान किया था। इस पूर्वानुमान में 3-4% की त्रुटि होती है और उम्मीदवारों के बीच बड़ा अंतर होने पर यह विश्वसनीय रूप से काम करता है। लेकिन इस मामले में क्लिंटन और ट्रंप के बीच अंतर बहुत कम था और इस गलती का चुनाव नतीजों पर काफी असर पड़ा.
  4. लोगों के अतार्किक व्यवहार पर ध्यान नहीं दिया गया। आयोजित किए गए जनमत सर्वेक्षण यह भ्रम पैदा करते हैं कि लोग वैसे ही मतदान करेंगे जैसे उन्होंने सर्वेक्षण में उत्तर दिया था। लेकिन कभी-कभी वे इसका उल्टा भी करते हैं. इस मामले में, मतदान के प्रति बेईमान रवैये की पहचान करने के लिए चेहरे और भाषण का अतिरिक्त विश्लेषण करना आवश्यक होगा।

सामान्य तौर पर, उम्मीदवारों के बीच कम अंतर के कारण भविष्यवाणी गलत साबित हुई। बड़े अंतर की स्थिति में, ये त्रुटियाँ इतनी निर्णायक नहीं होंगी।

वीडियो: नई विशेषज्ञता "बिग डेटा" - मिखाइल लेविन

इन्फोग्राफिक्स में डेटा वैज्ञानिक। यह पेशा ताज़ा, अत्यधिक भुगतान वाला और प्रसिद्ध है। लेकिन ऐसे विशेषज्ञ के पास क्या कौशल होना चाहिए? चलो गौर करते हैं।

चलो कौशल के बारे में बात करते हैं

डेटा साइंटिस्ट एक सामान्य विशेषज्ञ होता है जो एनालिटिक्स और सूचना प्रसंस्करण को कवर करता है। एक डेटा वैज्ञानिक सांख्यिकी और प्रोग्रामिंग को समझता है। उपयोगी, है ना? प्रत्येक व्यक्तिगत डेटा वैज्ञानिक की क्षमताओं की सीमा एक श्रेणी है और कोडिंग या शुद्ध सांख्यिकी की ओर बढ़ सकती है।

  • सैन फ्रांसिस्को में स्थित डेटा विश्लेषक। कुछ कंपनियाँ वास्तव में डेटा वैज्ञानिकों की तुलना विश्लेषकों से करती हैं। ऐसे विशेषज्ञ का काम डेटाबेस से जानकारी निकालना, एक्सेल के साथ इंटरैक्ट करना और बुनियादी विज़ुअलाइज़ेशन तक सीमित है।
  • भारी ट्रैफ़िक और बड़ी मात्रा में डेटा कुछ कंपनियों को तत्काल खोज करने के लिए मजबूर कर रहा है सही विशेषज्ञ. वे अक्सर समान नौकरी शीर्षक को ध्यान में रखते हुए इंजीनियरों, विश्लेषकों, प्रोग्रामर या वैज्ञानिकों की तलाश में विज्ञापन पोस्ट करते हैं।
  • ऐसी कंपनियां हैं जिनके लिए डेटा एक उत्पाद है। इस मामले में, गहन विश्लेषण और मशीन लर्निंग की आवश्यकता होगी।
  • अन्य कंपनियों के लिए, डेटा कोई उत्पाद नहीं है, बल्कि प्रबंधन या वर्कफ़्लो स्वयं उस पर आधारित है। कंपनी डेटा को संरचित करने के लिए डेटा वैज्ञानिकों की भी तलाश की जाती है।

सुर्खियाँ "21वीं सदी का सबसे कामुक पेशा" की शैली में शीर्षकों से भरी हुई हैं। हम नहीं जानते कि यह सच है या नहीं, लेकिन हम इतना जानते हैं कि एक डेटा वैज्ञानिक को यह अवश्य समझना चाहिए:

  1. गणित और सांख्यिकी.
  2. विषय क्षेत्र और सॉफ्टवेयर.
  3. प्रोग्रामिंग और डेटाबेस.
  4. डेटा विनिमय और विज़ुअलाइज़ेशन।

आइए प्रत्येक बिंदु को अधिक विस्तार से देखें।

डेटा वैज्ञानिक और गणितीय सांख्यिकी

विकास गणितीय तरीकेसांख्यिकीय डेटा का उपयोग करना कार्य का एक मूलभूत हिस्सा है। गणितीय आँकड़े संभाव्यता सिद्धांत पर आधारित हैं, जो सटीक निष्कर्ष निकालना और उनकी विश्वसनीयता का मूल्यांकन करना संभव बनाता है।

1. मशीन लर्निंग, एआई के एक उपधारा के रूप में। एक प्रशिक्षण कार्यक्रम और पैटर्न के साथ डेटा के उदाहरण हैं। हम एक पैटर्न मॉडल बनाते हैं, उसे लागू करते हैं, और प्रोग्राम का उपयोग करके नए डेटा में पैटर्न देखने का अवसर प्राप्त करते हैं।

2. डेटा साइंटिस्ट को पता होना चाहिए सांख्यिकीय मॉडलिंगएक निश्चित संभाव्यता घनत्व के साथ यादृच्छिक संकेतों के साथ मॉडल का परीक्षण करना। लक्ष्य प्राप्त परिणामों को सांख्यिकीय रूप से निर्धारित करना है।

3. प्रायोगिक डिज़ाइन. प्रयोगों के दौरान, अंतर देखने के लिए एक या अधिक चर बदले जाते हैं। इस मामले में, एक हस्तक्षेप समूह और एक नियंत्रण समूह होता है, जिसके कारण परीक्षण किया जाता है।

4. बायेसियन अनुमान एक परिकल्पना की संभावना को समायोजित करने में मदद करता है।

5. पर्यवेक्षित प्रशिक्षण:

  • निर्णय के पेड़;
  • बेतरतीब जंगल;
  • संभार तन्त्र परावर्तन।

6. बिना पर्यवेक्षण के सीखना:

  • क्लस्टरिंग;
  • आयाम में कमी.

7. अनुकूलन: ढतला हुआ वंशऔर विकल्प.

डोमेन और सॉफ्टवेयर कौशल

अध्ययन और अभ्यास करें! यही इस विशेषता का आधार है. एक डेटा वैज्ञानिक को उस विषय क्षेत्र की अच्छी समझ होनी चाहिए जो विज्ञान को प्रभावित करता है, और सॉफ्टवेयर से भी परिचित होना चाहिए।

आवश्यक कौशलों की सूची अजीब है, लेकिन कम उपयोगी नहीं है:

प्रोग्रामिंग और डेटाबेस

बुनियादी बातों से लेकर पायथन, XaaS, संबंधपरक बीजगणित और SQL का ज्ञान। सामान्य तौर पर, वह सब कुछ जिसके बिना डेटा को गुणात्मक रूप से संसाधित करने का प्रयास बेकार है।

1. कंप्यूटर विज्ञान के मूल सिद्धांत, उन लोगों के लिए शुरुआती बिंदु के रूप में जो जीवन को प्रोग्रामिंग और प्रक्रिया स्वचालन से जोड़ते हैं।

डेटा साइंस, मशीन लर्निंग - आपने शायद ये बड़े शब्द सुने होंगे, लेकिन आपके लिए उनका अर्थ कितना स्पष्ट था? कुछ लोगों के लिए वे सुंदर चारा हैं। कुछ लोग सोचते हैं कि डेटा विज्ञान एक जादू है जो मशीन को जो भी ऑर्डर दिया जाएगा वह मुफ़्त में कर देगा। दूसरे लोग भी मानते हैं कि ऐसा है आसान तरीकाखूब पैसा कमाओ. IRELA में R&D की प्रमुख निकिता निकितिंस्की और डेटा साइंटिस्ट पोलीना काज़ाकोवा सरल और समझने योग्य भाषा में समझाती हैं कि यह क्या है।

मैं स्वचालित प्राकृतिक भाषा प्रसंस्करण, डेटा विज्ञान के एक अनुप्रयोग में काम करता हूं, और अक्सर लोगों को इन शब्दों का गलत तरीके से उपयोग करते देखता हूं, इसलिए मैं थोड़ा स्पष्ट करना चाहता था। यह लेख उन लोगों के लिए है जिन्हें डेटा विज्ञान के बारे में कम जानकारी है और वे अवधारणाओं को समझना चाहते हैं।

आइए शब्दावली को परिभाषित करें

आइए इस तथ्य से शुरू करें कि कोई भी वास्तव में नहीं जानता कि डेटा विज्ञान क्या है, और इसकी कोई सख्त परिभाषा नहीं है - यह एक बहुत व्यापक और अंतःविषय अवधारणा है। इसलिए, यहां मैं अपना दृष्टिकोण साझा करूंगा, जो जरूरी नहीं कि दूसरों की राय से मेल खाता हो।

डेटा विज्ञान शब्द का रूसी में अनुवाद "डेटा विज्ञान" के रूप में किया जाता है और पेशेवर माहौल में इसे अक्सर "डेटा विज्ञान" के रूप में लिप्यंतरित किया जाता है। औपचारिक रूप से, यह कंप्यूटर विज्ञान और गणित के क्षेत्र से कुछ परस्पर संबंधित विषयों और विधियों का एक सेट है। बहुत सारगर्भित लगता है, है ना? आइए इसका पता लगाएं।

पहला भाग: डेटा

डेटा विज्ञान का पहला घटक, जिसके बिना पूरी आगे की प्रक्रिया असंभव है, वास्तव में, डेटा ही है: इसे कैसे एकत्र किया जाए, संग्रहीत किया जाए और संसाधित किया जाए, साथ ही इसे सामान्य डेटा सरणी से कैसे अलग किया जाए उपयोगी जानकारी. विशेषज्ञ अपने कामकाजी समय का 80% तक डेटा को साफ़ करने और उसे वांछित रूप में लाने में समर्पित करते हैं।

इस बिंदु का एक महत्वपूर्ण हिस्सा यह है कि डेटा को कैसे संभालना है जिसके लिए मानक भंडारण और प्रसंस्करण विधियां उनकी विशाल मात्रा और/या विविधता - तथाकथित बड़े डेटा के कारण उपयुक्त नहीं हैं। वैसे, अपने आप को भ्रमित न होने दें: बड़ा डेटा और डेटा विज्ञान पर्यायवाची नहीं हैं: बल्कि, पहला दूसरे का एक उपधारा है। साथ ही, व्यवहार में डेटा विश्लेषकों को हमेशा बड़े डेटा के साथ काम नहीं करना पड़ता है - छोटा डेटा भी उपयोगी हो सकता है।

चलिए डेटा इकट्ठा करते हैं

कल्पना कीजिए कि हम इस बात में रुचि रखते हैं कि क्या आपके सहकर्मी दिन में कितनी कॉफी पीते हैं और पिछली रात उन्होंने कितनी नींद ली, इसके बीच कोई संबंध है। आइए हमारे पास उपलब्ध जानकारी को लिखें: मान लीजिए कि आपका सहकर्मी ग्रेगरी आज 4 घंटे सोया, इसलिए उसे 3 कप कॉफी पीनी पड़ी; एलिना 9 घंटे सोई और बिल्कुल भी कॉफी नहीं पी; और पोलिना पूरे 10 घंटे सोई, लेकिन 2.5 कप कॉफी पी - और इसी तरह।

आइए प्राप्त डेटा को एक ग्राफ़ पर प्रदर्शित करें (विज़ुअलाइज़ेशन भी किसी भी डेटा विज्ञान प्रोजेक्ट का एक महत्वपूर्ण तत्व है)। आइए समय को एक्स अक्ष पर घंटों में और कॉफी को वाई अक्ष पर मिलीलीटर में प्लॉट करें। हमें कुछ इस तरह मिलेगा:

दूसरा भाग: विज्ञान

हमारे पास डेटा है, अब हम इसके साथ क्या कर सकते हैं? यह सही है, विश्लेषण करें, उपयोगी पैटर्न निकालें और किसी तरह उनका उपयोग करें। यहां सांख्यिकी, मशीन लर्निंग और अनुकूलन जैसे विषय हमारी मदद करेंगे।

वे डेटा विज्ञान का अगला और शायद सबसे महत्वपूर्ण घटक बनाते हैं - डेटा विश्लेषण। मशीन लर्निंग आपको मौजूदा डेटा में पैटर्न ढूंढने की अनुमति देता है ताकि आप नई वस्तुओं के लिए प्रासंगिक जानकारी का अनुमान लगा सकें।

आइए डेटा का विश्लेषण करें

आइए अपने उदाहरण पर वापस लौटें। देखने में, ऐसा लगता है कि दोनों पैरामीटर किसी तरह आपस में जुड़े हुए हैं: एक व्यक्ति जितना कम सोएगा, वह अगले दिन उतनी ही अधिक कॉफी पीएगा। साथ ही, हमारे पास एक उदाहरण भी है जो इस प्रवृत्ति से अलग है - पोलिना, जिसे सोना और कॉफी पीना पसंद है। फिर भी, आप परिणामी पैटर्न को कुछ सामान्य सीधी रेखा के साथ अनुमानित करने का प्रयास कर सकते हैं ताकि यह सभी बिंदुओं तक यथासंभव निकट पहुंच सके:

हरी रेखा हमारा मशीन लर्निंग मॉडल है, यह डेटा को सामान्यीकृत करती है और गणितीय रूप से वर्णित किया जा सकता है। अब, इसकी मदद से, हम नई वस्तुओं के लिए मूल्य निर्धारित कर सकते हैं: जब हम भविष्यवाणी करना चाहते हैं कि कार्यालय में प्रवेश करने वाली निकिता आज कितनी कॉफी पिएगी, तो हम पूछेंगे कि वह कितनी सोई। उत्तर के रूप में 7.5 घंटे का मान प्राप्त करने के बाद, हम इसे मॉडल में प्रतिस्थापित करते हैं - यह 300 मिलीलीटर से थोड़ी कम मात्रा में खपत की गई कॉफी की मात्रा से मेल खाता है। लाल बिंदु हमारी भविष्यवाणी का प्रतिनिधित्व करता है।

मशीन लर्निंग मोटे तौर पर इसी तरह काम करती है, जिसका विचार बहुत सरल है: एक पैटर्न ढूंढें और इसे नए डेटा तक विस्तारित करें। वास्तव में, मशीन लर्निंग में कार्यों का एक और वर्ग होता है जब आपको कुछ मूल्यों की भविष्यवाणी करने की आवश्यकता नहीं होती है, जैसा कि हमारे उदाहरण में है, लेकिन डेटा को कुछ समूहों में विभाजित करना है। लेकिन हम इस बारे में फिर कभी विस्तार से बात करेंगे.

आइए परिणाम लागू करें

हालाँकि, मेरी राय में, डेटा विज्ञान डेटा में पैटर्न की पहचान करने के साथ समाप्त नहीं होता है। कोई भी डेटा विज्ञान परियोजना है व्यावहारिक शोध, जहां एक परिकल्पना स्थापित करना, एक प्रयोग की योजना बनाना और निश्चित रूप से, किसी विशिष्ट मामले को हल करने के लिए परिणाम और उसकी उपयुक्तता का आकलन करना जैसी चीजों के बारे में नहीं भूलना महत्वपूर्ण है।

उत्तरार्द्ध वास्तविक व्यावसायिक समस्याओं में बहुत महत्वपूर्ण है, जब आपको यह समझने की आवश्यकता है कि डेटा विज्ञान द्वारा पाया गया समाधान आपके प्रोजेक्ट को लाभ पहुंचाएगा या नहीं। हमारे उदाहरण में निर्मित मॉडल की उपयोगिता क्या होगी? शायद इसकी मदद से हम कार्यालय में कॉफी की डिलीवरी को अनुकूलित कर सकते हैं। साथ ही, हमें जोखिमों का आकलन करने और यह निर्धारित करने की आवश्यकता है कि क्या हमारा मॉडल मौजूदा समाधान से बेहतर इसका सामना करेगा - उत्पाद खरीदने के लिए जिम्मेदार कार्यालय प्रबंधक मिखाइल।

आइए अपवाद खोजें

बेशक, हमारा उदाहरण यथासंभव सरल है। वास्तव में, एक अधिक जटिल मॉडल बनाना संभव होगा जो कुछ अन्य कारकों को ध्यान में रखेगा, उदाहरण के लिए, क्या कोई व्यक्ति सैद्धांतिक रूप से कॉफी पसंद करता है। या मॉडल उन रिश्तों को खोज सकता है जो एक सीधी रेखा द्वारा दर्शाए गए रिश्तों की तुलना में अधिक जटिल हैं।

हम सबसे पहले अपने डेटा में आउटलेर्स की तलाश कर सकते हैं - ऐसी वस्तुएं, जो पोलिना की तरह, अधिकांश अन्य से बहुत अलग हैं। तथ्य यह है कि वास्तविक कार्य में, ऐसे उदाहरण किसी मॉडल के निर्माण की प्रक्रिया और उसकी गुणवत्ता पर बुरा प्रभाव डाल सकते हैं, और उन्हें किसी अन्य तरीके से संसाधित करना समझ में आता है। और कभी-कभी ऐसी वस्तुएं प्राथमिक रुचि की होती हैं, उदाहरण के लिए, धोखाधड़ी को रोकने के लिए असामान्य बैंकिंग लेनदेन का पता लगाने के कार्य में।

इसके अलावा, पोलिना हमें एक और महत्वपूर्ण विचार दिखाती है - मशीन लर्निंग एल्गोरिदम की अपूर्णता। हमारा मॉडल 10 घंटे सोने वाले व्यक्ति के लिए केवल 100 मिलीलीटर कॉफी की भविष्यवाणी करता है, जबकि वास्तव में पोलीना 500 तक पी गई। डेटा विज्ञान समाधान के ग्राहक इस पर कभी विश्वास नहीं करेंगे, लेकिन एक मशीन को हर चीज की सटीक भविष्यवाणी करना सिखाना अभी भी असंभव है। दुनिया में: इससे कोई फर्क नहीं पड़ता कि हम डेटा में पैटर्न की पहचान करने में कितने अच्छे हैं, हमेशा अप्रत्याशित तत्व होंगे।

चलिए कहानी जारी रखते हैं

तो, डेटा विज्ञान डेटा को संसाधित करने और उसका विश्लेषण करने और उन्हें व्यावहारिक समस्याओं पर लागू करने के तरीकों का एक सेट है। साथ ही, आपको यह समझने की आवश्यकता है कि इस क्षेत्र पर प्रत्येक विशेषज्ञ का अपना दृष्टिकोण है और राय भिन्न हो सकती है।

डेटा विज्ञान काफी सरल विचारों पर आधारित है, लेकिन व्यवहार में अक्सर कई गैर-स्पष्ट सूक्ष्मताएं खोजी जाती हैं। डेटा विज्ञान हमें कैसे घेरता है? रोजमर्रा की जिंदगी, डेटा विश्लेषण के कौन से तरीके मौजूद हैं, डेटा विज्ञान टीम में कौन शामिल हैं, और अनुसंधान प्रक्रिया के दौरान क्या कठिनाइयाँ आ सकती हैं - हम इस बारे में निम्नलिखित लेखों में बात करेंगे।



साइट पर नया

>

सबसे लोकप्रिय