வீடு வாயிலிருந்து வாசனை தரவு விஞ்ஞானி எங்கே படிக்க வேண்டும். தரவு அறிவியல் என்றால் என்ன, அது எவ்வாறு செயல்படுகிறது? வீடியோ: புதிய சிறப்பு "பிக் டேட்டா" - மிகைல் லெவின்

தரவு விஞ்ஞானி எங்கே படிக்க வேண்டும். தரவு அறிவியல் என்றால் என்ன, அது எவ்வாறு செயல்படுகிறது? வீடியோ: புதிய சிறப்பு "பிக் டேட்டா" - மிகைல் லெவின்

தரவு ஆய்வாளராக மாறுவது, தரவு அறிவியலைப் படிப்பது எப்படி என்பதைக் கண்டுபிடிக்க நீண்ட காலமாக நீங்கள் விரும்பினீர்களா, ஆனால் எங்கு தொடங்குவது என்று தெரியவில்லையா? அப்படியானால் இந்தக் கட்டுரை உங்களுக்கானது.

நம்மில் யார் "பெரிய தரவு" பற்றி கேள்விப்பட்டிருக்கவில்லை? குறைந்தபட்சம் ஒன்று இருக்க வாய்ப்பில்லை. IN கடந்த ஆண்டுகள்தரவுகளுடன் பணிபுரிவதில் ஆர்வம் கணிசமாக வளர்ந்துள்ளது, ஏனெனில் பெரிய ஐடி நிறுவனங்கள் தரவை பகுப்பாய்வு செய்வதற்கும், செயலாக்குவதற்கும், பின்னர் பயன்படுத்துவதற்கும் மேலும் மேலும் புதிய தீர்வுகளைக் கொண்டு வர வேண்டும். சில ஏவுகின்றன கற்றல் திட்டங்கள்பல்கலைக்கழகங்களுடன் சேர்ந்து. இருப்பினும், தரவு ஆய்வாளர்கள் எப்படிப்பட்டவர்கள் என்பதைப் பற்றிய புரிதல் பெரும்பாலானவர்களுக்கு இல்லை. அப்படிப்பட்டவர்களில் நீங்களும் ஒருவராக இருந்து, டேட்டா அனலிஸ்ட் ஆக வேண்டும் என்ற ஆசை இருந்தால், இந்தக் கட்டுரை உங்களுக்கானது. உங்கள் இருப்பிடத்தைப் பொருட்படுத்தாமல் நீங்கள் பயன்படுத்தக்கூடிய இலவச பயிற்சிக் கருவிகளை மட்டுமே நாங்கள் தேர்ந்தெடுத்துள்ளோம்.

தரவு ஆய்வாளர்கள் என்ன செய்கிறார்கள்?

தரவு ஆய்வாளர்கள் என்று அழைக்கப்படுபவை காட்சி, மனிதனால் உணரக்கூடிய முடிவுகளைப் பெறுவதற்காக அதன் தகவல் மற்றும் பகுப்பாய்வுகளில் ஈடுபட்டுள்ளன. அத்தகைய நபர்கள் பொதுவாக பெரிய தரவு, தரவுச் செயலாக்கம், இயந்திர கற்றல், கணினி பகுப்பாய்வு மற்றும் வணிக ஆய்வாளர்கள் ஆகியவற்றில் நிபுணர்களை உள்ளடக்குகின்றனர்.

என்ன பார்க்க வேண்டும்

Yandex இலிருந்து "தரவு பகுப்பாய்வு பள்ளி" விரிவுரைகள்

SHAD - Yandex ஊழியர்களிடமிருந்து தரவு பகுப்பாய்வு குறித்த படிப்புகள். விண்ணப்பதாரர்களுக்குத் தேவையான குறைந்தபட்சம் உயர் இயற்கணிதத்தின் அடிப்படைப் பிரிவுகளாகும்.கணித பகுப்பாய்வு, சேர்க்கை, நிகழ்தகவு கோட்பாடு மற்றும் நிரலாக்கத்தின் அடிப்படைகள். அதிர்ஷ்டவசமாக, வீடியோ விரிவுரைகளில் இருந்து அனைவரும் கற்றுக்கொள்ளும் வகையில் படிப்புகள் பதிவு செய்யப்பட்டுள்ளன.

இயந்திர கற்றல் படிப்பு

நிகழ்தகவுக் கோட்பாடு மற்றும் புள்ளிவிவரங்களை எவ்வாறு பயன்படுத்துவது, இயந்திரக் கற்றலின் அடிப்படைகளைப் பற்றி பேசுவது மற்றும் வழிமுறைகளை எவ்வாறு உருவாக்குவது என்பதைக் கற்றுக்கொடுக்கிறது.

பாடநெறி "தேடல் தரவு அல்காரிதம்கள் மற்றும் கட்டமைப்புகள்"

விரிவுரைகள் பெரிய அளவிலான தரவுகளைத் தேடுவதற்கும் வரிசைப்படுத்துவதற்கும் வழிமுறைகளை உள்ளடக்கியது, அல்காரிதம்கள் மற்றும் சரம் கையாளுதல், வரைபடக் கோட்பாட்டு வழிமுறைகள், தரவு கட்டமைப்புகளின் கட்டுமானம் மற்றும் பகுப்பாய்வு.

பாடநெறி "இணை மற்றும் விநியோகிக்கப்பட்ட கணினி"

மல்டி த்ரெட் மற்றும் பேரலல் புரோகிராமிங் மற்றும் மேப்ரெட்யூஸ் ஆகியவற்றைப் பற்றி நீண்ட காலமாகப் பழக விரும்புபவர்களுக்கு.

பாடநெறி "தனிப்பட்ட பகுப்பாய்வு மற்றும் நிகழ்தகவு கோட்பாடு"

பாடநெறியானது ஒருங்கிணைந்த, தனித்துவமான மற்றும் அறிகுறியற்ற பகுப்பாய்வு, நிகழ்தகவு கோட்பாடு, புள்ளிவிவரங்கள் ஆகியவற்றின் அடிப்படைக் கருத்துகள் மற்றும் முறைகளை ஆராய்கிறது, மேலும் அவற்றின் பயன்பாட்டை நிரூபிக்கிறது.

பாடநெறி "கணக்கீட்டு சிக்கலானது"

பாடத்திட்டத்தைப் பார்த்த பிறகு, நிகழ்தகவு சிக்கலான வகுப்புகள் மற்றும் தரவை பகுப்பாய்வு செய்வதற்கும் உருவாக்குவதற்கும் அடிப்படை நுட்பங்களைப் பற்றி அறிந்து கொள்வீர்கள்.

விரிவுரைகள் Technostream Mail.ru குழு

பாடநெறி திட்டங்கள் பல மாஸ்கோ பல்கலைக்கழகங்களின் மாணவர்களுக்காக வடிவமைக்கப்பட்டுள்ளன, ஆனால் அவை யாருக்கும் கிடைக்கின்றன. எதிர்கால ஆய்வாளர்களுக்கு பின்வரும் விரிவுரைகளின் தொகுப்புகளை நாங்கள் பரிந்துரைக்கிறோம்:

விரிவுரைகள் பெரிய தரவு பல்கலைக்கழகம்

பெரிய தரவு பல்கலைக்கழகம் - ஆன்லைன் படிப்பு, ஆரம்பநிலை மற்றும் கணிதப் பின்னணி இல்லாதவர்களுக்காக IBM உடன் இணைந்து உருவாக்கப்பட்டது. தரவுகளுடன் பணிபுரியும் அடிப்படைகளை நீங்கள் அறிந்துகொள்ள உதவும் விரிவுரைகள் தெளிவான ஆங்கிலத்தில் பதிவு செய்யப்பட்டுள்ளன.

வெல்ச் ஆய்வகங்கள்

இந்த சேனலில் கணிதம், கணினி அறிவியல், நிரலாக்கம் மற்றும் இயந்திர கற்றல் பற்றிய விரிவுரைகள் உள்ளன. செயல்பாட்டில், படிக்கப்படும் விஷயங்களின் பயன்பாடு பற்றிய எடுத்துக்காட்டுகள் கொடுக்கப்பட்டுள்ளன உண்மையான வாழ்க்கை. விரிவுரைகள் ஆங்கிலத்தில் உள்ளன, ஆனால் சிறந்த ரஷ்ய வசனங்கள் உள்ளன.

சரி" கட்டமைக்கப்பட்ட தரவுகளிலிருந்து கற்றல்: நிகழ்தகவு வரைகலை மாதிரிகளுக்கு ஒரு அறிமுகம்"கணினி அறிவியல் பீடம், தேசிய ஆராய்ச்சி பல்கலைக்கழக உயர்நிலைப் பள்ளி பொருளாதாரம்

இத்தகைய சிக்கல்களைத் தீர்ப்பதற்கான மிகவும் பிரபலமான அணுகுமுறைகளில் ஒன்றின் கோட்பாடு மற்றும் பயன்பாடுகளின் ஆழமான அறிமுகத்தில் பாடநெறி கவனம் செலுத்துகிறது - தனித்துவமான நிகழ்தகவு கிராஃபிக் மாதிரிகள். பாடத்தின் மொழி ஆங்கிலம்.

சேனல் சென்டெக்ஸ்

சேனல் முற்றிலும் தரவுகளுடன் பணிபுரிய அர்ப்பணிக்கப்பட்டுள்ளது. மேலும், கணிதத்தில் ஆர்வமுள்ளவர்கள் மட்டுமல்ல, தங்களுக்கும் பயனுள்ள விஷயங்களைக் கண்டுபிடிப்பார்கள். Rasperri Pi ஐப் பயன்படுத்தி நிதி ஆய்வாளர்கள் மற்றும் ரோபாட்டிக்ஸ் பற்றிய பகுப்பாய்வு மற்றும் நிரலாக்க வீடியோக்கள் உள்ளன.

சிராஜ் ராவல் சேனல்

பையன் பேசுகிறான் நவீன தொழில்நுட்பங்கள்மற்றும் அவர்களுடன் எவ்வாறு வேலை செய்வது. ஆழ்ந்த கற்றல், தரவு அறிவியல் மற்றும் இயந்திர கற்றல் ஆகியவற்றில் உள்ள படிப்புகள் தரவுகளுடன் எவ்வாறு வேலை செய்வது என்பதை அறிய உதவும்.

தரவு பள்ளி சேனல்

மெஷின் லேர்னிங் பற்றி நீங்கள் கேள்விப்பட்டிருந்தால், ஏற்கனவே ஆர்வமாக இருந்தால், இந்த சேனல் உங்களுக்கானது. ஆசிரியர் புரிந்துகொள்ளக்கூடிய மட்டத்தில், எடுத்துக்காட்டுகளுடன், அது என்ன, அது எவ்வாறு இயங்குகிறது மற்றும் எங்கு பயன்படுத்தப்படுகிறது என்பதை விளக்குவார்.

எங்கே பயிற்சி செய்வது

விரிவுரைகளைப் பார்ப்பதன் மூலம் அவர்கள் முற்றிலும் சுதந்திரமாகப் படிக்கத் தயாராக உள்ளார்கள் என்று உறுதியாகத் தெரியாதவர்களுக்கு, சரிபார்ப்புடன் கூடிய பணிகளுடன் ஆன்லைன் படிப்புகள் உள்ளன.

Coursera பற்றிய தரவு அறிவியல் படிப்புகள்

இது என்ன மாதிரியான தளம் என்பதை விளக்க வேண்டிய அவசியமில்லை. படிப்பைத் தேர்வு செய்து படிக்கத் தொடங்க வேண்டும்.

Stepik.org

R இல் தரவு பகுப்பாய்வு

முதல் பகுதி R இல் உள்ள புள்ளியியல் பகுப்பாய்வின் அனைத்து முக்கிய படிகளையும் உள்ளடக்கியது, தரவைப் படித்தல், தரவை முன்கூட்டியே செயலாக்குதல், அடிப்படை புள்ளிவிவர முறைகளைப் பயன்படுத்துதல் மற்றும் முடிவுகளை காட்சிப்படுத்துதல். R மொழியில் நிரலாக்கத்தின் அடிப்படை கூறுகளை மாணவர்கள் கற்றுக்கொள்வார்கள், இது தரவைச் செயலாக்கும்போது எழும் பல்வேறு சிக்கல்களை விரைவாகவும் திறமையாகவும் தீர்க்க அனுமதிக்கும்.

இரண்டாவது பகுதியானது, முதலில் உள்ளடக்கப்படாத பல மேம்பட்ட தலைப்புகளை உள்ளடக்கியது: data.table மற்றும் dplyr தொகுப்புகளைப் பயன்படுத்தி தரவு முன் செயலாக்கம், மேம்பட்ட காட்சிப்படுத்தல் நுட்பங்கள், R Markdown இல் பணிபுரிதல்.

தரவுத்தளங்களின் அறிமுகம்

DBMS இல் முழுக்கு

தொடர்புடைய DBMS உடன் சில அனுபவம் உள்ளவர்கள் மற்றும் அவர்கள் எவ்வாறு செயல்படுகிறார்கள் என்பதைப் பற்றி மேலும் அறிய விரும்புபவர்களுக்கான பாடநெறி. பாடநெறி உள்ளடக்கியது:

  • தரவுத்தள திட்ட வடிவமைப்பு;
  • பரிவர்த்தனை மேலாண்மை;
  • வினவல் தேர்வுமுறை;
  • தொடர்புடைய DBMS இன் புதிய அம்சங்கள்

ஹடூப். பெரிய அளவிலான தரவை செயலாக்குவதற்கான அமைப்பு

ஹடூப் அமைப்பைப் பயன்படுத்தி பெரிய அளவிலான தரவை செயலாக்கும் முறைகளுக்கு பாடநெறி அர்ப்பணிக்கப்பட்டுள்ளது. படிப்பை முடித்த பிறகு, பெரிய அளவிலான தரவைச் சேமித்து செயலாக்குவதற்கான அடிப்படை முறைகள் பற்றிய அறிவைப் பெறுவீர்கள், ஹடூப் கட்டமைப்பின் சூழலில் விநியோகிக்கப்பட்ட அமைப்புகளின் கொள்கைகளைப் புரிந்துகொள்வீர்கள், மேலும் MapReduce நிரலாக்க மாதிரியைப் பயன்படுத்தி நடைமுறை பயன்பாட்டு மேம்பாட்டுத் திறன்களில் தேர்ச்சி பெறுவீர்கள்.

இன்று பல முதலாளிகள் தரவு விஞ்ஞானிகளைத் தீவிரமாகத் தேடுகின்றனர். அதே நேரத்தில், பொருத்தமான கல்வியைக் கொண்ட அந்த "விஞ்ஞானிகளை" ஈர்ப்பதில் அவர்கள் ஆர்வமாக உள்ளனர். அதே நேரத்தில், சந்தை நிரம்பியிருக்கும் அனைத்து தவறான தகவல்களையும் நீங்கள் கணக்கில் எடுத்துக்கொள்ள வேண்டும். தரவு விஞ்ஞானிகள் மற்றும் தரவு விஞ்ஞானிகளைப் பற்றிய மிகப்பெரிய தவறான எண்ணங்கள், அவர்கள் வைத்திருக்க வேண்டிய திறன்கள் மற்றும் இந்த அரிய இனம் உண்மையில் யார் என்பதைப் பற்றி நாங்கள் உங்களுக்குச் சொல்வோம்.

தரவு அறிவியல்(தரவு அறிவியல்) என்பது கணினி அறிவியலின் ஒரு பிரிவாகும், இது தரவுகளை டிஜிட்டல் வடிவத்தில் பகுப்பாய்வு செய்தல், செயலாக்குதல் மற்றும் வழங்குவதில் உள்ள சிக்கல்களை ஆய்வு செய்கிறது. தரவு அறிவியல் பெரிய அளவில் தரவை செயலாக்குவதற்கான முறைகள் மற்றும் அதிக அளவிலான இணைநிலை, புள்ளியியல் முறைகள், தரவுச் செயலாக்க முறைகள் மற்றும் தரவுகளுடன் பணிபுரிவதற்கான செயற்கை நுண்ணறிவு பயன்பாடுகள், அத்துடன் தரவுத்தளங்களை வடிவமைத்தல் மற்றும் மேம்படுத்துவதற்கான முறைகள் ஆகியவற்றை ஒருங்கிணைக்கிறது. ஒரு கல்வித் துறையாகக் கருதப்பட்டது. 2010 களின் தொடக்கத்தில் இருந்து, இது ஒரு நடைமுறை இடைநிலை செயல்பாட்டுத் துறையாக நிலைநிறுத்தப்பட்டது. 2010 களின் முற்பகுதியில் இருந்து, "தரவு விஞ்ஞானி" நிபுணத்துவம் அதிக ஊதியம் பெறும், கவர்ச்சிகரமான மற்றும் நம்பிக்கைக்குரிய தொழில்களில் ஒன்றாகக் கருதப்படுகிறது.

தரவு அறிவியல் தவறான கருத்துக்கள்

1. பெரிய தரவு என்பது புள்ளிவிவரங்கள் மற்றும் பெரிய அளவிலான தரவுகளுடன் வணிக பகுப்பாய்வு ஆகும். இங்கு புதிதாக எதுவும் இல்லை

இந்த கருத்து முக்கியமாக மென்பொருள் உருவாக்கத்தில் குறைந்த அனுபவம் உள்ளவர்கள் அல்லது எந்த அனுபவமும் இல்லாதவர்களால் நடத்தப்படுகிறது. ஒப்புமை வேண்டுமா? தயவு செய்து. உதாரணமாக பனியை எடுத்துக் கொள்வோம். மிகவும் குளிர்ந்த நீர் என்று சொல்லலாம். இங்கே புதிதாக என்ன இருக்கிறது? இருப்பினும், குளிர்ந்த நீர் அதன் வெப்பநிலையை மாற்றுவது மட்டுமல்லாமல், அதன் தர பண்புகளை தீவிரமாக மாற்றுகிறது, திரவத்தை திடமாக மாற்றுகிறது. பெரிய அளவிலான தரவுகளுக்கும் இதையே கூறலாம். பெரிய அளவிலான தரவு, கணக்கீடுகள், கணக்கீடுகள் மற்றும் கணக்கீடுகளின் பழைய முன்னுதாரணங்களை இறுதியில் உடைக்கிறது. பயன்படுத்தி பாரம்பரிய முறைகள்வணிக ஆய்வாளர்களுக்கு, சில கணக்கீடுகளைச் செய்ய பல ஆண்டுகள் ஆகலாம். இணையாக்கம் மற்றும் விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் ஆகியவை அளவிடுதல் பற்றிய கேள்விக்கு தெளிவான பதில்கள். ஆனால் லாஜிஸ்டிக் பின்னடைவு பகுப்பாய்வு போன்ற எளிமையான புள்ளியியல் கருவியைக் கொண்டும் இது எப்போதும் அவ்வளவு எளிதானது அல்ல. நீரிலிருந்து பனிக்கட்டியைப் போல விநியோகிக்கப்பட்ட புள்ளிவிவரக் கணினி பாரம்பரிய வணிகப் பகுப்பாய்வுகளிலிருந்து வேறுபட்டது.

2. தரவு விஞ்ஞானிகள் மறுபெயரிடப்பட்ட பிறகு அதே மென்பொருள் பொறியாளர்கள்

சில சமயங்களில் மென்பொருள் மேம்பாட்டில் விரிவான அனுபவமுள்ள பொறியாளர்கள் மீண்டும் பயிற்சி பெற்று மேம்படுத்துவதற்காக தரவு விஞ்ஞானிகளாக மாறுகிறார்கள் ஊதியங்கள். இருப்பினும், இந்த நடைமுறை பெரும்பாலும் திருப்தியற்ற முடிவுகளுக்கு வழிவகுக்கிறது. உண்மையில், பெரிய தரவுத் துறையில், புள்ளிவிவரப் பிழைகளை எளிய மட்டத்தில் பிழைத்திருத்துவது மிகவும் கடினமான பணியாகத் தெரிகிறது. பொறியாளர்களுக்கு மென்பொருள் பிழைகளைக் கண்டறிந்து சரிசெய்ய பயிற்சி அளிக்கப்படுகிறது. ஆனால் நிகழ்தகவுக் கோட்பாடு மற்றும் புள்ளியியல் பற்றிய உறுதியான அறிவு இல்லாமல், ஒரு சிறந்த ப்ரோக்ராமர் கூட ஒரு எளிய புள்ளிவிவரப் பிழையை வெற்றிகரமாக அகற்றுவது சாத்தியமில்லை.


உயர்நிலை பொறியாளர்கள் எளிமையான, தனித்தனியான, விதி அடிப்படையிலான மாதிரிகளை உருவாக்க முடியும். ஆனால் அத்தகைய மாதிரிகள் தரவுகளிலிருந்து அதிக நுணுக்கமான நுண்ணறிவுகளைப் பெறுவதற்கு ஏற்றவை அல்ல. அதனால் இழந்த நிதி நன்மை. எனவே, "பெரிய தரவு கேள்விகளுக்கான" பதில்களைப் பெறுவதற்கு, உயர் தகுதி வாய்ந்த மற்றும் உயர் நிபுணத்துவம் வாய்ந்த பணியாளர்கள் தேவை, இது அடுத்த தலைமுறை முன்கணிப்பு மாதிரியின் அடித்தளமாக இருக்கும்.

3. தரவு விஞ்ஞானிகள் வணிகத்தைப் புரிந்து கொள்ள வேண்டிய அவசியமில்லை - தரவு அவர்களுக்கு எல்லாவற்றையும் சொல்லும்

ஒரு புரோகிராமராக கல்வி மற்றும் அனுபவம் உள்ளவர்கள் பெரும்பாலும் இந்த சோதனைக்கு ஆளாகிறார்கள். மற்றும், உண்மையில், அவர்கள் ஏன் அத்தகைய சக்திவாய்ந்த தளத்தைக் கொண்டிருந்தால் வணிகத்தைப் புரிந்து கொள்ள வேண்டும்? சக்தி வாய்ந்தது, ஆனால் சர்வ வல்லமையுடையது அல்ல. சாத்தியமான அனைத்து தொடர்புகளையும் கண்டறிவது நம்பமுடியாத அளவிற்கு உழைப்பு மற்றும் நேரத்தை எடுத்துக்கொள்ளும், புள்ளிவிவர ரீதியாக சிக்கலைக் குறிப்பிடவில்லை. தவறான மற்றும் உண்மையான தொடர்புகளை வெற்றிகரமாக வேறுபடுத்துவதற்கு தரவு விஞ்ஞானிகள் தங்கள் வணிக உள்ளுணர்வைப் பயன்படுத்த வேண்டும். ஒரு குறிப்பிட்ட பகுதியில் நிபுணர் அறிவு இல்லாதது ஆதாரமற்ற முடிவுகளுக்கு வழிவகுக்கும். நீங்கள் இதை எப்படி விரும்புகிறீர்கள்? காவல்துறை அதிகாரிகளின் எண்ணிக்கையில் அதிகரிப்பு குற்றங்களின் அதிகரிப்புக்கு வழிவகுக்கிறது, அதாவது சாதகமற்ற குற்றச் சூழ்நிலை உள்ள பகுதிகளில் சட்ட அமலாக்க அதிகாரிகளின் எண்ணிக்கையை குறைக்க வேண்டியது அவசியம். இறுதியாக, முக்கிய பங்குதாரர்களை நம்ப வைப்பதற்கு வணிக உள்ளுணர்வு முக்கியமானது: வணிகர்கள் புரிந்துகொள்ளும் மொழியில் தொடர்புகளைப் பற்றி பேசுவதன் மூலம், வணிக புத்திசாலித்தனம் இல்லாத சக ஊழியரை விட தரவு விஞ்ஞானி வெற்றி பெறுவார்.


பெரிய தரவு மற்றும் தரவு அறிவியல் என்பது சரியான பொறியியல், புள்ளியியல் மற்றும் வணிகத் திறன்களை ஒருங்கிணைக்கும் ஒரு உகந்த மாதிரியை எவ்வாறு உருவாக்குவது என்பது பற்றிய அறிவாகும். இது இல்லாமல், ஒரு தரவு விஞ்ஞானி அவர் செய்ய நினைக்கும் அனைத்தையும் அடைய முடியாது.

அப்படியானால் தரவு விஞ்ஞானிகள் யார்?

தரவு விஞ்ஞானிகள் வணிக மற்றும் தரவு ஆய்வாளர்களின் பரிணாம வளர்ச்சியின் விளைபொருளாகும். அத்தகைய நிபுணர்களுக்கான முறையான பயிற்சியில் கணினி அறிவியல், புள்ளியியல், பகுப்பாய்வு மற்றும் கணிதம் ஆகியவை அடங்கும். ஒரு சிறந்த தரவு விஞ்ஞானியை உருவாக்குவது எது? வலுவான வணிக புத்திசாலித்தனம், வணிக மற்றும் தகவல் தொழில்நுட்பத் தலைவர்களுடன் தொடர்பு கொள்ளும் திறனுடன் இணைந்துள்ளது, இது நிறுவனத்தின் வளர்ச்சியை பாதிக்க உதவுகிறது. IBM இன் பெரிய தரவுகளின் துணைத் தலைவர் Anjul Bambra, தரவு விஞ்ஞானிகள் "பகுதி ஆய்வாளர் மற்றும் பகுதி கலைஞர்" என்கிறார். இவர்கள் மிகவும் ஆர்வமுள்ளவர்கள், அவர்கள் தரவைப் பார்க்கவும், போக்குகளைக் கண்டறியவும் முடியும். அவர்களை மறுமலர்ச்சியின் கலைஞர்களுடன் ஒப்பிடலாம், அவர்கள் கற்றுக்கொள்வதை மட்டுமல்ல, அவர்களைச் சுற்றியுள்ள உலகத்தையும் மாற்ற விரும்பினர்.

ஒரு பாரம்பரிய ஆய்வாளர் ஒரு மூலத்திலிருந்து தரவை பகுப்பாய்வு செய்யும் போது (எ.கா. CRM அமைப்புகள்), ஒரு தரவு விஞ்ஞானி பல்வேறு ஆதாரங்களில் இருந்து தரவுகளை அவசியம் ஆய்வு செய்கிறார். வழங்கக்கூடிய முன்னர் மறைக்கப்பட்ட நுண்ணறிவுகளைக் கண்டறிய, உள்வரும் எல்லா தரவையும் இது ஆக்ரோஷமாகப் பிரிக்கும். ஒப்பீட்டு அனுகூலம். ஒரு தரவு விஞ்ஞானி தரவைச் சேகரித்து பகுப்பாய்வு செய்வதில்லை, ஆனால் அதை வெவ்வேறு கோணங்களில் பார்த்து வெவ்வேறு சூழல்களில் பகுப்பாய்வு செய்கிறார், இந்த அல்லது அந்தத் தரவு ஒரு பிராண்டிற்கு என்ன அர்த்தம் என்பதைத் தீர்மானிக்கிறது, பின்னர் கிடைக்கும் தகவலை எவ்வாறு பயன்படுத்துவது என்பது குறித்த பரிந்துரைகளை வழங்குகிறார்.


தரவு விஞ்ஞானிகள் தொடர்ந்து ஆராய்ச்சி செய்து, மில்லியன் கணக்கான கேள்விகளைக் கேட்பவர்கள், "என்ன என்றால்..." பகுப்பாய்வு செய்கிறார்கள், ஏற்கனவே உள்ள அனுமானங்கள் மற்றும் செயல்முறைகளை கேள்விக்குள்ளாக்குகிறார்கள், வளமான தரவு மூலங்களைக் கண்டறிந்து அவற்றை மோசமான தரவுத் தொகுப்புகளுடன் இணைக்கிறார்கள்... போட்டிச் சூழலில் பணிகள் தொடர்ந்து நடைபெறும். மாற்றம், மற்றும் தரவுகளின் விரைவான ஓட்டம் ஒருபோதும் முடிவடையாது, தரவு விஞ்ஞானிகள் மேலாண்மைக்கு உதவுகிறார்கள் முடிவுகள். இது அவர்களின் மிகவும் மதிப்புமிக்க தரம்.

ஏன் "விஞ்ஞானிகள்"?

தரவு விஞ்ஞானியை "தரவு விஞ்ஞானி" என்று அழைப்பது மிகவும் பாசாங்குத்தனமானது என்று பலர் வாதிடுகின்றனர். இருப்பினும், நீங்கள் வேரைப் பார்க்க முயற்சித்தால், இந்த சூத்திரம் அர்த்தமுள்ளதாக இருக்கும். எடுத்துக்காட்டாக, சோதனை இயற்பியலாளர்கள் தங்கள் சொந்த உபகரணங்களை வடிவமைத்து உருவாக்க வேண்டும், தரவுகளை சேகரிக்க வேண்டும், சோதனைகளை நடத்த வேண்டும் மற்றும் அறிக்கைகளில் அனைத்து கண்டுபிடிப்புகளையும் சுருக்கமாகக் கூற வேண்டும். தரவு விஞ்ஞானிகளும் அதையே செய்கிறார்கள். எனவே, மிகவும் உயர் தகுதி வாய்ந்த தரவு விஞ்ஞானிகள் இயற்பியல் அல்லது சமூக அறிவியலில் மேம்பட்ட பட்டம் பெற்றவர்களாகக் கருதப்படுகிறார்கள்.


கிரகத்தின் சிறந்த தரவு விஞ்ஞானிகள் சூழலியல் மற்றும் அமைப்புகள் உயிரியல் போன்ற எஸோடெரிக் துறைகளில் பிஎச்டிகளைக் கொண்ட விஞ்ஞானிகள். ஒரு குறிப்பிடத்தக்க உதாரணம்- ஜார்ஜ் ரூமிலியோடிஸ், சிலிக்கான் பள்ளத்தாக்கில் உள்ள இன்ட்யூட்டில் தரவு விஞ்ஞானிகளின் குழுவை வழிநடத்துகிறார். வானியற்பியலில் முனைவர் பட்டம் பெற்றார். பல தரவு விஞ்ஞானிகள் உரிமையாளர்கள் கல்வி பட்டங்கள்கணினி அறிவியல், கணிதம் மற்றும் பொருளாதாரம். ஆனால், அப்படி இருக்கட்டும், நல்ல நிபுணர், தரவு பகுப்பாய்வு சிறப்பு, எந்த துறையில் இருந்து வரலாம்.


ஒரு தரவு விஞ்ஞானி இல்லாமல் செய்ய முடியாத அடிப்படை திறன்கள்

அடிப்படை கருவிகள். நிறுவனத்தின் நோக்கம் எதுவாக இருந்தாலும், ஒரு தரவு விஞ்ஞானி அடிப்படைக் கருவிகளை எவ்வாறு பயன்படுத்துவது என்பதை அறிந்திருக்க வேண்டும்: புள்ளியியல் தரவு செயலாக்கம் மற்றும் வரைகலைக்கான R நிரலாக்க மொழி, டெவலப்பர் உற்பத்தித்திறன் மற்றும் குறியீடு வாசிப்புத்திறனை மேம்படுத்துவதை நோக்கமாகக் கொண்ட உயர்-நிலை பைதான் நிரலாக்க மொழி, கட்டமைக்கப்பட்ட வினவல் மொழி. SQL, ஒரு தன்னிச்சையான தொடர்புடைய தரவுத்தளத்தில் தரவை உருவாக்க, மாற்ற மற்றும் கையாள பயன்படுகிறது.

அடிப்படை புள்ளிவிவரங்கள். ஒரு தரவு விஞ்ஞானிக்கு புள்ளிவிவரங்களைப் புரிந்துகொள்வது இன்றியமையாதது. சோதனையில் பயன்படுத்தப்படும் மதிப்பு - பல நிபுணர்களால் P- மதிப்பைக் கூட தீர்மானிக்க முடியவில்லை என்பது இரகசியமல்ல புள்ளியியல் கருதுகோள்கள். ஒரு தரவு விஞ்ஞானி புள்ளியியல் சோதனைகள், விநியோகங்கள், அதிகபட்ச சாத்தியக்கூறு மதிப்பீடு போன்றவற்றை நன்கு அறிந்திருக்க வேண்டும். புள்ளி விவரங்கள் முக்கியம் வெவ்வேறு பகுதிகள்வணிகம், குறிப்பாக தரவு சார்ந்த நிறுவனங்களுக்கு


இயந்திர வழி கற்றல். ஒரு தரவு விஞ்ஞானி ஒரு பெரிய நிறுவனத்தில் பெரிய அளவிலான தரவுகளுடன் பணிபுரிந்தால், அவர் இயந்திர கற்றல் முறைகளை நன்கு அறிந்திருக்க வேண்டும். நிச்சயமாக, இந்த முறைகளில் பலவற்றை ஆர் அல்லது பைதான் நூலகங்களைப் பயன்படுத்தி செயல்படுத்தலாம், எனவே அல்காரிதம்கள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்துகொள்ள நீங்கள் உலகின் முன்னணி நிபுணராக இருக்க வேண்டியதில்லை. சில முறைகளின் பயன்பாடு எப்போது மிகவும் பொருத்தமானது என்பதைப் புரிந்துகொள்வது மிகவும் முக்கியம்.

பன்முகக் கணக்கீடுகள் மற்றும் நேரியல் இயற்கணிதம். இந்த துறைகள் பல இயந்திர கற்றல் முறைகளின் அடிப்படையை உருவாக்குகின்றன.

பகுப்பாய்வுக்கான தரவைத் தயாரித்தல். பெரும்பாலும் பகுப்பாய்வு செய்யப்பட்ட தரவு மிகவும் "அழுக்கு", அதனுடன் வேலை செய்வது மிகவும் கடினம். எனவே, தரவுகளின் அனைத்து குறைபாடுகளையும் எவ்வாறு கையாள்வது என்பதை அறிந்து கொள்வது மிகவும் முக்கியம். "நியூயார்க்" - "நியூயார்க்" - "நி", அல்லது தேதிகள் "2014-01-01" - "01/01/2014" போன்ற சரங்களின் சீரற்ற வடிவமைத்தல் அல்லது இதைப் பயன்படுத்துவது அபூரணத் தரவின் எடுத்துக்காட்டு. UNIX அமைப்பு நேரம் மற்றும் வரிசை நேர முத்திரை.

தரவு காட்சிப்படுத்தல் மற்றும் தொடர்பு. இது நம்பமுடியாதது முக்கியமான புள்ளிகள், குறிப்பாக நாம் இளம் தரவு சார்ந்த நிறுவனங்களைப் பற்றி பேசும்போது அல்லது தரவு விஞ்ஞானிகள் தரவு சார்ந்த முடிவுகளை எடுக்க உதவும் நபர்களாகக் கருதப்படும் நிறுவனங்களைப் பற்றி பேசுகிறோம். ggplot (R மொழியின் விரிவாக்கம்) மற்றும் D3.js தரவை செயலாக்க மற்றும் காட்சிப்படுத்துவதற்கான JavaScript லைப்ரரி பற்றிய அறிவு மிகவும் பயனுள்ளதாக இருக்கும்.

நிரலாக்கம். தரவு விஞ்ஞானிகள் பெரிய அளவிலான பதிவு தரவு மற்றும் தரவு உந்துதல் தயாரிப்புகளை கையாளுவதற்கு பொதுவாக பொறுப்பு.

தரவு விஞ்ஞானியைப் போல சிந்தியுங்கள். ஒரு முதலாளி எப்போதும் ஒரு தரவு விஞ்ஞானியை ஒரு பிரச்சனை தீர்பவராக பார்க்க விரும்புகிறார். "விஞ்ஞானி" இந்த கட்டத்தில் முக்கியமானது மற்றும் குறிப்பிட்ட மதிப்பு இல்லாததை எப்போதும் அறிந்திருக்க வேண்டும். தயாரிப்பு மேம்பாட்டிற்கு பொறுப்பான வடிவமைப்பாளர்கள் மற்றும் மேலாளர்களுடன் அவர் தொடர்பு கொள்ள வேண்டும்.


தரவு விஞ்ஞானி 21 ஆம் நூற்றாண்டின் கவர்ச்சியான தொழில் என்று Harvard Business Review கூறுகிறது. மேலும் இதை ஏற்காமல் இருப்பது கடினம். தரவு அறிவியல் இப்போது வளர்ந்து வருகிறது, மேலும் அனைத்து நவீன தரவு விஞ்ஞானிகளையும் பாதுகாப்பாக முன்னோடிகள் என்று அழைக்கலாம். புள்ளியியல் வல்லுநர்களில் நீங்கள் சிறந்த IT நிபுணர் என்றும், IT நிபுணர்களில் சிறந்த புள்ளியியல் நிபுணர் என்றும் நீங்கள் கூறினால், நீங்கள் ஒரு உண்மையான தரவு விஞ்ஞானி.

இந்த கட்டுரையை தயாரிப்பதில் பயன்படுத்தப்படும் பொருட்கள்

தரவு விஞ்ஞானி- "பெரிய தரவு" என்று அழைக்கப்படும் பெரிய அளவிலான தரவை செயலாக்குதல், பகுப்பாய்வு செய்தல் மற்றும் சேமிப்பதில் நிபுணர். இயற்பியல், கணிதம் மற்றும் கணினி அறிவியலில் ஆர்வமுள்ளவர்களுக்கு இந்தத் தொழில் பொருத்தமானது (பள்ளி பாடங்களில் ஆர்வத்தின் அடிப்படையில் ஒரு தொழிலைத் தேர்ந்தெடுப்பதைப் பார்க்கவும்).

தரவு அறிவியல் - பல்வேறு துறைகளின் குறுக்குவெட்டில் தரவு அறிவியல்: கணிதம் மற்றும் புள்ளியியல்; தகவல் மற்றும் கணினி அறிவியல்; வணிகம் மற்றும் பொருளாதாரம்.

(எஸ். மால்ட்சேவா, வி. கோர்னிலோவ் நேஷனல் ரிசர்ச் யுனிவர்சிட்டி "ஹயர் ஸ்கூல் ஆஃப் எகனாமிக்ஸ்")

தொழில் புதியது, பொருத்தமானது மற்றும்... "பிக் டேட்டா" என்ற சொல் 2008 இல் தோன்றியது. மற்றும் தரவு விஞ்ஞானியின் தொழில் - "டேட்டா சயின்டிஸ்ட்" அதிகாரப்பூர்வமாக 2010 ஆம் ஆண்டின் தொடக்கத்தில் ஒரு கல்வி மற்றும் இடைநிலைத் துறையாக பதிவு செய்யப்பட்டது. "தரவு அறிவியல்" என்ற வார்த்தையின் முதல் குறிப்பு 1974 இல் பீட்டர் நவுரின் புத்தகத்தில் குறிப்பிடப்பட்டிருந்தாலும், ஆனால் வேறு. சூழல்.

அல்ட்ரா பிக் டேட்டாவுக்கு வரும்போது, ​​தரவு வரிசைகள் கணிதப் புள்ளிவிவரங்களின் நிலையான வழிமுறைகளால் செயலாக்கப்பட முடியாத அளவுக்கு பெரியதாக மாறிவிடுவதால், அத்தகைய தொழில் தோன்றுவதற்கான தேவை கட்டளையிடப்பட்டது. ஒவ்வொரு நாளும், ஆயிரக்கணக்கான பெட்டாபைட்கள் (10 15 பைட்டுகள் = 1024 டெராபைட்கள்) தகவல்கள் உலகம் முழுவதும் உள்ள நிறுவனங்களின் சேவையகங்கள் வழியாக செல்கின்றன. இத்தகைய தரவுத் தொகுதிகளுக்கு மேலதிகமாக, அவற்றின் பன்முகத்தன்மை மற்றும் சிக்கல் சிக்கலாக உள்ளது அதிவேகம்மேம்படுத்தல்கள்.

தரவு வரிசைகள் 3 வகைகளாக பிரிக்கப்பட்டுள்ளன:

கட்டமைக்கப்பட்ட (உதாரணமாக, வர்த்தகத்தில் பணப் பதிவேட்டில் இருந்து தரவு);

அரை-கட்டமைக்கப்பட்ட (மின்னஞ்சல் செய்திகள்);

கட்டமைக்கப்படாத (வீடியோ கோப்புகள், படங்கள், புகைப்படங்கள்).

பெரும்பாலான பெரிய தரவுகள் கட்டமைக்கப்படவில்லை, இது செயலாக்கத்தை மிகவும் கடினமாக்குகிறது.

தனித்தனியாக, ஒரு புள்ளியியல் நிபுணர், சிஸ்டம்ஸ் ஆய்வாளர் அல்லது வணிக ஆய்வாளர் போன்ற தரவுகளின் அளவுகளில் உள்ள சிக்கல்களைத் தீர்க்க முடியாது. இதற்கு ஒரு இடைநிலைக் கல்வி, கணிதம் மற்றும் புள்ளியியல், பொருளாதாரம் மற்றும் வணிகம், கணினி அறிவியல் மற்றும் கணினி தொழில்நுட்பம் ஆகியவற்றில் திறமையான ஒருவர் தேவை.

ஒரு தரவு விஞ்ஞானியின் முக்கிய பணி, உண்மையான நேரத்தில் தகவல் பாய்ச்சலைப் பயன்படுத்தி, பல்வேறு ஆதாரங்களில் இருந்து தேவையான தகவல்களைப் பிரித்தெடுக்கும் திறன் ஆகும்; தரவுத் தொகுப்புகளில் மறைந்திருக்கும் வடிவங்களைக் கண்டறிந்து, புத்திசாலித்தனமான வணிக முடிவுகளை எடுக்க அவற்றைப் புள்ளிவிவர ரீதியாக பகுப்பாய்வு செய்யுங்கள். அத்தகைய நிபுணரின் பணியிடம் 1 கணினி அல்லது 1 சேவையகம் அல்ல, ஆனால் சேவையகங்களின் கொத்து.

தொழிலின் அம்சங்கள்

தரவுகளுடன் பணிபுரியும் போது, ​​தரவு விஞ்ஞானி பல்வேறு முறைகளைப் பயன்படுத்துகிறார்:

  • புள்ளிவிவர முறைகள்;
  • தரவுத்தள மாடலிங்;
  • சுரங்க முறைகள்;
  • தரவுகளுடன் வேலை செய்வதற்கான செயற்கை நுண்ணறிவு பயன்பாடுகள்;
  • தரவுத்தளங்களை வடிவமைத்தல் மற்றும் மேம்படுத்தும் முறைகள்.

தரவு விஞ்ஞானியின் பணிப் பொறுப்புகள் அவரது செயல்பாட்டுத் துறையைச் சார்ந்தது, ஆனால் பொது பட்டியல்செயல்பாடுகள் இதுபோல் தெரிகிறது:

  • அடுத்தடுத்த செயல்பாட்டு செயலாக்கத்திற்காக பல்வேறு ஆதாரங்களில் இருந்து தரவு சேகரிப்பு;
  • நுகர்வோர் நடத்தை பகுப்பாய்வு;
  • வாடிக்கையாளர் அடிப்படை மாடலிங் மற்றும் தயாரிப்பு தனிப்பயனாக்கம்;
  • செயல்திறன் பகுப்பாய்வு உள் செயல்முறைகள்தளங்கள்;
  • பல்வேறு அபாயங்களின் பகுப்பாய்வு;
  • கேள்விக்குரிய பரிவர்த்தனைகளைப் படிப்பதன் மூலம் சாத்தியமான மோசடிகளை அடையாளம் காணுதல்;
  • முன்னறிவிப்புகள் மற்றும் தரவு விளக்கக்காட்சிகளுடன் அவ்வப்போது அறிக்கைகளை வரைதல்.

ஒரு தரவு விஞ்ஞானி, ஒரு உண்மையான விஞ்ஞானியைப் போலவே, தரவைச் சேகரித்து பகுப்பாய்வு செய்வது மட்டுமல்லாமல், அதை வெவ்வேறு சூழல்களிலும் வெவ்வேறு கோணங்களிலும் ஆய்வு செய்கிறார், எந்த அனுமானங்களையும் கேள்விக்குள்ளாக்குகிறார். மிக முக்கியமான தரம்தரவு விஞ்ஞானி என்பது சேகரிக்கப்பட்ட தகவல்களின் அமைப்பில் தருக்க இணைப்புகளைப் பார்க்கும் திறன் மற்றும் அதன் அடிப்படையில் அளவை ஆராய்தல்பயனுள்ள வணிக தீர்வுகளை உருவாக்குங்கள். இன்றைய போட்டி மற்றும் வேகமாக மாறிவரும் உலகில், தொடர்ந்து வளர்ந்து வரும் தகவல் ஓட்டத்தில், சரியான வணிக முடிவுகளை எடுப்பதில் நிர்வாகத்திற்கு ஒரு தரவு விஞ்ஞானி இன்றியமையாதவர்.

தொழிலின் நன்மை தீமைகள்

நன்மை

  • இந்தத் தொழில் மிகவும் தேவைப்படுவது மட்டுமல்லாமல், இந்த அளவிலான நிபுணர்களின் கடுமையான பற்றாக்குறையும் உள்ளது. மெக்கின்சி குளோபல் இன்ஸ்டிடியூட் படி, 2018 க்குள், அமெரிக்காவில் மட்டும் 190 ஆயிரத்துக்கும் மேற்பட்ட தரவு விஞ்ஞானிகள் தேவைப்படுவார்கள். அதனால்தான், தரவு விஞ்ஞானிகளைப் பயிற்றுவிப்பதற்கான மிகவும் மதிப்புமிக்க பல்கலைக்கழகங்களில் உள்ள பீடங்கள் மிக விரைவாகவும் பரவலாகவும் நிதியளிக்கப்பட்டு அபிவிருத்தி செய்யப்படுகின்றன. தரவு விஞ்ஞானிகளுக்கான தேவை ரஷ்யாவிலும் அதிகரித்து வருகிறது.
  • அதிக ஊதியம் பெறும் தொழில்.
  • தொடர்ந்து மேம்பட வேண்டிய அவசியம், தகவல் தொழில்நுட்பத் தொழில்நுட்பங்களின் வளர்ச்சியைத் தொடர்வது மற்றும் தரவைச் செயலாக்குதல், பகுப்பாய்வு செய்தல் மற்றும் சேமிப்பதற்கான புதிய முறைகளை உருவாக்குதல்.

மைனஸ்கள்

  • ஒவ்வொரு நபரும் இந்தத் தொழிலில் தேர்ச்சி பெற முடியாது, அதற்கு ஒரு சிறப்பு மனநிலை தேவைப்படுகிறது.
  • வேலையின் செயல்பாட்டில், நன்கு அறியப்பட்ட முறைகள் மற்றும் 60% க்கும் அதிகமான யோசனைகள் வேலை செய்யாமல் போகலாம். பல தீர்வுகள் தோல்வியடையும் மற்றும் திருப்திகரமான முடிவுகளைப் பெற நீங்கள் பொறுமையாக இருக்க வேண்டும். "இல்லை!" என்று சொல்ல ஒரு விஞ்ஞானிக்கு உரிமை இல்லை. பிரச்சனை. சிக்கலைத் தீர்க்க உதவும் ஒரு வழியை அவர் கண்டுபிடிக்க வேண்டும்.

வேலை செய்யும் இடம்

தரவு விஞ்ஞானிகள் முக்கிய பதவிகளை வகிக்கிறார்கள்:

  • தொழில்நுட்ப தொழில்கள் (கார் வழிசெலுத்தல் அமைப்புகள், மருந்து உற்பத்தி போன்றவை);
  • IT கோளம் (தேடல் பொறி உகப்பாக்கம், ஸ்பேம் வடிகட்டி, செய்தி முறைப்படுத்தல், தானியங்கி உரை மொழிபெயர்ப்பு மற்றும் பல);
  • மருந்து (நோய்களின் தானியங்கி நோயறிதல்);
  • நிதி கட்டமைப்புகள் (கடன்களை வழங்குவதில் முடிவுகளை எடுத்தல்), முதலியன;
  • தொலைக்காட்சி நிறுவனங்கள்;
  • பெரிய சில்லறை சங்கிலிகள்;
  • தேர்தல் பிரச்சாரங்கள்.

முக்கியமான குணங்கள்

  • பகுப்பாய்வு மனம்;
  • கடின உழைப்பு;
  • விடாமுயற்சி;
  • துல்லியம், துல்லியம், கவனிப்பு;
  • தோல்வியுற்ற இடைநிலை முடிவுகள் இருந்தபோதிலும் ஆராய்ச்சியை முடிக்கும் திறன்;
  • தொடர்பு திறன்;
  • சிக்கலான விஷயங்களை எளிய வார்த்தைகளில் விளக்கும் திறன்;
  • வணிக உள்ளுணர்வு.

தொழில்முறை அறிவு மற்றும் திறன்கள்:

  • கணித அறிவு, கணித பகுப்பாய்வு, கணித புள்ளியியல், நிகழ்தகவு கோட்பாடு;
  • ஆங்கில அறிவு;
  • பெரிய தரவுத் தொகுப்புகளுடன் பணிபுரியும் கூறுகளைக் கொண்ட முக்கிய நிரலாக்க மொழிகளின் அறிவு: ஜாவா (ஹடூப்), சி ++ (பிக்ஏஆர்டிஎம், வோபெல் வாபிட், எக்ஸ்ஜிபியூஸ்ட்), பைதான் (மேட்ப்லோட்லிப், நம்பி, ஸ்கிகிட், ஸ்கிபி);
  • புள்ளியியல் கருவிகளின் அறிவு - SPSS, R, MATLAB, SAS டேட்டா மைனர், அட்டவணை;
  • தரவு விஞ்ஞானி பணிபுரியும் தொழில்துறையின் முழுமையான அறிவு; இது மருந்துத் தொழில் என்றால், அடிப்படை உற்பத்தி செயல்முறைகள் மற்றும் மருந்து கூறுகள் பற்றிய அறிவு அவசியம்;
  • ஒரு தரவு விஞ்ஞானியின் முக்கிய அடிப்படைத் திறன், பெரிய அளவிலான தரவுகளுக்கான கிளஸ்டர் சேமிப்பக அமைப்புகளின் அமைப்பு மற்றும் நிர்வாகம்;
  • வணிக மேம்பாட்டு சட்டங்களின் அறிவு;
  • பொருளாதார அறிவு.

பல்கலைக்கழகங்கள்

  • மாஸ்கோ மாநில பல்கலைக்கழகம் பெயரிடப்பட்டது Lomonosov, கணக்கீட்டு கணிதம் மற்றும் சைபர்நெட்டிக்ஸ் பீடம், சிறப்பு கல்வி திட்டம் Mail.Ru குழு "டெக்னோஸ்பியர்", பெரிய அளவிலான தரவுகளின் அறிவார்ந்த பகுப்பாய்வு முறைகள், C ++ இல் நிரலாக்கம், பல-திரிக்கப்பட்ட நிரலாக்கம் மற்றும் தகவல் மீட்டெடுப்பு அமைப்புகளை உருவாக்குவதற்கான தொழில்நுட்பம்.
  • MIPT, தரவு பகுப்பாய்வு துறை.
  • நேஷனல் ரிசர்ச் யுனிவர்சிட்டி ஹையர் ஸ்கூல் ஆஃப் எகனாமிக்ஸில் உள்ள வணிகத் தகவல் பீடம், அமைப்பு ஆய்வாளர்கள், வடிவமைப்பாளர்கள் மற்றும் சிக்கலான தகவல் அமைப்புகளை செயல்படுத்துபவர்கள் மற்றும் கார்ப்பரேட் தகவல் அமைப்பு மேலாண்மை அமைப்பாளர்களுக்கு பயிற்சி அளிக்கிறது.
  • தரவு பகுப்பாய்வு பள்ளி யாண்டெக்ஸ்.
  • இன்னோபோலிஸில் உள்ள பல்கலைக்கழகம், டண்டீ பல்கலைக்கழகம், தெற்கு கலிபோர்னியா பல்கலைக்கழகம், ஆக்லாந்து பல்கலைக்கழகம், வாஷிங்டன் பல்கலைக்கழகம்: பிக் டேட்டாவில் முதுகலை திட்டங்கள்.
  • இம்பீரியல் கல்லூரி லண்டன் பிசினஸ் ஸ்கூல், MSc தரவு அறிவியல் மற்றும் மேலாண்மை.

எந்தவொரு தொழிலையும் போலவே, சுய கல்வி இங்கே முக்கியமானது, இது போன்ற வளங்களிலிருந்து சந்தேகத்திற்கு இடமின்றி பயனடையும்:

  • உலகின் முன்னணி பல்கலைக்கழகங்களின் ஆன்லைன் படிப்புகள் COURSERA;
  • இயந்திர கற்றல் சேனல் MASHIN LEARNING;
  • edX படிப்புகளின் தேர்வு;
  • Udacity படிப்புகள்;
  • டேட்டாக்வெஸ்ட் படிப்புகள், நீங்கள் டேட்டா சயின்ஸில் உண்மையான சார்பு ஆகலாம்;
  • 6-படி டேட்டாகேம்ப் படிப்புகள்;
  • ஓ'ரெய்லி பயிற்சி வீடியோக்கள்;
  • ஆரம்பநிலை மற்றும் மேம்பட்ட டேட்டா ஓரிகமிக்கான திரைக்காட்சிகள்;
  • நிபுணர்களின் காலாண்டு மாநாடு மாஸ்கோ தரவு விஞ்ஞானிகள் சந்திப்பு;
  • தரவு பகுப்பாய்வு போட்டிகள் Kaggle.сom

சம்பளம்

07/04/2019 அன்று சம்பளம்

ரஷ்யா 50000—200000 ₽

மாஸ்கோ 60000—300000 ₽

தரவு விஞ்ஞானி தொழில் அதிக ஊதியம் பெறும் ஒன்றாகும். hh.ru வலைத்தளத்திலிருந்து தகவல் - மாதாந்திர சம்பளம் $ 8.5 ஆயிரம் முதல் $ 9 ஆயிரம் வரை, அத்தகைய நிபுணரின் சம்பளம் வருடத்திற்கு $ 110 ஆயிரம் - $ 140 ஆயிரம்.

Superjob ஆராய்ச்சி மையத்தின் கணக்கெடுப்பின்படி, டேட்டா சயின்டிஸ்ட் நிபுணர்களின் சம்பளம் பணி அனுபவம், பொறுப்புகளின் நோக்கம் மற்றும் பிராந்தியத்தைப் பொறுத்தது. ஒரு புதிய நிபுணர் 70 ஆயிரம் ரூபிள் நம்பலாம். மாஸ்கோவில் மற்றும் 57 ஆயிரம் ரூபிள். செயின்ட் பீட்டர்ஸ்பர்க்கில். 3 ஆண்டுகள் பணி அனுபவம் வரை, சம்பளம் 110 ஆயிரம் ரூபிள் வரை அதிகரிக்கிறது. மாஸ்கோவில் மற்றும் 90 ஆயிரம் ரூபிள். செயின்ட் பீட்டர்ஸ்பர்க்கில். விஞ்ஞான வெளியீடுகளுடன் அனுபவம் வாய்ந்த நிபுணர்களுக்கு, சம்பளம் 220 ஆயிரம் ரூபிள் அடையலாம். மாஸ்கோவில் மற்றும் 180 ஆயிரம் ரூபிள். பீட்டர்ஸ்பர்க்கில்.

தொழில் நிலைகள் மற்றும் வாய்ப்புகள்

தரவு விஞ்ஞானி தொழில் என்பது ஒரு உயர் சாதனையாகும், இதற்கு தீவிர தத்துவார்த்த அறிவு மற்றும் பல தொழில்களின் நடைமுறை அனுபவம் தேவைப்படுகிறது. எந்தவொரு நிறுவனத்திலும் அத்தகைய நிபுணர் ஒரு முக்கிய நபராக இருக்கிறார். இந்த உயரத்தை அடைய, நீங்கள் கடினமாகவும் நோக்கமாகவும் உழைக்க வேண்டும், மேலும் தொழிலின் அடிப்படையை உருவாக்கும் அனைத்து பகுதிகளிலும் தொடர்ந்து மேம்படுத்த வேண்டும்.

ஒரு தரவு விஞ்ஞானியைப் பற்றி ஒரு நகைச்சுவை உள்ளது: அவர் எந்தப் புள்ளியியல் நிபுணரை விடவும் சிறப்பாக நிரல் செய்யும் பொதுவாதி மற்றும் எந்த புரோகிராமரை விட புள்ளிவிவரங்களையும் நன்கு அறிந்தவர். மேலும் அவர் நிறுவனத்தின் தலைவரை விட வணிக செயல்முறைகளை நன்கு புரிந்துகொள்கிறார்.

என்ன நடந்தது "பெரிய தகவல்கள்"உண்மையான எண்ணிக்கையில்?

  1. ஒவ்வொரு 2 நாட்களுக்கும், கிறிஸ்துவின் பிறப்பு முதல் 2003 வரை மனிதகுலத்தால் உருவாக்கப்பட்ட தகவல்களின் அளவு தரவுகளின் அளவு அதிகரிக்கிறது.
  2. தற்போதுள்ள அனைத்து தரவுகளிலும் 90% கடந்த 2 ஆண்டுகளில் தோன்றியவை.
  3. 2020 ஆம் ஆண்டளவில், தகவலின் அளவு 3.2 முதல் 40 ஜெட்டாபைட்டுகளாக அதிகரிக்கும். 1 ஜெட்டாபைட் = 10 21 பைட்டுகள்.
  4. 1 நிமிடத்திற்குள், பேஸ்புக்கில் 200 ஆயிரம் புகைப்படங்கள் பதிவேற்றப்படுகின்றன, 205 மில்லியன் கடிதங்கள் அனுப்பப்படுகின்றன, மேலும் 1.8 மில்லியன் விருப்பங்கள் வெளியிடப்படுகின்றன.
  5. 1 வினாடிக்குள், கூகுள் 40 ஆயிரம் தேடல் வினவல்களைச் செயல்படுத்துகிறது.
  6. ஒவ்வொரு 1.2 வருடங்களுக்கும், ஒவ்வொரு தொழிற்துறையிலும் உள்ள தரவுகளின் மொத்த அளவு இரட்டிப்பாகிறது.
  7. 2020 ஆம் ஆண்டில், ஹடூப் சேவைகள் சந்தை $50 பில்லியன்களாக வளரும்.
  8. 2015 ஆம் ஆண்டில் அமெரிக்காவில், பிக் டேட்டா திட்டங்களில் பணிபுரியும் நிபுணர்களுக்காக 1.9 மில்லியன் வேலைகள் உருவாக்கப்பட்டன.
  9. பிக் டேட்டா தொழில்நுட்பங்கள் சில்லறை வணிகச் சங்கிலிகளின் லாபத்தை ஆண்டுக்கு 60% அதிகரிக்கின்றன.
  10. கணிப்புகளின்படி, பிக் டேட்டா சந்தை அளவு 2014 இல் 28.5 பில்லியன் டாலர்களுடன் ஒப்பிடும்போது 2020 இல் 68.7 பில்லியன் டாலராக அதிகரிக்கும்.

இத்தகைய நேர்மறையான வளர்ச்சி குறிகாட்டிகள் இருந்தபோதிலும், கணிப்புகளிலும் பிழைகள் உள்ளன. எடுத்துக்காட்டாக, 2016 இன் மிகவும் மோசமான தவறுகளில் ஒன்று: அமெரிக்க ஜனாதிபதித் தேர்தல் தொடர்பான கணிப்புகள் நிறைவேறவில்லை. ஹிலாரி கிளிண்டனுக்கு ஆதரவாக அமெரிக்காவின் பிரபல தரவு விஞ்ஞானிகளான நேட் சில்வர், கிர்க் போர்ன் மற்றும் பில் ஸ்மார்சோ ஆகியோர் முன்னறிவிப்புகளை வழங்கினர். முந்தைய தேர்தல் பிரச்சாரங்களில், அவர்கள் துல்லியமான முன்னறிவிப்புகளை வழங்கினர் மற்றும் ஒருபோதும் தவறாக நினைக்கவில்லை.

இந்த ஆண்டு, நேட் சில்வர், எடுத்துக்காட்டாக, கொடுத்தார் துல்லியமான கணிப்பு 41 மாநிலங்களுக்கு, ஆனால் 9 மாநிலங்களுக்கு அவர் தவறு செய்தார், இது டிரம்பின் வெற்றிக்கு வழிவகுத்தது. 2016 பிழைகளுக்கான காரணங்களை ஆராய்ந்த பிறகு, அவர்கள் முடிவு செய்தனர்:

  1. கணித மாதிரிகள் அவற்றின் உருவாக்கத்தின் போது படத்தை புறநிலையாக பிரதிபலிக்கின்றன. ஆனால் அவர்களுக்கு அரை ஆயுள் உள்ளது, அதன் முடிவில் நிலைமை வியத்தகு முறையில் மாறக்கூடும். மாதிரியின் முன்கணிப்பு குணங்கள் காலப்போக்கில் மோசமடைகின்றன. IN இந்த வழக்கில், எடுத்துக்காட்டாக, முறைகேடு, வருமான சமத்துவமின்மை மற்றும் பிற சமூக எழுச்சிகள் ஒரு பாத்திரத்தை வகித்தன. எனவே, புதிய தரவை கணக்கில் எடுத்துக்கொள்வதற்கு மாதிரியை தொடர்ந்து சரிசெய்ய வேண்டும். இது செய்யப்படவில்லை.
  2. முன்னறிவிப்புகளில் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்தக்கூடிய கூடுதல் தரவைத் தேடுவதும் பரிசீலிப்பதும் அவசியம். இதனால், கிளிண்டன் மற்றும் டிரம்ப் தேர்தல் பிரச்சாரங்களில் பேரணிகளின் வீடியோக்களைப் பார்க்கும் போது, ​​பேரணியில் பங்கேற்றவர்களின் மொத்த எண்ணிக்கை கணக்கில் எடுத்துக்கொள்ளப்படவில்லை. இது சுமார் நூற்றுக்கணக்கான மக்கள். டிரம்பிற்கு ஆதரவாக ஒவ்வொரு பேரணியிலும் 400-600 பேர் கலந்து கொண்டனர், மேலும் கிளிண்டனுக்கு ஆதரவாக 150-200 பேர் மட்டுமே கலந்து கொண்டனர், இது முடிவுகளை பாதித்தது.
  3. தேர்தல் பிரச்சாரங்களில் கணித மாதிரிகள் மக்கள்தொகை தரவுகளை அடிப்படையாகக் கொண்டவை: வயது, இனம், பாலினம், வருமானம், சமூகத்தில் நிலை போன்றவை. கடந்த தேர்தலில் அவர்கள் எப்படி வாக்களித்தார்கள் என்பதன் அடிப்படையில் ஒவ்வொரு குழுவின் எடையும் தீர்மானிக்கப்படுகிறது. இந்த முன்னறிவிப்பு 3-4% பிழையைக் கொண்டுள்ளது மற்றும் வேட்பாளர்களிடையே பெரிய இடைவெளி இருக்கும்போது நம்பகத்தன்மையுடன் செயல்படுகிறது. ஆனால் இந்த விஷயத்தில், கிளிண்டனுக்கும் டிரம்புக்கும் இடையிலான இடைவெளி சிறியதாக இருந்தது, மேலும் இந்த பிழை தேர்தல் முடிவுகளில் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்தியது.
  4. மக்களின் பகுத்தறிவற்ற நடத்தை கணக்கில் எடுத்துக்கொள்ளப்படவில்லை. நடத்தப்படும் மக்கள் கருத்துக் கணிப்புகள், வாக்கெடுப்பில் மக்கள் தாங்கள் அளித்த பதிலைப் போலவே வாக்களிப்பார்கள் என்ற மாயையை உருவாக்குகின்றன. ஆனால் சில சமயங்களில் அதற்கு நேர்மாறாக செய்கிறார்கள். இந்த வழக்கில், வாக்களிப்பதில் நேர்மையற்ற அணுகுமுறைகளை அடையாளம் காண, முக மற்றும் பேச்சு பகுப்பாய்வுகளை நடத்துவது அவசியம்.

பொதுவாக, வேட்பாளர்களுக்கு இடையே உள்ள சிறிய இடைவெளியால் கணிப்பு தவறாக மாறியது. ஒரு பெரிய இடைவெளியின் விஷயத்தில், இந்த பிழைகள் அவ்வளவு தீர்க்கமானதாக இருக்காது.

வீடியோ: புதிய சிறப்பு "பிக் டேட்டா" - மிகைல் லெவின்

இன்போ கிராபிக்ஸில் தரவு விஞ்ஞானி. தொழில் புதியது, அதிக ஊதியம் மற்றும் நன்கு அறியப்பட்டதாகும். ஆனால் அத்தகைய நிபுணருக்கு என்ன திறன்கள் இருக்க வேண்டும்? கருத்தில் கொள்வோம்.

திறன்களைப் பற்றி பேசலாம்

ஒரு தரவு விஞ்ஞானி என்பது பகுப்பாய்வு மற்றும் தகவல் செயலாக்கத்தை உள்ளடக்கிய ஒரு பொதுவாதி. ஒரு தரவு விஞ்ஞானி புள்ளியியல் மற்றும் நிரலாக்கத்தைப் புரிந்துகொள்கிறார். பயனுள்ளது, இல்லையா? ஒவ்வொரு தனிப்பட்ட தரவு விஞ்ஞானியின் திறன்களின் வரம்பு ஒரு தரம் மற்றும் குறியீட்டு அல்லது தூய புள்ளிவிவரங்களை நோக்கி நகரும்.

  • சான் பிரான்சிஸ்கோவில் உள்ள தரவு ஆய்வாளர். சில நிறுவனங்கள் உண்மையில் தரவு விஞ்ஞானிகளை ஆய்வாளர்களுடன் ஒப்பிடுகின்றன. அத்தகைய நிபுணரின் பணி தரவுத்தளத்திலிருந்து தகவல்களைப் பிரித்தெடுப்பது, எக்செல் உடன் தொடர்புகொள்வது மற்றும் அடிப்படை காட்சிப்படுத்தல் ஆகியவற்றில் இறங்குகிறது.
  • அதிக போக்குவரத்து மற்றும் பெரிய அளவிலான தரவுகள் சில நிறுவனங்களை அவசரமாகத் தேடும்படி கட்டாயப்படுத்துகின்றன சரியான நிபுணர். பொறியாளர்கள், ஆய்வாளர்கள், புரோகிராமர்கள் அல்லது விஞ்ஞானிகளைத் தேடும் விளம்பரங்களை அவர்கள் அடிக்கடி இடுகையிடுகிறார்கள்.
  • தரவு தயாரிப்பாக இருக்கும் நிறுவனங்கள் உள்ளன. இந்த வழக்கில், தீவிர பகுப்பாய்வு மற்றும் இயந்திர கற்றல் தேவைப்படும்.
  • மற்ற நிறுவனங்களுக்கு, தரவு ஒரு தயாரிப்பு அல்ல, ஆனால் மேலாண்மை அல்லது பணிப்பாய்வு அதன் மீது கட்டமைக்கப்பட்டுள்ளது. நிறுவனத்தின் தரவை கட்டமைப்பதற்காக தரவு விஞ்ஞானிகளும் தேடப்படுகிறார்கள்.

தலைப்புச் செய்திகள் "21 ஆம் நூற்றாண்டின் கவர்ச்சியான தொழில்" பாணியில் தலைப்புகள் நிறைந்துள்ளன. இது உண்மையா என்பது எங்களுக்குத் தெரியாது, ஆனால் ஒரு தரவு விஞ்ஞானி புரிந்து கொள்ள வேண்டும் என்பதை நாங்கள் அறிவோம்:

  1. கணிதம் மற்றும் புள்ளியியல்.
  2. பொருள் பகுதி மற்றும் மென்பொருள்.
  3. நிரலாக்கம் மற்றும் தரவுத்தளம்.
  4. தரவு பரிமாற்றம் மற்றும் காட்சிப்படுத்தல்.

ஒவ்வொரு புள்ளியையும் இன்னும் விரிவாகப் பார்ப்போம்.

தரவு விஞ்ஞானி மற்றும் கணித புள்ளியியல்

வளர்ச்சி கணித முறைகள்புள்ளிவிவரத் தரவைப் பயன்படுத்துவது வேலையின் அடிப்படை பகுதியாகும். கணித புள்ளிவிவரங்கள் நிகழ்தகவு கோட்பாட்டை அடிப்படையாகக் கொண்டவை, இது துல்லியமான முடிவுகளை எடுக்கவும் அவற்றின் நம்பகத்தன்மையை மதிப்பீடு செய்யவும் உதவுகிறது.

1. இயந்திர கற்றல், AI இன் துணைப்பிரிவாக. ஒரு பயிற்சித் திட்டம் மற்றும் வடிவங்களுடன் தரவின் எடுத்துக்காட்டுகள் உள்ளன. நாங்கள் ஒரு மாதிரி மாதிரியை உருவாக்குகிறோம், அதை செயல்படுத்துகிறோம், மேலும் நிரலைப் பயன்படுத்தி புதிய தரவுகளில் வடிவங்களைத் தேடுவதற்கான வாய்ப்பைப் பெறுகிறோம்.

2. தரவு விஞ்ஞானி கண்டிப்பாக தெரிந்து கொள்ள வேண்டும் புள்ளிவிவர மாதிரியாக்கம்ஒரு குறிப்பிட்ட நிகழ்தகவு அடர்த்தி கொண்ட சீரற்ற சமிக்ஞைகளுடன் மாதிரியை சோதிக்க. பெறப்பட்ட முடிவுகளை புள்ளிவிவர ரீதியாக தீர்மானிப்பதே குறிக்கோள்.

3. பரிசோதனை வடிவமைப்பு. சோதனைகளின் போது, ​​வித்தியாசத்தைக் காண ஒன்று அல்லது அதற்கு மேற்பட்ட மாறிகள் மாற்றப்படுகின்றன. இந்த வழக்கில், ஒரு தலையீட்டு குழு மற்றும் ஒரு கட்டுப்பாட்டு குழு உள்ளது, இதன் காரணமாக சோதனை மேற்கொள்ளப்படுகிறது.

4. பேய்சியன் அனுமானம் ஒரு கருதுகோளின் நிகழ்தகவை சரிசெய்ய உதவுகிறது.

5. மேற்பார்வை பயிற்சி:

  • முடிவு மரங்கள்;
  • சீரற்ற காடுகள்;
  • தளவாட பின்னடைவு.

6. மேற்பார்வை செய்யப்படாத கற்றல்:

  • கிளஸ்டரிங்;
  • பரிமாணக் குறைப்பு.

7. உகப்பாக்கம்: சாய்வு வம்சாவளிமற்றும் விருப்பங்கள்.

டொமைன் மற்றும் மென்பொருள் திறன்கள்

படித்து பயிற்சி செய்! இதுவே இந்த சிறப்புக்கு அடித்தளம். ஒரு தரவு விஞ்ஞானி அறிவியல் பாதிக்கும் பாடப் பகுதியைப் பற்றி நன்கு புரிந்து வைத்திருக்க வேண்டும், மேலும் மென்பொருளையும் நன்கு அறிந்திருக்க வேண்டும்.

தேவையான திறன்களின் பட்டியல் விசித்திரமானது, ஆனால் குறைவான பயனுள்ளது அல்ல:

நிரலாக்க மற்றும் தரவுத்தளங்கள்

அடிப்படைகள் முதல் பைதான், XaaS, ரிலேஷனல் அல்ஜீப்ரா மற்றும் SQL பற்றிய அறிவு வரை. பொதுவாக, தரவைச் செயலாக்கும் முயற்சிகள் இல்லாமல் அனைத்தும் பயனற்றவை.

1. கணினி அறிவியலின் அடிப்படைகள், வாழ்க்கையை நிரலாக்க மற்றும் செயல்முறை தன்னியக்கத்துடன் இணைக்கும் எவருக்கும் ஒரு தொடக்க புள்ளியாக உள்ளது.

தரவு அறிவியல், இயந்திர கற்றல் - இந்த பெரிய வார்த்தைகளை நீங்கள் கேள்விப்பட்டிருக்கலாம், ஆனால் அவற்றின் அர்த்தம் உங்களுக்கு எவ்வளவு தெளிவாக இருந்தது? சிலருக்கு அவை அழகான தூண்டில்கள். தரவு அறிவியல் என்பது ஒரு இயந்திரத்தை இலவசமாக ஆர்டர் செய்ததைச் செய்யும் மந்திரம் என்று சிலர் நினைக்கிறார்கள். மற்றவர்கள் அது என்று கூட நம்புகிறார்கள் எளிய வழிபெரும் பணம் சம்பாதிக்க. IRELA இன் R&D தலைவர் நிகிதா நிகிடின்ஸ்கி மற்றும் தரவு விஞ்ஞானி Polina Kazakova, இது என்ன என்பதை எளிமையான மற்றும் புரிந்துகொள்ளக்கூடிய மொழியில் விளக்குகிறார்கள்.

நான் தானியங்கி இயற்கை மொழி செயலாக்கத்தில் பணிபுரிகிறேன், தரவு அறிவியலின் பயன்பாடாகும், மேலும் இந்த விதிமுறைகளை தவறாகப் பயன்படுத்துபவர்களை அடிக்கடி பார்க்கிறேன், எனவே நான் கொஞ்சம் தெளிவுபடுத்த விரும்புகிறேன். இந்த கட்டுரை தரவு அறிவியல் என்றால் என்ன என்று சிறிதும் அறியாதவர்களுக்காகவும், கருத்துகளைப் புரிந்துகொள்ள விரும்புபவர்களுக்காகவும்.

சொற்களஞ்சியத்தை வரையறுப்போம்

தரவு அறிவியல் என்றால் என்ன என்பது யாருக்கும் சரியாகத் தெரியாது, மேலும் கடுமையான வரையறை எதுவும் இல்லை - இது மிகவும் பரந்த மற்றும் இடைநிலைக் கருத்து. எனவே, இங்கே நான் எனது பார்வையைப் பகிர்ந்து கொள்கிறேன், இது மற்றவர்களின் கருத்துக்களுடன் ஒத்துப்போவதில்லை.

தரவு அறிவியல் என்ற சொல் ரஷ்ய மொழியில் "தரவு அறிவியல்" என்று மொழிபெயர்க்கப்பட்டுள்ளது, மேலும் தொழில்முறை சூழலில் இது பெரும்பாலும் "தரவு அறிவியல்" என்று மொழிபெயர்க்கப்படுகிறது. முறைப்படி, இது கணினி அறிவியல் மற்றும் கணிதத் துறையில் இருந்து சில ஒன்றோடொன்று தொடர்புடைய துறைகள் மற்றும் முறைகளின் தொகுப்பாகும். மிகவும் சுருக்கமாக தெரிகிறது, இல்லையா? அதை கண்டுபிடிக்கலாம்.

முதல் பகுதி: தரவு

தரவு அறிவியலின் முதல் கூறு, இது இல்லாமல் முழு செயல்முறையும் சாத்தியமற்றது, உண்மையில், தரவு தானே: அதை எவ்வாறு சேகரிப்பது, சேமிப்பது மற்றும் செயலாக்குவது, அத்துடன் பொது தரவு வரிசையில் இருந்து அதை எவ்வாறு பிரிப்பது பயனுள்ள தகவல். வல்லுநர்கள் தங்கள் வேலை நேரத்தின் 80% வரை தரவை சுத்தம் செய்வதற்கும் விரும்பிய படிவத்திற்கு கொண்டு வருவதற்கும் செலவிடுகிறார்கள்.

பெரிய தரவு எனப்படும் பெரிய அளவு மற்றும்/அல்லது பன்முகத்தன்மை காரணமாக நிலையான சேமிப்பு மற்றும் செயலாக்க முறைகள் பொருந்தாத தரவை எவ்வாறு கையாள்வது என்பது இந்த புள்ளியின் முக்கிய பகுதியாகும். மூலம், உங்களை குழப்பிக் கொள்ள வேண்டாம்: பெரிய தரவு மற்றும் தரவு அறிவியல் ஒத்த சொற்கள் அல்ல: மாறாக, முதலாவது இரண்டாவது துணைப்பிரிவாகும். அதே நேரத்தில், நடைமுறையில் உள்ள தரவு ஆய்வாளர்கள் எப்போதும் பெரிய தரவுகளுடன் வேலை செய்ய வேண்டியதில்லை - சிறிய தரவுகளும் பயனுள்ளதாக இருக்கும்.

தரவுகளை சேகரிப்போம்

உங்கள் பணிபுரியும் சக ஊழியர்கள் பகலில் எவ்வளவு காபி குடித்தார்கள் என்பதற்கும் முந்தைய இரவில் அவர்கள் எவ்வளவு உறங்கினார்கள் என்பதற்கும் ஏதாவது தொடர்பு இருக்கிறதா என்பதில் நாங்கள் ஆர்வமாக உள்ளோம் என்று கற்பனை செய்து பாருங்கள். எங்களிடம் உள்ள தகவல்களை எழுதுவோம்: உங்கள் சக ஊழியர் கிரிகோரி இன்று 4 மணி நேரம் தூங்கினார் என்று வைத்துக்கொள்வோம், அதனால் அவர் 3 கப் காபி குடிக்க வேண்டியிருந்தது; எல்லினா 9 மணி நேரம் தூங்கினார், காபி குடிக்கவே இல்லை; மற்றும் போலினா அனைத்து 10 மணிநேரமும் தூங்கினார், ஆனால் 2.5 கப் காபி குடித்தார் - மற்றும் பல.

பெறப்பட்ட தரவை வரைபடத்தில் காண்பிப்போம் (எந்த தரவு அறிவியல் திட்டத்திலும் காட்சிப்படுத்தல் ஒரு முக்கிய அங்கமாகும்). X அச்சில் மணிநேரங்களில் நேரத்தையும், Y அச்சில் மில்லிலிட்டர்களில் காபியையும் திட்டமிடுவோம். இதுபோன்ற ஒன்றைப் பெறுவோம்:

இரண்டாவது பகுதி: அறிவியல்

எங்களிடம் தரவு உள்ளது, அதை இப்போது என்ன செய்யலாம்? அது சரி, பகுப்பாய்வு செய்து, பயனுள்ள வடிவங்களைப் பிரித்தெடுத்து எப்படியாவது அவற்றைப் பயன்படுத்தவும். இங்கே புள்ளியியல், இயந்திர கற்றல் மற்றும் தேர்வுமுறை போன்ற துறைகள் நமக்கு உதவும்.

அவை தரவு அறிவியலின் அடுத்த மற்றும் மிக முக்கியமான கூறுகளை உருவாக்குகின்றன - தரவு பகுப்பாய்வு. இயந்திர கற்றல் ஏற்கனவே உள்ள தரவுகளில் வடிவங்களைக் கண்டறிய உங்களை அனுமதிக்கிறது, எனவே புதிய பொருள்களுக்கான தொடர்புடைய தகவலை நீங்கள் கணிக்க முடியும்.

தரவுகளை பகுப்பாய்வு செய்வோம்

நமது உதாரணத்திற்கு திரும்புவோம். கண்ணுக்கு, இரண்டு அளவுருக்கள் எப்படியாவது ஒன்றோடொன்று இணைக்கப்பட்டுள்ளன என்று தோன்றுகிறது: ஒரு நபர் எவ்வளவு குறைவாக தூங்குகிறாரோ, அவர் அடுத்த நாள் அதிக காபி குடிப்பார். அதே நேரத்தில், இந்த போக்கிலிருந்து தனித்து நிற்கும் ஒரு உதாரணம் எங்களிடம் உள்ளது - பொலினா, தூங்கவும் காபி குடிக்கவும் விரும்புகிறார். ஆயினும்கூட, விளைந்த வடிவத்தை சில பொதுவான நேர்கோட்டுடன் தோராயமாக மதிப்பிட முயற்சி செய்யலாம், இதனால் அது முடிந்தவரை அனைத்து புள்ளிகளையும் நெருங்குகிறது:

பச்சைக் கோடு எங்கள் இயந்திர கற்றல் மாதிரி, இது தரவைப் பொதுமைப்படுத்துகிறது மற்றும் கணித ரீதியாக விவரிக்க முடியும். இப்போது, ​​​​அதன் உதவியுடன், புதிய பொருட்களுக்கான மதிப்புகளை நாம் தீர்மானிக்க முடியும்: இன்று அலுவலகத்திற்குள் நுழைந்த நிகிதா எவ்வளவு காபி குடிப்பார் என்று நாம் கணிக்க விரும்பினால், அவர் எவ்வளவு தூங்கினார் என்று கேட்போம். 7.5 மணிநேர மதிப்பை ஒரு பதிலாகப் பெற்ற பிறகு, அதை மாதிரியாக மாற்றுகிறோம் - இது 300 மில்லிக்கு சற்று குறைவான அளவில் உட்கொள்ளும் காபியின் அளவிற்கு ஒத்திருக்கிறது. சிவப்பு புள்ளி நமது கணிப்பைக் குறிக்கிறது.

ஏறக்குறைய இயந்திர கற்றல் எவ்வாறு செயல்படுகிறது, இதன் யோசனை மிகவும் எளிமையானது: ஒரு வடிவத்தைக் கண்டுபிடித்து அதை புதிய தரவுகளுக்கு நீட்டிக்கவும். உண்மையில், இயந்திரக் கற்றலில், எங்கள் எடுத்துக்காட்டில் உள்ளதைப் போல, சில மதிப்புகளை நீங்கள் கணிக்கத் தேவையில்லை, ஆனால் தரவை சில குழுக்களாகப் பிரிக்க வேண்டிய மற்றொரு வகை பணிகள் உள்ளன. ஆனால் இதைப் பற்றி இன்னொரு முறை விரிவாகப் பேசுவோம்.

முடிவைப் பயன்படுத்துவோம்

இருப்பினும், என் கருத்துப்படி, தரவு அறிவியல் என்பது தரவுகளில் உள்ள வடிவங்களை அடையாளம் காண்பதுடன் முடிவடையாது. எந்த தரவு அறிவியல் திட்டமும் பயனுறு ஆராய்ச்சி, ஒரு கருதுகோளை அமைப்பது, ஒரு பரிசோதனையைத் திட்டமிடுவது மற்றும் ஒரு குறிப்பிட்ட வழக்கைத் தீர்ப்பதற்கான முடிவு மற்றும் அதன் பொருத்தத்தை மதிப்பிடுவது போன்ற விஷயங்களை மறந்துவிடக் கூடாது.

உண்மையான வணிகச் சிக்கல்களில் பிந்தையது மிகவும் முக்கியமானது, தரவு அறிவியலால் கண்டறியப்பட்ட தீர்வு உங்கள் திட்டத்திற்கு பயனளிக்குமா இல்லையா என்பதை நீங்கள் புரிந்து கொள்ள வேண்டும். எங்கள் எடுத்துக்காட்டில் கட்டப்பட்ட மாதிரியின் பயன் என்ன? ஒருவேளை அதன் உதவியுடன் அலுவலகத்திற்கு காபி விநியோகத்தை மேம்படுத்தலாம். அதே நேரத்தில், அபாயங்களை மதிப்பீடு செய்து, தற்போதுள்ள தீர்வை விட எங்கள் மாடல் இதை சமாளிக்குமா என்பதை தீர்மானிக்க வேண்டும் - அலுவலக மேலாளர் மிகைல், தயாரிப்பு வாங்குவதற்கு பொறுப்பானவர்.

விதிவிலக்குகளைக் கண்டுபிடிப்போம்

நிச்சயமாக, எங்கள் உதாரணம் முடிந்தவரை எளிமைப்படுத்தப்பட்டுள்ளது. உண்மையில், வேறு சில காரணிகளை கணக்கில் எடுத்துக் கொள்ளும் மிகவும் சிக்கலான மாதிரியை உருவாக்க முடியும், எடுத்துக்காட்டாக, ஒரு நபர் கொள்கையளவில் காபியை விரும்புகிறாரா. அல்லது மாதிரியானது ஒரு நேர் கோட்டால் குறிப்பிடப்படுவதை விட மிகவும் சிக்கலான உறவுகளைக் கண்டறிய முடியும்.

பொலினாவைப் போலவே, மற்றவற்றிலிருந்து மிகவும் வித்தியாசமான பொருள்களான எங்கள் தரவுகளில் முதலில் வெளியாட்களைத் தேடலாம். உண்மை என்னவென்றால், உண்மையான வேலையில், அத்தகைய எடுத்துக்காட்டுகள் ஒரு மாதிரியை உருவாக்கும் செயல்முறை மற்றும் அதன் தரத்தில் மோசமான தாக்கத்தை ஏற்படுத்தும், மேலும் அவற்றை வேறு வழியில் செயலாக்குவது அர்த்தமுள்ளதாக இருக்கிறது. சில சமயங்களில் இத்தகைய பொருள்கள் முதன்மை ஆர்வமாக உள்ளன, எடுத்துக்காட்டாக, மோசடியைத் தடுப்பதற்காக ஒழுங்கற்ற வங்கி பரிவர்த்தனைகளைக் கண்டறியும் பணியில்.

கூடுதலாக, போலினா எங்களுக்கு மற்றொரு முக்கியமான யோசனையைக் காட்டுகிறது - இயந்திர கற்றல் வழிமுறைகளின் குறைபாடு. 10 மணிநேரம் தூங்கிய ஒருவருக்கு 100 மில்லி காபியை மட்டுமே எங்கள் மாதிரி கணித்துள்ளது, உண்மையில் போலினா 500 வரை குடித்துள்ளார். தரவு அறிவியல் தீர்வுகளின் வாடிக்கையாளர்கள் இதை ஒருபோதும் நம்ப மாட்டார்கள், ஆனால் எல்லாவற்றையும் சரியாகக் கணிக்க இயந்திரத்தை கற்பிப்பது இன்னும் சாத்தியமற்றது. உலகில் : தரவுகளில் வடிவங்களை அடையாளம் காண்பதில் நாம் எவ்வளவு சிறப்பாக இருந்தாலும், கணிக்க முடியாத கூறுகள் எப்போதும் இருக்கும்.

கதையைத் தொடர்வோம்

எனவே, தரவு அறிவியல் என்பது தரவை செயலாக்குவதற்கும் பகுப்பாய்வு செய்வதற்கும் நடைமுறை சிக்கல்களுக்கு அவற்றைப் பயன்படுத்துவதற்கும் ஒரு முறைகளின் தொகுப்பாகும். அதே நேரத்தில், ஒவ்வொரு நிபுணருக்கும் இந்த பகுதியில் தனது சொந்த பார்வை உள்ளது மற்றும் கருத்துக்கள் வேறுபடலாம் என்பதை நீங்கள் புரிந்து கொள்ள வேண்டும்.

தரவு அறிவியல் மிகவும் எளிமையான யோசனைகளை அடிப்படையாகக் கொண்டது, ஆனால் நடைமுறையில் பல வெளிப்படையான நுணுக்கங்கள் பெரும்பாலும் கண்டுபிடிக்கப்படுகின்றன. தரவு அறிவியல் நம்மை எப்படிச் சூழ்ந்துள்ளது அன்றாட வாழ்க்கை, என்ன தரவு பகுப்பாய்வு முறைகள் உள்ளன, தரவு அறிவியல் குழு யாரைக் கொண்டுள்ளது மற்றும் ஆராய்ச்சி செயல்பாட்டின் போது என்ன சிரமங்கள் ஏற்படலாம் - இதைப் பற்றி பின்வரும் கட்டுரைகளில் பேசுவோம்.



தளத்தில் புதியது

>

மிகவும் பிரபலமான