വീട് വായിൽ നിന്ന് മണം ഡാറ്റ ശാസ്ത്രജ്ഞൻ എവിടെയാണ് പഠിക്കേണ്ടത്. എന്താണ് ഡാറ്റ സയൻസ്, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു? വീഡിയോ: പുതിയ സ്പെഷ്യലൈസേഷൻ "ബിഗ് ഡാറ്റ" - മിഖായേൽ ലെവിൻ

വായിൽ നിന്ന് മണം

ഡാറ്റ ശാസ്ത്രജ്ഞൻ എവിടെയാണ് പഠിക്കേണ്ടത്. എന്താണ് ഡാറ്റ സയൻസ്, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു? വീഡിയോ: പുതിയ സ്പെഷ്യലൈസേഷൻ "ബിഗ് ഡാറ്റ" - മിഖായേൽ ലെവിൻ

എങ്ങനെ ഒരു ഡാറ്റാ അനലിസ്റ്റാകാം, ഡാറ്റാ സയൻസ് പഠിക്കാം, എന്നാൽ എവിടെ തുടങ്ങണമെന്ന് അറിയില്ലേ എന്നറിയാൻ നിങ്ങൾ പണ്ടേ ആഗ്രഹിച്ചിരുന്നോ? എങ്കിൽ ഈ ലേഖനം നിങ്ങൾക്കുള്ളതാണ്.

"വലിയ ഡാറ്റ" എന്നതിനെക്കുറിച്ച് നമ്മിൽ ആരാണ് കേൾക്കാത്തത്? ഒരെണ്ണമെങ്കിലും ഉണ്ടാകാൻ സാധ്യതയില്ല. IN കഴിഞ്ഞ വർഷങ്ങൾവലിയ ഐടി കമ്പനികൾ ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനും പ്രോസസ്സ് ചെയ്യുന്നതിനും തുടർന്ന് ഉപയോഗിക്കുന്നതിനുമായി കൂടുതൽ കൂടുതൽ പുതിയ പരിഹാരങ്ങൾ കൊണ്ടുവരേണ്ടതിനാൽ, ഡാറ്റയുമായി പ്രവർത്തിക്കാനുള്ള താൽപ്പര്യം ഗണ്യമായി വർദ്ധിച്ചു. ചിലത് വിക്ഷേപിക്കുകയും ചെയ്യുന്നു പഠന പരിപാടികൾസർവ്വകലാശാലകൾക്കൊപ്പം. എന്നിരുന്നാലും, ഡാറ്റാ അനലിസ്റ്റുകൾ എങ്ങനെയുള്ള ആളുകളാണെന്ന് മിക്ക ആളുകൾക്കും ധാരണയില്ല. നിങ്ങൾ അത്തരം ആളുകളിൽ ഒരാളാണെങ്കിൽ നിങ്ങൾക്ക് ഒരു ഡാറ്റാ അനലിസ്റ്റാകാൻ ആഗ്രഹമുണ്ടെങ്കിൽ, ഈ ലേഖനം നിങ്ങൾക്കുള്ളതാണ്. നിങ്ങളുടെ ലൊക്കേഷൻ പരിഗണിക്കാതെ തന്നെ നിങ്ങൾക്ക് ഉപയോഗിക്കാനാകുന്ന സൗജന്യ പരിശീലന ഉപകരണങ്ങൾ മാത്രമാണ് ഞങ്ങൾ തിരഞ്ഞെടുത്തത്.

ഡാറ്റാ അനലിസ്റ്റുകൾ എന്താണ് ചെയ്യുന്നത്?

ഡാറ്റാ അനലിസ്റ്റുകൾ എന്ന് വിളിക്കപ്പെടുന്നവർ അതിൻ്റെ വിവരങ്ങളിലും വിശകലനത്തിലും ഏർപ്പെട്ടിരിക്കുന്നത് ദൃശ്യപരവും മനുഷ്യർക്ക് കാണാവുന്നതുമായ ഫലങ്ങൾ നേടുന്നതിന് വേണ്ടിയാണ്. അത്തരം ആളുകളിൽ സാധാരണയായി വലിയ ഡാറ്റ, ഡാറ്റ മൈനിംഗ്, മെഷീൻ ലേണിംഗ്, സിസ്റ്റം വിശകലനം, ബിസിനസ് അനലിസ്റ്റുകൾ എന്നിവയിലെ സ്പെഷ്യലിസ്റ്റുകൾ ഉൾപ്പെടുന്നു.

എന്ത് കാണണം

Yandex-ൽ നിന്നുള്ള "സ്കൂൾ ഓഫ് ഡാറ്റ അനാലിസിസ്" പ്രഭാഷണങ്ങൾ

SHAD - Yandex ജീവനക്കാരിൽ നിന്നുള്ള ഡാറ്റ വിശകലനത്തെക്കുറിച്ചുള്ള കോഴ്സുകൾ. അപേക്ഷകർക്ക് ആവശ്യമായ ഏറ്റവും കുറഞ്ഞത് ഉയർന്ന ബീജഗണിതത്തിൻ്റെ അടിസ്ഥാന വിഭാഗങ്ങളാണ്,ഗണിത വിശകലനം, കോമ്പിനേറ്ററിക്സ്, പ്രോബബിലിറ്റി തിയറി, അതുപോലെ പ്രോഗ്രാമിംഗിൻ്റെ അടിസ്ഥാനകാര്യങ്ങൾ. ഭാഗ്യവശാൽ, കോഴ്‌സുകൾ റെക്കോർഡ് ചെയ്‌തിരിക്കുന്നതിനാൽ എല്ലാവർക്കും വീഡിയോ പ്രഭാഷണങ്ങളിൽ നിന്ന് പഠിക്കാനാകും.

മെഷീൻ ലേണിംഗ് കോഴ്സ്

പ്രോബബിലിറ്റി സിദ്ധാന്തവും സ്ഥിതിവിവരക്കണക്കുകളും എങ്ങനെ പ്രയോഗിക്കാമെന്ന് കോഴ്‌സ് പഠിപ്പിക്കുന്നു, മെഷീൻ ലേണിംഗിൻ്റെ അടിസ്ഥാനകാര്യങ്ങളെക്കുറിച്ച് സംസാരിക്കുന്നു, അൽഗോരിതം എങ്ങനെ നിർമ്മിക്കാമെന്ന് പഠിപ്പിക്കുന്നു

കോഴ്സ് "സെർച്ച് ഡാറ്റ അൽഗോരിതങ്ങളും ഘടനകളും"

വലിയ അളവിലുള്ള ഡാറ്റ, അൽഗരിതങ്ങൾ, സ്ട്രിംഗ് കൃത്രിമത്വം, ഗ്രാഫ്-തിയറിറ്റിക് അൽഗരിതങ്ങൾ, ഡാറ്റാ ഘടനകളുടെ നിർമ്മാണം, വിശകലനം എന്നിവ തിരയുന്നതിനും അടുക്കുന്നതിനുമുള്ള അൽഗോരിതങ്ങൾ പ്രഭാഷണങ്ങൾ ഉൾക്കൊള്ളുന്നു.

കോഴ്‌സ് "സമാന്തരവും വിതരണം ചെയ്തതുമായ കമ്പ്യൂട്ടിംഗ്"

മൾട്ടി-ത്രെഡും പാരലൽ പ്രോഗ്രാമിംഗും അതുപോലെ MapReduce ഉം പരിചയപ്പെടാൻ ദീർഘകാലമായി ആഗ്രഹിക്കുന്നവർക്ക്.

കോഴ്സ് "ഡിസ്ക്രീറ്റ് അനാലിസിസ് ആൻഡ് പ്രോബബിലിറ്റി തിയറി"

കോമ്പിനേറ്ററി, ഡിസ്ക്രീറ്റ്, അസിംപ്റ്റോട്ടിക് വിശകലനം, പ്രോബബിലിറ്റി സിദ്ധാന്തം, സ്ഥിതിവിവരക്കണക്കുകൾ എന്നിവയുടെ അടിസ്ഥാന ആശയങ്ങളും രീതികളും കോഴ്‌സ് പരിശോധിക്കുന്നു, കൂടാതെ അവയുടെ പ്രയോഗം പ്രകടിപ്പിക്കുകയും ചെയ്യുന്നു.

കോഴ്‌സ് "കമ്പ്യൂട്ടേഷണൽ കോംപ്ലക്‌സിറ്റി"

കോഴ്‌സ് കണ്ടതിനുശേഷം, പ്രോബബിലിസ്റ്റിക് കോംപ്ലക്‌സിറ്റി ക്ലാസുകളെക്കുറിച്ചും ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനും നിർമ്മിക്കുന്നതിനുമുള്ള അടിസ്ഥാന സാങ്കേതികതകളെക്കുറിച്ചും നിങ്ങൾ പഠിക്കും.

പ്രഭാഷണങ്ങൾ Technostream Mail.ru ഗ്രൂപ്പ്

കോഴ്‌സ് പ്രോഗ്രാമുകൾ നിരവധി മോസ്കോ സർവകലാശാലകളിലെ വിദ്യാർത്ഥികൾക്കായി ഉദ്ദേശിച്ചുള്ളതാണ്, പക്ഷേ ആർക്കും ലഭ്യമാണ്. ഭാവിയിലെ വിശകലന വിദഗ്ധർക്ക് ഇനിപ്പറയുന്ന പ്രഭാഷണ ശേഖരങ്ങൾ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു:

ബിഗ് ഡാറ്റ യൂണിവേഴ്സിറ്റി പ്രഭാഷണങ്ങൾ

ബിഗ് ഡാറ്റ യൂണിവേഴ്സിറ്റി - ഓൺലൈൻ കോഴ്സ്, തുടക്കക്കാർക്കും ഗണിതശാസ്ത്ര പശ്ചാത്തലമില്ലാത്ത ആളുകൾക്കുമായി ഐബിഎമ്മുമായി സംയുക്തമായി സൃഷ്ടിച്ചു. ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നതിൻ്റെ അടിസ്ഥാനകാര്യങ്ങൾ പരിചയപ്പെടാൻ സഹായിക്കുന്ന പ്രഭാഷണങ്ങൾ വ്യക്തമായ ഇംഗ്ലീഷിൽ രേഖപ്പെടുത്തിയിട്ടുണ്ട്.

വെൽച്ച് ലാബ്സ്

ഈ ചാനലിൽ ഗണിതം, കമ്പ്യൂട്ടർ സയൻസ്, പ്രോഗ്രാമിംഗ്, മെഷീൻ ലേണിംഗ് എന്നിവയെക്കുറിച്ചുള്ള പ്രഭാഷണങ്ങൾ അടങ്ങിയിരിക്കുന്നു. ഈ പ്രക്രിയയിൽ, പഠിക്കുന്ന കാര്യങ്ങളുടെ പ്രയോഗത്തിൻ്റെ ഉദാഹരണങ്ങൾ നൽകിയിരിക്കുന്നു യഥാർത്ഥ ജീവിതം. പ്രഭാഷണങ്ങൾ ഇംഗ്ലീഷിലാണ്, പക്ഷേ മികച്ച റഷ്യൻ സബ്ടൈറ്റിലുകൾ ഉണ്ട്.

നന്നായി" ഘടനാപരമായ ഡാറ്റയിൽ നിന്ന് പഠിക്കുക: പ്രോബബിലിസ്റ്റിക് ഗ്രാഫിക്കൽ മോഡലുകൾക്ക് ഒരു ആമുഖം"കമ്പ്യൂട്ടർ സയൻസ് ഫാക്കൽറ്റി, നാഷണൽ റിസർച്ച് യൂണിവേഴ്സിറ്റി ഹയർ സ്കൂൾ ഓഫ് ഇക്കണോമിക്സ്

ഇന്നത്തെ അത്തരം പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനുള്ള ഏറ്റവും ജനപ്രിയമായ ഒരു സമീപനത്തിൻ്റെ സിദ്ധാന്തത്തെയും പ്രയോഗങ്ങളെയും കുറിച്ചുള്ള ആഴത്തിലുള്ള ആമുഖത്തിലാണ് കോഴ്‌സ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത് - ഡിസ്‌ക്രീറ്റ് പ്രോബബിലിസ്റ്റിക് ഗ്രാഫിക് മോഡലുകൾ. കോഴ്‌സിൻ്റെ ഭാഷ ഇംഗ്ലീഷാണ്.

ചാനൽ സെന്‌ഡെക്സ്

ചാനൽ പൂർണ്ണമായും ഡാറ്റയുമായി പ്രവർത്തിക്കാൻ സമർപ്പിതമാണ്. മാത്രമല്ല, ഗണിതത്തിൽ താൽപ്പര്യമുള്ളവർ മാത്രമല്ല, തങ്ങൾക്ക് ഉപയോഗപ്രദമായ കാര്യങ്ങൾ കണ്ടെത്തും. റാസ്‌പെരി പൈ ഉപയോഗിച്ച് ഫിനാൻഷ്യൽ അനലിസ്റ്റുകൾക്കും റോബോട്ടിക്‌സിനും വേണ്ടിയുള്ള വിശകലനവും പ്രോഗ്രാമിംഗും സംബന്ധിച്ച വീഡിയോകൾ ഉണ്ട്.

സിറാജ് റാവൽ ചാനൽ

ആൾ സംസാരിക്കുന്നു ആധുനിക സാങ്കേതികവിദ്യകൾഅവരോടൊപ്പം എങ്ങനെ പ്രവർത്തിക്കാമെന്നും. ഡീപ് ലേണിംഗ്, ഡാറ്റ സയൻസ്, മെഷീൻ ലേണിംഗ് എന്നിവയിലെ കോഴ്‌സുകൾ ഡാറ്റ ഉപയോഗിച്ച് എങ്ങനെ പ്രവർത്തിക്കാമെന്ന് മനസിലാക്കാൻ നിങ്ങളെ സഹായിക്കും.

ഡാറ്റ സ്കൂൾ ചാനൽ

നിങ്ങൾ മെഷീൻ ലേണിംഗിനെക്കുറിച്ച് എന്തെങ്കിലും കേട്ടിട്ടുണ്ടെങ്കിലും ഇതിനകം താൽപ്പര്യമുണ്ടെങ്കിൽ, ഈ ചാനൽ നിങ്ങൾക്കുള്ളതാണ്. ഗ്രന്ഥകാരൻ മനസ്സിലാക്കാവുന്ന തലത്തിൽ, ഉദാഹരണങ്ങൾ സഹിതം വിശദീകരിക്കും, അത് എന്താണെന്നും അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു, എവിടെയാണ് ഉപയോഗിക്കുന്നത്.

എവിടെ പ്രാക്ടീസ് ചെയ്യണം

പ്രഭാഷണങ്ങൾ കണ്ട് പൂർണ്ണമായും സ്വതന്ത്രമായി പഠിക്കാൻ തയ്യാറാണെന്ന് ഉറപ്പില്ലാത്തവർക്കായി, സ്ഥിരീകരണത്തോടുകൂടിയ ടാസ്ക്കുകളുള്ള ഓൺലൈൻ കോഴ്സുകളുണ്ട്.

Coursera സംബന്ധിച്ച ഡാറ്റാ സയൻസ് കോഴ്സുകൾ

ഇത് ഏത് തരത്തിലുള്ള പ്ലാറ്റ്ഫോമാണെന്ന് വിശദീകരിക്കേണ്ടതില്ല. നിങ്ങൾ ഒരു കോഴ്സ് തിരഞ്ഞെടുത്ത് പഠിക്കാൻ തുടങ്ങണം.

Stepik.org

R ലെ ഡാറ്റ വിശകലനം

R ലെ സ്റ്റാറ്റിസ്റ്റിക്കൽ വിശകലനത്തിൻ്റെ എല്ലാ പ്രധാന ഘട്ടങ്ങളും ആദ്യ ഭാഗം ഉൾക്കൊള്ളുന്നു, ഡാറ്റ വായിക്കുക, ഡാറ്റ പ്രീപ്രോസസ്സ് ചെയ്യുക, അടിസ്ഥാന സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ പ്രയോഗിക്കുക, ഫലങ്ങൾ ദൃശ്യവൽക്കരിക്കുക. R ഭാഷയിൽ പ്രോഗ്രാമിംഗിൻ്റെ അടിസ്ഥാന ഘടകങ്ങൾ വിദ്യാർത്ഥികൾ പഠിക്കും, ഇത് ഡാറ്റ പ്രോസസ്സ് ചെയ്യുമ്പോൾ ഉണ്ടാകുന്ന നിരവധി പ്രശ്നങ്ങൾ വേഗത്തിലും കാര്യക്ഷമമായും പരിഹരിക്കാൻ അവരെ അനുവദിക്കും.

ആദ്യ ഭാഗത്തിൽ ഉൾപ്പെടുത്താത്ത നിരവധി വിപുലമായ വിഷയങ്ങൾ രണ്ടാം ഭാഗം ഉൾക്കൊള്ളുന്നു: data.table, dplyr പാക്കേജുകൾ ഉപയോഗിച്ചുള്ള ഡാറ്റ പ്രീപ്രോസസിംഗ്, വിപുലമായ വിഷ്വലൈസേഷൻ ടെക്നിക്കുകൾ, R Markdown-ൽ പ്രവർത്തിക്കുന്നു.

ഡാറ്റാബേസുകളിലേക്കുള്ള ആമുഖം

DBMS-ലേക്ക് ഡൈവ് ചെയ്യുക

റിലേഷണൽ ഡിബിഎംഎസിൽ കുറച്ച് പരിചയമുള്ളവർക്കും അവർ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ച് കൂടുതലറിയാൻ ആഗ്രഹിക്കുന്നവർക്കും വേണ്ടിയുള്ളതാണ് കോഴ്‌സ്. കോഴ്സ് ഉൾക്കൊള്ളുന്നു:

ഡാറ്റാബേസ് സ്കീമ ഡിസൈൻ;
ഇടപാട് മാനേജ്മെൻ്റ്;
അന്വേഷണ ഒപ്റ്റിമൈസേഷൻ;
റിലേഷണൽ DBMS-ൻ്റെ പുതിയ സവിശേഷതകൾ

ഹദൂപ്. വലിയ അളവിലുള്ള ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനുള്ള സിസ്റ്റം

ഹഡൂപ്പ് സിസ്റ്റം ഉപയോഗിച്ച് വലിയ അളവിലുള്ള ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്ന രീതികൾക്കായി കോഴ്‌സ് നീക്കിവച്ചിരിക്കുന്നു. കോഴ്‌സ് പൂർത്തിയാക്കിയ ശേഷം, വലിയ അളവിലുള്ള ഡാറ്റ സംഭരിക്കുന്നതിനും പ്രോസസ്സ് ചെയ്യുന്നതിനുമുള്ള അടിസ്ഥാന രീതികളെ കുറിച്ച് നിങ്ങൾക്ക് അറിവ് ലഭിക്കും, ഹഡൂപ്പ് ചട്ടക്കൂടിൻ്റെ പശ്ചാത്തലത്തിൽ വിതരണം ചെയ്ത സിസ്റ്റങ്ങളുടെ തത്വങ്ങൾ മനസിലാക്കുക, MapReduce പ്രോഗ്രാമിംഗ് മോഡൽ ഉപയോഗിച്ച് പ്രായോഗിക ആപ്ലിക്കേഷൻ ഡെവലപ്‌മെൻ്റ് വൈദഗ്ദ്ധ്യം നേടുക.

ഇന്ന് പല തൊഴിലുടമകളും ഡാറ്റ ശാസ്ത്രജ്ഞരെ സജീവമായി തിരയുന്നു. അതേ സമയം, ഉചിതമായ വിദ്യാഭ്യാസമുള്ള "ശാസ്ത്രജ്ഞരെ" ആകർഷിക്കാൻ അവർക്ക് താൽപ്പര്യമുണ്ട്. അതേ സമയം, മാർക്കറ്റ് നിറഞ്ഞിരിക്കുന്ന എല്ലാ തെറ്റായ വിവരങ്ങളും നിങ്ങൾ കണക്കിലെടുക്കേണ്ടതുണ്ട്. ഡാറ്റാ സയൻ്റിസ്റ്റുകളെയും ഡാറ്റാ സയൻ്റിസ്റ്റുകളെയും കുറിച്ചുള്ള ഏറ്റവും വലിയ തെറ്റിദ്ധാരണകളെക്കുറിച്ചും അവർക്ക് ഉണ്ടായിരിക്കേണ്ട കഴിവുകളെക്കുറിച്ചും ഈ അപൂർവ ഇനം യഥാർത്ഥത്തിൽ ആരാണെന്നും ഞങ്ങൾ നിങ്ങളോട് പറയും.

ഡാറ്റ സയൻസ്(ഡാറ്റ സയൻസ്) കമ്പ്യൂട്ടർ സയൻസിൻ്റെ ഒരു ശാഖയാണ്, അത് ഡിജിറ്റൽ രൂപത്തിൽ ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനും പ്രോസസ്സ് ചെയ്യുന്നതിനും അവതരിപ്പിക്കുന്നതിനുമുള്ള പ്രശ്നങ്ങൾ പഠിക്കുന്നു. ഡാറ്റാ സയൻസ് വലിയ അളവിലുള്ള ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനുള്ള രീതികളും സമാന്തരതയുടെ ഉയർന്ന തലങ്ങളും, സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ, ഡാറ്റ മൈനിംഗ് രീതികൾ, ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നതിനുള്ള ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് ആപ്ലിക്കേഷനുകൾ, ഡാറ്റാബേസുകൾ രൂപകൽപ്പന ചെയ്യുന്നതിനും വികസിപ്പിക്കുന്നതിനുമുള്ള രീതികൾ എന്നിവ സംയോജിപ്പിക്കുന്നു. ഒരു അക്കാദമിക് അച്ചടക്കമായി കണക്കാക്കുന്നു. 2010-കളുടെ തുടക്കം മുതൽ, ഇത് ഒരു പ്രായോഗിക ഇൻ്റർസെക്ടറൽ പ്രവർത്തന മേഖലയായി സ്ഥാപിച്ചു. 2010-കളുടെ തുടക്കം മുതൽ, "ഡാറ്റാ സയൻ്റിസ്റ്റ്" സ്പെഷ്യലൈസേഷൻ ഏറ്റവും ഉയർന്ന പ്രതിഫലം ലഭിക്കുന്നതും ആകർഷകവും വാഗ്ദാനപ്രദവുമായ തൊഴിലുകളിലൊന്നായി കണക്കാക്കപ്പെടുന്നു.

ഡാറ്റാ സയൻസ് തെറ്റിദ്ധാരണകൾ

1. വലിയ ഡാറ്റ എന്നത് സ്റ്റാറ്റിസ്റ്റിക്‌സും വലിയ അളവിലുള്ള ഡാറ്റയുള്ള ബിസിനസ് അനലിറ്റിക്‌സും ആണ്. ഇവിടെ പുതിയതായി ഒന്നുമില്ല

സോഫ്‌റ്റ്‌വെയർ വികസനത്തിൽ പരിമിതമായ അനുഭവപരിചയം ഉള്ളവരോ അല്ലെങ്കിൽ ഒരു അനുഭവത്തിലും ഭാരമില്ലാത്തവരോ ആണ് ഈ അഭിപ്രായം പ്രധാനമായും പുലർത്തുന്നത്. ഒരു സാമ്യം വേണോ? ദയവായി. നമുക്ക് ഐസ് ഉദാഹരണമായി എടുക്കാം. വളരെ തണുത്ത വെള്ളം എന്ന് വിളിക്കാം. ഇവിടെ എന്താണ് പുതിയത്? എന്നിരുന്നാലും, തണുപ്പിക്കുന്ന വെള്ളം അതിൻ്റെ താപനില മാറ്റുക മാത്രമല്ല, നിർണ്ണായകമായി അതിൻ്റെ ഗുണനിലവാര സവിശേഷതകളെ മാറ്റുകയും ദ്രാവകത്തെ ഖരരൂപത്തിലാക്കുകയും ചെയ്യുന്നു. വലിയ അളവിലുള്ള ഡാറ്റയുടെ കാര്യത്തിലും ഇതുതന്നെ പറയാം. വലിയ അളവിലുള്ള ഡാറ്റ ആത്യന്തികമായി കണക്കുകൂട്ടലുകൾ, കണക്കുകൂട്ടലുകൾ, കണക്കുകൂട്ടലുകൾ എന്നിവയുടെ പഴയ മാതൃകകളെ തകർക്കുന്നു. ഉപയോഗിക്കുന്നത് പരമ്പരാഗത രീതികൾബിസിനസ്സ് വിശകലന വിദഗ്ധരെ സംബന്ധിച്ചിടത്തോളം, ചില കണക്കുകൂട്ടലുകൾ നടത്താൻ വർഷങ്ങൾ എടുത്തേക്കാം. സമാന്തരവൽക്കരണവും വിതരണം ചെയ്ത കമ്പ്യൂട്ടിംഗും സ്കെയിലിംഗിനെക്കുറിച്ചുള്ള ചോദ്യത്തിനുള്ള വ്യക്തമായ ഉത്തരങ്ങളാണ്. എന്നാൽ ലോജിസ്റ്റിക് റിഗ്രഷൻ വിശകലനം പോലെ ലളിതമായ ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ ടൂൾ ഉപയോഗിച്ചും ഇത് എല്ലായ്പ്പോഴും അത്ര എളുപ്പമല്ല. ഡിസ്ട്രിബ്യൂട്ടഡ് സ്റ്റാറ്റിസ്റ്റിക്കൽ കമ്പ്യൂട്ടിംഗ് പരമ്പരാഗത ബിസിനസ്സ് അനലിറ്റിക്സിൽ നിന്ന് ഐസ് വെള്ളത്തിൽ നിന്ന് വ്യത്യസ്തമാണ്.

2. റീബ്രാൻഡിംഗിന് ശേഷം അതേ സോഫ്റ്റ്വെയർ എഞ്ചിനീയർമാരാണ് ഡാറ്റ ശാസ്ത്രജ്ഞർ

ചിലപ്പോൾ സോഫ്റ്റ്‌വെയർ വികസനത്തിൽ വിപുലമായ അനുഭവപരിചയമുള്ള എഞ്ചിനീയർമാർ വീണ്ടും പരിശീലനത്തിന് വിധേയരാകുകയും മെച്ചപ്പെടുത്തുന്നതിനായി ഡാറ്റാ സയൻ്റിസ്റ്റുകളാകുകയും ചെയ്യും കൂലി. എന്നിരുന്നാലും, ഈ രീതി പലപ്പോഴും തൃപ്തികരമല്ലാത്ത ഫലങ്ങളിലേക്ക് നയിക്കുന്നു. വാസ്തവത്തിൽ, വലിയ ഡാറ്റയുടെ മേഖലയിൽ, ഏറ്റവും ലളിതമായ തലത്തിൽ പോലും സ്ഥിതിവിവരക്കണക്കുകൾ ഡീബഗ്ഗിംഗ് ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള കാര്യമാണെന്ന് തോന്നുന്നു. സോഫ്‌റ്റ്‌വെയർ പിശകുകൾ കണ്ടെത്താനും പരിഹരിക്കാനും എഞ്ചിനീയർമാർക്ക് പരിശീലനം നൽകുന്നു. എന്നാൽ പ്രോബബിലിറ്റി സിദ്ധാന്തത്തെക്കുറിച്ചും സ്ഥിതിവിവരക്കണക്കുകളെക്കുറിച്ചും വ്യക്തമായ അറിവില്ലാതെ, ഒരു രസകരമായ പ്രോഗ്രാമർ പോലും ഒരു ലളിതമായ സ്റ്റാറ്റിസ്റ്റിക്കൽ പിശക് വിജയകരമായി ഇല്ലാതാക്കാൻ സാധ്യതയില്ല.

ഉയർന്ന തലത്തിലുള്ള എഞ്ചിനീയർമാർക്ക് ലളിതവും വ്യതിരിക്തവും നിയമാധിഷ്ഠിതവുമായ മോഡലുകൾ നിർമ്മിക്കാൻ കഴിയും. എന്നാൽ അത്തരം മോഡലുകൾ ഡാറ്റയിൽ നിന്ന് കൂടുതൽ സൂക്ഷ്മമായ സ്ഥിതിവിവരക്കണക്കുകൾ നേടുന്നതിന് അനുയോജ്യമല്ല. അതിനാൽ നഷ്ടമായ സാമ്പത്തിക നേട്ടം. അതിനാൽ, "വലിയ ഡാറ്റാ ചോദ്യങ്ങൾ"ക്കുള്ള ഉത്തരം ലഭിക്കുന്നതിന്, ഉയർന്ന യോഗ്യതയുള്ളതും ഉയർന്ന വൈദഗ്ധ്യമുള്ളതുമായ വ്യക്തികൾ ആവശ്യമാണ്, അത് അടുത്ത തലമുറയുടെ പ്രവചന മോഡലിംഗിൻ്റെ അടിത്തറയായിരിക്കും.

3. ഡാറ്റ ശാസ്ത്രജ്ഞർക്ക് ബിസിനസ്സ് മനസ്സിലാക്കേണ്ട ആവശ്യമില്ല - ഡാറ്റ അവരോട് എല്ലാം പറയും

ഒരു പ്രോഗ്രാമറായി വിദ്യാഭ്യാസവും പരിചയവുമുള്ള ആളുകൾ പലപ്പോഴും ഈ പ്രലോഭനത്തിന് കീഴടങ്ങുന്നു. ശരിക്കും, അവർക്ക് ഇത്ര ശക്തമായ അടിത്തറയുണ്ടെങ്കിൽ അവർ എന്തിനാണ് ബിസിനസ്സ് മനസ്സിലാക്കേണ്ടത്? ശക്തൻ, എന്നാൽ സർവ്വശക്തനല്ല. സാധ്യമായ എല്ലാ പരസ്പര ബന്ധങ്ങളും കണ്ടെത്തുന്നത് അവിശ്വസനീയമാംവിധം അധ്വാനവും സമയമെടുക്കുന്നതുമാണ്, സ്ഥിതിവിവരക്കണക്ക് പ്രശ്നമാണെന്ന് പറയേണ്ടതില്ല. തെറ്റായതും യഥാർത്ഥവുമായ പരസ്പര ബന്ധങ്ങളെ വിജയകരമായി വേർതിരിച്ചറിയാൻ ഡാറ്റ ശാസ്ത്രജ്ഞർ അവരുടെ ബിസിനസ്സ് അവബോധം ഉപയോഗിക്കേണ്ടതുണ്ട്. ഒരു പ്രത്യേക മേഖലയിൽ വിദഗ്ധ അറിവിൻ്റെ അഭാവം അടിസ്ഥാനരഹിതമായ നിഗമനങ്ങളിലേക്ക് നയിച്ചേക്കാം. നിങ്ങൾക്ക് ഇത് എങ്ങനെ ഇഷ്ടമാണ്? പോലീസ് ഉദ്യോഗസ്ഥരുടെ എണ്ണത്തിൽ വർദ്ധനവ് കുറ്റകൃത്യങ്ങളുടെ വർദ്ധനവിന് കാരണമാകുന്നു, അതിനർത്ഥം പ്രതികൂലമായ കുറ്റകൃത്യ സാഹചര്യമുള്ള പ്രദേശങ്ങളിൽ നിയമപാലകരുടെ എണ്ണം കുറയ്ക്കേണ്ടത് ആവശ്യമാണ്. അവസാനമായി, പ്രധാന പങ്കാളികളെ ബോധ്യപ്പെടുത്തുന്നതിന് ബിസിനസ്സ് അവബോധം ഉണ്ടായിരിക്കേണ്ടത് പ്രധാനമാണ്: ബിസിനസ്സ് ആളുകൾക്ക് മനസ്സിലാകുന്ന ഭാഷയിൽ പരസ്പര ബന്ധത്തെക്കുറിച്ച് സംസാരിക്കുന്നതിലൂടെ, ബിസിനസ്സ് മിടുക്ക് ഇല്ലാത്ത ഒരു സഹപ്രവർത്തകനെക്കാൾ ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞൻ കൂടുതൽ വിജയിക്കും.

ശരിയായ എഞ്ചിനീയറിംഗ്, സ്റ്റാറ്റിസ്റ്റിക്കൽ, ബിസിനസ്സ് കഴിവുകൾ എന്നിവ സമന്വയിപ്പിക്കുന്ന ഒരു ഒപ്റ്റിമൽ മോഡൽ എങ്ങനെ നിർമ്മിക്കാം എന്നതിനെക്കുറിച്ചുള്ള അറിവാണ് ബിഗ് ഡാറ്റയും ഡാറ്റാ സയൻസും. ഇതില്ലാതെ ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിനു താൻ ഉദ്ദേശിക്കുന്നതെല്ലാം നേടാനാവില്ല.

അപ്പോൾ ആരാണ് ഡാറ്റ ശാസ്ത്രജ്ഞർ?

ബിസിനസ്സിൻ്റെയും ഡാറ്റാ അനലിസ്റ്റുകളുടെയും പരിണാമത്തിൻ്റെ ഒരു ഉൽപ്പന്നമാണ് ഡാറ്റ ശാസ്ത്രജ്ഞർ. അത്തരം വിദഗ്ധർക്കുള്ള ഔപചാരിക പരിശീലനത്തിൽ കമ്പ്യൂട്ടർ സയൻസ്, സ്റ്റാറ്റിസ്റ്റിക്സ്, അനലിറ്റിക്സ്, മാത്തമാറ്റിക്സ് എന്നിവ ഉൾപ്പെടുന്നു. എന്താണ് ഒരു മികച്ച ഡാറ്റ ശാസ്ത്രജ്ഞനെ ഉണ്ടാക്കുന്നത്? കമ്പനിയുടെ വളർച്ചയെ സ്വാധീനിക്കാൻ സഹായിക്കുന്ന രീതിയിൽ ബിസിനസ്സുമായും ഐടി മേധാവികളുമായും ആശയവിനിമയം നടത്താനുള്ള കഴിവിനൊപ്പം ശക്തമായ ബിസിനസ്സ് മിടുക്കും കൂടിച്ചേർന്നതാണ്. ഡാറ്റാ സയൻ്റിസ്റ്റുകൾ "പാർട്ട് അനലിസ്റ്റും പാർട്ട് ആർട്ടിസ്റ്റുമാണ്" എന്ന് ഐബിഎമ്മിലെ ബിഗ് ഡാറ്റ വൈസ് പ്രസിഡൻ്റ് അഞ്ജുൽ ബംബ്ര പറയുന്നു. ഡാറ്റ നോക്കാനും ട്രെൻഡുകൾ കണ്ടെത്താനും കഴിയുന്ന വളരെ ജിജ്ഞാസയുള്ള ആളുകളാണ് ഇവർ. പഠിക്കാൻ മാത്രമല്ല, ചുറ്റുമുള്ള ലോകത്തെ മാറ്റാനും ആഗ്രഹിച്ച നവോത്ഥാനത്തിലെ കലാകാരന്മാരുമായി അവരെ താരതമ്യം ചെയ്യാം.

ഒരു പരമ്പരാഗത അനലിസ്റ്റ് ഒരൊറ്റ ഉറവിടത്തിൽ നിന്നുള്ള ഡാറ്റ വിശകലനം ചെയ്യുമ്പോൾ (ഉദാ. CRM സിസ്റ്റങ്ങൾ), ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് നിർബന്ധമായും വിവിധ ഉറവിടങ്ങളിൽ നിന്നുള്ള ഡാറ്റ പഠിക്കുന്നു. നൽകാനാകുന്ന മുമ്പ് മറഞ്ഞിരിക്കുന്ന സ്ഥിതിവിവരക്കണക്കുകൾ കണ്ടെത്തുന്നതിന് ഇത് ഇൻകമിംഗ് ഡാറ്റയിലൂടെ ആക്രമണാത്മകമായി പരിശോധിക്കും. മത്സര നേട്ടം. ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് ഡാറ്റ ശേഖരിക്കുകയും വിശകലനം ചെയ്യുകയും ചെയ്യുക മാത്രമല്ല, അത് വ്യത്യസ്ത കോണുകളിൽ നിന്ന് നോക്കുകയും വ്യത്യസ്ത സന്ദർഭങ്ങളിൽ വിശകലനം ചെയ്യുകയും ഒരു ബ്രാൻഡിനായി ഈ അല്ലെങ്കിൽ ആ ഡാറ്റ എന്താണ് അർത്ഥമാക്കുന്നത് എന്ന് നിർണ്ണയിക്കുകയും തുടർന്ന് ലഭ്യമായ വിവരങ്ങൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് ശുപാർശകൾ നൽകുകയും ചെയ്യുന്നു.

ഡാറ്റ ശാസ്ത്രജ്ഞർ നിരന്തരം ഗവേഷണം ചെയ്യുന്ന, ദശലക്ഷക്കണക്കിന് ചോദ്യങ്ങൾ ചോദിക്കുന്ന, "എന്ത് ചെയ്താൽ..." വിശകലനം ചെയ്യുന്ന, നിലവിലുള്ള അനുമാനങ്ങളെയും പ്രക്രിയകളെയും ചോദ്യം ചെയ്യുന്ന, സമ്പന്നമായ ഡാറ്റ ഉറവിടങ്ങൾ തിരിച്ചറിയുകയും മോശം ഡാറ്റാ സെറ്റുകളിലേക്ക് അവയെ ബന്ധിപ്പിക്കുകയും ചെയ്യുന്ന ആളുകളാണ്. മാറ്റം, ഡാറ്റയുടെ ദ്രുതഗതിയിലുള്ള ഒഴുക്ക് ഒരിക്കലും അവസാനിക്കുന്നില്ല, ഡാറ്റ ശാസ്ത്രജ്ഞർ മാനേജ്മെൻ്റിനെ സഹായിക്കുന്നു തീരുമാനങ്ങൾ. ഇത് അവരുടെ ഏറ്റവും മൂല്യവത്തായ ഗുണമാണ്.

എന്തുകൊണ്ട് "ശാസ്ത്രജ്ഞർ"?

ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിനെ "ഡാറ്റാ സയൻ്റിസ്റ്റ്" എന്ന് വിളിക്കുന്നത് വളരെ ഭാവനയാണെന്ന് പലരും വാദിക്കുന്നു. എന്നിരുന്നാലും, നിങ്ങൾ റൂട്ട് നോക്കാൻ ശ്രമിക്കുകയാണെങ്കിൽ, ഈ ഫോർമുലേഷൻ അർത്ഥവത്താണ്. ഉദാഹരണത്തിന്, പരീക്ഷണാത്മക ഭൗതികശാസ്ത്രജ്ഞർ അവരുടെ സ്വന്തം ഉപകരണങ്ങൾ രൂപകൽപ്പന ചെയ്യുകയും നിർമ്മിക്കുകയും വേണം, ഡാറ്റ ശേഖരിക്കുകയും പരീക്ഷണങ്ങൾ നടത്തുകയും റിപ്പോർട്ടുകളിലെ എല്ലാ കണ്ടെത്തലുകളും സംഗ്രഹിക്കുകയും വേണം. ഡാറ്റ ശാസ്ത്രജ്ഞരും അതുതന്നെ ചെയ്യുന്നു. അതിനാൽ, ഏറ്റവും ഉയർന്ന യോഗ്യതയുള്ള ഡാറ്റാ സയൻ്റിസ്റ്റുകൾ ഭൗതികശാസ്ത്രത്തിലോ സാമൂഹിക ശാസ്ത്രത്തിലോ ഉന്നത ബിരുദമുള്ള ആളുകളായി കണക്കാക്കപ്പെടുന്നു.

ഇക്കോളജി, സിസ്റ്റംസ് ബയോളജി തുടങ്ങിയ നിഗൂഢ മേഖലകളിൽ പിഎച്ച്‌ഡിയുള്ള ശാസ്ത്രജ്ഞരാണ് ഈ ഗ്രഹത്തിലെ ഏറ്റവും മികച്ച ഡാറ്റാ ശാസ്ത്രജ്ഞർ. ശ്രദ്ധേയമായ ഒരു ഉദാഹരണം- സിലിക്കൺ വാലിയിലെ ഇൻട്യൂറ്റിൽ ഡാറ്റാ സയൻ്റിസ്റ്റുകളുടെ ഒരു ടീമിനെ നയിക്കുന്ന ജോർജ്ജ് റൂമെലിയോട്ടിസ്. ജ്യോതിശാസ്ത്രത്തിൽ പിഎച്ച്ഡി നേടി. പല ഡാറ്റാ ശാസ്ത്രജ്ഞരും ഉടമകളാണ് അക്കാദമിക് ബിരുദങ്ങൾകമ്പ്യൂട്ടർ സയൻസ്, മാത്തമാറ്റിക്സ്, ഇക്കണോമിക്സ് എന്നിവയിൽ. പക്ഷേ, അങ്ങനെയാകട്ടെ, നല്ല സ്പെഷ്യലിസ്റ്റ്, ഡാറ്റ വിശകലനത്തിൽ സ്പെഷ്യലൈസ് ചെയ്യുന്നത്, ഏത് ഫീൽഡിൽ നിന്നും വരാം.

ഒരു ഡാറ്റാ ശാസ്ത്രജ്ഞന് ഇല്ലാതെ ചെയ്യാൻ കഴിയാത്ത അടിസ്ഥാന കഴിവുകൾ

അടിസ്ഥാന ഉപകരണങ്ങൾ. കമ്പനിയുടെ ദൗത്യം പരിഗണിക്കാതെ തന്നെ, അടിസ്ഥാന ഉപകരണങ്ങൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് അറിഞ്ഞിരിക്കണം: സ്റ്റാറ്റിസ്റ്റിക്കൽ ഡാറ്റ പ്രോസസ്സിംഗിനും ഗ്രാഫിക്‌സിനും വേണ്ടിയുള്ള R പ്രോഗ്രാമിംഗ് ഭാഷ, ഡെവലപ്പർ ഉൽപ്പാദനക്ഷമതയും കോഡ് റീഡബിലിറ്റിയും മെച്ചപ്പെടുത്താൻ ലക്ഷ്യമിട്ടുള്ള ഉയർന്ന തലത്തിലുള്ള പൈത്തൺ പ്രോഗ്രാമിംഗ് ഭാഷ, ഘടനാപരമായ അന്വേഷണ ഭാഷ. SQL, ഒരു അനിയന്ത്രിതമായ റിലേഷണൽ ഡാറ്റാബേസിൽ ഡാറ്റ സൃഷ്ടിക്കുന്നതിനും പരിഷ്കരിക്കുന്നതിനും കൈകാര്യം ചെയ്യുന്നതിനും ഉപയോഗിക്കുന്നു.

അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ. ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിനെ സംബന്ധിച്ചിടത്തോളം സ്ഥിതിവിവരക്കണക്കുകൾ മനസ്സിലാക്കുന്നത് അത്യന്താപേക്ഷിതമാണ്. പല വിദഗ്ധർക്കും P- മൂല്യം പോലും നിർണ്ണയിക്കാൻ കഴിയുന്നില്ല എന്നത് രഹസ്യമല്ല - പരിശോധനയിൽ ഉപയോഗിക്കുന്ന മൂല്യം സ്റ്റാറ്റിസ്റ്റിക്കൽ അനുമാനങ്ങൾ. ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് സ്റ്റാറ്റിസ്റ്റിക്കൽ ടെസ്റ്റുകൾ, വിതരണങ്ങൾ, പരമാവധി സാധ്യത കണക്കാക്കൽ തുടങ്ങിയവയുമായി പരിചിതനായിരിക്കണം. സ്ഥിതിവിവരക്കണക്കുകൾ പ്രധാനമാണ് വ്യത്യസ്ത മേഖലകൾബിസിനസ്സ്, പ്രത്യേകിച്ച് ഡാറ്റാധിഷ്ഠിത കമ്പനികൾക്ക്

യന്ത്ര പഠനം. വലിയ അളവിലുള്ള ഡാറ്റയുള്ള ഒരു വലിയ കമ്പനിയിലാണ് ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് ജോലി ചെയ്യുന്നതെങ്കിൽ, അയാൾക്ക് മെഷീൻ ലേണിംഗ് രീതികൾ പരിചിതമായിരിക്കണം. തീർച്ചയായും, ഈ രീതികളിൽ പലതും R അല്ലെങ്കിൽ പൈത്തൺ ലൈബ്രറികൾ ഉപയോഗിച്ച് നടപ്പിലാക്കാൻ കഴിയും, അതിനാൽ അൽഗോരിതങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് മനസിലാക്കാൻ നിങ്ങൾ ഒരു ലോകത്തെ പ്രമുഖ വിദഗ്ദ്ധനാകേണ്ടതില്ല. ചില രീതികളുടെ ഉപയോഗം എപ്പോഴാണ് ഏറ്റവും അനുയോജ്യമെന്ന് മനസ്സിലാക്കേണ്ടത് വളരെ പ്രധാനമാണ്.

മൾട്ടിവാരിയറ്റ് കണക്കുകൂട്ടലുകളും രേഖീയ ബീജഗണിതവും. ഈ വിഷയങ്ങൾ നിരവധി മെഷീൻ ലേണിംഗ് രീതികളുടെ അടിസ്ഥാനമാണ്.

വിശകലനത്തിനായി ഡാറ്റ തയ്യാറാക്കുന്നു. പലപ്പോഴും വിശകലനം ചെയ്ത ഡാറ്റ തികച്ചും "വൃത്തികെട്ടതാണ്", അത് ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നത് കൂടുതൽ ബുദ്ധിമുട്ടാണ്. അതിനാൽ, ഡാറ്റയുടെ എല്ലാ കുറവുകളും എങ്ങനെ കൈകാര്യം ചെയ്യണമെന്ന് അറിയേണ്ടത് വളരെ പ്രധാനമാണ്. "ന്യൂയോർക്ക്" - "ന്യൂയോർക്ക്" - "ny", അല്ലെങ്കിൽ "2014-01-01" - "01/01/2014" എന്നീ തീയതികൾ പോലെയുള്ള സ്ട്രിംഗുകളുടെ പൊരുത്തമില്ലാത്ത ഫോർമാറ്റിംഗ് ആണ് അപൂർണ്ണമായ ഡാറ്റയുടെ ഉദാഹരണം. UNIX സിസ്റ്റം സമയവും ക്രമവും ടൈംസ്റ്റാമ്പ്.

ഡാറ്റ ദൃശ്യവൽക്കരണവും ആശയവിനിമയവും. ഇത് അവിശ്വസനീയമാണ് പ്രധാനപ്പെട്ട പോയിൻ്റുകൾ, പ്രത്യേകിച്ചും നമ്മൾ യുവ ഡാറ്റാധിഷ്ഠിത കമ്പനികളെക്കുറിച്ചോ അല്ലെങ്കിൽ ഡാറ്റാധിഷ്ഠിത തീരുമാനങ്ങൾ എടുക്കാൻ സഹായിക്കുന്ന ആളുകളായി ഡാറ്റ ശാസ്ത്രജ്ഞരെ കണക്കാക്കുന്ന കമ്പനികളെക്കുറിച്ചോ സംസാരിക്കുമ്പോൾ. ggplot (R ഭാഷയുടെ ഒരു വിപുലീകരണം), D3.js ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനും ദൃശ്യവൽക്കരിക്കുന്നതിനുമുള്ള JavaScript ലൈബ്രറി എന്നിവയെ കുറിച്ചുള്ള അറിവ് വളരെ ഉപയോഗപ്രദമാകും.

പ്രോഗ്രാമിംഗ്. വലിയ അളവിലുള്ള രജിസ്ട്രേഷൻ ഡാറ്റയും ഡാറ്റാധിഷ്ഠിത ഉൽപ്പന്നങ്ങളും കൈകാര്യം ചെയ്യുന്നതിന് സാധാരണയായി ഡാറ്റ ശാസ്ത്രജ്ഞർ ഉത്തരവാദികളാണ്.

ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞനെപ്പോലെ ചിന്തിക്കുക. ഒരു തൊഴിലുടമ എപ്പോഴും ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിനെ ഒരു പ്രശ്നപരിഹാരകനായി കാണാൻ ആഗ്രഹിക്കുന്നു. "ശാസ്ത്രജ്ഞൻ" ഈ ഘട്ടത്തിൽ പ്രധാനപ്പെട്ടതും പ്രത്യേക മൂല്യമില്ലാത്തതും എപ്പോഴും അറിഞ്ഞിരിക്കണം. ഉൽപ്പന്ന വികസനത്തിന് ഉത്തരവാദികളായ ഡിസൈനർമാരുമായും മാനേജർമാരുമായും അദ്ദേഹം ആശയവിനിമയം നടത്തേണ്ടതുണ്ട്.

ഇരുപത്തിയൊന്നാം നൂറ്റാണ്ടിലെ ഏറ്റവും സെക്‌സി പ്രൊഫഷനാണ് ഡാറ്റാ സയൻ്റിസ്റ്റെന്ന് ഹാർവാർഡ് ബിസിനസ് റിവ്യൂ അവകാശപ്പെടുന്നു. കൂടാതെ ഇതിനോട് വിയോജിക്കാൻ പ്രയാസമാണ്. ഡാറ്റ സയൻസ് ഇപ്പോൾ വികസിച്ചുകൊണ്ടിരിക്കുന്നു, എല്ലാ ആധുനിക ഡാറ്റ ശാസ്ത്രജ്ഞരെയും സുരക്ഷിതമായി പയനിയർമാർ എന്ന് വിളിക്കാം. സ്റ്റാറ്റിസ്റ്റിഷ്യൻമാരിൽ ഏറ്റവും മികച്ച ഐടി സ്പെഷ്യലിസ്റ്റും ഐടി സ്പെഷ്യലിസ്റ്റുകളിൽ ഏറ്റവും മികച്ച സ്റ്റാറ്റിസ്റ്റിഷ്യനും നിങ്ങളാണെന്ന് നിങ്ങൾക്ക് പറയാൻ കഴിയുമെങ്കിൽ, നിങ്ങൾ ഒരു യഥാർത്ഥ ഡാറ്റ ശാസ്ത്രജ്ഞനാണ്.

ഈ ലേഖനം തയ്യാറാക്കാൻ ഉപയോഗിക്കുന്ന വസ്തുക്കൾ

ഡാറ്റാ സയൻ്റിസ്റ്റ്- "ബിഗ് ഡാറ്റ" എന്ന് വിളിക്കപ്പെടുന്ന വലിയ അളവിലുള്ള ഡാറ്റയുടെ പ്രോസസ്സിംഗ്, വിശകലനം, സംഭരണം എന്നിവയിൽ സ്പെഷ്യലിസ്റ്റ്. ഫിസിക്സ്, മാത്തമാറ്റിക്സ്, കമ്പ്യൂട്ടർ സയൻസ് എന്നിവയിൽ താൽപ്പര്യമുള്ളവർക്ക് ഈ തൊഴിൽ അനുയോജ്യമാണ് (സ്കൂൾ വിഷയങ്ങളിലുള്ള താൽപ്പര്യത്തെ അടിസ്ഥാനമാക്കി ഒരു തൊഴിൽ തിരഞ്ഞെടുക്കുന്നത് കാണുക).

ഡാറ്റ സയൻസ് - വിവിധ വിഭാഗങ്ങളുടെ കവലയിൽ ഡാറ്റ സയൻസ്: ഗണിതവും സ്ഥിതിവിവരക്കണക്കുകളും; ഇൻഫോർമാറ്റിക്സും കമ്പ്യൂട്ടർ സയൻസും; ബിസിനസ്സും സാമ്പത്തികശാസ്ത്രവും.

(എസ്. മാൽറ്റ്സേവ, വി. കോർണിലോവ് നാഷണൽ റിസർച്ച് യൂണിവേഴ്സിറ്റി "ഹയർ സ്കൂൾ ഓഫ് ഇക്കണോമിക്സ്")

തൊഴിൽ പുതിയതും പ്രസക്തവും... "ബിഗ് ഡാറ്റ" എന്ന പദം തന്നെ 2008 ൽ പ്രത്യക്ഷപ്പെട്ടു. ഡാറ്റാ സയൻ്റിസ്റ്റിൻ്റെ തൊഴിൽ - "ഡാറ്റ സയൻ്റിസ്റ്റ്" 2010 ൻ്റെ തുടക്കത്തിൽ ഒരു അക്കാദമിക്, ഇൻ്റർ ഡിസിപ്ലിനറി വിഭാഗമായി ഔദ്യോഗികമായി രജിസ്റ്റർ ചെയ്യപ്പെട്ടു. "ഡാറ്റ സയൻസ്" എന്ന പദത്തിൻ്റെ ആദ്യ പരാമർശം 1974-ൽ പീറ്റർ നൗറിൻ്റെ പുസ്തകത്തിൽ രേഖപ്പെടുത്തിയിട്ടുണ്ടെങ്കിലും, മറ്റൊന്നിൽ സന്ദർഭം.

അൾട്രാ ബിഗ് ഡാറ്റയുടെ കാര്യത്തിൽ, ഡാറ്റ അറേകൾ ഗണിതശാസ്ത്ര സ്ഥിതിവിവരക്കണക്കുകളുടെ സ്റ്റാൻഡേർഡ് മാർഗങ്ങളിലൂടെ പ്രോസസ്സ് ചെയ്യാൻ കഴിയാത്തത്ര വലുതായി മാറുന്നു എന്ന വസ്തുതയാണ് അത്തരമൊരു തൊഴിലിൻ്റെ ആവിർഭാവത്തിൻ്റെ ആവശ്യകത നിർണ്ണയിക്കുന്നത്. ലോകമെമ്പാടുമുള്ള കമ്പനികളുടെ സെർവറിലൂടെ ഓരോ ദിവസവും ആയിരക്കണക്കിന് പെറ്റാബൈറ്റുകൾ (10 15 ബൈറ്റുകൾ = 1024 ടെറാബൈറ്റ്) വിവരങ്ങൾ കടന്നുപോകുന്നു. ഡാറ്റയുടെ അത്തരം വോള്യങ്ങൾക്ക് പുറമേ, പ്രശ്നം അവയുടെ വൈവിധ്യവും സങ്കീർണ്ണവുമാണ് ഉയർന്ന വേഗതഅപ്ഡേറ്റുകൾ.

ഡാറ്റ അറേകളെ 3 തരങ്ങളായി തിരിച്ചിരിക്കുന്നു:

ഘടനാപരമായ (ഉദാഹരണത്തിന്, വ്യാപാരത്തിലെ ക്യാഷ് രജിസ്റ്ററുകളിൽ നിന്നുള്ള ഡാറ്റ);

സെമി-സ്ട്രക്ചർഡ് (ഇ-മെയിൽ സന്ദേശങ്ങൾ);

ഘടനയില്ലാത്തത് (വീഡിയോ ഫയലുകൾ, ചിത്രങ്ങൾ, ഫോട്ടോഗ്രാഫുകൾ).

മിക്ക ബിഗ് ഡാറ്റയും ഘടനയില്ലാത്തതാണ്, ഇത് പ്രോസസ്സിംഗ് കൂടുതൽ ബുദ്ധിമുട്ടാക്കുന്നു.

വ്യക്തിഗതമായി, ഒരു സ്റ്റാറ്റിസ്റ്റിഷ്യൻ, സിസ്റ്റം അനലിസ്റ്റ് അല്ലെങ്കിൽ ബിസിനസ് അനലിസ്റ്റ് എന്നിവർക്ക് അത്തരം ഡാറ്റയുടെ അളവിലുള്ള പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ കഴിയില്ല. ഇതിന് ഇൻ്റർ ഡിസിപ്ലിനറി വിദ്യാഭ്യാസമുള്ള, ഗണിതത്തിലും സ്ഥിതിവിവരക്കണക്കിലും, സാമ്പത്തിക ശാസ്ത്രത്തിലും ബിസിനസ്സിലും, കമ്പ്യൂട്ടർ സയൻസിലും കമ്പ്യൂട്ടർ സാങ്കേതികവിദ്യയിലും കഴിവുള്ള ഒരു വ്യക്തി ആവശ്യമാണ്.

ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിൻ്റെ പ്രധാന ദൌത്യം, തത്സമയം വിവര പ്രവാഹങ്ങൾ ഉപയോഗിച്ച്, വിവിധ സ്രോതസ്സുകളിൽ നിന്ന് ആവശ്യമായ വിവരങ്ങൾ വേർതിരിച്ചെടുക്കാനുള്ള കഴിവാണ്; ഡാറ്റാ സെറ്റുകളിലെ മറഞ്ഞിരിക്കുന്ന പാറ്റേണുകൾ തിരിച്ചറിയുക, മികച്ച ബിസിനസ്സ് തീരുമാനങ്ങൾ എടുക്കുന്നതിന് അവയെ സ്ഥിതിവിവരക്കണക്ക് വിശകലനം ചെയ്യുക. അത്തരമൊരു സ്പെഷ്യലിസ്റ്റിൻ്റെ ജോലിസ്ഥലം 1 കമ്പ്യൂട്ടറോ 1 സെർവറോ അല്ല, മറിച്ച് സെർവറുകളുടെ ഒരു കൂട്ടമാണ്.

തൊഴിലിൻ്റെ സവിശേഷതകൾ

ഡാറ്റയുമായി പ്രവർത്തിക്കുമ്പോൾ, ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് വിവിധ രീതികൾ ഉപയോഗിക്കുന്നു:

സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ;
ഡാറ്റാബേസ് മോഡലിംഗ്;
ഖനന രീതികൾ;
ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നതിനുള്ള ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് ആപ്ലിക്കേഷനുകൾ;
ഡാറ്റാബേസ് രൂപകൽപ്പനയും വികസന രീതികളും.

ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞൻ്റെ ജോലി ഉത്തരവാദിത്തങ്ങൾ അവൻ്റെ പ്രവർത്തന മേഖലയെ ആശ്രയിച്ചിരിക്കുന്നു, പക്ഷേ പൊതു പട്ടികപ്രവർത്തനങ്ങൾ ഇതുപോലെ കാണപ്പെടുന്നു:

തുടർന്നുള്ള പ്രവർത്തന പ്രോസസ്സിംഗിനായി വിവിധ ഉറവിടങ്ങളിൽ നിന്നുള്ള ഡാറ്റ ശേഖരണം;
ഉപഭോക്തൃ പെരുമാറ്റത്തിൻ്റെ വിശകലനം;
ഉപഭോക്തൃ അടിസ്ഥാന മോഡലിംഗും ഉൽപ്പന്ന വ്യക്തിഗതമാക്കലും;
കാര്യക്ഷമത വിശകലനം ആന്തരിക പ്രക്രിയകൾഅടിസ്ഥാനങ്ങൾ;
വിവിധ അപകടസാധ്യതകളുടെ വിശകലനം;
സംശയാസ്പദമായ ഇടപാടുകൾ പഠിച്ചുകൊണ്ട് സാധ്യമായ വഞ്ചന തിരിച്ചറിയൽ;
പ്രവചനങ്ങളും ഡാറ്റാ അവതരണവും ഉപയോഗിച്ച് ആനുകാലിക റിപ്പോർട്ടുകൾ തയ്യാറാക്കുന്നു.

ഒരു യഥാർത്ഥ ശാസ്ത്രജ്ഞനെപ്പോലെ, ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞൻ, ഡാറ്റ ശേഖരിക്കുകയും വിശകലനം ചെയ്യുകയും മാത്രമല്ല, വ്യത്യസ്ത സന്ദർഭങ്ങളിലും വ്യത്യസ്ത കോണുകളിൽ നിന്നും അതിനെ പഠിക്കുകയും ഏതെങ്കിലും അനുമാനങ്ങളെ ചോദ്യം ചെയ്യുകയും ചെയ്യുന്നു. ഏറ്റവും പ്രധാനപ്പെട്ട ഗുണമേന്മശേഖരിച്ച വിവരങ്ങളുടെ സിസ്റ്റത്തിൽ ലോജിക്കൽ കണക്ഷനുകൾ കാണാനുള്ള കഴിവാണ് ഡാറ്റ സയൻ്റിസ്റ്റ് അളവ് വിശകലനംഫലപ്രദമായ ബിസിനസ്സ് പരിഹാരങ്ങൾ വികസിപ്പിക്കുക. ഇന്നത്തെ മത്സരാധിഷ്ഠിതവും അതിവേഗം മാറിക്കൊണ്ടിരിക്കുന്നതുമായ ലോകത്ത്, വിവരങ്ങളുടെ അനുദിനം വളരുന്ന പ്രവാഹത്തിൽ, ശരിയായ ബിസിനസ്സ് തീരുമാനങ്ങൾ എടുക്കുന്നതിൽ മാനേജ്മെൻ്റിന് ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് ഒഴിച്ചുകൂടാനാവാത്തതാണ്.

തൊഴിലിൻ്റെ ഗുണവും ദോഷവും

പ്രോസ്

ഈ തൊഴിലിന് ആവശ്യക്കാർ മാത്രമല്ല, ഈ തലത്തിലുള്ള സ്പെഷ്യലിസ്റ്റുകളുടെ കടുത്ത ക്ഷാമവുമുണ്ട്. മക്കിൻസി ഗ്ലോബൽ ഇൻസ്റ്റിറ്റ്യൂട്ടിൻ്റെ കണക്കനുസരിച്ച്, 2018 ആകുമ്പോഴേക്കും യുണൈറ്റഡ് സ്റ്റേറ്റ്സിൽ മാത്രം 190 ആയിരത്തിലധികം ഡാറ്റാ സയൻ്റിസ്റ്റുകൾ ആവശ്യമായി വരും. അതുകൊണ്ടാണ് ഡാറ്റാ സയൻ്റിസ്റ്റുകളെ പരിശീലിപ്പിക്കുന്നതിനുള്ള ഏറ്റവും പ്രശസ്തമായ സർവ്വകലാശാലകളിലെ ഫാക്കൽറ്റികൾ വളരെ വേഗത്തിലും വ്യാപകമായും ധനസഹായം നൽകുകയും വികസിപ്പിക്കുകയും ചെയ്യുന്നത്. റഷ്യയിലും ഡാറ്റാ സയൻ്റിസ്റ്റുകളുടെ ആവശ്യം വർദ്ധിച്ചുകൊണ്ടിരിക്കുകയാണ്.
ഉയർന്ന ശമ്പളമുള്ള തൊഴിൽ.
നിരന്തരം വികസിപ്പിക്കേണ്ടതിൻ്റെ ആവശ്യകത, ഐടി സാങ്കേതികവിദ്യകളുടെ വികസനം നിലനിർത്തുക, ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും സംഭരിക്കുന്നതിനുമുള്ള പുതിയ രീതികൾ സൃഷ്ടിക്കുക.

കുറവുകൾ

ഓരോ വ്യക്തിക്കും ഈ തൊഴിൽ വൈദഗ്ദ്ധ്യം നേടാനാവില്ല; അതിന് ഒരു പ്രത്യേക മാനസികാവസ്ഥ ആവശ്യമാണ്.
ജോലിയുടെ പ്രക്രിയയിൽ, അറിയപ്പെടുന്ന രീതികളും 60% ത്തിലധികം ആശയങ്ങളും പ്രവർത്തിച്ചേക്കില്ല. പല പരിഹാരങ്ങളും പരാജയപ്പെടും, തൃപ്തികരമായ ഫലങ്ങൾ ലഭിക്കുന്നതിന് നിങ്ങൾക്ക് വളരെയധികം ക്ഷമ ആവശ്യമാണ്. ഒരു ശാസ്ത്രജ്ഞന് പറയാൻ അവകാശമില്ല: "ഇല്ല!" പ്രശ്നം. പ്രശ്നം പരിഹരിക്കാൻ സഹായിക്കുന്ന ഒരു വഴി അവൻ കണ്ടെത്തണം.

ജോലി സ്ഥലം

ഡാറ്റ ശാസ്ത്രജ്ഞർ പ്രധാന സ്ഥാനങ്ങൾ വഹിക്കുന്നു:

സാങ്കേതിക വ്യവസായങ്ങൾ (കാർ നാവിഗേഷൻ സംവിധാനങ്ങൾ, മയക്കുമരുന്ന് ഉത്പാദനം മുതലായവ);
ഐടി സ്ഫിയർ (സെർച്ച് എഞ്ചിൻ ഒപ്റ്റിമൈസേഷൻ, സ്പാം ഫിൽട്ടർ, ന്യൂസ് സിസ്റ്റമാറ്റൈസേഷൻ, ഓട്ടോമാറ്റിക് ടെക്സ്റ്റ് വിവർത്തനങ്ങൾ എന്നിവയും അതിലേറെയും);
മരുന്ന് (രോഗങ്ങളുടെ യാന്ത്രിക രോഗനിർണയം);
സാമ്പത്തിക ഘടനകൾ (വായ്പ നൽകുന്നതിൽ തീരുമാനങ്ങൾ എടുക്കൽ) മുതലായവ;
ടെലിവിഷൻ കമ്പനികൾ;
വലിയ ചില്ലറ ശൃംഖലകൾ;
തിരഞ്ഞെടുപ്പ് പ്രചാരണങ്ങൾ.

പ്രധാനപ്പെട്ട ഗുണങ്ങൾ

വിശകലന മനസ്സ്;
കഠിനാദ്ധ്വാനം;
സ്ഥിരോത്സാഹം;
സൂക്ഷ്മത, കൃത്യത, ശ്രദ്ധ;
പരാജയപ്പെട്ട ഇൻ്റർമീഡിയറ്റ് ഫലങ്ങൾ ഉണ്ടായിരുന്നിട്ടും ഗവേഷണം പൂർത്തിയാക്കാനുള്ള കഴിവ്;
ആശയവിനിമയ കഴിവുകൾ;
സങ്കീർണ്ണമായ കാര്യങ്ങൾ ലളിതമായ വാക്കുകളിൽ വിശദീകരിക്കാനുള്ള കഴിവ്;
ബിസിനസ്സ് അവബോധം.

പ്രൊഫഷണൽ അറിവും കഴിവുകളും:

ഗണിതശാസ്ത്രത്തിൻ്റെ അറിവ്, ഗണിതശാസ്ത്ര വിശകലനം, ഗണിതശാസ്ത്ര സ്ഥിതിവിവരക്കണക്കുകൾ, പ്രോബബിലിറ്റി സിദ്ധാന്തം;
ഇംഗ്ലീഷ് പരിജ്ഞാനം;
വലിയ ഡാറ്റാ സെറ്റുകളിൽ പ്രവർത്തിക്കുന്നതിനുള്ള ഘടകങ്ങളുള്ള പ്രധാന പ്രോഗ്രാമിംഗ് ഭാഷകളെക്കുറിച്ചുള്ള അറിവ്: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
സ്റ്റാറ്റിസ്റ്റിക്കൽ ടൂളുകളെക്കുറിച്ചുള്ള അറിവ് - SPSS, R, MATLAB, SAS ഡാറ്റ മൈനർ, ടേബിൾ;
ഡാറ്റ ശാസ്ത്രജ്ഞൻ പ്രവർത്തിക്കുന്ന വ്യവസായത്തെക്കുറിച്ചുള്ള സമഗ്രമായ അറിവ്; ഇത് ഫാർമസ്യൂട്ടിക്കൽ വ്യവസായമാണെങ്കിൽ, അടിസ്ഥാന ഉൽപാദന പ്രക്രിയകളെയും മരുന്നുകളുടെ ഘടകങ്ങളെയും കുറിച്ചുള്ള അറിവ് ആവശ്യമാണ്;
ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞൻ്റെ പ്രധാന അടിസ്ഥാന വൈദഗ്ദ്ധ്യം വലിയ അളവിലുള്ള ഡാറ്റയ്ക്കായി ക്ലസ്റ്റർ സ്റ്റോറേജ് സിസ്റ്റങ്ങളുടെ ഓർഗനൈസേഷനും ഭരണവുമാണ്;
ബിസിനസ്സ് വികസന നിയമങ്ങളെക്കുറിച്ചുള്ള അറിവ്;
സാമ്പത്തിക അറിവ്.

സർവ്വകലാശാലകൾ

മോസ്കോ സ്റ്റേറ്റ് യൂണിവേഴ്സിറ്റിയുടെ പേര് ലോമോനോസോവ്, കമ്പ്യൂട്ടേഷണൽ മാത്തമാറ്റിക്സ് ആൻഡ് സൈബർനെറ്റിക്സ് ഫാക്കൽറ്റി, പ്രത്യേക വിദ്യാഭ്യാസ പരിപാടി Mail.Ru ഗ്രൂപ്പ് "ടെക്നോസ്ഫിയർ", വലിയ അളവിലുള്ള ഡാറ്റയുടെ ഇൻ്റലിജൻ്റ് വിശകലനം, C ++ ലെ പ്രോഗ്രാമിംഗ്, മൾട്ടി-ത്രെഡ് പ്രോഗ്രാമിംഗ്, വിവരങ്ങൾ വീണ്ടെടുക്കൽ സംവിധാനങ്ങൾ നിർമ്മിക്കുന്നതിനുള്ള സാങ്കേതികവിദ്യ എന്നിവയിൽ പരിശീലനം നൽകുന്നു.
MIPT, ഡാറ്റാ അനാലിസിസ് വകുപ്പ്.
നാഷണൽ റിസർച്ച് യൂണിവേഴ്സിറ്റി ഹയർ സ്കൂൾ ഓഫ് ഇക്കണോമിക്സിലെ ബിസിനസ് ഇൻഫോർമാറ്റിക്സ് ഫാക്കൽറ്റി, സിസ്റ്റം അനലിസ്റ്റുകൾ, ഡിസൈനർമാർ, സങ്കീർണ്ണമായ വിവര സംവിധാനങ്ങൾ നടപ്പിലാക്കുന്നവർ, കോർപ്പറേറ്റ് ഇൻഫർമേഷൻ സിസ്റ്റം മാനേജ്മെൻ്റിൻ്റെ സംഘാടകർ എന്നിവരെ പരിശീലിപ്പിക്കുന്നു.
സ്കൂൾ ഓഫ് ഡാറ്റ വിശകലനം Yandex.
ഇന്നോപോളിസിലെ യൂണിവേഴ്സിറ്റി, യൂണിവേഴ്സിറ്റി ഓഫ് ഡണ്ടി, യൂണിവേഴ്സിറ്റി ഓഫ് സതേൺ കാലിഫോർണിയ, യൂണിവേഴ്സിറ്റി ഓഫ് ഓക്ക്ലാൻഡ്, യൂണിവേഴ്സിറ്റി ഓഫ് വാഷിംഗ്ടൺ: ബിഗ് ഡാറ്റയിലെ മാസ്റ്റേഴ്സ് പ്രോഗ്രാമുകൾ.
ഇംപീരിയൽ കോളേജ് ലണ്ടൻ ബിസിനസ് സ്കൂൾ, MSc ഡാറ്റ സയൻസ് ആൻഡ് മാനേജ്മെൻ്റ്.

ഏതൊരു തൊഴിലിലെയും പോലെ, സ്വയം വിദ്യാഭ്യാസം ഇവിടെ പ്രധാനമാണ്, ഇത് അത്തരം വിഭവങ്ങളിൽ നിന്ന് നിസ്സംശയമായും പ്രയോജനം ചെയ്യും:

ലോകത്തെ പ്രമുഖ സർവകലാശാലകളിൽ നിന്നുള്ള ഓൺലൈൻ കോഴ്സുകൾ COURSERA;
മെഷീൻ ലേണിംഗ് ചാനൽ മാഷിൻ ലേണിംഗ്;
edX കോഴ്സുകളുടെ തിരഞ്ഞെടുപ്പ്;
ഉദാസിറ്റി കോഴ്സുകൾ;
നിങ്ങൾക്ക് ഡാറ്റാ സയൻസിൽ ഒരു യഥാർത്ഥ പ്രോ ആകാൻ കഴിയുന്ന ഡാറ്റാക്വസ്റ്റ് കോഴ്സുകൾ;
6-ഘട്ട ഡാറ്റാക്യാമ്പ് കോഴ്സുകൾ;
O'reilly പരിശീലന വീഡിയോകൾ;
തുടക്കക്കാർക്കും വിപുലമായ ഡാറ്റ ഒറിഗാമിക്കുമുള്ള സ്ക്രീൻകാസ്റ്റുകൾ;
സ്പെഷ്യലിസ്റ്റുകളുടെ ത്രൈമാസ സമ്മേളനം മോസ്കോ ഡാറ്റാ സയൻ്റിസ്റ്റുകളുടെ മീറ്റപ്പ്;
ഡാറ്റ വിശകലന മത്സരങ്ങൾ Kaggle.сom

ശമ്പളം

07/04/2019 വരെയുള്ള ശമ്പളം

റഷ്യ 50000—200000 ₽

മോസ്കോ 60000—300000 ₽

ഡാറ്റാ സയൻ്റിസ്റ്റ് തൊഴിൽ ഏറ്റവും ഉയർന്ന പ്രതിഫലം ലഭിക്കുന്ന ഒന്നാണ്. Hh.ru എന്ന വെബ്‌സൈറ്റിൽ നിന്നുള്ള വിവരങ്ങൾ - പ്രതിമാസ ശമ്പളം $ 8.5 ആയിരം മുതൽ $ 9 ആയിരം വരെയാണ്, അത്തരം ഒരു സ്പെഷ്യലിസ്റ്റിൻ്റെ ശമ്പളം പ്രതിവർഷം $ 110 ആയിരം - $ 140 ആയിരം.

സൂപ്പർജോബ് റിസർച്ച് സെൻ്റർ നടത്തിയ ഒരു സർവേ അനുസരിച്ച്, ഡാറ്റാ സയൻ്റിസ്റ്റ് സ്പെഷ്യലിസ്റ്റുകളുടെ ശമ്പളം തൊഴിൽ പരിചയം, ഉത്തരവാദിത്തങ്ങളുടെ വ്യാപ്തി, പ്രദേശം എന്നിവയെ ആശ്രയിച്ചിരിക്കുന്നു. ഒരു പുതിയ സ്പെഷ്യലിസ്റ്റിന് 70 ആയിരം റുബിളിൽ കണക്കാക്കാം. മോസ്കോയിലും 57 ആയിരം റുബിളിലും. സെൻ്റ് പീറ്റേഴ്സ്ബർഗിൽ. 3 വർഷം വരെ പ്രവൃത്തി പരിചയം ഉള്ളതിനാൽ, ശമ്പളം 110 ആയിരം റുബിളായി വർദ്ധിക്കുന്നു. മോസ്കോയിലും 90 ആയിരം റുബിളിലും. സെൻ്റ് പീറ്റേഴ്സ്ബർഗിൽ. ശാസ്ത്രീയ പ്രസിദ്ധീകരണങ്ങളുള്ള പരിചയസമ്പന്നരായ സ്പെഷ്യലിസ്റ്റുകൾക്ക്, ശമ്പളം 220 ആയിരം റുബിളിൽ എത്താം. മോസ്കോയിലും 180 ആയിരം റുബിളിലും. പീറ്റേഴ്സ്ബർഗിൽ.

കരിയർ ഘട്ടങ്ങളും സാധ്യതകളും

ഡാറ്റാ സയൻ്റിസ്റ്റ് തൊഴിൽ തന്നെ ഒരു ഉയർന്ന നേട്ടമാണ്, ഇതിന് ഗുരുതരമായ സൈദ്ധാന്തിക അറിവും നിരവധി തൊഴിലുകളുടെ പ്രായോഗിക അനുഭവവും ആവശ്യമാണ്. ഏതൊരു ഓർഗനൈസേഷനിലും അത്തരമൊരു സ്പെഷ്യലിസ്റ്റ് ഒരു പ്രധാന വ്യക്തിയാണ്. ഈ ഉയരത്തിലെത്താൻ, തൊഴിലിൻ്റെ അടിസ്ഥാനമായ എല്ലാ മേഖലകളിലും നിങ്ങൾ കഠിനാധ്വാനവും ലക്ഷ്യബോധത്തോടെയും നിരന്തരം മെച്ചപ്പെടേണ്ടതുമാണ്.

ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിനെക്കുറിച്ച് ഒരു തമാശയുണ്ട്: ഏതൊരു സ്റ്റാറ്റിസ്റ്റിഷ്യനെക്കാളും നന്നായി പ്രോഗ്രാം ചെയ്യുന്ന ഒരു പൊതുവാദിയാണ് അദ്ദേഹം, ഏതൊരു പ്രോഗ്രാമറെക്കാളും നന്നായി സ്ഥിതിവിവരക്കണക്കുകൾ അറിയുന്നു. കമ്പനിയുടെ തലവനേക്കാൾ നന്നായി ബിസിനസ്സ് പ്രക്രിയകൾ അദ്ദേഹം മനസ്സിലാക്കുന്നു.

എന്താണ് സംഭവിക്കുന്നത് "ബിഗ് ഡാറ്റ"യഥാർത്ഥ സംഖ്യകളിലോ?

ഓരോ 2 ദിവസത്തിലും, ക്രിസ്തുവിൻ്റെ ജനനം മുതൽ 2003 വരെ മനുഷ്യരാശി സൃഷ്ടിച്ച വിവരങ്ങളുടെ അളവ് അനുസരിച്ച് ഡാറ്റയുടെ അളവ് വർദ്ധിക്കുന്നു.
ഇന്ന് നിലവിലുള്ള എല്ലാ ഡാറ്റയുടെയും 90% കഴിഞ്ഞ 2 വർഷങ്ങളിൽ പ്രത്യക്ഷപ്പെട്ടു.
2020 ഓടെ, വിവരങ്ങളുടെ അളവ് 3.2 ൽ നിന്ന് 40 സെറ്റാബൈറ്റായി വർദ്ധിക്കും. 1 സെറ്റാബൈറ്റ് = 10 21 ബൈറ്റുകൾ.
ഒരു മിനിറ്റിനുള്ളിൽ, 200,000 ഫോട്ടോകൾ ഫേസ്ബുക്കിൽ അപ്‌ലോഡ് ചെയ്യപ്പെടുന്നു, 205 ദശലക്ഷം കത്തുകൾ അയച്ചു, 1.8 ദശലക്ഷം ലൈക്കുകൾ പോസ്റ്റുചെയ്യുന്നു.
1 സെക്കൻഡിനുള്ളിൽ, Google 40 ആയിരം തിരയൽ അന്വേഷണങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നു.
ഓരോ 1.2 വർഷത്തിലും, എല്ലാ വ്യവസായത്തിലെയും ഡാറ്റയുടെ ആകെ അളവ് ഇരട്ടിയാകുന്നു.
2020ഓടെ ഹഡൂപ്പ് സേവന വിപണി 50 ബില്യൺ ഡോളറായി വളരും.
2015-ൽ യുണൈറ്റഡ് സ്റ്റേറ്റ്സിൽ, ബിഗ് ഡാറ്റ പ്രോജക്ടുകളിൽ പ്രവർത്തിക്കുന്ന സ്പെഷ്യലിസ്റ്റുകൾക്കായി 1.9 ദശലക്ഷം തൊഴിലവസരങ്ങൾ സൃഷ്ടിക്കപ്പെട്ടു.
ബിഗ് ഡാറ്റ ടെക്നോളജികൾ റീട്ടെയിൽ ശൃംഖലകളുടെ ലാഭം പ്രതിവർഷം 60% വർദ്ധിപ്പിക്കുന്നു.
പ്രവചനങ്ങൾ അനുസരിച്ച്, ബിഗ് ഡാറ്റ മാർക്കറ്റ് വലുപ്പം 2014 ലെ 28.5 ബില്യൺ ഡോളറുമായി താരതമ്യം ചെയ്യുമ്പോൾ 2020 ൽ 68.7 ബില്യൺ ഡോളറായി ഉയരും.

അത്തരം പോസിറ്റീവ് വളർച്ചാ സൂചകങ്ങൾ ഉണ്ടായിരുന്നിട്ടും, പ്രവചനങ്ങളിലും പിശകുകൾ ഉണ്ട്. ഉദാഹരണത്തിന്, 2016 ലെ ഏറ്റവും കുപ്രസിദ്ധമായ തെറ്റുകളിലൊന്ന്: യുഎസ് പ്രസിഡൻ്റ് തിരഞ്ഞെടുപ്പിനെക്കുറിച്ചുള്ള പ്രവചനങ്ങൾ യാഥാർത്ഥ്യമായില്ല. ഹിലരി ക്ലിൻ്റനെ അനുകൂലിച്ച് പ്രശസ്ത യുഎസ് ഡാറ്റാ ശാസ്ത്രജ്ഞരായ നേറ്റ് സിൽവർ, കിർക്ക് ബോൺ, ബിൽ ഷ്മാർസോ എന്നിവർ പ്രവചനങ്ങൾ അവതരിപ്പിച്ചു. മുൻ തിരഞ്ഞെടുപ്പ് പ്രചാരണങ്ങളിൽ, അവർ കൃത്യമായ പ്രവചനങ്ങൾ നൽകി, ഒരിക്കലും തെറ്റിയില്ല.

ഈ വർഷം, നേറ്റ് സിൽവർ, ഉദാഹരണത്തിന്, നൽകി കൃത്യമായ പ്രവചനം 41 സംസ്ഥാനങ്ങളിൽ, എന്നാൽ 9 സംസ്ഥാനങ്ങളിൽ അദ്ദേഹം തെറ്റിദ്ധരിച്ചു, ഇത് ട്രംപിൻ്റെ വിജയത്തിലേക്ക് നയിച്ചു. 2016 ലെ പിശകുകളുടെ കാരണങ്ങൾ വിശകലനം ചെയ്ത ശേഷം, അവർ ഇനിപ്പറയുന്ന നിഗമനത്തിലെത്തി:

ഗണിതശാസ്ത്ര മോഡലുകൾ അവയുടെ സൃഷ്ടിയുടെ സമയത്ത് ചിത്രത്തെ വസ്തുനിഷ്ഠമായി പ്രതിഫലിപ്പിക്കുന്നു. എന്നാൽ അവർക്ക് ഒരു അർദ്ധായുസ്സ് ഉണ്ട്, അതിൻ്റെ അവസാനത്തോടെ സ്ഥിതിഗതികൾ നാടകീയമായി മാറും. മോഡലിൻ്റെ പ്രവചന ഗുണങ്ങൾ കാലക്രമേണ വഷളാകുന്നു. IN ഈ സാഹചര്യത്തിൽ, ഉദാഹരണത്തിന്, കെടുകാര്യസ്ഥത, വരുമാന അസമത്വം, മറ്റ് സാമൂഹിക പ്രക്ഷോഭങ്ങൾ എന്നിവ ഒരു പങ്കുവഹിച്ചു. അതിനാൽ, പുതിയ ഡാറ്റ കണക്കിലെടുത്ത് മോഡൽ പതിവായി ക്രമീകരിക്കണം. ഇത് ചെയ്തില്ല.
പ്രവചനങ്ങളിൽ കാര്യമായ സ്വാധീനം ചെലുത്താൻ കഴിയുന്ന അധിക ഡാറ്റ തിരയുകയും പരിഗണിക്കുകയും ചെയ്യേണ്ടത് ആവശ്യമാണ്. അങ്ങനെ, ക്ലിൻ്റണിൻ്റെയും ട്രംപിൻ്റെയും തിരഞ്ഞെടുപ്പ് പ്രചാരണങ്ങളിലെ റാലികളുടെ വീഡിയോകൾ കാണുമ്പോൾ, റാലികളിൽ പങ്കെടുത്തവരുടെ ആകെ എണ്ണം കണക്കിലെടുക്കുന്നില്ല. നൂറു കണക്കിന് ആളുകളായിരുന്നു അത്. ട്രംപിന് അനുകൂലമായി ഓരോ റാലിയിലും 400-600 പേർ പങ്കെടുത്തുവെന്നും ക്ലിൻ്റനെ അനുകൂലിച്ച് 150-200 പേർ മാത്രമാണ് പങ്കെടുത്തതെന്നും ഇത് ഫലങ്ങളെ ബാധിച്ചു.
തിരഞ്ഞെടുപ്പ് പ്രചാരണങ്ങളിലെ ഗണിതശാസ്ത്ര മാതൃകകൾ ജനസംഖ്യാപരമായ ഡാറ്റയെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്: പ്രായം, വംശം, ലിംഗഭേദം, വരുമാനം, സമൂഹത്തിലെ നില മുതലായവ. കഴിഞ്ഞ തിരഞ്ഞെടുപ്പിൽ അവർ എങ്ങനെ വോട്ട് ചെയ്തു എന്നതിനെ അടിസ്ഥാനമാക്കിയാണ് ഓരോ ഗ്രൂപ്പിൻ്റെയും ഭാരം നിർണ്ണയിക്കുന്നത്. ഈ പ്രവചനത്തിന് 3-4% പിശകുണ്ട്, സ്ഥാനാർത്ഥികൾക്കിടയിൽ വലിയ വിടവ് ഉണ്ടാകുമ്പോൾ അത് വിശ്വസനീയമായി പ്രവർത്തിക്കുന്നു. എന്നാൽ ഈ സാഹചര്യത്തിൽ, ക്ലിൻ്റണും ട്രംപും തമ്മിലുള്ള വിടവ് ചെറുതായിരുന്നു, ഈ പിശക് തിരഞ്ഞെടുപ്പ് ഫലങ്ങളിൽ കാര്യമായ സ്വാധീനം ചെലുത്തി.
ആളുകളുടെ യുക്തിരഹിതമായ പെരുമാറ്റം കണക്കിലെടുക്കുന്നില്ല. നടത്തിയ പൊതുജനാഭിപ്രായ സർവേകൾ, വോട്ടെടുപ്പിൽ അവർ ഉത്തരം നൽകിയ രീതിയിൽ വോട്ട് ചെയ്യുമെന്ന മിഥ്യാധാരണ സൃഷ്ടിക്കുന്നു. എന്നാൽ ചിലപ്പോൾ അവർ വിപരീതമായി പ്രവർത്തിക്കുന്നു. ഈ സാഹചര്യത്തിൽ, വോട്ടിംഗിനോട് സത്യസന്ധമല്ലാത്ത മനോഭാവം തിരിച്ചറിയാൻ മുഖവും സംസാരവും വിശകലനം ചെയ്യേണ്ടത് ആവശ്യമാണ്.

പൊതുവേ, സ്ഥാനാർത്ഥികൾ തമ്മിലുള്ള ചെറിയ അന്തരം കാരണം പ്രവചനം തെറ്റി. ഒരു വലിയ വിടവിൻ്റെ കാര്യത്തിൽ, ഈ പിശകുകൾ അത്ര നിർണായകമായിരിക്കില്ല.

വീഡിയോ: പുതിയ സ്പെഷ്യലൈസേഷൻ "ബിഗ് ഡാറ്റ" - മിഖായേൽ ലെവിൻ

ഇൻഫോഗ്രാഫിക്സിലെ ഡാറ്റാ സയൻ്റിസ്റ്റ്. ഈ തൊഴിൽ പുതുമയുള്ളതും ഉയർന്ന ശമ്പളമുള്ളതും അറിയപ്പെടുന്നതുമാണ്. എന്നാൽ അത്തരമൊരു സ്പെഷ്യലിസ്റ്റിന് എന്ത് കഴിവുകൾ ഉണ്ടായിരിക്കണം? നമുക്ക് പരിഗണിക്കാം.

നമുക്ക് കഴിവുകളെക്കുറിച്ച് സംസാരിക്കാം

ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് അനലിറ്റിക്സും വിവര പ്രോസസ്സിംഗും ഉൾക്കൊള്ളുന്ന ഒരു സാമാന്യവാദിയാണ്. ഒരു ഡാറ്റ ശാസ്ത്രജ്ഞൻ സ്ഥിതിവിവരക്കണക്കുകളും പ്രോഗ്രാമിംഗും മനസ്സിലാക്കുന്നു. ഉപയോഗപ്രദമാണ്, അല്ലേ? ഓരോ വ്യക്തിഗത ഡാറ്റാ സയൻ്റിസ്റ്റിൻ്റെയും കഴിവുകളുടെ പരിധി ഒരു ഗ്രേഡേഷനാണ്, കൂടാതെ കോഡിംഗിലേക്കോ ശുദ്ധമായ സ്ഥിതിവിവരക്കണക്കുകളിലേക്കോ നീങ്ങാൻ കഴിയും.

സാൻ ഫ്രാൻസിസ്കോ ആസ്ഥാനമായുള്ള ഡാറ്റാ അനലിസ്റ്റ്. ചില കമ്പനികൾ യഥാർത്ഥത്തിൽ ഡാറ്റാ സയൻ്റിസ്റ്റുകളെ വിശകലന വിദഗ്ധരുമായി താരതമ്യം ചെയ്യുന്നു. അത്തരമൊരു സ്പെഷ്യലിസ്റ്റിൻ്റെ പ്രവർത്തനം ഡാറ്റാബേസിൽ നിന്ന് വിവരങ്ങൾ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നതിനും Excel-മായി ഇടപഴകുന്നതിനും അടിസ്ഥാന വിഷ്വലൈസേഷനിലേക്കും വരുന്നു.
വലിയ ട്രാഫിക്കും വലിയ അളവിലുള്ള ഡാറ്റയും ചില സ്ഥാപനങ്ങളെ അടിയന്തിരമായി അന്വേഷിക്കാൻ പ്രേരിപ്പിക്കുന്നു ശരിയായ സ്പെഷ്യലിസ്റ്റ്. എഞ്ചിനീയർമാരെയോ വിശകലന വിദഗ്ധരെയോ പ്രോഗ്രാമർമാരെയോ ശാസ്ത്രജ്ഞരെയോ തിരയുന്ന പരസ്യങ്ങൾ അവർ പലപ്പോഴും പോസ്റ്റുചെയ്യുന്നു, എല്ലാം ഒരേ ജോലി തലക്കെട്ട് മനസ്സിൽ.
ഡാറ്റ ഒരു ഉൽപ്പന്നമായ കമ്പനികളുണ്ട്. ഈ സാഹചര്യത്തിൽ, തീവ്രമായ വിശകലനവും മെഷീൻ ലേണിംഗും ആവശ്യമാണ്.
മറ്റ് കമ്പനികളെ സംബന്ധിച്ചിടത്തോളം, ഡാറ്റ ഒരു ഉൽപ്പന്നമല്ല, എന്നാൽ മാനേജ്മെൻറ് അല്ലെങ്കിൽ വർക്ക്ഫ്ലോ അതിൽ തന്നെ നിർമ്മിക്കപ്പെട്ടിരിക്കുന്നു. കമ്പനിയുടെ ഡാറ്റ രൂപപ്പെടുത്തുന്നതിന് ഡാറ്റാ സയൻ്റിസ്റ്റുകളും അന്വേഷിക്കുന്നു.

"ഇരുപത്തിയൊന്നാം നൂറ്റാണ്ടിലെ ഏറ്റവും സെക്‌സിയായ തൊഴിൽ" എന്ന ശൈലിയിലുള്ള തലക്കെട്ടുകൾ നിറഞ്ഞതാണ്. ഇത് ശരിയാണോ എന്ന് ഞങ്ങൾക്ക് അറിയില്ല, പക്ഷേ ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റ് മനസ്സിലാക്കേണ്ടതാണെന്ന് ഞങ്ങൾക്കറിയാം:

ഗണിതവും സ്ഥിതിവിവരക്കണക്കുകളും.
വിഷയ മേഖലയും സോഫ്റ്റ്വെയറും.
പ്രോഗ്രാമിംഗും ഡാറ്റാബേസും.
ഡാറ്റാ കൈമാറ്റവും ദൃശ്യവൽക്കരണവും.

ഓരോ പോയിൻ്റും കൂടുതൽ വിശദമായി നോക്കാം.

ഡാറ്റാ സയൻ്റിസ്റ്റും മാത്തമാറ്റിക്കൽ സ്റ്റാറ്റിസ്റ്റിക്സും

വികസനം ഗണിതശാസ്ത്ര രീതികൾസ്റ്റാറ്റിസ്റ്റിക്കൽ ഡാറ്റ ഉപയോഗിക്കുന്നത് ജോലിയുടെ ഒരു അടിസ്ഥാന ഭാഗമാണ്. ഗണിതശാസ്ത്ര സ്ഥിതിവിവരക്കണക്കുകൾ പ്രോബബിലിറ്റി സിദ്ധാന്തത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, ഇത് കൃത്യമായ നിഗമനങ്ങളിൽ എത്തിച്ചേരാനും അവയുടെ വിശ്വാസ്യത വിലയിരുത്താനും സഹായിക്കുന്നു.

1. AI യുടെ ഒരു ഉപവിഭാഗമായി മെഷീൻ ലേണിംഗ്. ഒരു പരിശീലന പരിപാടിയും പാറ്റേണുകളുള്ള ഡാറ്റയുടെ ഉദാഹരണങ്ങളും ഉണ്ട്. ഞങ്ങൾ ഒരു പാറ്റേൺ മോഡൽ രൂപീകരിക്കുകയും അത് നടപ്പിലാക്കുകയും പ്രോഗ്രാം ഉപയോഗിച്ച് പുതിയ ഡാറ്റയിൽ പാറ്റേണുകൾ തിരയാനുള്ള അവസരം നേടുകയും ചെയ്യുന്നു.

2. ഡാറ്റാ സയൻ്റിസ്റ്റ് അറിഞ്ഞിരിക്കണം സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡലിംഗ്ഒരു നിശ്ചിത പ്രോബബിലിറ്റി ഡെൻസിറ്റി ഉള്ള റാൻഡം സിഗ്നലുകൾ ഉപയോഗിച്ച് മോഡൽ പരിശോധിക്കാൻ. ലഭിച്ച ഫലങ്ങൾ സ്ഥിതിവിവരക്കണക്ക് നിർണ്ണയിക്കുക എന്നതാണ് ലക്ഷ്യം.

3. പരീക്ഷണാത്മക രൂപകൽപ്പന. പരീക്ഷണങ്ങൾക്കിടയിൽ, വ്യത്യാസം കാണുന്നതിന് ഒന്നോ അതിലധികമോ വേരിയബിളുകൾ മാറ്റുന്നു. ഈ സാഹചര്യത്തിൽ, എക്സ്പോഷറിനായി ഒരു ഗ്രൂപ്പും ഒരു നിയന്ത്രണ ഗ്രൂപ്പും ഉണ്ട്, അതിനാലാണ് പരിശോധന നടത്തുന്നത്.

4. ബയേസിയൻ അനുമാനം ഒരു അനുമാനത്തിൻ്റെ സംഭാവ്യത ക്രമീകരിക്കാൻ സഹായിക്കുന്നു.

5. മേൽനോട്ടത്തിലുള്ള പരിശീലനം:

തീരുമാന മരങ്ങൾ;
ക്രമരഹിതമായ വനങ്ങൾ;
ലോജിസ്റ്റിക് റിഗ്രഷൻ.

6. മേൽനോട്ടമില്ലാത്ത പഠനം:

ക്ലസ്റ്ററിംഗ്;
അളവ് കുറയ്ക്കൽ.

7. ഒപ്റ്റിമൈസേഷൻ: ഗ്രേഡിയൻ്റ് ഇറക്കംകൂടാതെ ഓപ്ഷനുകളും.

ഡൊമെയ്ൻ, സോഫ്റ്റ്വെയർ കഴിവുകൾ

പഠിക്കുകയും പരിശീലിക്കുകയും ചെയ്യുക! ഇതാണ് ഈ പ്രത്യേകതയുടെ അടിസ്ഥാനം. ഒരു ഡാറ്റാ സയൻ്റിസ്റ്റിന് ശാസ്ത്രം ബാധിക്കുന്ന വിഷയ മേഖലയെക്കുറിച്ച് നല്ല ധാരണ ഉണ്ടായിരിക്കണം, കൂടാതെ സോഫ്‌റ്റ്‌വെയറുമായി പരിചയമുണ്ടായിരിക്കണം.

ആവശ്യമായ കഴിവുകളുടെ പട്ടിക വിചിത്രമാണ്, പക്ഷേ ഉപയോഗപ്രദമല്ല:

പ്രോഗ്രാമിംഗും ഡാറ്റാബേസുകളും

അടിസ്ഥാനകാര്യങ്ങൾ മുതൽ പൈത്തൺ, XaaS, റിലേഷണൽ ആൾജിബ്ര, SQL എന്നിവയെക്കുറിച്ചുള്ള അറിവ് വരെ. പൊതുവേ, ഡാറ്റ ഗുണപരമായി പ്രോസസ്സ് ചെയ്യാനുള്ള ശ്രമങ്ങളില്ലാതെ എല്ലാം ഉപയോഗശൂന്യമാണ്.

1. കമ്പ്യൂട്ടർ സയൻസിൻ്റെ അടിസ്ഥാനകാര്യങ്ങൾ, പ്രോഗ്രാമിംഗും പ്രോസസ് ഓട്ടോമേഷനുമായി ജീവിതത്തെ ബന്ധിപ്പിക്കുന്ന ഏതൊരാൾക്കും ഒരു ആരംഭ പോയിൻ്റായി.

ഡാറ്റ സയൻസ്, മെഷീൻ ലേണിംഗ് - ഈ വലിയ വാക്കുകൾ നിങ്ങൾ കേട്ടിട്ടുണ്ടാകും, എന്നാൽ അവയുടെ അർത്ഥം നിങ്ങൾക്ക് എത്രത്തോളം വ്യക്തമായിരുന്നു? ചിലർക്ക് അവ മനോഹരമായ ചൂണ്ടകളാണ്. ഡാറ്റ സയൻസ് എന്നത് ഒരു യന്ത്രത്തെ സൌജന്യമായി ഓർഡർ ചെയ്യുന്നതെന്തും ചെയ്യാൻ പ്രേരിപ്പിക്കുന്ന മാജിക് ആണെന്ന് ചിലർ കരുതുന്നു. മറ്റുള്ളവർ അത് ആണെന്ന് പോലും വിശ്വസിക്കുന്നു അനായാസ മാര്ഗംവലിയ പണം സമ്പാദിക്കുക. IRELA-യിലെ R&D മേധാവി നികിത നികിറ്റിൻസ്‌കിയും ഡാറ്റാ സയൻ്റിസ്റ്റായ പോളിന കസകോവയും ലളിതവും മനസ്സിലാക്കാവുന്നതുമായ ഭാഷയിൽ ഇത് എന്താണെന്ന് വിശദീകരിക്കുന്നു.

ഞാൻ ഓട്ടോമാറ്റിക് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ പ്രവർത്തിക്കുന്നു, ഡാറ്റ സയൻസിൻ്റെ ഒരു പ്രയോഗമാണ്, ആളുകൾ പലപ്പോഴും ഈ നിബന്ധനകൾ തെറ്റായി ഉപയോഗിക്കുന്നത് കാണാറുണ്ട്, അതിനാൽ കുറച്ച് വ്യക്തമാക്കാൻ ഞാൻ ആഗ്രഹിക്കുന്നു. ഈ ലേഖനം ഡാറ്റാ സയൻസ് എന്താണെന്ന് കൂടുതൽ അറിയാത്തവർക്കും ആശയങ്ങൾ മനസ്സിലാക്കാൻ ആഗ്രഹിക്കുന്നവർക്കും വേണ്ടിയുള്ളതാണ്.

നമുക്ക് ടെർമിനോളജി നിർവചിക്കാം

ഡാറ്റാ സയൻസ് എന്താണെന്ന് ആർക്കും കൃത്യമായി അറിയില്ല എന്ന വസ്തുതയിൽ നിന്ന് നമുക്ക് ആരംഭിക്കാം, കർശനമായ നിർവചനം ഇല്ല - ഇത് വളരെ വിശാലവും ഇൻ്റർ ഡിസിപ്ലിനറി ആശയവുമാണ്. അതിനാൽ, ഇവിടെ ഞാൻ എൻ്റെ കാഴ്ചപ്പാട് പങ്കിടും, അത് മറ്റുള്ളവരുടെ അഭിപ്രായങ്ങളുമായി പൊരുത്തപ്പെടണമെന്നില്ല.

ഡാറ്റ സയൻസ് എന്ന പദം റഷ്യൻ ഭാഷയിലേക്ക് "ഡാറ്റ സയൻസ്" എന്ന് വിവർത്തനം ചെയ്യപ്പെടുന്നു, കൂടാതെ ഒരു പ്രൊഫഷണൽ പരിതസ്ഥിതിയിൽ ഇത് പലപ്പോഴും "ഡാറ്റ സയൻസ്" എന്ന് ലിപ്യന്തരണം ചെയ്യപ്പെടുന്നു. ഔപചാരികമായി, ഇത് കമ്പ്യൂട്ടർ സയൻസ്, മാത്തമാറ്റിക്സ് മേഖലകളിൽ നിന്നുള്ള ചില പരസ്പരബന്ധിത വിഷയങ്ങളുടെയും രീതികളുടെയും ഒരു കൂട്ടമാണ്. വളരെ അമൂർത്തമായി തോന്നുന്നു, അല്ലേ? നമുക്ക് അത് കണ്ടുപിടിക്കാം.

ആദ്യ ഭാഗം: ഡാറ്റ

ഡാറ്റാ സയൻസിൻ്റെ ആദ്യ ഘടകം, കൂടാതെ മുഴുവൻ തുടർന്നുള്ള പ്രക്രിയയും അസാധ്യമാണ്, വാസ്തവത്തിൽ, ഡാറ്റ തന്നെയാണ്: അത് എങ്ങനെ ശേഖരിക്കാം, സംഭരിക്കാം, പ്രോസസ്സ് ചെയ്യാം, അതുപോലെ തന്നെ പൊതുവായ ഡാറ്റ ശ്രേണിയിൽ നിന്ന് എങ്ങനെ വേർതിരിക്കാം ഉപകാരപ്രദമായ വിവരം. സ്പെഷ്യലിസ്റ്റുകൾ അവരുടെ ജോലി സമയത്തിൻ്റെ 80% വരെ ഡാറ്റ വൃത്തിയാക്കുന്നതിനും ആവശ്യമുള്ള ഫോമിലേക്ക് കൊണ്ടുവരുന്നതിനും നീക്കിവയ്ക്കുന്നു.

വലിയ വോളിയം കൂടാതെ/അല്ലെങ്കിൽ വൈവിധ്യം കാരണം സ്റ്റാൻഡേർഡ് സ്റ്റോറേജും പ്രോസസ്സിംഗ് രീതികളും അനുയോജ്യമല്ലാത്ത ഡാറ്റ എങ്ങനെ കൈകാര്യം ചെയ്യാം എന്നതാണ് ഈ പോയിൻ്റിൻ്റെ ഒരു പ്രധാന ഭാഗം - വലിയ ഡാറ്റ എന്ന് വിളിക്കപ്പെടുന്നവ. വഴിയിൽ, സ്വയം ആശയക്കുഴപ്പത്തിലാകരുത്: വലിയ ഡാറ്റയും ഡാറ്റ സയൻസും പര്യായപദങ്ങളല്ല: പകരം, ആദ്യത്തേത് രണ്ടാമത്തേതിൻ്റെ ഒരു ഉപവിഭാഗമാണ്. അതേ സമയം, പ്രായോഗികമായി ഡാറ്റാ അനലിസ്റ്റുകൾ എല്ലായ്പ്പോഴും വലിയ ഡാറ്റയുമായി പ്രവർത്തിക്കേണ്ടതില്ല - ചെറിയ ഡാറ്റയും ഉപയോഗപ്രദമാകും.

നമുക്ക് ഡാറ്റ ശേഖരിക്കാം

നിങ്ങളുടെ സഹപ്രവർത്തകർ പകൽ സമയത്ത് എത്ര കാപ്പി കുടിക്കുന്നുവെന്നും തലേന്ന് രാത്രി അവർ എത്ര ഉറങ്ങിയെന്നതും തമ്മിൽ എന്തെങ്കിലും ബന്ധമുണ്ടോ എന്നതിൽ ഞങ്ങൾക്ക് താൽപ്പര്യമുണ്ടെന്ന് സങ്കൽപ്പിക്കുക. നമുക്ക് ലഭ്യമായ വിവരങ്ങൾ എഴുതാം: നിങ്ങളുടെ സഹപ്രവർത്തകൻ ഗ്രിഗറി ഇന്ന് 4 മണിക്കൂർ ഉറങ്ങി, അതിനാൽ അദ്ദേഹത്തിന് 3 കപ്പ് കാപ്പി കുടിക്കേണ്ടി വന്നു; എലീന 9 മണിക്കൂർ ഉറങ്ങി, കാപ്പി ഒട്ടും കുടിച്ചില്ല; പോളിന 10 മണിക്കൂറും ഉറങ്ങി, പക്ഷേ 2.5 കപ്പ് കാപ്പി കുടിച്ചു - അങ്ങനെ.

നമുക്ക് ലഭിച്ച ഡാറ്റ ഒരു ഗ്രാഫിൽ പ്രദർശിപ്പിക്കാം (വിഷ്വലൈസേഷൻ ഏതൊരു ഡാറ്റാ സയൻസ് പ്രോജക്റ്റിൻ്റെയും ഒരു പ്രധാന ഘടകമാണ്). X അച്ചുതണ്ടിൽ മണിക്കൂറുകൾക്കുള്ളിൽ സമയം പ്ലോട്ട് ചെയ്യാം, Y അക്ഷത്തിൽ കോഫി മില്ലി ലിറ്ററിൽ. ഞങ്ങൾക്ക് ഇതുപോലുള്ള ഒന്ന് ലഭിക്കും:

രണ്ടാം ഭാഗം: ശാസ്ത്രം

ഞങ്ങളുടെ പക്കൽ ഡാറ്റയുണ്ട്, അത് ഇപ്പോൾ നമുക്ക് എന്തുചെയ്യാൻ കഴിയും? അത് ശരിയാണ്, വിശകലനം ചെയ്യുക, ഉപയോഗപ്രദമായ പാറ്റേണുകൾ വേർതിരിച്ച് എങ്ങനെയെങ്കിലും ഉപയോഗിക്കുക. ഇവിടെ സ്ഥിതിവിവരക്കണക്കുകൾ, മെഷീൻ ലേണിംഗ്, ഒപ്റ്റിമൈസേഷൻ തുടങ്ങിയ വിഷയങ്ങൾ നമ്മെ സഹായിക്കും.

അവ ഡാറ്റാ സയൻസിൻ്റെ അടുത്തതും ഒരുപക്ഷേ ഏറ്റവും പ്രധാനപ്പെട്ടതുമായ ഘടകമാണ് - ഡാറ്റ വിശകലനം. നിലവിലുള്ള ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്താൻ മെഷീൻ ലേണിംഗ് നിങ്ങളെ അനുവദിക്കുന്നതിനാൽ പുതിയ ഒബ്‌ജക്റ്റുകൾക്ക് പ്രസക്തമായ വിവരങ്ങൾ പ്രവചിക്കാൻ കഴിയും.

നമുക്ക് ഡാറ്റ വിശകലനം ചെയ്യാം

നമുക്ക് നമ്മുടെ ഉദാഹരണത്തിലേക്ക് മടങ്ങാം. കണ്ണിന്, രണ്ട് പാരാമീറ്ററുകളും എങ്ങനെയെങ്കിലും പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നതായി തോന്നുന്നു: ഒരു വ്യക്തി എത്രത്തോളം ഉറങ്ങുന്നുവോ അത്രയും കൂടുതൽ കാപ്പി അടുത്ത ദിവസം കുടിക്കും. അതേ സമയം, ഈ പ്രവണതയിൽ നിന്ന് വേറിട്ടുനിൽക്കുന്ന ഒരു ഉദാഹരണവും നമുക്കുണ്ട് - ഉറങ്ങാനും കാപ്പി കുടിക്കാനും ഇഷ്ടപ്പെടുന്ന പോളിന. എന്നിരുന്നാലും, ഫലമായുണ്ടാകുന്ന പാറ്റേൺ ചില പൊതുവായ നേർരേഖ ഉപയോഗിച്ച് ഏകദേശമാക്കാൻ നിങ്ങൾക്ക് ശ്രമിക്കാം, അങ്ങനെ അത് എല്ലാ പോയിൻ്റുകളും കഴിയുന്നത്ര അടുത്ത് സമീപിക്കുന്നു:

ഗ്രീൻ ലൈൻ ഞങ്ങളുടെ മെഷീൻ ലേണിംഗ് മോഡലാണ്, ഇത് ഡാറ്റയെ സാമാന്യവൽക്കരിക്കുകയും ഗണിതശാസ്ത്രപരമായി വിവരിക്കുകയും ചെയ്യുന്നു. ഇപ്പോൾ, അതിൻ്റെ സഹായത്തോടെ, നമുക്ക് പുതിയ വസ്തുക്കളുടെ മൂല്യങ്ങൾ നിർണ്ണയിക്കാൻ കഴിയും: ഓഫീസിൽ പ്രവേശിച്ച നികിത ഇന്ന് എത്ര കാപ്പി കുടിക്കുമെന്ന് പ്രവചിക്കാൻ ആഗ്രഹിക്കുമ്പോൾ, അവൻ എത്രമാത്രം ഉറങ്ങിയെന്ന് ഞങ്ങൾ ചോദിക്കും. 7.5 മണിക്കൂർ മൂല്യം ഒരു ഉത്തരമായി ലഭിച്ചതിനാൽ, ഞങ്ങൾ അത് മോഡലിലേക്ക് മാറ്റിസ്ഥാപിക്കുന്നു - ഇത് 300 മില്ലിയിൽ അല്പം താഴെയുള്ള അളവിൽ കഴിക്കുന്ന കാപ്പിയുടെ അളവിനോട് യോജിക്കുന്നു. ചുവന്ന ഡോട്ട് നമ്മുടെ പ്രവചനത്തെ പ്രതിനിധീകരിക്കുന്നു.

മെഷീൻ ലേണിംഗ് ഏകദേശം ഇങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്, ഇതിൻ്റെ ആശയം വളരെ ലളിതമാണ്: ഒരു പാറ്റേൺ കണ്ടെത്തി അത് പുതിയ ഡാറ്റയിലേക്ക് നീട്ടുക. വാസ്തവത്തിൽ, മെഷീൻ ലേണിംഗിൽ, ഞങ്ങളുടെ ഉദാഹരണത്തിലെന്നപോലെ, ചില മൂല്യങ്ങൾ പ്രവചിക്കേണ്ട ആവശ്യമില്ലാത്ത മറ്റൊരു ക്ലാസ് ടാസ്‌ക്കുകൾ ഉണ്ട്, പക്ഷേ ഡാറ്റയെ ചില ഗ്രൂപ്പുകളായി വിഭജിക്കുക. എന്നാൽ ഞങ്ങൾ ഇതിനെക്കുറിച്ച് കൂടുതൽ വിശദമായി മറ്റൊരിക്കൽ സംസാരിക്കും.

ഫലം പ്രയോഗിക്കാം

എന്നിരുന്നാലും, എൻ്റെ അഭിപ്രായത്തിൽ, ഡാറ്റയിലെ പാറ്റേണുകൾ തിരിച്ചറിയുന്നതിൽ ഡാറ്റാ സയൻസ് അവസാനിക്കുന്നില്ല. ഏതൊരു ഡാറ്റാ സയൻസ് പ്രോജക്ടും പ്രയോഗിച്ച ഗവേഷണം, ഒരു സിദ്ധാന്തം സ്ഥാപിക്കുക, ഒരു പരീക്ഷണം ആസൂത്രണം ചെയ്യുക, തീർച്ചയായും, ഒരു നിർദ്ദിഷ്ട കേസ് പരിഹരിക്കുന്നതിനുള്ള ഫലവും അതിൻ്റെ അനുയോജ്യതയും വിലയിരുത്തൽ തുടങ്ങിയ കാര്യങ്ങളെക്കുറിച്ച് മറക്കാതിരിക്കേണ്ടത് പ്രധാനമാണ്.

ഡാറ്റാ സയൻസ് കണ്ടെത്തിയ പരിഹാരം നിങ്ങളുടെ പ്രോജക്ടിന് ഗുണം ചെയ്യുമോ ഇല്ലയോ എന്ന് നിങ്ങൾ മനസ്സിലാക്കേണ്ട സമയത്ത്, യഥാർത്ഥ ബിസിനസ്സ് പ്രശ്നങ്ങളിൽ രണ്ടാമത്തേത് വളരെ പ്രധാനമാണ്. നമ്മുടെ ഉദാഹരണത്തിൽ നിർമ്മിച്ച മാതൃകയുടെ പ്രയോജനം എന്തായിരിക്കും? ഒരുപക്ഷേ അതിൻ്റെ സഹായത്തോടെ ഞങ്ങൾക്ക് ഓഫീസിലേക്ക് കോഫി ഡെലിവറി ഒപ്റ്റിമൈസ് ചെയ്യാം. അതേ സമയം, അപകടസാധ്യതകൾ ഞങ്ങൾ വിലയിരുത്തുകയും നിലവിലുള്ള പരിഹാരത്തേക്കാൾ മികച്ച രീതിയിൽ ഞങ്ങളുടെ മോഡൽ ഇതിനെ നേരിടുമോ എന്ന് നിർണ്ണയിക്കുകയും വേണം - ഓഫീസ് മാനേജർ മിഖായേൽ, ഉൽപ്പന്നം വാങ്ങുന്നതിന് ഉത്തരവാദിയാണ്.

നമുക്ക് ഒഴിവാക്കലുകൾ കണ്ടെത്താം

തീർച്ചയായും, ഞങ്ങളുടെ ഉദാഹരണം കഴിയുന്നത്ര ലളിതമാണ്. വാസ്തവത്തിൽ, കൂടുതൽ സങ്കീർണ്ണമായ ഒരു മോഡൽ നിർമ്മിക്കാൻ കഴിയും, അത് മറ്റ് ചില ഘടകങ്ങൾ കണക്കിലെടുക്കും, ഉദാഹരണത്തിന്, ഒരു വ്യക്തി തത്വത്തിൽ കാപ്പി ഇഷ്ടപ്പെടുന്നുണ്ടോ എന്ന്. അല്ലെങ്കിൽ ഒരു നേർരേഖയിൽ പ്രതിനിധീകരിക്കുന്നതിനേക്കാൾ സങ്കീർണ്ണമായ ബന്ധങ്ങൾ മോഡലിന് കണ്ടെത്താൻ കഴിയും.

പോളിനയെപ്പോലെ, മറ്റുള്ളവയിൽ നിന്നും വളരെ വ്യത്യസ്തമായ ഒബ്‌ജക്‌റ്റുകൾ-നമുക്ക് ആദ്യം ഞങ്ങളുടെ ഡാറ്റയിൽ ഔട്ട്‌ലൈയറുകൾക്കായി തിരയാം. യഥാർത്ഥ ജോലിയിൽ, അത്തരം ഉദാഹരണങ്ങൾ ഒരു മോഡൽ നിർമ്മിക്കുന്ന പ്രക്രിയയിലും അതിൻ്റെ ഗുണനിലവാരത്തിലും മോശമായ സ്വാധീനം ചെലുത്തും എന്നതാണ് വസ്തുത, അവ മറ്റേതെങ്കിലും രീതിയിൽ പ്രോസസ്സ് ചെയ്യുന്നത് അർത്ഥമാക്കുന്നു. ചിലപ്പോൾ അത്തരം വസ്തുക്കൾ പ്രാഥമിക താൽപ്പര്യമുള്ളവയാണ്, ഉദാഹരണത്തിന്, തട്ടിപ്പ് തടയുന്നതിനായി അസാധാരണമായ ബാങ്കിംഗ് ഇടപാടുകൾ കണ്ടെത്തുന്നതിനുള്ള ചുമതലയിൽ.

കൂടാതെ, പോളിന മറ്റൊരു പ്രധാന ആശയം കാണിക്കുന്നു - മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങളുടെ അപൂർണത. 10 മണിക്കൂർ ഉറങ്ങുന്ന ഒരാൾക്ക് 100 മില്ലി കാപ്പി മാത്രമേ ഞങ്ങളുടെ മോഡൽ പ്രവചിക്കുന്നുള്ളൂ, അതേസമയം പോളിന 500 വരെ കുടിച്ചു. ഡാറ്റാ സയൻസ് സൊല്യൂഷനുകളുടെ ഉപഭോക്താക്കൾ ഇത് ഒരിക്കലും വിശ്വസിക്കില്ല, പക്ഷേ എല്ലാം കൃത്യമായി പ്രവചിക്കാൻ ഒരു മെഷീനെ പഠിപ്പിക്കുന്നത് ഇപ്പോഴും അസാധ്യമാണ്. ലോകത്ത് : ഡാറ്റയിലെ പാറ്റേണുകൾ തിരിച്ചറിയുന്നതിൽ നമ്മൾ എത്ര നല്ലവരാണെങ്കിലും, പ്രവചനാതീതമായ ഘടകങ്ങൾ എപ്പോഴും ഉണ്ടായിരിക്കും.

കഥ തുടരാം

അതിനാൽ, ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും പ്രായോഗിക പ്രശ്നങ്ങളിൽ അവ പ്രയോഗിക്കുന്നതിനുമുള്ള ഒരു കൂട്ടം രീതികളാണ് ഡാറ്റ സയൻസ്. അതേ സമയം, ഓരോ സ്പെഷ്യലിസ്റ്റിനും ഈ മേഖലയിൽ അവരുടേതായ കാഴ്ചപ്പാടുണ്ടെന്നും അഭിപ്രായങ്ങൾ വ്യത്യാസപ്പെടാമെന്നും നിങ്ങൾ മനസ്സിലാക്കേണ്ടതുണ്ട്.

ഡാറ്റാ സയൻസ് വളരെ ലളിതമായ ആശയങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, എന്നാൽ പ്രായോഗികമായി വ്യക്തമല്ലാത്ത പല സൂക്ഷ്മതകളും പലപ്പോഴും കണ്ടെത്താറുണ്ട്. ഡാറ്റാ സയൻസ് നമ്മെ എങ്ങനെ ചുറ്റുന്നു ദൈനംദിന ജീവിതം, ഡാറ്റ വിശകലനത്തിൻ്റെ ഏത് രീതികൾ നിലവിലുണ്ട്, ഡാറ്റാ സയൻസ് ടീം ആരാണ്, ഗവേഷണ പ്രക്രിയയിൽ എന്ത് ബുദ്ധിമുട്ടുകൾ ഉണ്ടാകാം - ഇനിപ്പറയുന്ന ലേഖനങ്ങളിൽ ഞങ്ങൾ ഇതിനെക്കുറിച്ച് സംസാരിക്കും.