বাড়ি মুখ থেকে দুর্গন্ধ ডেটা সায়েন্টিস্ট কোথায় পড়াশোনা করবেন। ডেটা সায়েন্স কী এবং এটি কীভাবে কাজ করে? ভিডিও: নতুন বিশেষীকরণ "বিগ ডেটা" - মিখাইল লেভিন

ডেটা সায়েন্টিস্ট কোথায় পড়াশোনা করবেন। ডেটা সায়েন্স কী এবং এটি কীভাবে কাজ করে? ভিডিও: নতুন বিশেষীকরণ "বিগ ডেটা" - মিখাইল লেভিন

আপনি কি দীর্ঘকাল ধরে জানতে চেয়েছিলেন কীভাবে ডেটা বিশ্লেষক হবেন, ডেটা সায়েন্স অধ্যয়ন করবেন, কিন্তু কোথা থেকে শুরু করবেন তা জানেন না? তাহলে এই অনুচ্ছেদটি তোমার জন্যে।

আমাদের মধ্যে কে "বিগ ডেটা" সম্পর্কে শুনেনি? এটা অসম্ভাব্য যে অন্তত একটি হবে. ভিতরে গত বছরগুলোডেটা নিয়ে কাজ করার আগ্রহ উল্লেখযোগ্যভাবে বেড়েছে, কারণ বৃহৎ আইটি কোম্পানিগুলিকে বিশ্লেষণ, প্রক্রিয়াকরণ এবং পরবর্তীকালে ডেটা ব্যবহারের জন্য আরও বেশি নতুন সমাধান নিয়ে আসতে হবে। কেউ কেউ লঞ্চও করে শেখার প্রোগ্রামবিশ্ববিদ্যালয়ের সাথে একসাথে। যাইহোক, বেশিরভাগ লোকেরই ধারণা নেই যে ডেটা বিশ্লেষকরা কী ধরণের লোক। আপনি যদি এমন ব্যক্তিদের একজন হন এবং আপনার ডেটা বিশ্লেষক হওয়ার ইচ্ছা থাকে তবে এই নিবন্ধটি আপনার জন্য। আপনার অবস্থান নির্বিশেষে আমরা শুধুমাত্র বিনামূল্যে প্রশিক্ষণের সরঞ্জামগুলি নির্বাচন করেছি যা আপনি ব্যবহার করতে পারেন৷

ডেটা বিশ্লেষকরা কী করেন?

তথাকথিত ডেটা বিশ্লেষকরা চাক্ষুষ, মানব-বোধগম্য ফলাফল পেতে এর তথ্য এবং বিশ্লেষণে নিযুক্ত আছেন। এই ধরনের ব্যক্তিরা সাধারণত বিগ ডেটা, ডেটা মাইনিং, মেশিন লার্নিং, সিস্টেম বিশ্লেষণ এবং ব্যবসা বিশ্লেষকদের বিশেষজ্ঞদের অন্তর্ভুক্ত করে।

কি দেখতে হবে

ইয়ানডেক্স থেকে "স্কুল অফ ডেটা অ্যানালাইসিস" বক্তৃতা

SHAD - ইয়ানডেক্স কর্মীদের কাছ থেকে ডেটা বিশ্লেষণের কোর্স। সেখানে প্রবেশ করা বেশ কঠিন;গাণিতিক বিশ্লেষণ, সংমিশ্রণ, সম্ভাব্যতা তত্ত্ব, সেইসাথে প্রোগ্রামিং এর মৌলিক বিষয়গুলি। সৌভাগ্যবশত, কোর্সগুলো রেকর্ড করা হয়েছে যাতে সবাই ভিডিও লেকচার থেকে শিখতে পারে।

মেশিন লার্নিং কোর্স

কোর্সটি শেখায় কীভাবে সম্ভাব্যতা তত্ত্ব এবং পরিসংখ্যান প্রয়োগ করতে হয়, মেশিন লার্নিংয়ের মূল বিষয়গুলি সম্পর্কে কথা বলে এবং কীভাবে অ্যালগরিদম তৈরি করতে হয় তা শেখায়

কোর্স "সার্চ ডেটা অ্যালগরিদম এবং স্ট্রাকচার"

বক্তৃতাগুলি প্রচুর পরিমাণে ডেটা অনুসন্ধান এবং বাছাই করার জন্য অ্যালগরিদমগুলি কভার করে, অ্যালগরিদম এবং স্ট্রিং ম্যানিপুলেশন, গ্রাফ-তাত্ত্বিক অ্যালগরিদম, ডেটা স্ট্রাকচারের নির্মাণ এবং বিশ্লেষণ।

কোর্স "সমান্তরাল এবং বিতরণকৃত কম্পিউটিং"

যারা দীর্ঘদিন ধরে মাল্টি-থ্রেডেড এবং প্যারালাল প্রোগ্রামিং, সেইসাথে MapReduce এর সাথে পরিচিত হতে চেয়েছিলেন তাদের জন্য।

কোর্স "বিচ্ছিন্ন বিশ্লেষণ এবং সম্ভাব্যতা তত্ত্ব"

কোর্সটি কম্বিনেটরিয়াল, বিযুক্ত এবং অ্যাসিম্পোটিক বিশ্লেষণ, সম্ভাব্যতা তত্ত্ব, পরিসংখ্যানের মৌলিক ধারণা এবং পদ্ধতিগুলি পরীক্ষা করে এবং তাদের প্রয়োগ প্রদর্শন করে।

কোর্স "কম্পিউটেশনাল কমপ্লেসিটি"

কোর্সটি দেখার পর, আপনি সম্ভাব্য জটিলতার ক্লাস এবং ডেটা বিশ্লেষণ ও নির্মাণের প্রাথমিক কৌশল সম্পর্কে শিখবেন।

বক্তৃতা Technostream Mail.ru গ্রুপ

কোর্সের প্রোগ্রামগুলি মস্কোর বেশ কয়েকটি বিশ্ববিদ্যালয়ের শিক্ষার্থীদের জন্য তৈরি করা হয়েছে, তবে যে কারও জন্য উপলব্ধ। আমরা ভবিষ্যতের বিশ্লেষকদের কাছে বক্তৃতাগুলির নিম্নলিখিত সংগ্রহগুলি সুপারিশ করি:

বিগ ডেটা ইউনিভার্সিটিতে বক্তৃতা দেন

বিগ ডেটা ইউনিভার্সিটি - অনলাইন কোর্স, নতুনদের জন্য এবং গাণিতিক পটভূমি ছাড়াই IBM-এর সাথে যৌথভাবে তৈরি করা হয়েছে। যে বক্তৃতাগুলি আপনাকে ডেটা নিয়ে কাজ করার মূল বিষয়গুলির সাথে পরিচিত হতে সাহায্য করে সেগুলি পরিষ্কার ইংরেজিতে রেকর্ড করা হয়।

ওয়েলচ ল্যাবস

এই চ্যানেলে গণিত, কম্পিউটার বিজ্ঞান, প্রোগ্রামিং এবং মেশিন লার্নিং এর উপর বক্তৃতা রয়েছে। প্রক্রিয়ায়, অধ্যয়ন করা জিনিসগুলির প্রয়োগের উদাহরণ দেওয়া হয় বাস্তব জীবন. বক্তৃতা ইংরেজিতে, কিন্তু চমৎকার রাশিয়ান সাবটাইটেল আছে.

আমরা হব " স্ট্রাকচার্ড ডেটা থেকে শেখা: সম্ভাব্য গ্রাফিকাল মডেলগুলির একটি ভূমিকা"কম্পিউটার সায়েন্স অনুষদ, ন্যাশনাল রিসার্চ ইউনিভার্সিটি হায়ার স্কুল অফ ইকোনমিক্স

এই কোর্সটি আজকের এই জাতীয় সমস্যাগুলি সমাধানের জন্য সবচেয়ে জনপ্রিয় পদ্ধতির একটি তত্ত্ব এবং প্রয়োগের গভীরভাবে পরিচিতির উপর দৃষ্টি নিবদ্ধ করে - বিচ্ছিন্ন সম্ভাব্যতাবাদী গ্রাফিক মডেল. কোর্সের ভাষা ইংরেজি।

চ্যানেল সেন্ডডেক্স

চ্যানেলটি সম্পূর্ণরূপে ডেটা নিয়ে কাজ করার জন্য নিবেদিত। তাছাড়া, শুধুমাত্র যারা গণিতে আগ্রহী তারা নিজেদের জন্য দরকারী জিনিস খুঁজে পাবেন না। রাস্পেরি পাই ব্যবহার করে আর্থিক বিশ্লেষক এবং রোবোটিক্সের জন্য বিশ্লেষণ এবং প্রোগ্রামিং সম্পর্কিত ভিডিও রয়েছে।

সিরাজ রাওয়াল চ্যানেল

লোকটা কথা বলে আধুনিক প্রযুক্তিএবং কিভাবে তাদের সাথে কাজ করতে হয়। ডিপ লার্নিং, ডেটা সায়েন্স এবং মেশিন লার্নিং এর কোর্সগুলি আপনাকে ডেটা নিয়ে কীভাবে কাজ করতে হয় তা শিখতে সাহায্য করবে।

ডেটা স্কুল চ্যানেল

আপনি যদি শুধুমাত্র মেশিন লার্নিং সম্পর্কে কিছু শুনে থাকেন তবে ইতিমধ্যেই আগ্রহী হন, তাহলে এই চ্যানেলটি আপনার জন্য। লেখক একটি বোধগম্য স্তরে ব্যাখ্যা করবেন, উদাহরণ সহ, এটি কী, এটি কীভাবে কাজ করে এবং কোথায় এটি ব্যবহার করা হয়।

যেখানে অনুশীলন করতে হবে

যারা নিশ্চিত নন যে তারা লেকচার দেখে সম্পূর্ণ স্বাধীনভাবে অধ্যয়ন করতে প্রস্তুত, তাদের জন্য যাচাইকরণ সহ কাজ সহ অনলাইন কোর্স রয়েছে।

Coursera উপর ডেটা সায়েন্স কোর্স

এটা কি ধরনের প্ল্যাটফর্ম তা ব্যাখ্যা করার দরকার নেই। আপনাকে একটি কোর্স বেছে নিতে হবে এবং অধ্যয়ন শুরু করতে হবে।

Stepik.org

R-এ ডেটা বিশ্লেষণ

প্রথম অংশটি R-এ পরিসংখ্যানগত বিশ্লেষণের সমস্ত প্রধান ধাপগুলি কভার করে, ডেটা পড়া, ডেটা প্রিপ্রসেসিং, মৌলিক পরিসংখ্যান পদ্ধতি প্রয়োগ করা এবং ফলাফলগুলি ভিজ্যুয়ালাইজ করা। শিক্ষার্থীরা R ভাষায় প্রোগ্রামিংয়ের মৌলিক উপাদানগুলি শিখবে, যা তাদের ডেটা প্রক্রিয়াকরণের সময় উদ্ভূত সমস্যাগুলির একটি বিস্তৃত পরিসর দ্রুত এবং দক্ষতার সাথে সমাধান করতে দেয়।

দ্বিতীয় অংশে বেশ কিছু উন্নত বিষয় রয়েছে যা প্রথমটিতে কভার করা হয়নি: data.table এবং dplyr প্যাকেজ ব্যবহার করে ডেটা প্রিপ্রসেসিং, উন্নত ভিজ্যুয়ালাইজেশন কৌশল, আর মার্কডাউনে কাজ করা।

ডাটাবেস পরিচিতি

DBMS এ ডুব দিন

কোর্সটি তাদের জন্য যাদের রিলেশনাল ডিবিএমএস নিয়ে কিছু অভিজ্ঞতা আছে এবং তারা কীভাবে কাজ করে সে সম্পর্কে আরও জানতে চান। কোর্স কভার করে:

  • ডাটাবেস স্কিমা ডিজাইন;
  • লেনদেন ব্যবস্থাপনা;
  • ক্যোয়ারী অপ্টিমাইজেশান;
  • রিলেশনাল ডিবিএমএসের নতুন বৈশিষ্ট্য

হাডুপ। প্রচুর পরিমাণে ডেটা প্রক্রিয়াকরণের জন্য সিস্টেম

কোর্সটি Hadoop সিস্টেম ব্যবহার করে বিপুল পরিমাণ ডেটা প্রক্রিয়াকরণের পদ্ধতিতে নিবেদিত। কোর্সটি শেষ করার পরে, আপনি প্রচুর পরিমাণে ডেটা সংরক্ষণ এবং প্রক্রিয়াকরণের প্রাথমিক পদ্ধতি সম্পর্কে জ্ঞান অর্জন করতে পারবেন, Hadoop কাঠামোর প্রেক্ষাপটে বিতরণ করা সিস্টেমের নীতিগুলি বুঝতে পারবেন এবং MapReduce প্রোগ্রামিং মডেল ব্যবহার করে ব্যবহারিক প্রয়োগ বিকাশের দক্ষতা অর্জন করতে পারবেন।

অনেক নিয়োগকর্তা আজ সক্রিয়ভাবে ডেটা বিজ্ঞানী খুঁজছেন। একই সময়ে, তারা সেই "বিজ্ঞানীদের" আকৃষ্ট করতে আগ্রহী যাদের উপযুক্ত শিক্ষা রয়েছে। একই সময়ে, আপনাকে বাজারের সমস্ত ভুল তথ্য বিবেচনা করতে হবে। আমরা আপনাকে ডেটা সায়েন্টিস্ট এবং ডেটা সায়েন্টিস্টদের সম্পর্কে সবচেয়ে বড় ভুল ধারণা, তাদের যে দক্ষতা থাকতে হবে এবং এই বিরল জাতটি আসলে কে তা সম্পর্কে বলব।

ডেটা সায়েন্স(ডেটা সায়েন্স) কম্পিউটার বিজ্ঞানের একটি শাখা যা ডিজিটাল আকারে ডেটা বিশ্লেষণ, প্রক্রিয়াকরণ এবং উপস্থাপনের সমস্যাগুলি অধ্যয়ন করে। ডেটা সায়েন্স বৃহৎ আয়তনে ডেটা প্রক্রিয়াকরণের পদ্ধতি এবং উচ্চ স্তরের সমান্তরালতা, পরিসংখ্যান পদ্ধতি, ডেটা মাইনিং পদ্ধতি এবং ডেটা নিয়ে কাজ করার জন্য কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশন, সেইসাথে ডেটাবেস ডিজাইন এবং বিকাশের পদ্ধতিগুলিকে একত্রিত করে। একাডেমিক শৃঙ্খলা হিসাবে বিবেচিত। 2010 এর দশকের শুরু থেকে, এটি কার্যকলাপের একটি ব্যবহারিক আন্তঃক্ষেত্রীয় ক্ষেত্র হিসাবে অবস্থান করা হয়েছে। 2010 এর দশকের গোড়ার দিক থেকে, "ডেটা সায়েন্টিস্ট" বিশেষীকরণকে সর্বোচ্চ অর্থপ্রদানকারী, আকর্ষণীয় এবং প্রতিশ্রুতিশীল পেশাগুলির মধ্যে একটি হিসাবে বিবেচনা করা হয়েছে।

ডেটা সায়েন্সের ভুল ধারণা

1. বিগ ডেটা হল পরিসংখ্যান এবং বিপুল পরিমাণ ডেটা সহ ব্যবসায়িক বিশ্লেষণ। এখানে নতুন কিছু নেই

এই মতামতটি মূলত সেই সমস্ত লোকেদের দ্বারা অনুষ্ঠিত হয় যাদের সফ্টওয়্যার ডেভেলপমেন্টে সীমিত অভিজ্ঞতা রয়েছে, বা কোনও অভিজ্ঞতার বোঝা নেই। একটি উপমা চান? অনুগ্রহ. উদাহরণ হিসাবে বরফ নেওয়া যাক। এটাকে খুব ঠান্ডা পানি বলা যেতে পারে। এখানে নতুন কি? যাইহোক, ঠান্ডা জল শুধুমাত্র তার তাপমাত্রা পরিবর্তন করে না, কিন্তু আমূলভাবে এর গুণগত বৈশিষ্ট্য পরিবর্তন করে, তরলকে কঠিনে রূপান্তর করে। বৃহৎ পরিমাণ ডেটার ক্ষেত্রেও একই কথা বলা যেতে পারে। বিপুল পরিমাণ ডেটা শেষ পর্যন্ত গণনা, গণনা এবং হিসাবের পুরানো দৃষ্টান্ত ভেঙে দেয়। ব্যবহার ঐতিহ্যগত পদ্ধতিব্যবসায়িক বিশ্লেষকদের জন্য, নির্দিষ্ট গণনা করতে কয়েক বছর সময় লাগতে পারে। সমান্তরালকরণ এবং বিতরণ করা কম্পিউটিং হল স্কেলিং এর প্রশ্নের সুস্পষ্ট উত্তর। কিন্তু লজিস্টিক রিগ্রেশন অ্যানালাইসিসের মতো সহজ একটি পরিসংখ্যান টুল দিয়েও এটি সবসময় এত সহজ নয়। বিতরণ করা পরিসংখ্যানগত কম্পিউটিং ঐতিহ্যগত ব্যবসা বিশ্লেষণ থেকে বরফ যেমন জল থেকে ভিন্ন।

2. ডেটা সায়েন্টিস্টরা রিব্র্যান্ড করার পর একই সফটওয়্যার ইঞ্জিনিয়ার

কখনও কখনও সফ্টওয়্যার ডেভেলপমেন্টে ব্যাপক অভিজ্ঞতা সম্পন্ন প্রকৌশলীরা পুনরায় প্রশিক্ষণের মধ্য দিয়ে যায় এবং উন্নতি করার জন্য ডেটা বিজ্ঞানী হয়ে ওঠে মজুরি. যাইহোক, এই অভ্যাস প্রায়ই অসন্তোষজনক ফলাফল বাড়ে। প্রকৃতপক্ষে, বড় ডেটার ক্ষেত্রে, এমনকি সহজ স্তরে পরিসংখ্যানগত ত্রুটিগুলি ডিবাগ করা একটি বরং কঠিন কাজ বলে মনে হয়। ইঞ্জিনিয়ারদের সফ্টওয়্যার ত্রুটি সনাক্ত এবং ঠিক করার জন্য প্রশিক্ষণ দেওয়া হয়। কিন্তু সম্ভাব্যতা তত্ত্ব এবং পরিসংখ্যান সম্পর্কে একটি দৃঢ় জ্ঞান ছাড়া, এমনকি একজন দুর্দান্ত প্রোগ্রামারও একটি সাধারণ পরিসংখ্যানগত ত্রুটি সফলভাবে দূর করতে সক্ষম হওয়ার সম্ভাবনা কম।


উচ্চ-স্তরের প্রকৌশলীরা সহজ, বিচ্ছিন্ন, নিয়ম-ভিত্তিক মডেল তৈরি করতে সক্ষম। কিন্তু এই ধরনের মডেলগুলি ডেটা থেকে আরও সূক্ষ্ম অন্তর্দৃষ্টি পাওয়ার জন্য উপযুক্ত নয়। তাই আর্থিক সুবিধা হারিয়েছে। অতএব, "বড় ডেটা প্রশ্নগুলির" উত্তর পেতে অত্যন্ত যোগ্য এবং অত্যন্ত বিশেষায়িত কর্মীদের প্রয়োজন, যা ভবিষ্যদ্বাণীমূলক মডেলিংয়ের পরবর্তী প্রজন্মের ভিত্তি হবে।

3. ডেটা বিজ্ঞানীদের ব্যবসা বোঝার দরকার নেই - ডেটা তাদের সবকিছু বলে দেবে

প্রোগ্রামার হিসাবে শিক্ষা এবং অভিজ্ঞতা আছে এমন লোকেরা প্রায়শই এই প্রলোভনের শিকার হন। এবং, সত্যিই, কেন তাদের ব্যবসা বোঝার দরকার যদি তাদের এত শক্তিশালী ভিত্তি থাকে? শক্তিশালী, কিন্তু সর্বশক্তিমান নয়। সমস্ত সম্ভাব্য পারস্পরিক সম্পর্ক খুঁজে পাওয়া অবিশ্বাস্যভাবে শ্রম-নিবিড় এবং সময়সাপেক্ষ, পরিসংখ্যানগতভাবে সমস্যাযুক্ত উল্লেখ না করা। ডেটা বিজ্ঞানীদের অবশ্যই তাদের ব্যবসায়িক অন্তর্দৃষ্টি ব্যবহার করতে হবে সফলভাবে মিথ্যা এবং বাস্তব পারস্পরিক সম্পর্কের মধ্যে পার্থক্য করতে। একটি নির্দিষ্ট ক্ষেত্রে বিশেষজ্ঞ জ্ঞানের অভাব ভিত্তিহীন সিদ্ধান্তের দিকে নিয়ে যেতে পারে। আপনি এটা কিভাবে পছন্দ করেন? পুলিশ কর্মকর্তার সংখ্যা বৃদ্ধি অপরাধ বৃদ্ধির দিকে পরিচালিত করে, যার অর্থ প্রতিকূল অপরাধ পরিস্থিতি সহ এলাকায় আইন প্রয়োগকারী কর্মকর্তাদের সংখ্যা হ্রাস করা প্রয়োজন। পরিশেষে, মূল স্টেকহোল্ডারদের বোঝানোর জন্য ব্যবসায়িক অন্তর্দৃষ্টি থাকাও গুরুত্বপূর্ণ: ব্যবসায়িক ব্যক্তিরা বোঝেন এমন একটি ভাষায় পারস্পরিক সম্পর্ক সম্পর্কে কথা বলার মাধ্যমে, একজন ডেটা বিজ্ঞানী এমন একজন সহকর্মীর চেয়ে বেশি সফল হবেন যার ব্যবসায়িক দক্ষতা নেই।


বিগ ডেটা এবং ডেটা সায়েন্স হল সঠিক প্রকৌশল, পরিসংখ্যান এবং ব্যবসায়িক দক্ষতার সমন্বয়ে একটি সর্বোত্তম মডেল তৈরি করার জ্ঞান। এটি ব্যতীত, একজন ডেটা সায়েন্টিস্ট তার যা কিছু করতে চান তা অর্জন করতে সক্ষম হবেন না।

তাহলে ডেটা সায়েন্টিস্ট কারা?

ডেটা বিজ্ঞানীরা ব্যবসা এবং ডেটা বিশ্লেষকদের বিবর্তনের একটি পণ্য। এই ধরনের বিশেষজ্ঞদের জন্য আনুষ্ঠানিক প্রশিক্ষণের মধ্যে রয়েছে কম্পিউটার বিজ্ঞান, পরিসংখ্যান, বিশ্লেষণ এবং গণিত। কী একজন শীর্ষস্থানীয় ডেটা বিজ্ঞানী করে? ব্যবসায়িক এবং আইটি নেতাদের সাথে এমনভাবে যোগাযোগ করার ক্ষমতার সাথে একত্রিত শক্তিশালী ব্যবসায়িক দক্ষতা যা কোম্পানির বৃদ্ধিকে প্রভাবিত করতে সহায়তা করে। আইবিএম-এর বিগ ডেটার ভাইস প্রেসিডেন্ট আনজুল বামব্রা বলেছেন, ডেটা বিজ্ঞানীরা "অংশ বিশ্লেষক এবং অংশ শিল্পী।" এরা খুবই কৌতূহলী মানুষ যারা ডেটা এবং স্পট ট্রেন্ড দেখতে পারে। তাদের তুলনা করা যেতে পারে রেনেসাঁর শিল্পীদের সাথে, যারা শুধু শিখতে নয়, তাদের চারপাশের বিশ্বকেও পরিবর্তন করতে চেয়েছিল।

যখন একটি ঐতিহ্যগত বিশ্লেষক একটি একক উত্স থেকে ডেটা বিশ্লেষণ করে (যেমন সিআরএম সিস্টেম), একজন তথ্য বিজ্ঞানী অগত্যা বিভিন্ন উৎস থেকে ডেটা অধ্যয়ন করেন। প্রদান করতে পারে এমন পূর্বে লুকানো অন্তর্দৃষ্টিগুলি আবিষ্কার করার জন্য এটি আক্রমনাত্মকভাবে সমস্ত আগত ডেটার মাধ্যমে পরীক্ষা করবে প্রতিযোগিতামূলক সুবিধা. একজন ডেটা সায়েন্টিস্ট শুধু ডেটা সংগ্রহ ও বিশ্লেষণ করেন না, কিন্তু বিভিন্ন কোণ থেকে এটি দেখেন এবং বিভিন্ন প্রসঙ্গে বিশ্লেষণ করেন, একটি ব্র্যান্ডের জন্য এই বা সেই ডেটার অর্থ কী তা নির্ধারণ করেন এবং তারপরে উপলব্ধ তথ্যগুলি কীভাবে ব্যবহার করবেন সে সম্পর্কে সুপারিশ করেন।


ডেটা সায়েন্টিস্টরা হলেন এমন ব্যক্তিরা যারা ক্রমাগত গবেষণা করছেন, লক্ষ লক্ষ প্রশ্ন করছেন, "কী থাকলে..." বিশ্লেষণ করছেন, বিদ্যমান অনুমান এবং প্রক্রিয়াগুলিকে প্রশ্নবিদ্ধ করছেন, সমৃদ্ধ ডেটা উত্সগুলি সনাক্ত করছেন এবং তাদের দুর্বল ডেটা সেটের সাথে সংযুক্ত করছেন... একটি প্রতিযোগিতামূলক পরিবেশে যেখানে কাজগুলি ক্রমাগত হয় পরিবর্তন, এবং ডেটার দ্রুত প্রবাহ কখনই শেষ হয় না, ডেটা বিজ্ঞানীরা ব্যবস্থাপনায় সহায়তা করে সিদ্ধান্ত. এবং এটি তাদের সবচেয়ে মূল্যবান গুণ।

কেন "বিজ্ঞানী"?

অনেকে যুক্তি দেন যে একজন ডেটা সায়েন্টিস্টকে "ডেটা সায়েন্টিস্ট" বলা খুবই, খুব ভৌতিক। যাইহোক, আপনি যদি মূলটি দেখার চেষ্টা করেন, তবে এই সূত্রটি অর্থবোধ করে। উদাহরণস্বরূপ, পরীক্ষামূলক পদার্থবিদদের অবশ্যই তাদের নিজস্ব সরঞ্জামগুলি ডিজাইন এবং তৈরি করতে হবে, ডেটা সংগ্রহ করতে হবে, পরীক্ষাগুলি পরিচালনা করতে হবে এবং রিপোর্টে সমস্ত ফলাফলের সংক্ষিপ্তসার করতে হবে। ডেটা সায়েন্টিস্টরাও তাই করেন। অতএব, সবচেয়ে উচ্চ যোগ্য ডেটা বিজ্ঞানীরা পদার্থবিদ্যা বা সামাজিক বিজ্ঞানে উন্নত ডিগ্রিধারী ব্যক্তি হিসাবে বিবেচিত হয়।


গ্রহের সেরা ডেটা বিজ্ঞানীরা হলেন বাস্তুবিদ্যা এবং সিস্টেম বায়োলজির মতো রহস্যময় ক্ষেত্রগুলিতে পিএইচডি সহ বিজ্ঞানী৷ একটি আকর্ষণীয় উদাহরণ– জর্জ রুমেলিওটিস, যিনি সিলিকন ভ্যালির ইনটুইটে ডেটা বিজ্ঞানীদের একটি দলের নেতৃত্ব দেন। তিনি জ্যোতির্পদার্থবিদ্যায় পিএইচডি লাভ করেন। অনেক তথ্য বিজ্ঞানী মালিক একাডেমিক ডিগ্রীকম্পিউটার বিজ্ঞান, গণিত এবং অর্থনীতিতে। কিন্তু, সেটা যেমনই হোক, ভাল বিশেষজ্ঞ, ডেটা বিশ্লেষণে বিশেষজ্ঞ, যে কোনো ক্ষেত্র থেকে আসতে পারে।


মৌলিক দক্ষতা যা একজন ডেটা বিজ্ঞানী ছাড়া করতে পারে না

মৌলিক সরঞ্জাম. কোম্পানির মিশন নির্বিশেষে, একজন ডেটা বিজ্ঞানীকে অবশ্যই জানতে হবে যে কীভাবে মৌলিক সরঞ্জামগুলি ব্যবহার করতে হয়: পরিসংখ্যানগত ডেটা প্রসেসিং এবং গ্রাফিক্সের জন্য R প্রোগ্রামিং ভাষা, উচ্চ-স্তরের পাইথন প্রোগ্রামিং ভাষা যা বিকাশকারীর উত্পাদনশীলতা এবং কোড পাঠযোগ্যতা উন্নত করার লক্ষ্যে, স্ট্রাকচার্ড কোয়েরি ভাষা, যেমন SQL, একটি নির্বিচারে রিলেশনাল ডাটাবেসে ডেটা তৈরি, পরিবর্তন এবং ম্যানিপুলেট করতে ব্যবহৃত হয়।

মৌলিক পরিসংখ্যান. একজন তথ্য বিজ্ঞানীর জন্য পরিসংখ্যান বোঝা অত্যাবশ্যক। এটি কোন গোপন বিষয় নয় যে অনেক বিশেষজ্ঞ এমনকি P-মান - পরীক্ষায় ব্যবহৃত মান নির্ধারণ করতে সক্ষম নন পরিসংখ্যানগত অনুমান. একজন ডেটা সায়েন্টিস্টকে অবশ্যই পরিসংখ্যানগত পরীক্ষা, বিতরণ, সর্বাধিক সম্ভাবনা অনুমান ইত্যাদির সাথে পরিচিত হতে হবে। পরিসংখ্যান জন্য গুরুত্বপূর্ণ বিভিন্ন এলাকায়ব্যবসা, বিশেষ করে ডেটা-চালিত কোম্পানিগুলির জন্য


মেশিন লার্নিং. যদি একজন ডেটা সায়েন্টিস্ট একটি বিশাল কোম্পানিতে কাজ করেন যেখানে প্রচুর পরিমাণে ডেটা থাকে, তাহলে তার মেশিন লার্নিং পদ্ধতির সাথে পরিচিত হওয়া উচিত। অবশ্যই, এই পদ্ধতিগুলির মধ্যে অনেকগুলি R বা Python লাইব্রেরি ব্যবহার করে প্রয়োগ করা যেতে পারে, তাই অ্যালগরিদমগুলি কীভাবে কাজ করে তা বোঝার জন্য আপনাকে বিশ্ব-নেতৃস্থানীয় বিশেষজ্ঞ হতে হবে না। নির্দিষ্ট পদ্ধতির ব্যবহার কখন সবচেয়ে উপযুক্ত হবে তা বোঝা অনেক বেশি গুরুত্বপূর্ণ।

মাল্টিভারিয়েট গণনা এবং রৈখিক বীজগণিত. এই শৃঙ্খলা অনেক মেশিন লার্নিং পদ্ধতির ভিত্তি তৈরি করে।

বিশ্লেষণের জন্য ডেটা প্রস্তুত করা হচ্ছে. প্রায়শই বিশ্লেষণ করা ডেটা বেশ "নোংরা" হয়, এটির সাথে কাজ করা আরও কঠিন করে তোলে। অতএব, ডেটার সমস্ত ত্রুটিগুলি কীভাবে মোকাবেলা করা যায় তা জানা খুব গুরুত্বপূর্ণ। অসম্পূর্ণ ডেটার একটি উদাহরণ হল "নিউ ইয়র্ক" - "নিউ ইয়র্ক" - "এনওয়াই", বা তারিখ "2014-01-01" - "01/01/2014" এর মতো স্ট্রিংগুলির অসঙ্গত বিন্যাস, বা UNIX সিস্টেমের সময় এবং ক্রম টাইমস্ট্যাম্প।

ডেটা ভিজ্যুয়ালাইজেশন এবং যোগাযোগ. এই অবিশ্বাস্য গুরুত্বপূর্ণ পয়েন্ট, বিশেষত যখন আমরা তরুণ ডেটা-চালিত সংস্থাগুলির কথা বলছি, বা সেই সমস্ত সংস্থাগুলির কথা বলছি যেখানে ডেটা বিজ্ঞানীরা ডেটা-চালিত সিদ্ধান্ত নিতে সাহায্য করে এমন লোক হিসাবে বিবেচিত হয়৷ D3.js ডেটা প্রসেসিং এবং ভিজ্যুয়ালাইজ করার জন্য ggplot (R ভাষার একটি এক্সটেনশন) এবং জাভাস্ক্রিপ্ট লাইব্রেরির জ্ঞান খুব দরকারী হবে।

প্রোগ্রামিং. ডেটা বিজ্ঞানীরা সাধারণত প্রচুর পরিমাণে নিবন্ধন ডেটা এবং ডেটা-চালিত পণ্যগুলি পরিচালনা করার জন্য দায়ী।

ডেটা সায়েন্টিস্টের মত চিন্তা করুন. একজন নিয়োগকর্তা সবসময় একজন ডেটা সায়েন্টিস্টকে সমস্যা সমাধানকারী হিসেবে দেখতে চান। "বিজ্ঞানী" কে সর্বদা জানতে হবে এই পর্যায়ে কোনটি গুরুত্বপূর্ণ এবং কোনটি বিশেষ মূল্যবান নয়। তাকে পণ্য বিকাশের জন্য দায়ী ডিজাইনার এবং পরিচালকদের সাথে যোগাযোগ করতে হবে।


হার্ভার্ড বিজনেস রিভিউ দাবি করেছে যে ডেটা সায়েন্টিস্ট হল একবিংশ শতাব্দীর সবচেয়ে সেক্সি পেশা। এবং এটির সাথে একমত হওয়া কঠিন। ডেটা বিজ্ঞান সবেমাত্র বিকাশ করছে, এবং সমস্ত আধুনিক ডেটা বিজ্ঞানীদের নিরাপদে অগ্রগামী বলা যেতে পারে। এবং আপনি যদি বলতে পারেন যে আপনি পরিসংখ্যানবিদদের মধ্যে সেরা আইটি বিশেষজ্ঞ এবং আইটি বিশেষজ্ঞদের মধ্যে সেরা পরিসংখ্যানবিদ, তাহলে আপনি একজন সত্যিকারের ডেটা বিজ্ঞানী।

এই নিবন্ধটি প্রস্তুত করতে ব্যবহৃত উপকরণ

ডেটা সায়েন্টিস্ট- প্রচুর পরিমাণে ডেটা প্রক্রিয়াকরণ, বিশ্লেষণ এবং স্টোরেজ বিশেষজ্ঞ, তথাকথিত "বিগ ডেটা"। পেশাটি তাদের জন্য উপযুক্ত যারা পদার্থবিদ্যা, গণিত এবং কম্পিউটার বিজ্ঞানে আগ্রহী (স্কুলের বিষয়গুলিতে আগ্রহের ভিত্তিতে একটি পেশা বেছে নেওয়া দেখুন)।

ডেটা সায়েন্স - বিভিন্ন শাখার সংযোগস্থলে ডেটা সায়েন্স: গণিত এবং পরিসংখ্যান; তথ্যবিজ্ঞান এবং কম্পিউটার বিজ্ঞান; ব্যবসা এবং অর্থনীতি।

(এস. মাল্টসেভা, ভি. কর্নিলভ ন্যাশনাল রিসার্চ ইউনিভার্সিটি "হায়ার স্কুল অফ ইকোনমিক্স")

পেশাটি নতুন, প্রাসঙ্গিক এবং... "বিগ ডেটা" শব্দটি নিজেই 2008 সালে উপস্থিত হয়েছিল। এবং ডেটা সায়েন্টিস্টের পেশা - "ডেটা সায়েন্টিস্ট" আনুষ্ঠানিকভাবে 2010 সালের শুরুর দিকে একটি একাডেমিক এবং আন্তঃবিভাগীয় শৃঙ্খলা হিসাবে নিবন্ধিত হয়েছিল। যদিও "ডেটা সায়েন্স" শব্দটির প্রথম উল্লেখ 1974 সালে পিটার নাউরের বইয়ে উল্লেখ করা হয়েছিল, কিন্তু একটি ভিন্নভাবে। প্রসঙ্গ

এই ধরনের একটি পেশার উত্থানের প্রয়োজনীয়তা এই সত্য দ্বারা নির্দেশিত হয়েছিল যে যখন এটি আল্ট্রা বিগ ডেটার ক্ষেত্রে আসে, তখন ডেটা অ্যারেগুলি গাণিতিক পরিসংখ্যানের স্ট্যান্ডার্ড উপায়ে প্রক্রিয়া করার জন্য খুব বড় হতে পারে। প্রতিদিন, হাজার হাজার পেটাবাইট (10 15 বাইট = 1024 টেরাবাইট) তথ্য সারা বিশ্বের কোম্পানিগুলির সার্ভারের মধ্য দিয়ে যায়৷ তথ্যের এই ধরনের ভলিউম ছাড়াও, সমস্যা তাদের ভিন্নতা দ্বারা জটিল এবং উচ্চ গতিআপডেট

ডেটা অ্যারেগুলি 3 প্রকারে বিভক্ত:

কাঠামোগত (উদাহরণস্বরূপ, বাণিজ্যে নগদ নিবন্ধন থেকে ডেটা);

আধা-গঠিত (ই-মেইল বার্তা);

অসংগঠিত (ভিডিও ফাইল, ছবি, ফটোগ্রাফ)।

বেশিরভাগ বিগ ডেটা অসংগঠিত, যা প্রক্রিয়াকরণকে আরও কঠিন করে তোলে।

স্বতন্ত্রভাবে, একজন পরিসংখ্যানবিদ, সিস্টেম বিশ্লেষক বা ব্যবসায়িক বিশ্লেষক এই ধরনের তথ্যের ভলিউম দিয়ে সমস্যার সমাধান করতে পারেন না। এর জন্য একজন আন্তঃবিভাগীয় শিক্ষার সাথে একজন ব্যক্তির প্রয়োজন, গণিত এবং পরিসংখ্যান, অর্থনীতি এবং ব্যবসায়, কম্পিউটার বিজ্ঞান এবং কম্পিউটার প্রযুক্তিতে পারদর্শী।

একজন ডেটা সায়েন্টিস্টের প্রধান কাজ হল রিয়েল টাইমে তথ্য প্রবাহ ব্যবহার করে বিভিন্ন উৎস থেকে প্রয়োজনীয় তথ্য আহরণ করার ক্ষমতা; ডেটা সেটগুলিতে লুকানো নিদর্শনগুলি সনাক্ত করুন এবং স্মার্ট ব্যবসায়িক সিদ্ধান্ত নেওয়ার জন্য তাদের পরিসংখ্যানগতভাবে বিশ্লেষণ করুন। এই জাতীয় বিশেষজ্ঞের কর্মক্ষেত্রটি 1টি কম্পিউটার বা এমনকি 1টি সার্ভার নয়, তবে সার্ভারগুলির একটি ক্লাস্টার।

পেশার বৈশিষ্ট্য

ডেটা নিয়ে কাজ করার সময়, একজন ডেটা সায়েন্টিস্ট বিভিন্ন পদ্ধতি ব্যবহার করেন:

  • পরিসংখ্যানগত পদ্ধতি;
  • ডাটাবেস মডেলিং;
  • খনির পদ্ধতি;
  • ডেটা নিয়ে কাজ করার জন্য কৃত্রিম বুদ্ধিমত্তার অ্যাপ্লিকেশন;
  • ডাটাবেস ডিজাইন এবং ডেভেলপমেন্ট পদ্ধতি।

একজন ডেটা সায়েন্টিস্টের কাজের দায়িত্ব নির্ভর করে তার কার্যকলাপের ক্ষেত্রের উপর, কিন্তু সাধারণ তালিকাফাংশন এই মত দেখায়:

  • পরবর্তী অপারেশনাল প্রক্রিয়াকরণের জন্য বিভিন্ন উত্স থেকে তথ্য সংগ্রহ;
  • ভোক্তা আচরণ বিশ্লেষণ;
  • গ্রাহক বেস মডেলিং এবং পণ্য ব্যক্তিগতকরণ;
  • দক্ষতা বিশ্লেষণ অভ্যন্তরীণ প্রসেসঘাঁটি;
  • বিভিন্ন ঝুঁকি বিশ্লেষণ;
  • সন্দেহজনক লেনদেন অধ্যয়ন করে সম্ভাব্য জালিয়াতি সনাক্তকরণ;
  • পূর্বাভাস এবং তথ্য উপস্থাপনা সঙ্গে পর্যায়ক্রমিক রিপোর্ট আঁকা.

একজন ডাটা সায়েন্টিস্ট, একজন সত্যিকারের বিজ্ঞানীর মতো, শুধুমাত্র তথ্য সংগ্রহ ও বিশ্লেষণই করেন না, বরং বিভিন্ন প্রেক্ষাপটে এবং বিভিন্ন কোণ থেকে এটি অধ্যয়ন করেন, যে কোনো অনুমানকে প্রশ্নবিদ্ধ করেন। সবচেয়ে গুরুত্বপূর্ণ গুণডেটা সায়েন্টিস্ট হল সংগৃহীত তথ্যের একটি সিস্টেমে যৌক্তিক সংযোগ দেখার ক্ষমতা, এবং এর উপর ভিত্তি করে পরিমাণগত বিশ্লেষণকার্যকর ব্যবসা সমাধান বিকাশ। আজকের প্রতিযোগিতামূলক এবং দ্রুত পরিবর্তনশীল বিশ্বে, তথ্যের ক্রমবর্ধমান প্রবাহে, সঠিক ব্যবসায়িক সিদ্ধান্ত নেওয়ার ক্ষেত্রে ব্যবস্থাপনার জন্য একজন ডেটা সায়েন্টিস্ট অপরিহার্য।

পেশার ভালো-মন্দ

পেশাদার

  • পেশাটি শুধুমাত্র অত্যন্ত চাহিদার মধ্যে নয়, তবে এই স্তরের বিশেষজ্ঞদের তীব্র ঘাটতি রয়েছে। ম্যাককিনসে গ্লোবাল ইনস্টিটিউটের মতে, 2018 সালের মধ্যে, শুধুমাত্র মার্কিন যুক্তরাষ্ট্রেই 190 হাজারের বেশি ডেটা সায়েন্টিস্টের প্রয়োজন হবে। এই কারণেই ডেটা বিজ্ঞানীদের প্রশিক্ষণের জন্য সবচেয়ে মর্যাদাপূর্ণ বিশ্ববিদ্যালয়গুলিতে অনুষদগুলি এত দ্রুত এবং ব্যাপকভাবে অর্থায়ন এবং উন্নত হয়। রাশিয়াতেও ডেটা সায়েন্টিস্টের চাহিদা বাড়ছে।
  • উচ্চ বেতনের পেশা।
  • ক্রমাগত বিকাশ, আইটি প্রযুক্তির বিকাশের সাথে তাল মিলিয়ে চলা এবং ডেটা প্রক্রিয়াকরণ, বিশ্লেষণ এবং সংরক্ষণের জন্য নতুন পদ্ধতি তৈরি করার প্রয়োজন।

মাইনাস

  • প্রত্যেক ব্যক্তি এই পেশা আয়ত্ত করতে পারে না, এটি একটি বিশেষ মানসিকতা প্রয়োজন.
  • কাজের প্রক্রিয়ায়, সুপরিচিত পদ্ধতি এবং 60% এর বেশি ধারণা কাজ নাও করতে পারে। অনেক সমাধান ব্যর্থ হবে এবং সন্তোষজনক ফলাফল পেতে আপনাকে অনেক ধৈর্য ধরতে হবে। একজন বিজ্ঞানীর বলার অধিকার নেই: "না!" সমস্যা তাকে অবশ্যই একটি উপায় খুঁজে বের করতে হবে যা সমস্যা সমাধানে সাহায্য করবে।

কাজের জায়গা

ডেটা সায়েন্টিস্টরা প্রধান পদে রয়েছে:

  • প্রযুক্তিগত শিল্প (গাড়ি নেভিগেশন সিস্টেম, ড্রাগ উত্পাদন, ইত্যাদি);
  • আইটি গোলক (সার্চ ইঞ্জিন অপ্টিমাইজেশান, স্প্যাম ফিল্টার, নিউজ সিস্টেমেটাইজেশন, স্বয়ংক্রিয় পাঠ্য অনুবাদ এবং আরও অনেক কিছু);
  • ঔষধ (রোগের স্বয়ংক্রিয় নির্ণয়);
  • আর্থিক কাঠামো (ঋণ প্রদানের বিষয়ে সিদ্ধান্ত নেওয়া), ইত্যাদি;
  • টেলিভিশন কোম্পানি;
  • বড় খুচরা চেইন;
  • নির্বাচনী প্রচারণা

গুরুত্বপূর্ণ গুণাবলী

  • বিশ্লেষণাত্মক মন;
  • কঠিন কাজ;
  • অধ্যবসায়
  • সতর্কতা, নির্ভুলতা, মনোযোগ;
  • অসফল মধ্যবর্তী ফলাফল সত্ত্বেও গবেষণা সম্পূর্ণ করার ক্ষমতা;
  • যোগাযোগ দক্ষতা;
  • সহজ শব্দে জটিল জিনিস ব্যাখ্যা করার ক্ষমতা;
  • ব্যবসার অন্তর্দৃষ্টি।

পেশাগত জ্ঞান এবং দক্ষতা:

  • গণিতের জ্ঞান, গাণিতিক বিশ্লেষণ, গাণিতিক পরিসংখ্যান, সম্ভাব্যতা তত্ত্ব;
  • ইংরেজি জ্ঞান;
  • বৃহৎ ডেটা সেটগুলির সাথে কাজ করার জন্য প্রধান প্রোগ্রামিং ভাষাগুলির জ্ঞান: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • পরিসংখ্যানগত সরঞ্জামগুলির জ্ঞান - SPSS, R, MATLAB, SAS ডেটা মাইনার, মূকনাট্য;
  • যে শিল্পে তথ্য বিজ্ঞানী কাজ করেন তার পুঙ্খানুপুঙ্খ জ্ঞান; যদি এটি ফার্মাসিউটিক্যাল শিল্প হয়, তাহলে মৌলিক উত্পাদন প্রক্রিয়া এবং ওষুধের উপাদানগুলির জ্ঞান প্রয়োজন;
  • একজন ডাটা সায়েন্টিস্টের প্রধান মৌলিক দক্ষতা হল প্রচুর পরিমাণে ডেটার জন্য ক্লাস্টার স্টোরেজ সিস্টেমের সংগঠন এবং প্রশাসন;
  • ব্যবসা উন্নয়ন আইন জ্ঞান;
  • অর্থনৈতিক জ্ঞান।

বিশ্ববিদ্যালয়গুলো

  • মস্কো স্টেট ইউনিভার্সিটির নামে নামকরণ করা হয়েছে Lomonosov, কম্পিউটেশনাল গণিত এবং সাইবারনেটিক্স অনুষদ, বিশেষ শিক্ষামূলক প্রোগ্রাম Mail.Ru গ্রুপ "টেকনোস্ফিয়ার", প্রচুর পরিমাণে ডেটার বুদ্ধিমান বিশ্লেষণের পদ্ধতিতে প্রশিক্ষণ, C++ এ প্রোগ্রামিং, মাল্টি-থ্রেডেড প্রোগ্রামিং এবং তথ্য পুনরুদ্ধার সিস্টেম তৈরির জন্য প্রযুক্তি।
  • MIPT, ডেটা বিশ্লেষণ বিভাগ।
  • ন্যাশনাল রিসার্চ ইউনিভার্সিটি হায়ার স্কুল অফ ইকোনমিক্সের বিজনেস ইনফরমেটিক্স অনুষদ সিস্টেম বিশ্লেষক, জটিল তথ্য সিস্টেমের ডিজাইনার এবং বাস্তবায়নকারী এবং কর্পোরেট ইনফরমেশন সিস্টেম ম্যানেজমেন্টের সংগঠকদের প্রশিক্ষণ দেয়।
  • স্কুল অফ ডাটা অ্যানালাইসিস ইয়ানডেক্স।
  • ইউনিভার্সিটি ইন ইনোপোলিস, ইউনিভার্সিটি অফ ডান্ডি, ইউনিভার্সিটি অফ সাউদার্ন ক্যালিফোর্নিয়া, ইউনিভার্সিটি অফ অকল্যান্ড, ইউনিভার্সিটি অফ ওয়াশিংটন: বিগ ডেটাতে মাস্টার্স প্রোগ্রাম।
  • ইম্পেরিয়াল কলেজ লন্ডন বিজনেস স্কুল, এমএসসি ডেটা সায়েন্স অ্যান্ড ম্যানেজমেন্ট।

যে কোনও পেশার মতো, এখানে স্ব-শিক্ষা গুরুত্বপূর্ণ, যা নিঃসন্দেহে এই জাতীয় সংস্থানগুলি থেকে উপকৃত হবে:

  • বিশ্বের নেতৃস্থানীয় বিশ্ববিদ্যালয় থেকে অনলাইন কোর্স COURSERA;
  • মেশিন লার্নিং চ্যানেল ম্যাশিন লার্নিং;
  • edX কোর্স নির্বাচন;
  • Udacity কোর্স;
  • ডেটাকোয়েস্ট কোর্স, যেখানে আপনি ডেটা সায়েন্সে একজন প্রকৃত পেশাদার হয়ে উঠতে পারেন;
  • 6-পদক্ষেপ ডেটাক্যাম্প কোর্স;
  • ও'রিলি প্রশিক্ষণ ভিডিও;
  • নতুনদের জন্য স্ক্রিনকাস্ট এবং উন্নত ডেটা অরিগামি;
  • বিশেষজ্ঞদের ত্রৈমাসিক সম্মেলন মস্কো ডেটা সায়েন্টিস্ট মিটআপ;
  • তথ্য বিশ্লেষণ প্রতিযোগিতা Kaggle.сom

বেতন

বেতন 07/04/2019 অনুযায়ী

রাশিয়া 50000–200000 ₽

মস্কো 60000–300000 ₽

ডেটা সায়েন্টিস্ট পেশা সবচেয়ে বেশি বেতনপ্রাপ্তদের মধ্যে একটি। hh.ru ওয়েবসাইট থেকে তথ্য - মাসিক বেতন $8.5 হাজার থেকে $9 হাজার মার্কিন যুক্তরাষ্ট্রে, এই জাতীয় বিশেষজ্ঞের বেতন প্রতি বছর $110 হাজার - $140 হাজার।

সুপারজব রিসার্চ সেন্টারের জরিপ অনুযায়ী, ডেটা সায়েন্টিস্ট বিশেষজ্ঞদের বেতন কাজের অভিজ্ঞতা, দায়িত্বের পরিধি এবং অঞ্চলের উপর নির্ভর করে। একজন নবীন বিশেষজ্ঞ 70 হাজার রুবেল গণনা করতে পারেন। মস্কোতে এবং 57 হাজার রুবেল। সেন্ট পিটার্সবার্গে। 3 বছরের কাজের অভিজ্ঞতার সাথে, বেতন 110 হাজার রুবেলে বেড়ে যায়। মস্কোতে এবং 90 হাজার রুবেল। সেন্ট পিটার্সবার্গে। বৈজ্ঞানিক প্রকাশনা সহ অভিজ্ঞ বিশেষজ্ঞদের জন্য, বেতন 220 হাজার রুবেল পৌঁছতে পারে। মস্কোতে এবং 180 হাজার রুবেল। পিটার্সবার্গে।

কর্মজীবনের পদক্ষেপ এবং সম্ভাবনা

ডেটা সায়েন্টিস্ট পেশা নিজেই একটি উচ্চ কৃতিত্ব, যার জন্য গুরুতর তাত্ত্বিক জ্ঞান এবং বিভিন্ন পেশার ব্যবহারিক অভিজ্ঞতা প্রয়োজন। যে কোনও সংস্থায় এই জাতীয় বিশেষজ্ঞ একটি মূল ব্যক্তিত্ব। এই উচ্চতায় পৌঁছানোর জন্য, আপনাকে কঠোর পরিশ্রম করতে হবে এবং উদ্দেশ্যমূলকভাবে এবং ক্রমাগত উন্নতি করতে হবে এমন সমস্ত ক্ষেত্রে যা পেশার ভিত্তি তৈরি করে।

একজন ডেটা সায়েন্টিস্ট সম্পর্কে একটি কৌতুক আছে: তিনি একজন সাধারণবিদ যিনি যে কোনও পরিসংখ্যানবিদদের চেয়ে ভাল প্রোগ্রাম করেন এবং যে কোনও প্রোগ্রামারের চেয়ে পরিসংখ্যান ভাল জানেন। এবং তিনি কোম্পানির প্রধানের চেয়ে ব্যবসার প্রক্রিয়াগুলি ভাল বোঝেন।

কি হয়ছে "বড় ডেটা"প্রকৃত সংখ্যায়?

  1. প্রতি 2 দিনে, খ্রিস্টের জন্ম থেকে 2003 পর্যন্ত মানবতার দ্বারা তৈরি করা তথ্যের পরিমাণ দ্বারা ডেটার পরিমাণ বৃদ্ধি পায়।
  2. সমস্ত বিদ্যমান ডেটার 90% আজ গত 2 বছরে উপস্থিত হয়েছে৷
  3. 2020 সালের মধ্যে, তথ্যের পরিমাণ 3.2 থেকে 40 জেটাবাইটে বৃদ্ধি পাবে। 1 জেটাবাইট = 10 21 বাইট।
  4. 1 মিনিটের মধ্যে, 200 হাজার ছবি ফেসবুকে আপলোড করা হয়, 205 মিলিয়ন চিঠি পাঠানো হয় এবং 1.8 মিলিয়ন লাইক পোস্ট করা হয়।
  5. 1 সেকেন্ডের মধ্যে গুগল 40 হাজার সার্চ কোয়েরি প্রক্রিয়া করে।
  6. প্রতি 1.2 বছরে, প্রতিটি শিল্পে মোট ডেটার পরিমাণ দ্বিগুণ হয়।
  7. 2020 সালের মধ্যে, Hadoop পরিষেবার বাজার $50 বিলিয়ন হবে।
  8. 2015 সালে মার্কিন যুক্তরাষ্ট্রে, বিগ ডেটা প্রকল্পে কাজ করা বিশেষজ্ঞদের জন্য 1.9 মিলিয়ন চাকরি তৈরি করা হয়েছিল।
  9. বিগ ডেটা প্রযুক্তি প্রতি বছর খুচরা চেইনের মুনাফা 60% বৃদ্ধি করে।
  10. পূর্বাভাস অনুসারে, বিগ ডেটা বাজারের আকার 2014 সালের 28.5 বিলিয়ন ডলারের তুলনায় 2020 সালে বৃদ্ধি পেয়ে $68.7 বিলিয়ন হবে।

এই ধরনের ইতিবাচক বৃদ্ধির সূচক থাকা সত্ত্বেও, পূর্বাভাসেও ত্রুটি রয়েছে। উদাহরণস্বরূপ, 2016 সালের সবচেয়ে কুখ্যাত ভুলগুলির মধ্যে একটি: মার্কিন প্রেসিডেন্ট নির্বাচন সংক্রান্ত পূর্বাভাস সত্য হয়নি। পূর্বাভাস হিলারি ক্লিনটনের পক্ষে বিখ্যাত মার্কিন ডেটা বিজ্ঞানী Nate Silver, Kirk Bourne এবং Bill Schmarzo দ্বারা উপস্থাপন করা হয়েছিল। আগের নির্বাচনী প্রচারণায় তারা সঠিক পূর্বাভাস দিয়েছিল এবং কখনো ভুল হয়নি।

এই বছর, Nate সিলভার, উদাহরণস্বরূপ, দিয়েছেন সঠিক পূর্বাভাস 41টি রাজ্যের জন্য, কিন্তু 9টি রাজ্যের জন্য তিনি ভুল ছিলেন, যা ট্রাম্পের বিজয়ের দিকে পরিচালিত করেছিল। 2016 এর ত্রুটির কারণগুলি বিশ্লেষণ করার পরে, তারা এই সিদ্ধান্তে এসেছে যে:

  1. গাণিতিক মডেলগুলি তাদের সৃষ্টির সময় বস্তুনিষ্ঠভাবে ছবি প্রতিফলিত করে। কিন্তু তাদের একটি অর্ধেক জীবন আছে, যার শেষ নাগাদ পরিস্থিতি নাটকীয়ভাবে পরিবর্তিত হতে পারে। মডেলের ভবিষ্যদ্বাণীমূলক গুণাবলী সময়ের সাথে সাথে খারাপ হয়। ভিতরে এক্ষেত্রে, উদাহরণস্বরূপ, কুফল, আয় বৈষম্য, এবং অন্যান্য সামাজিক উত্থান একটি ভূমিকা পালন করেছে। অতএব, নতুন ডেটা বিবেচনায় নেওয়ার জন্য মডেলটি নিয়মিতভাবে সামঞ্জস্য করা উচিত। এটি করা হয়নি।
  2. পূর্বাভাসের উপর উল্লেখযোগ্য প্রভাব ফেলতে পারে এমন অতিরিক্ত ডেটা সন্ধান করা এবং বিবেচনা করা প্রয়োজন। সুতরাং, ক্লিনটন এবং ট্রাম্পের নির্বাচনী প্রচারণার সমাবেশের ভিডিও দেখার সময়, সমাবেশে অংশগ্রহণকারীদের মোট সংখ্যা বিবেচনায় নেওয়া হয়নি। প্রায় শতাধিক লোক ছিল। দেখা গেল যে ট্রাম্পের পক্ষে প্রতিটি সমাবেশে 400-600 জন উপস্থিত ছিলেন, এবং ক্লিনটনের পক্ষে মাত্র 150-200 জন, যা ফলাফলগুলিকে প্রভাবিত করেছিল।
  3. নির্বাচনী প্রচারে গাণিতিক মডেলগুলি জনসংখ্যার তথ্যের উপর ভিত্তি করে তৈরি করা হয়: বয়স, জাতি, লিঙ্গ, আয়, সমাজে অবস্থা ইত্যাদি। গত নির্বাচনে তারা কীভাবে ভোট দিয়েছে তার ভিত্তিতে প্রতিটি দলের ওজন নির্ধারণ করা হয়। এই পূর্বাভাসে 3-4% ত্রুটি রয়েছে এবং প্রার্থীদের মধ্যে একটি বড় ব্যবধান থাকলে নির্ভরযোগ্যভাবে কাজ করে। তবে এক্ষেত্রে ক্লিনটন এবং ট্রাম্পের মধ্যে ব্যবধান ছিল কম এবং এই ত্রুটি নির্বাচনের ফলাফলে উল্লেখযোগ্য প্রভাব ফেলেছিল।
  4. মানুষের অযৌক্তিক আচরণ বিবেচনায় নেওয়া হয়নি। পরিচালিত জনমত জরিপগুলি এই বিভ্রম তৈরি করে যে জনগণ ভোটে যেভাবে উত্তর দিয়েছে সেভাবে ভোট দেবে। কিন্তু মাঝে মাঝে উল্টোটা করে। এই ক্ষেত্রে, ভোটের প্রতি অসৎ মনোভাব সনাক্ত করতে মুখের এবং বক্তৃতা বিশ্লেষণগুলি অতিরিক্ত পরিচালনা করা প্রয়োজন।

সাধারণভাবে, প্রার্থীদের মধ্যে সামান্য ব্যবধানের কারণে ভবিষ্যদ্বাণীটি ভুল হয়ে গেছে। একটি বড় ব্যবধানের ক্ষেত্রে, এই ত্রুটিগুলি এত নির্ধারক হবে না।

ভিডিও: নতুন বিশেষীকরণ "বিগ ডেটা" - মিখাইল লেভিন

ইনফোগ্রাফিক্সে ডেটা সায়েন্টিস্ট। পেশাটি তাজা, উচ্চ বেতনের এবং সুপরিচিত। কিন্তু এই জাতীয় বিশেষজ্ঞের কী দক্ষতা থাকা উচিত? চলো বিবেচনা করি.

এর দক্ষতা সম্পর্কে কথা বলা যাক

একজন ডেটা সায়েন্টিস্ট হলেন একজন সাধারণ বিশেষজ্ঞ যা বিশ্লেষণ এবং তথ্য প্রক্রিয়াকরণ কভার করে। একজন ডেটা সায়েন্টিস্ট পরিসংখ্যান এবং প্রোগ্রামিং বোঝেন। দরকারী, তাই না? প্রতিটি পৃথক ডেটা সায়েন্টিস্টের ক্ষমতার পরিসীমা একটি গ্রেডেশন এবং কোডিং বা বিশুদ্ধ পরিসংখ্যানের দিকে যেতে পারে।

  • সান ফ্রান্সিসকো ভিত্তিক ডেটা বিশ্লেষক। কিছু কোম্পানি আসলে ডেটা সায়েন্টিস্টকে বিশ্লেষকদের সাথে তুলনা করে। এই জাতীয় বিশেষজ্ঞের কাজ ডাটাবেস থেকে তথ্য বের করা, এক্সেলের সাথে ইন্টারঅ্যাক্ট করা এবং মৌলিক ভিজ্যুয়ালাইজেশনে নেমে আসে।
  • বিশাল ট্র্যাফিক এবং প্রচুর পরিমাণে ডেটা কিছু সংস্থাকে জরুরীভাবে সন্ধান করতে বাধ্য করছে সঠিক বিশেষজ্ঞ. তারা প্রায়শই প্রকৌশলী, বিশ্লেষক, প্রোগ্রামার বা বিজ্ঞানীদের জন্য বিজ্ঞাপন পোস্ট করে, সকলেই একই কাজের শিরোনাম মাথায় রেখে।
  • এমন কোম্পানি আছে যার জন্য ডেটা একটি পণ্য। এই ক্ষেত্রে, নিবিড় বিশ্লেষণ এবং মেশিন লার্নিং প্রয়োজন হবে।
  • অন্যান্য সংস্থাগুলির জন্য, ডেটা কোনও পণ্য নয়, তবে পরিচালনা বা কর্মপ্রবাহ নিজেই এটির উপর নির্মিত। কোম্পানির ডেটা গঠনের জন্য ডেটা সায়েন্টিস্টদেরও চাওয়া হয়।

শিরোনামগুলি "একবিংশ শতাব্দীর যৌনতম পেশা" এর স্টাইলে শিরোনামে পূর্ণ। এটি সত্য কিনা আমরা জানি না, তবে আমরা জানি যে একজন ডেটা বিজ্ঞানীকে অবশ্যই বুঝতে হবে:

  1. গণিত এবং পরিসংখ্যান।
  2. বিষয় এলাকা এবং সফ্টওয়্যার.
  3. প্রোগ্রামিং এবং ডাটাবেস।
  4. তথ্য বিনিময় এবং ভিজ্যুয়ালাইজেশন.

আসুন আরো বিস্তারিতভাবে প্রতিটি পয়েন্ট তাকান.

ডেটা সায়েন্টিস্ট এবং গাণিতিক পরিসংখ্যান

উন্নয়ন গাণিতিক পদ্ধতিপরিসংখ্যানগত ডেটা ব্যবহার করা কাজের একটি মৌলিক অংশ। গাণিতিক পরিসংখ্যান সম্ভাব্যতা তত্ত্বের উপর ভিত্তি করে, যা সঠিক সিদ্ধান্তে আঁকতে এবং তাদের নির্ভরযোগ্যতা মূল্যায়ন করা সম্ভব করে তোলে।

1. মেশিন লার্নিং, AI এর একটি উপধারা হিসাবে। একটি প্রশিক্ষণ প্রোগ্রাম এবং নিদর্শন সহ ডেটা উদাহরণ রয়েছে। আমরা একটি প্যাটার্ন মডেল তৈরি করি, এটি বাস্তবায়ন করি এবং প্রোগ্রাম ব্যবহার করে নতুন ডেটাতে নিদর্শন খোঁজার সুযোগ পাই।

2. ডেটা সায়েন্টিস্ট অবশ্যই জানতে হবে পরিসংখ্যান মডেলিংএকটি নির্দিষ্ট সম্ভাবনার ঘনত্বের সাথে এলোমেলো সংকেত সহ মডেলটি পরীক্ষা করতে। লক্ষ্য হল পরিসংখ্যানগতভাবে প্রাপ্ত ফলাফল নির্ধারণ করা।

3. পরীক্ষামূলক নকশা। পরীক্ষার সময়, পার্থক্য দেখতে এক বা একাধিক ভেরিয়েবল পরিবর্তন করা হয়। এই ক্ষেত্রে, একটি হস্তক্ষেপ গ্রুপ এবং একটি নিয়ন্ত্রণ গোষ্ঠী রয়েছে, যার কারণে পরীক্ষাটি করা হয়।

4. Bayesian অনুমান একটি অনুমানের সম্ভাব্যতা সামঞ্জস্য করতে সাহায্য করে।

5. তত্ত্বাবধানে প্রশিক্ষণ:

  • সিদ্ধান্ত গাছ;
  • এলোমেলো বন;
  • পণ্য সরবরাহ সংশ্লেষণ.

6. তত্ত্বাবধানহীন শিক্ষা:

  • ক্লাস্টারিং;
  • মাত্রা হ্রাস।

7. অপ্টিমাইজেশান: গ্রেডিয়েন্ট ডিসেন্টএবং বিকল্প।

ডোমেইন এবং সফ্টওয়্যার দক্ষতা

অধ্যয়ন এবং অনুশীলন! এটি এই বিশেষত্বের ভিত্তি। একজন ডেটা সায়েন্টিস্টের অবশ্যই বিজ্ঞান প্রভাবিত করে এমন বিষয় সম্পর্কে ভাল ধারণা থাকতে হবে এবং সফ্টওয়্যারটির সাথে পরিচিত হতে হবে।

প্রয়োজনীয় দক্ষতার তালিকা অদ্ভুত, কিন্তু কম দরকারী নয়:

প্রোগ্রামিং এবং ডাটাবেস

পাইথন, XaaS, রিলেশনাল অ্যালজেবরা এবং এসকিউএল-এর প্রাথমিক জ্ঞান থেকে। সাধারণভাবে, গুণগতভাবে ডেটা প্রক্রিয়া করার প্রচেষ্টা ছাড়া সবকিছুই অকেজো।

1. কম্পিউটার বিজ্ঞানের মৌলিক বিষয়, যে কেউ প্রোগ্রামিং এবং প্রক্রিয়া অটোমেশনের সাথে জীবনকে সংযুক্ত করে তাদের জন্য একটি সূচনা বিন্দু হিসাবে।

ডেটা সায়েন্স, মেশিন লার্নিং - আপনি সম্ভবত এই বড় শব্দগুলি শুনেছেন, কিন্তু আপনার কাছে তাদের অর্থ কতটা স্পষ্ট ছিল? কিছু জন্য তারা সুন্দর baits. কিছু লোক মনে করে যে ডেটা সায়েন্স একটি জাদু যা একটি মেশিনকে বিনামূল্যে যা যা আদেশ দেওয়া হয় তা করতে বাধ্য করবে। অন্যরা এমনকি এটা বিশ্বাস করে সহজ পথবিপুল অর্থ উপার্জন। IRELA-এর R&D-এর প্রধান নিকিতা নিকিতিনস্কি এবং ডেটা সায়েন্টিস্ট পলিনা কাজাকোভা, সহজ এবং বোধগম্য ভাষায় এটি কী তা ব্যাখ্যা করেন।

আমি স্বয়ংক্রিয় প্রাকৃতিক ভাষা প্রক্রিয়াকরণে কাজ করি, ডেটা সায়েন্সের একটি অ্যাপ্লিকেশন, এবং প্রায়ই লোকেদের এই পদগুলি ভুলভাবে ব্যবহার করতে দেখি, তাই আমি একটু স্পষ্ট করতে চাই। এই নিবন্ধটি তাদের জন্য যারা ডেটা সায়েন্স কী তা সম্পর্কে সামান্য ধারণা রাখেন এবং ধারণাগুলি বুঝতে চান।

এর পরিভাষা সংজ্ঞায়িত করা যাক

আসুন এই সত্যটি দিয়ে শুরু করি যে ডেটা সায়েন্স কী তা সঠিকভাবে কেউ জানে না এবং এর কোনও কঠোর সংজ্ঞা নেই - এটি একটি খুব বিস্তৃত এবং আন্তঃবিভাগীয় ধারণা। অতএব, এখানে আমি আমার দৃষ্টিভঙ্গি শেয়ার করব, যা অগত্যা অন্যদের মতামতের সাথে মিলে না।

ডেটা সায়েন্স শব্দটি রাশিয়ান ভাষায় "ডেটা সায়েন্স" হিসাবে অনুবাদ করা হয় এবং একটি পেশাদার পরিবেশে এটি প্রায়শই "ডেটা সায়েন্স" হিসাবে অনুবাদ করা হয়। আনুষ্ঠানিকভাবে, এটি কম্পিউটার বিজ্ঞান এবং গণিতের ক্ষেত্রের কিছু আন্তঃসম্পর্কিত শাখা এবং পদ্ধতির একটি সেট। খুব বিমূর্ত শোনাচ্ছে, তাই না? আসুন এটা বের করা যাক।

প্রথম অংশ: ডেটা

ডেটা সায়েন্সের প্রথম উপাদান, এমন কিছু যা ছাড়া পুরো পরবর্তী প্রক্রিয়াটি অসম্ভব, আসলে, ডেটা নিজেই: কীভাবে এটি সংগ্রহ, সংরক্ষণ এবং প্রক্রিয়া করা যায়, সেইসাথে কীভাবে এটি সাধারণ ডেটা অ্যারে থেকে আলাদা করা যায় দরকারী তথ্য. বিশেষজ্ঞরা তাদের কাজের সময়ের 80% পর্যন্ত ডেটা পরিষ্কার করতে এবং এটিকে পছন্দসই আকারে আনতে ব্যয় করেন।

এই পয়েন্টের একটি গুরুত্বপূর্ণ অংশ হ'ল কীভাবে ডেটা পরিচালনা করা যায় যার জন্য স্ট্যান্ডার্ড স্টোরেজ এবং প্রক্রিয়াকরণ পদ্ধতিগুলি তাদের বিশাল আয়তন এবং/অথবা বৈচিত্র্যের কারণে উপযুক্ত নয় - তথাকথিত বড় ডেটা। যাইহোক, নিজেকে বিভ্রান্ত হতে দেবেন না: বড় ডেটা এবং ডেটা বিজ্ঞান সমার্থক নয়: বরং, প্রথমটি দ্বিতীয়টির একটি উপধারা। একই সময়ে, অনুশীলনে ডেটা বিশ্লেষকদের সবসময় বড় ডেটা নিয়ে কাজ করতে হবে না—ছোট ডেটাও কার্যকর হতে পারে।

আসুন তথ্য সংগ্রহ করি

কল্পনা করুন যে আপনার কাজের সহকর্মীরা দিনে কতটা কফি পান করে এবং আগের রাতে তারা কতটা ঘুমিয়েছিল তার মধ্যে কোনও সম্পর্ক আছে কিনা তা নিয়ে আমরা আগ্রহী। আসুন আমাদের কাছে উপলব্ধ তথ্যগুলি লিখুন: ধরা যাক আপনার সহকর্মী গ্রেগরি আজ 4 ঘন্টা ঘুমিয়েছিলেন, তাই তাকে 3 কাপ কফি পান করতে হয়েছিল; এলিনা 9 ঘন্টা ঘুমিয়েছিল এবং কফি পান করেনি; এবং পোলিনা সমস্ত 10 ঘন্টা ঘুমিয়েছিল, কিন্তু 2.5 কাপ কফি পান করেছিল - এবং আরও অনেক কিছু।

আসুন একটি গ্রাফে প্রাপ্ত ডেটা প্রদর্শন করি (ভিজ্যুয়ালাইজেশন যে কোনও ডেটা বিজ্ঞান প্রকল্পের একটি গুরুত্বপূর্ণ উপাদান)। চলুন X অক্ষে ঘন্টায় এবং কফিকে Y অক্ষে মিলিলিটারে প্লট করি। আমরা এরকম কিছু পাব:

দ্বিতীয় অংশ: বিজ্ঞান

আমাদের কাছে ডেটা আছে, এখন আমরা কী করতে পারি? এটা ঠিক, বিশ্লেষণ, দরকারী নিদর্শন নিষ্কাশন এবং একরকম তাদের ব্যবহার. এখানে পরিসংখ্যান, মেশিন লার্নিং এবং অপ্টিমাইজেশানের মতো বিষয়গুলি আমাদের সাহায্য করবে৷

তারা ডেটা বিজ্ঞানের পরবর্তী এবং সম্ভবত সবচেয়ে গুরুত্বপূর্ণ উপাদান গঠন করে - ডেটা বিশ্লেষণ। মেশিন লার্নিং আপনাকে বিদ্যমান ডেটাতে প্যাটার্ন খুঁজে পেতে অনুমতি দেয় যাতে আপনি নতুন বস্তুর জন্য প্রাসঙ্গিক তথ্য ভবিষ্যদ্বাণী করতে পারেন।

এর তথ্য বিশ্লেষণ করা যাক

আসুন আমাদের উদাহরণে ফিরে আসি। চোখের কাছে, মনে হয় যে দুটি পরামিতি কোনওভাবে একে অপরের সাথে সংযুক্ত: একজন ব্যক্তি যত কম ঘুমাবেন, পরের দিন তিনি তত বেশি কফি পান করবেন। একই সময়ে, আমাদের কাছে একটি উদাহরণ রয়েছে যা এই প্রবণতা থেকে দাঁড়িয়েছে - পোলিনা, যিনি ঘুমাতে এবং কফি পান করতে ভালবাসেন। তবুও, আপনি কিছু সাধারণ সরল রেখার সাথে ফলাফলের প্যাটার্নটি আনুমানিক করার চেষ্টা করতে পারেন যাতে এটি যতটা সম্ভব ঘনিষ্ঠভাবে সমস্ত পয়েন্টের কাছে যায়:

সবুজ লাইন হল আমাদের মেশিন লার্নিং মডেল, এটি ডেটাকে সাধারণীকরণ করে এবং গাণিতিকভাবে বর্ণনা করা যেতে পারে। এখন, এটির সাহায্যে, আমরা নতুন বস্তুর মান নির্ধারণ করতে পারি: যখন আমরা ভবিষ্যদ্বাণী করতে চাই যে অফিসে প্রবেশকারী নিকিতা আজ কতটা কফি পান করবে, আমরা জিজ্ঞাসা করব তিনি কতটা ঘুমিয়েছিলেন। উত্তর হিসাবে 7.5 ঘন্টার মান পেয়ে, আমরা এটিকে মডেলে প্রতিস্থাপন করি - এটি 300 মিলিলিটারের চেয়ে সামান্য কম পরিমাণে কফি খাওয়ার পরিমাণের সাথে মিলে যায়। লাল বিন্দু আমাদের ভবিষ্যদ্বাণী প্রতিনিধিত্ব করে.

এটি মোটামুটিভাবে কীভাবে মেশিন লার্নিং কাজ করে, যার ধারণাটি খুব সহজ: একটি প্যাটার্ন খুঁজুন এবং এটিকে নতুন ডেটাতে প্রসারিত করুন। প্রকৃতপক্ষে, মেশিন লার্নিং-এ আরও একটি ক্লাস রয়েছে যেখানে আপনাকে আমাদের উদাহরণের মতো কিছু মান ভবিষ্যদ্বাণী করতে হবে না, তবে ডেটাকে নির্দিষ্ট গ্রুপে ভাগ করুন। তবে আমরা এই বিষয়ে আরও বিশদে অন্য সময় কথা বলব।

এর ফলাফল প্রয়োগ করা যাক

যাইহোক, আমার মতে, ডেটা সায়েন্স ডেটাতে প্যাটার্ন সনাক্ত করে শেষ হয় না। যেকোন তথ্য বিজ্ঞান প্রকল্প ফলিত গবেষণা, যেখানে একটি হাইপোথিসিস সেট করা, একটি পরীক্ষার পরিকল্পনা করা এবং অবশ্যই, একটি নির্দিষ্ট কেস সমাধানের জন্য ফলাফল এবং এর উপযুক্ততা মূল্যায়ন করার মতো বিষয়গুলি ভুলে যাওয়া গুরুত্বপূর্ণ।

প্রকৃত ব্যবসায়িক সমস্যার ক্ষেত্রে পরেরটি খুবই গুরুত্বপূর্ণ, যখন আপনাকে বুঝতে হবে যে ডেটা সায়েন্স দ্বারা পাওয়া সমাধানটি আপনার প্রকল্পের উপকার করবে কি না। আমাদের উদাহরণে নির্মিত মডেলের উপযোগিতা কী হবে? সম্ভবত এটির সাহায্যে আমরা অফিসে কফি সরবরাহকে অপ্টিমাইজ করতে পারি। একই সময়ে, আমাদের ঝুঁকিগুলি মূল্যায়ন করতে হবে এবং নির্ধারণ করতে হবে যে আমাদের মডেলটি বিদ্যমান সমাধানের চেয়ে এটিকে আরও ভালভাবে মোকাবেলা করবে - অফিস ম্যানেজার মিখাইল, পণ্যটি কেনার জন্য দায়ী।

আসুন ব্যতিক্রমগুলি খুঁজে বের করি

অবশ্যই, আমাদের উদাহরণ যতটা সম্ভব সরলীকৃত। বাস্তবে, আরও জটিল মডেল তৈরি করা সম্ভব হবে যা কিছু অন্যান্য কারণকে বিবেচনা করবে, উদাহরণস্বরূপ, একজন ব্যক্তি নীতিগতভাবে কফি পছন্দ করেন কিনা। অথবা মডেলটি এমন সম্পর্ক খুঁজে পেতে পারে যা একটি সরলরেখা দ্বারা উপস্থাপিত হওয়ার চেয়ে জটিল।

আমরা প্রথমে আমাদের ডেটাতে বহির্মুখী ব্যক্তিদের সন্ধান করতে পারি — যে বস্তুগুলি, পোলিনার মতো, অন্যদের থেকে খুব আলাদা। আসল বিষয়টি হ'ল বাস্তব কাজের ক্ষেত্রে, এই জাতীয় উদাহরণগুলি একটি মডেল এবং এর গুণমান তৈরির প্রক্রিয়ার উপর খারাপ প্রভাব ফেলতে পারে এবং সেগুলিকে অন্য কোনও উপায়ে প্রক্রিয়া করার অর্থ বোঝায়। এবং কখনও কখনও এই ধরনের বস্তু প্রাথমিক আগ্রহের, উদাহরণস্বরূপ, জালিয়াতি প্রতিরোধ করার জন্য অস্বাভাবিক ব্যাঙ্কিং লেনদেন সনাক্ত করার কাজ।

উপরন্তু, Polina আমাদের আরেকটি গুরুত্বপূর্ণ ধারণা দেখায় - মেশিন লার্নিং অ্যালগরিদমের অপূর্ণতা। আমাদের মডেল ভবিষ্যদ্বাণী করে যে একজন ব্যক্তির জন্য 100 মিলি কফি যে 10 ঘন্টা ঘুমিয়েছিল, যদিও বাস্তবে পোলিনা 500 টির মতো পান করেছিল৷ ডেটা সায়েন্স সলিউশনের গ্রাহকরা এটি কখনই বিশ্বাস করবেন না, তবে একটি মেশিনকে পুরোপুরিভাবে ভবিষ্যদ্বাণী করতে শেখানো এখনও অসম্ভব। বিশ্বে : ডেটাতে প্যাটার্ন শনাক্ত করার ক্ষেত্রে আমরা যতই ভালো হই না কেন, সবসময়ই অনির্দেশ্য উপাদান থাকবে।

গল্প চালিয়ে যাওয়া যাক

সুতরাং, ডেটা সায়েন্স হল ডেটা প্রক্রিয়াকরণ এবং বিশ্লেষণ এবং ব্যবহারিক সমস্যাগুলিতে প্রয়োগ করার পদ্ধতিগুলির একটি সেট। একই সময়ে, আপনাকে বুঝতে হবে যে এই ক্ষেত্রে প্রতিটি বিশেষজ্ঞের নিজস্ব দৃষ্টিভঙ্গি রয়েছে এবং মতামত ভিন্ন হতে পারে।

তথ্য বিজ্ঞান মোটামুটি সহজ ধারণার উপর ভিত্তি করে, কিন্তু বাস্তবে অনেক অ-স্পষ্ট সূক্ষ্মতা প্রায়ই আবিষ্কৃত হয়। ডেটা সায়েন্স আমাদেরকে কীভাবে ঘিরে রেখেছে প্রাত্যহিক জীবন, ডেটা বিশ্লেষণের কোন পদ্ধতি বিদ্যমান, ডেটা সায়েন্স টিম কাদের নিয়ে গঠিত এবং গবেষণা প্রক্রিয়া চলাকালীন কী অসুবিধা দেখা দিতে পারে - আমরা নিম্নলিখিত নিবন্ধগুলিতে এটি সম্পর্কে কথা বলব।



সাইটে নতুন

>

সবচেয়ে জনপ্রিয়