বাড়ি অপসারণ একাধিক রিগ্রেশন সমস্যা সমাধানের উদাহরণ। একাধিক রিগ্রেশনের ভূমিকা

একাধিক রিগ্রেশন সমস্যা সমাধানের উদাহরণ। একাধিক রিগ্রেশনের ভূমিকা

একাধিক রিগ্রেশনের উদ্দেশ্য হল একটি নির্ভরশীল এবং একাধিক স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করা।

উদাহরণ: বিভিন্ন PDM সিস্টেমের জন্য একটি ওয়ার্কস্টেশনের (50টি ওয়ার্কস্টেশন কেনার সময়) খরচের ডেটা রয়েছে। প্রয়োজনীয়: PDM সিস্টেম ওয়ার্কস্টেশনের মূল্য এবং এতে বাস্তবায়িত বৈশিষ্ট্যের সংখ্যার মধ্যে সম্পর্ক মূল্যায়ন করুন, সারণি 2 এ দেওয়া হয়েছে।

সারণি 2 - PDM সিস্টেমের বৈশিষ্ট্য

অর্ডার নম্বর পিডিএম সিস্টেম দাম পণ্য কনফিগারেশন ব্যবস্থাপনা পণ্য মডেল দলবদ্ধভাবে সম্পাদিত কর্ম পণ্য পরিবর্তন ব্যবস্থাপনা নথি প্রবাহ আর্কাইভস নথি অনুসন্ধান করুন কর্মসূচি পরিকল্পনা পণ্য উত্পাদন ব্যবস্থাপনা
iMAN হ্যাঁ হ্যাঁ
PartYPlus হ্যাঁ হ্যাঁ
পিডিএম স্টেপ স্যুট হ্যাঁ হ্যাঁ
অনুসন্ধান করুন হ্যাঁ হ্যাঁ
বাতাস বইছে হ্যাঁ হ্যাঁ
কম্পাস ম্যানেজার হ্যাঁ হ্যাঁ
টি-ফ্লেক্স ডক্স হ্যাঁ হ্যাঁ
টেকনোপ্রো না না

বৈশিষ্ট্যের সংখ্যাসূচক মান ("খরচ", "পণ্যের মডেল" এবং "টিমওয়ার্ক" ব্যতীত) মানে বাস্তবায়িত প্রতিটি বৈশিষ্ট্যের প্রয়োজনীয়তার সংখ্যা।

আসুন প্রাথমিক ডেটা দিয়ে একটি স্প্রেডশীট তৈরি করি এবং পূরণ করি (চিত্র 27)।

"Mod" ভেরিয়েবলের মান "1"। এড।" এবং "সংগ্রহ।" জেলা।" উত্স ডেটার "হ্যাঁ" মান এবং উত্স ডেটার "না" মানের সাথে "0" মান।

আসুন নির্ভরশীল ভেরিয়েবল "কস্ট" এবং স্বাধীন ভেরিয়েবল "প্রাক্তন" এর মধ্যে একটি রিগ্রেশন তৈরি করি। conf।", "মোড। ed।", "সংগ্রহ করুন। r-ta", "প্রাক্তন পরিবর্তন। তৈরি।"

উৎস তথ্যের পরিসংখ্যানগত বিশ্লেষণ শুরু করতে, "মাল্টিপল রিগ্রেশন" মডিউলে কল করুন (চিত্র 22)।

প্রদর্শিত ডায়ালগ বক্সে (চিত্র 23), ভেরিয়েবলগুলি নির্দেশ করুন যার জন্য পরিসংখ্যান বিশ্লেষণ করা হবে।

চিত্র 27 - প্রাথমিক তথ্য

এটি করার জন্য, ভেরিয়েবল বোতামে ক্লিক করুন এবং প্রদর্শিত ডায়ালগ বক্সে (চিত্র 28), নির্ভরশীল ভেরিয়েবলের সাথে সম্পর্কিত অংশে (নির্ভরশীল var.), "1-খরচ" নির্বাচন করুন এবং স্বাধীন ভেরিয়েবলের সাথে সংশ্লিষ্ট অংশে। (স্বাধীন পরিবর্তনশীল তালিকা), অন্য সব ভেরিয়েবল নির্বাচন করুন। তালিকা থেকে বেশ কয়েকটি ভেরিয়েবল নির্বাচন করা হয় "Ctrl" বা "Shift" কী ব্যবহার করে, অথবা সংশ্লিষ্ট ক্ষেত্রের ভেরিয়েবলের সংখ্যা (সংখ্যার পরিসর) নির্দিষ্ট করে।



চিত্র 28 - পরিসংখ্যানগত বিশ্লেষণের জন্য ভেরিয়েবল সেট করার জন্য ডায়ালগ বক্স

ভেরিয়েবল নির্বাচন করার পর, "মাল্টিপল রিগ্রেশন" মডিউলের প্যারামিটার সেট করার জন্য ডায়ালগ বক্সে "ঠিক আছে" বোতামে ক্লিক করুন। শিলালিপি সহ প্রদর্শিত উইন্ডোতে “No of indep. vars >=(N-1); কোর উল্টাতে পারে না। ম্যাট্রিক্স।" (চিত্র 29) "ঠিক আছে" বোতাম টিপুন।

এই বার্তাটি প্রদর্শিত হয় যখন সিস্টেম সমস্ত ঘোষিত স্বাধীন ভেরিয়েবলের জন্য একটি রিগ্রেশন তৈরি করতে পারে না, কারণ ভেরিয়েবলের সংখ্যা বিয়োগ 1 কেসের সংখ্যার চেয়ে বেশি বা সমান।

"উন্নত" ট্যাবে প্রদর্শিত উইন্ডোতে (চিত্র 30), আপনি রিগ্রেশন সমীকরণ তৈরির পদ্ধতি পরিবর্তন করতে পারেন।

চিত্র 29 - ত্রুটি বার্তা

এটি করার জন্য, "পদ্ধতি" ক্ষেত্রে, "ফরওয়ার্ড ধাপে ধাপে" নির্বাচন করুন (অন্তর্ভুক্তির সাথে ধাপে ধাপে)।

চিত্র 30 - একটি পদ্ধতি নির্বাচন করার জন্য উইন্ডো এবং একটি রিগ্রেশন সমীকরণ নির্মাণের জন্য প্যারামিটার সেট

ধাপে ধাপে রিগ্রেশন পদ্ধতিতে প্রতিটি ধাপে মডেলে কিছু স্বাধীন পরিবর্তনশীল যোগ করা বা বাদ দেওয়া থাকে। এইভাবে, অনেকগুলি "গুরুত্বপূর্ণ" ভেরিয়েবল হাইলাইট করা হয়েছে। এটি আপনাকে ভেরিয়েবলের সংখ্যা কমাতে দেয় যা নির্ভরতা বর্ণনা করে।

নির্মূলের সাথে ধাপে ধাপে বিশ্লেষণ ("পশ্চাৎপদ ধাপে")। এই ক্ষেত্রে, সমস্ত ভেরিয়েবল প্রথমে মডেলে অন্তর্ভুক্ত করা হবে, এবং তারপর প্রতিটি ধাপে, ভেরিয়েবলগুলি যেগুলি ভবিষ্যদ্বাণীগুলিতে সামান্য অবদান রাখে তা বাদ দেওয়া হবে৷ তারপরে, একটি সফল বিশ্লেষণের ফলাফল হিসাবে, মডেলটিতে শুধুমাত্র "গুরুত্বপূর্ণ" ভেরিয়েবলগুলিকে ধরে রাখা যেতে পারে, অর্থাৎ, সেই ভেরিয়েবলগুলি যাদের বৈষম্যের অবদান অন্যদের চেয়ে বেশি।

অন্তর্ভুক্তির সাথে ধাপে ধাপে বিশ্লেষণ ("ফরওয়ার্ড ধাপে ধাপে")। এই পদ্ধতিটি ব্যবহার করার সময়, স্বতন্ত্র ভেরিয়েবলগুলি ক্রমানুসারে রিগ্রেশন সমীকরণে অন্তর্ভুক্ত করা হয় যতক্ষণ না সমীকরণটি মূল ডেটাকে সন্তোষজনকভাবে বর্ণনা করে। ভেরিয়েবলের অন্তর্ভুক্তি F - পরীক্ষা ব্যবহার করে নির্ধারিত হয়। প্রতিটি ধাপে, সমস্ত ভেরিয়েবলের দিকে নজর দেওয়া হয় এবং জনসংখ্যার মধ্যে পার্থক্যের জন্য সবচেয়ে বেশি অবদান রাখে এমন একটি পাওয়া যায়। এই ভেরিয়েবলটিকে এই ধাপে মডেলে অন্তর্ভুক্ত করতে হবে এবং পরবর্তী ধাপে যেতে হবে।

"ইন্টারসেপ্ট" ফিল্ডে (ফ্রি রিগ্রেশন টার্ম), আপনি এটিকে সমীকরণে অন্তর্ভুক্ত করবেন কিনা তা বেছে নিতে পারেন ("মডেলে অন্তর্ভুক্ত করুন") বা এটিকে বিবেচনায় না নিয়ে এটিকে শূন্যের সমান বিবেচনা করুন ("শূন্যে সেট করুন")।

"সহনশীলতা" পরামিতি হল ভেরিয়েবলের সহনশীলতা। সহগের বর্গ 1 বিয়োগ হিসাবে সংজ্ঞায়িত একাধিক পারস্পরিক সম্পর্করিগ্রেশন সমীকরণের অন্যান্য সমস্ত স্বাধীন ভেরিয়েবলের সাথে এই ভেরিয়েবল। অতএব, একটি পরিবর্তনশীলের সহনশীলতা যত কম হবে, রিগ্রেশন সমীকরণে এটির অবদান তত বেশি অপ্রয়োজনীয়। রিগ্রেশন সমীকরণের যেকোনো ভেরিয়েবলের সহনশীলতা যদি শূন্যের সমান বা কাছাকাছি হয়, তাহলে রিগ্রেশন সমীকরণটি অনুমান করা যায় না। অতএব, সহনশীলতা পরামিতি 0.05 বা 0.1 এ সেট করার পরামর্শ দেওয়া হয়।

প্যারামিটার "রিজ রিগ্রেশন; lambda:" ব্যবহার করা হয় যখন স্বাধীন ভেরিয়েবলগুলি অত্যন্ত আন্তঃসম্পর্কিত হয়, এবং রিগ্রেশন সমীকরণের সহগগুলির জন্য শক্তিশালী অনুমান পদ্ধতির মাধ্যমে প্রাপ্ত করা যায় না সর্বনিম্ন বর্গক্ষেত্র. নির্দিষ্ট ধ্রুবক (lambda) পারস্পরিক সম্পর্ক ম্যাট্রিক্সের তির্যক যোগ করা হবে, যা তারপর পুনরায় প্রমিত করা হবে (যাতে সমস্ত তির্যক উপাদান 1.0 এর সমান)। অন্য কথায়, এই পরামিতিটি কৃত্রিমভাবে পারস্পরিক সম্পর্ক সহগকে হ্রাস করে যাতে রিগ্রেশন প্যারামিটারগুলির আরও শক্তিশালী (তবুও পক্ষপাতদুষ্ট) অনুমান গণনা করা যায়। আমাদের ক্ষেত্রে, এই পরামিতি ব্যবহার করা হয় না।

"ব্যাচ প্রসেসিং/প্রিন্টিং" প্যারামিটারটি ব্যবহার করা হয় যখন একটি প্রতিবেদনের জন্য অবিলম্বে বেশ কয়েকটি টেবিল প্রস্তুত করার প্রয়োজন হয়, ফলাফল এবং প্রক্রিয়া প্রতিফলিত করে রিগ্রেশন বিশ্লেষণ. এই বিকল্পটি খুবই উপযোগী যখন আপনাকে প্রতিটি ধাপে ধাপে ধাপে রিগ্রেশন বিশ্লেষণের ফলাফল মুদ্রণ বা বিশ্লেষণ করতে হবে।

"ধাপ অনুসারে" ট্যাবে (চিত্র 31), আপনি একটি রিগ্রেশন সমীকরণ তৈরি করার সময় ভেরিয়েবলের অন্তর্ভুক্তি ("এন্টার করতে F") বা বর্জন ("F সরাতে") শর্তগুলির জন্য প্যারামিটার সেট করতে পারেন, সেইসাথে সংখ্যা সমীকরণ নির্মাণের পদক্ষেপ ("পদক্ষেপের সংখ্যা")।

চিত্র 31 - একটি পদ্ধতি নির্বাচন এবং নির্মাণ পরামিতি সেট করার জন্য উইন্ডোর "ধাপমুখী" ট্যাব রিগ্রেশন সমীকরণ

F হল F- পরীক্ষার মানের মাত্রা।

যদি, অন্তর্ভুক্তির সাথে ধাপে ধাপে বিশ্লেষণের সময়, এটি প্রয়োজনীয় যে সমস্ত বা প্রায় সমস্ত ভেরিয়েবল রিগ্রেশন সমীকরণে প্রবেশ করে, তাহলে "প্রবেশ করার জন্য F" মানটি সর্বনিম্ন (0.0001) এ সেট করতে হবে এবং "F সরাতে হবে" ” মানও ন্যূনতম সেট করতে হবে।

যদি, বর্জনের সাথে ধাপে ধাপে বিশ্লেষণের সময়, রিগ্রেশন সমীকরণ থেকে সমস্ত ভেরিয়েবল (এক সময়ে এক) অপসারণ করা প্রয়োজন, তাহলে "প্রবেশ করার জন্য F" মানটি খুব বড় সেট করা প্রয়োজন, উদাহরণস্বরূপ 999, এবং "এফ টু রিমুভ" মান "এন্টার করার জন্য F" এর কাছাকাছি সেট করুন।

এটা মনে রাখা উচিত যে "এফ টু রিমুভ" প্যারামিটারের মান সর্বদা "এফ টু এন্টার" এর চেয়ে কম হওয়া উচিত।

"ডিসপ্লে ফলাফল" বিকল্পটিতে দুটি বিকল্প রয়েছে:

2) প্রতিটি ধাপে - প্রতিটি ধাপে বিশ্লেষণের ফলাফল প্রদর্শন করুন।

রিগ্রেশন বিশ্লেষণ পদ্ধতি নির্বাচন করার জন্য উইন্ডোতে "ঠিক আছে" বোতামে ক্লিক করার পরে, বিশ্লেষণ ফলাফল উইন্ডো প্রদর্শিত হবে (চিত্র 32)।

চিত্র 32 - বিশ্লেষণ ফলাফল উইন্ডো

চিত্র 33 - রিগ্রেশন বিশ্লেষণের সংক্ষিপ্ত ফলাফল

বিশ্লেষণের ফলাফল অনুসারে, নির্ণয়ের সহগ হল। এর মানে হল যে নির্মিত রিগ্রেশন গড়ের সাথে সম্পর্কিত মানগুলির বিস্তারের 99.987% ব্যাখ্যা করে, যেমন ভেরিয়েবলের প্রায় সব পরিবর্তনশীলতা ব্যাখ্যা করে।

তাত্পর্যপূর্ণএবং এর তাৎপর্যের স্তর দেখায় যে নির্মিত রিগ্রেশন অত্যন্ত তাৎপর্যপূর্ণ।

দৃষ্টিভঙ্গি সংক্ষিপ্ত ফলাফলরিগ্রেশন, "সারাংশ: রিগ্রেশন ফলাফল" বোতামে ক্লিক করুন। পর্দা প্রদর্শিত হবে স্প্রেডশীটবিশ্লেষণের ফলাফল সহ (চিত্র 33)।

তৃতীয় কলাম (“B”) মডেলের অজানা প্যারামিটারের অনুমান প্রদর্শন করে, যেমন রিগ্রেশন সমীকরণ সহগ।

সুতরাং, পছন্দসই রিগ্রেশন দেখতে এইরকম দেখাচ্ছে:

একটি গুণগতভাবে নির্মিত রিগ্রেশন সমীকরণ নিম্নরূপ ব্যাখ্যা করা যেতে পারে:

1) পরিবর্তন পরিচালনা, নথি প্রবাহ এবং পরিকল্পনার জন্য বাস্তবায়িত ফাংশনগুলির সংখ্যা বৃদ্ধির সাথে একটি পিডিএম সিস্টেমের খরচ বৃদ্ধি পায়, এবং এছাড়াও যদি সিস্টেমে একটি পণ্য মডেল সমর্থন ফাংশন অন্তর্ভুক্ত থাকে;

2) একটি পিডিএম সিস্টেমের খরচ ক্রমবর্ধমান কনফিগারেশন ম্যানেজমেন্ট ফাংশন প্রয়োগ করা এবং অনুসন্ধান ক্ষমতা বৃদ্ধির সাথে হ্রাস পায়।

মাল্টিপল লিনিয়ার রিগ্রেশনের উদ্দেশ্য হল একটানা ভবিষ্যদ্বাণীর সেট এবং একটানা নির্ভরশীল পরিবর্তনশীলের মধ্যে সম্পর্কের একটি রৈখিক মডেল তৈরি করা। নিম্নলিখিত রিগ্রেশন সমীকরণ প্রায়ই ব্যবহৃত হয়:

এখানে এবং আমি- রিগ্রেশন সহগ, খ 0- বিনামূল্যে সদস্য (যদি ব্যবহার করা হয়), e- একটি ত্রুটি সম্বলিত একটি শব্দ - এটি সম্পর্কে বিভিন্ন অনুমান করা হয়, যা, তবে, প্রায়শই একটি শূন্য ভেক্টর মাদুরের সাথে বিতরণের স্বাভাবিকতায় নেমে আসে। প্রত্যাশা এবং পারস্পরিক সম্পর্ক ম্যাট্রিক্স।

এই রৈখিক মডেলটি বিভিন্ন বিষয়ের ক্ষেত্রে অনেক সমস্যাকে ভালভাবে বর্ণনা করে, উদাহরণস্বরূপ, অর্থনীতি, শিল্প, ওষুধ। এর কারণ কিছু সমস্যা প্রকৃতির রৈখিক।

একটি সহজ উদাহরণ দেওয়া যাক। ধরুন আপনার পরিচিত প্যারামিটারের উপর ভিত্তি করে একটি রাস্তা তৈরির খরচের পূর্বাভাস দিতে হবে। একই সময়ে, আমাদের কাছে ইতিমধ্যে তৈরি করা রাস্তাগুলির ডেটা রয়েছে, যা দৈর্ঘ্য, ফুটপাথের গভীরতা, কাজের উপাদানের পরিমাণ, শ্রমিকের সংখ্যা ইত্যাদি নির্দেশ করে।

এটা পরিষ্কার যে রাস্তার খরচ শেষ পর্যন্ত হয়ে যাবে পরিমাণের সমানএই সমস্ত কারণের খরচ আলাদাভাবে। আপনার একটি নির্দিষ্ট পরিমাণের প্রয়োজন হবে, উদাহরণস্বরূপ, চূর্ণ পাথরের, প্রতি টন একটি পরিচিত খরচ সহ, এবং একটি নির্দিষ্ট পরিমাণ অ্যাসফল্ট, এছাড়াও একটি পরিচিত খরচ সহ।

ইনস্টলেশনের জন্য বন কাটার প্রয়োজন হতে পারে, যা অতিরিক্ত খরচের দিকে পরিচালিত করবে। এসব মিলে রাস্তা তৈরির খরচ দেবে।

এই ক্ষেত্রে, মডেলটিতে একজন বিনামূল্যের সদস্য অন্তর্ভুক্ত থাকবে যিনি, উদাহরণস্বরূপ, সাংগঠনিক ব্যয়ের জন্য দায়ী থাকবেন (যা একটি প্রদত্ত স্তরের সমস্ত নির্মাণ এবং ইনস্টলেশন কাজের জন্য প্রায় একই রকম) বা কর কর্তনের জন্য।

ত্রুটিটি এমন কারণগুলিকে অন্তর্ভুক্ত করবে যা আমরা মডেল তৈরি করার সময় বিবেচনা করিনি (উদাহরণস্বরূপ, নির্মাণের সময় আবহাওয়া - এটি মোটেও বিবেচনায় নেওয়া অসম্ভব)।

উদাহরণ: একাধিক রিগ্রেশন বিশ্লেষণ

এই উদাহরণের জন্য, দারিদ্র্যের হারের বিভিন্ন সম্ভাব্য পারস্পরিক সম্পর্ক এবং ডিগ্রী যা দারিদ্র্যসীমার নিচের পরিবারের শতাংশের পূর্বাভাস দেয় তা বিশ্লেষণ করা হবে। অতএব, আমরা দারিদ্র্য সীমার নীচের পরিবারের শতাংশের বৈশিষ্ট্যযুক্ত পরিবর্তনশীলটিকে একটি নির্ভরশীল পরিবর্তনশীল হিসাবে বিবেচনা করব এবং অবশিষ্ট চলকগুলিকে অবিচ্ছিন্ন ভবিষ্যদ্বাণী হিসাবে বিবেচনা করব।

রিগ্রেশন সহগ

স্বাধীন ভেরিয়েবলগুলির মধ্যে কোনটি দারিদ্র্যের মাত্রার পূর্বাভাস দিতে বেশি অবদান রাখে তা খুঁজে বের করার জন্য, আমরা পরীক্ষা করি প্রমিত সহগ(বা বিটা) রিগ্রেশন।

ভাত। 1. রিগ্রেশন সহগগুলির পরামিতিগুলির অনুমান।

বিটা সহগ হল সেই সহগগুলি যা আপনি পাবেন যদি আপনি সমস্ত ভেরিয়েবলকে 0 এর গড় এবং 1 এর একটি আদর্শ বিচ্যুতিতে স্বাভাবিক করেন। অতএব, এই বিটা সহগগুলির মাত্রা আপনাকে প্রতিটি স্বাধীন ভেরিয়েবলের আপেক্ষিক অবদানকে নির্ভরশীল ভেরিয়েবলের সাথে তুলনা করতে দেয়। উপরে দেখানো সারণী থেকে দেখা যায়, 1960 সাল থেকে জনসংখ্যার পরিবর্তনশীল পরিবর্তন (POP_CHING), গ্রামীণ এলাকায় বসবাসকারী জনসংখ্যার শতাংশ (PT_RURAL) এবং কৃষিতে নিযুক্ত লোকের সংখ্যা (N_Empld) দারিদ্র্যের সবচেয়ে গুরুত্বপূর্ণ পূর্বাভাস। স্তর, কারণ শুধুমাত্র তারা পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ (তাদের মধ্যে 95% আস্থা ব্যবধান 0 অন্তর্ভুক্ত নয়)। 1960 সাল থেকে জনসংখ্যা পরিবর্তনের রিগ্রেশন সহগ (Pop_Chng) নেতিবাচক, তাই, জনসংখ্যা যত কম বাড়বে, আরো পরিবারযারা নিজ নিজ জেলায় দারিদ্র্যসীমার নিচে বাস করে। গ্রামে বসবাসকারী জনসংখ্যার (%) রিগ্রেশন সহগ (Pt_Rural) ইতিবাচক, অর্থাৎ, শতাংশ যত বেশি হবে গ্রামীণ বাসিন্দারা, দারিদ্র্যের মাত্রা যত বেশি।

ভবিষ্যদ্বাণীকারী প্রভাবের তাৎপর্য

আসুন তাৎপর্যের মানদণ্ডের সাথে টেবিলটি দেখি।

ভাত। 2. প্রতিটি প্রদত্ত ভেরিয়েবলের জন্য একযোগে ফলাফল।

এই টেবিলটি দেখায়, শুধুমাত্র 2টি ভেরিয়েবলের প্রভাব পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ: 1960 সাল থেকে জনসংখ্যার পরিবর্তন (Pop_Chng) এবং একটি গ্রামে বসবাসকারী জনসংখ্যার শতাংশ (Pt_Rural), p< .05.

অবশিষ্টাংশ বিশ্লেষণ. একটি রিগ্রেশন সমীকরণ ফিট করার পরে, আপনাকে প্রায় সবসময় পূর্বাভাসিত মান এবং অবশিষ্টাংশগুলি পরীক্ষা করতে হবে। উদাহরণস্বরূপ, বড় আউটলায়াররা ফলাফলগুলিকে ব্যাপকভাবে বিকৃত করতে পারে এবং ভুল সিদ্ধান্তে নিয়ে যেতে পারে।

লাইন-বাই-লাইন নির্গমন গ্রাফ

এটি সাধারণত বড় outliers জন্য মূল বা প্রমিত অবশিষ্টাংশ পরীক্ষা করা প্রয়োজন.

ভাত। 3. পর্যবেক্ষণ সংখ্যা এবং অবশিষ্টাংশ.

এই গ্রাফের উল্লম্ব অক্ষের স্কেল সিগমা মান অনুযায়ী প্লট করা হয়েছে, অর্থাৎ, আদর্শ চ্যুতিঅবশিষ্টাংশ যদি এক বা একাধিক পর্যবেক্ষণ ±3 বার সিগমা ব্যবধানের মধ্যে না পড়ে, তাহলে সেই পর্যবেক্ষণগুলিকে বাদ দেওয়া মূল্যবান হতে পারে (এটি পর্যবেক্ষণ নির্বাচনের শর্তগুলির মাধ্যমে সহজেই করা যেতে পারে) এবং ফলাফলগুলি যাতে প্রভাবিত না হয় তা নিশ্চিত করার জন্য আবার বিশ্লেষণ চালানো। বহিরাগত

মহালনোবিস দূরত্ব

বেশিরভাগ পরিসংখ্যান পাঠ্যপুস্তক নির্ভরশীল পরিবর্তনশীলের তুলনায় আউটলিয়ার এবং অবশিষ্টাংশের উপর অনেক সময় ব্যয় করে। যাইহোক, ভবিষ্যদ্বাণীকারীদের মধ্যে বহিরাগতদের ভূমিকা প্রায়শই অজানা থেকে যায়। ভবিষ্যদ্বাণীকারী ভেরিয়েবলের দিকে ভেরিয়েবলের একটি তালিকা রয়েছে যা নির্ভরশীল ভেরিয়েবলের পূর্বাভাস দিতে বিভিন্ন ওজন (রিগ্রেশন সহগ) সহ অংশগ্রহণ করে। আপনি স্বাধীন ভেরিয়েবলকে একটি বহুমাত্রিক স্থান হিসেবে ভাবতে পারেন যেখানে যেকোনো পর্যবেক্ষণ প্লট করা যেতে পারে। উদাহরণস্বরূপ, যদি আপনার সমান রিগ্রেশন সহগ সহ দুটি স্বাধীন ভেরিয়েবল থাকে তবে আপনি দুটি ভেরিয়েবলের একটি স্ক্যাটার প্লট প্লট করতে পারেন এবং সেই প্লটে প্রতিটি পর্যবেক্ষণ স্থাপন করতে পারেন। তারপরে আপনি এই গ্রাফে গড় মান চিহ্নিত করতে পারেন এবং দ্বি-মাত্রিক স্থানে প্রতিটি পর্যবেক্ষণ থেকে এই গড় (তথাকথিত মাধ্যাকর্ষণ কেন্দ্র) পর্যন্ত দূরত্ব গণনা করতে পারেন। মহালনোবিস দূরত্ব গণনা করার পিছনে এটিই মূল ধারণা। এখন 1960 সাল থেকে জনসংখ্যার পরিবর্তন পরিবর্তনশীল হিস্টোগ্রামটি দেখুন।

ভাত। 4. Mahalanobis দূরত্ব বিতরণের হিস্টোগ্রাম।

এটি গ্রাফ থেকে অনুসরণ করে যে মহালানোবিস দূরত্বে একটি আউটলাইয়ার রয়েছে।

ভাত। 5. পর্যবেক্ষণ করা, পূর্বাভাসিত এবং অবশিষ্ট মান।

লক্ষ্য করুন যে Shelby কাউন্টি (প্রথম সারিতে) বাকি কাউন্টি থেকে আলাদা। আপনি যদি কাঁচা ডেটা দেখেন, আপনি দেখতে পাবেন যে Shelby County প্রকৃতপক্ষে সবচেয়ে বেশি সংখ্যক লোক কৃষিতে নিযুক্ত রয়েছে (ভেরিয়েবল N_Empld)। এটি একটি পরম সংখ্যার পরিবর্তে শতাংশ হিসাবে প্রকাশ করা যুক্তিসঙ্গত হতে পারে, সেক্ষেত্রে Shelby County এর Mahalanobis দূরত্ব অন্যান্য কাউন্টির তুলনায় ততটা বড় হবে না। স্পষ্টতই Shelby কাউন্টি একটি বহিরাগত.

অপসারিত অবশিষ্টাংশ

আরেকটি অত্যন্ত গুরুত্বপূর্ণ পরিসংখ্যান যা নির্গমন সমস্যার তীব্রতা মূল্যায়ন করতে সাহায্য করে তা হল অপসারিত অবশিষ্টাংশ। এগুলি সংশ্লিষ্ট পর্যবেক্ষণের জন্য প্রমিত অবশিষ্টাংশ যা প্রাপ্ত হয় যখন সেই পর্যবেক্ষণ বিশ্লেষণ থেকে সরানো হয়। মনে রাখবেন যে একাধিক রিগ্রেশন পদ্ধতি নির্ভরশীল পরিবর্তনশীল এবং ভবিষ্যদ্বাণীকারী পরিবর্তনশীলের মধ্যে সম্পর্ক দেখাতে রিগ্রেশন পৃষ্ঠের সাথে খাপ খায়। যদি একটি পর্যবেক্ষণ একটি আউটলাইয়ার হয় (শেলবি কাউন্টির মতো), তাহলে রিগ্রেশন সারফেসটি সেই আউটলারের দিকে "টান" করার প্রবণতা রয়েছে। ফলস্বরূপ, যদি সংশ্লিষ্ট পর্যবেক্ষণ মুছে ফেলা হয়, একটি ভিন্ন পৃষ্ঠ (এবং বিটা সহগ) প্রাপ্ত হবে। অতএব, যদি অপসারিত অবশিষ্টাংশগুলি প্রমিত অবশিষ্টাংশ থেকে খুব আলাদা হয়, তাহলে আপনার বিশ্বাস করার কারণ থাকবে যে রিগ্রেশন বিশ্লেষণটি সংশ্লিষ্ট পর্যবেক্ষণের দ্বারা গুরুতরভাবে পক্ষপাতমূলক। এই উদাহরণে, Shelby কাউন্টির অপসারিত অবশিষ্টাংশগুলি দেখায় যে এটি একটি বহিরাগত, যা বিশ্লেষণকে গুরুত্ব সহকারে পক্ষপাতদুষ্ট করে। স্ক্যাটারপ্লট স্পষ্টভাবে একটি আউটলায়ার দেখায়।

ভাত। 6. একটি পরিবর্তনশীলের প্রাথমিক অবশিষ্টাংশ এবং মুছে ফেলা অবশিষ্টাংশগুলি নির্বাহের স্তরের নীচে বসবাসকারী পরিবারের শতাংশকে নির্দেশ করে৷

তাদের বেশিরভাগেরই কম-বেশি স্পষ্ট ব্যাখ্যা রয়েছে, যাইহোক, আসুন স্বাভাবিক সম্ভাব্যতা গ্রাফগুলিতে ফিরে আসি।

ইতিমধ্যে উল্লিখিত হিসাবে, একাধিক রিগ্রেশন অনুমান করে যে সমীকরণের ভেরিয়েবলগুলির মধ্যে একটি রৈখিক সম্পর্ক রয়েছে এবং অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয়। যদি এই অনুমানগুলি লঙ্ঘন করা হয়, তাহলে উপসংহারটি ভুল হতে পারে। অবশিষ্টাংশের একটি স্বাভাবিক সম্ভাব্যতা প্লট আপনাকে বলবে যে এই অনুমানগুলির গুরুতর লঙ্ঘন আছে কিনা।

ভাত। 7. স্বাভাবিক সম্ভাব্যতা গ্রাফ; প্রাথমিক ব্যালেন্স।

এই গ্রাফটি নিম্নরূপ নির্মিত হয়েছিল। প্রথমত, প্রমিত অবশিষ্টাংশগুলিকে ক্রমানুসারে স্থান দেওয়া হয়। এই র‌্যাঙ্কগুলি থেকে, z-স্কোরগুলি (অর্থাৎ, স্বাভাবিক বন্টনের মানক মান) এই ধারণার ভিত্তিতে গণনা করা যেতে পারে যে ডেটা মেনে চলে স্বাভাবিক বন্টন. এই z মানগুলি গ্রাফের y অক্ষে প্লট করা হয়েছে।

যদি পর্যবেক্ষণকৃত অবশিষ্টাংশগুলি (x-অক্ষের উপর প্লট করা) সাধারণত বিতরণ করা হয়, তাহলে সমস্ত মান গ্রাফের একটি সরল রেখায় পড়বে। আমাদের গ্রাফে, সমস্ত বিন্দু বক্ররেখার খুব কাছাকাছি অবস্থিত। যদি অবশিষ্টাংশগুলি সাধারণত বিতরণ করা না হয়, তবে তারা এই লাইন থেকে বিচ্যুত হয়। বহিরাগতরাও এই গ্রাফে লক্ষণীয় হয়ে ওঠে।

যদি ফিট নষ্ট হয়ে যায় এবং ডেটা লাইন সম্পর্কে একটি পরিষ্কার বক্ররেখা (যেমন, একটি S আকৃতি) তৈরি করে, তাহলে নির্ভরশীল পরিবর্তনশীলটিকে কোনোভাবে রূপান্তরিত করা যেতে পারে (যেমন, একটি লগারিদমিক রূপান্তর যা লেজটিকে "সঙ্কুচিত" করতে পারে। বিতরণ, ইত্যাদি)। এই পদ্ধতির একটি আলোচনা এই উদাহরণের সুযোগের বাইরে (Neter, Wasserman, and Kutner, 1985, pp. 134-141, ট্রান্সফর্মেশনের একটি আলোচনা উপস্থাপন করে যা ডেটাতে অ-স্বাভাবিকতা এবং অরৈখিকতা দূর করে)। যাইহোক, গবেষকরা প্রায়শই অন্তর্নিহিত অনুমানগুলি পরীক্ষা না করেই সরাসরি বিশ্লেষণগুলি সম্পাদন করেন, যা ভুল সিদ্ধান্তের দিকে নিয়ে যায়।

ধরুন একজন বিকাশকারী একটি ঐতিহ্যবাহী ব্যবসায়িক জেলায় ছোট অফিস ভবনগুলির একটি গ্রুপের মূল্য মূল্যায়ন করছেন।

একজন ডেভেলপার অফিস বিল্ডিংয়ের মূল্য অনুমান করতে একাধিক রিগ্রেশন বিশ্লেষণ ব্যবহার করতে পারেন এই এলাকায়নিম্নলিখিত ভেরিয়েবলের উপর ভিত্তি করে।

y হল একটি অফিস ভবনের আনুমানিক মূল্য;

x 1 - বর্গ মিটারে মোট এলাকা;

x 2 - অফিসের সংখ্যা;

x 3 - ইনপুট সংখ্যা (0.5 ইনপুট মানে শুধুমাত্র চিঠিপত্র বিতরণের জন্য ইনপুট);

x 4 - বছরে বিল্ডিংয়ের অপারেটিং সময়।

এই উদাহরণ আছে যে অনুমান রৈখিক নির্ভরতাপ্রতিটি স্বাধীন পরিবর্তনশীল (x 1, x 2, x 3 এবং x 4) এবং নির্ভরশীল পরিবর্তনশীল (y) এর মধ্যে, অর্থাৎ, একটি প্রদত্ত এলাকায় একটি অফিস ভবনের মূল্য। উৎস তথ্য চিত্রে দেখানো হয়েছে.

সমস্যা সমাধানের জন্য সেটিংস উইন্ডো ছবিতে দেখানো হয়েছে " রিগ্রেশন"। গণনার ফলাফল তিনটি টেবিলে একটি পৃথক শীটে স্থাপন করা হয়

ফলস্বরূপ আমরা নিম্নলিখিত পেয়েছি গানিতিক প্রতিমাণ:

y = 52318 + 27.64*x1 + 12530*x2 + 2553*x3 - 234.24*x4।

এখন ডেভেলপার একই এলাকায় একটি অফিস ভবনের আনুমানিক মূল্য নির্ধারণ করতে পারেন। যদি এই বিল্ডিংয়ের ক্ষেত্রফল 2500 বর্গ মিটার, তিনটি অফিস, দুটি প্রবেশপথ এবং 25 বছরের পরিষেবা জীবন থাকে তবে আপনি নিম্নলিখিত সূত্রটি ব্যবহার করে এর মূল্য অনুমান করতে পারেন:

y = 27.64*2500 + 12530*3 + 2553*2 - 234.24*25 + 52318 = 158,261 c.u.

রিগ্রেশন বিশ্লেষণে, সবচেয়ে গুরুত্বপূর্ণ ফলাফল হল:

  • ভেরিয়েবলের সহগ এবং Y- ছেদ, যা মডেলের প্রয়োজনীয় পরামিতি;
  • একাধিক R, উপলব্ধ উৎস ডেটার জন্য মডেলের নির্ভুলতা চিহ্নিত করে;
  • ফিশারের এফ পরীক্ষা(বিবেচিত উদাহরণে, এটি উল্লেখযোগ্যভাবে অতিক্রম করে সমালোচনামূলক মান, সমান 4.06);
  • t-পরিসংখ্যান- মডেলের পৃথক সহগগুলির তাত্পর্যের ডিগ্রী বৈশিষ্ট্যযুক্ত মানগুলি।

টি-পরিসংখ্যান বিশেষ মনোযোগের দাবি রাখে। খুব প্রায়ই, একটি রিগ্রেশন মডেল তৈরি করার সময়, এটি বা সেই ফ্যাক্টর x y কে প্রভাবিত করে কিনা তা জানা যায় না। আউটপুট মানকে প্রভাবিত করে না এমন উপাদানগুলি মডেলের গুণমানকে হ্রাস করে। টি-পরিসংখ্যান গণনা করা এই জাতীয় কারণগুলি সনাক্ত করতে সহায়তা করে। একটি আনুমানিক অনুমান নিম্নরূপ করা যেতে পারে: যদি n>>k এর জন্য টি-পরিসংখ্যানের মান পরম মানউল্লেখযোগ্যভাবে তিনটির বেশি, সংশ্লিষ্ট সহগটিকে তাৎপর্যপূর্ণ বিবেচনা করা উচিত, এবং ফ্যাক্টরটিকে মডেলে অন্তর্ভুক্ত করা উচিত, অন্যথায় মডেল থেকে বাদ দেওয়া উচিত। সুতরাং, আমরা দুটি পর্যায় সমন্বিত একটি রিগ্রেশন মডেল নির্মাণের জন্য একটি প্রযুক্তি প্রস্তাব করতে পারি:

1) প্যাকেজ সহ প্রক্রিয়া " রিগ্রেশন"সমস্ত উপলভ্য ডেটা, টি-পরিসংখ্যান মান বিশ্লেষণ করুন;

2) সোর্স ডেটা টেবিলের কলামগুলি থেকে সেই কারণগুলির সাথে সরান যার জন্য সহগগুলি নগণ্য এবং প্যাকেজের সাথে সেগুলি প্রক্রিয়া করুন " রিগ্রেশন"নতুন টেবিল।

শুভ বিকাল, প্রিয় পাঠকগণ।
পূর্ববর্তী নিবন্ধে, অন ব্যবহারিক উদাহরণ, আমি শ্রেণিবিন্যাস সমস্যা (ক্রেডিট স্কোরিং সমস্যা) এবং পাঠ্য তথ্য বিশ্লেষণের মূল বিষয়গুলি (পাসপোর্ট সমস্যা) সমাধানের উপায় দেখিয়েছি। আজ আমি অন্য শ্রেণীর সমস্যার উপর স্পর্শ করতে চাই, নাম রিগ্রেশন পুনরুদ্ধার। এই শ্রেণীর সমস্যাগুলি সাধারণত পূর্বাভাসে ব্যবহৃত হয়।
একটি পূর্বাভাস সমস্যা সমাধানের উদাহরণের জন্য, আমি বৃহত্তম UCI সংগ্রহস্থল থেকে শক্তি দক্ষতা ডেটা সেট নিয়েছি। ঐতিহ্যগতভাবে, আমরা পাইথনকে বিশ্লেষণমূলক প্যাকেজ পান্ডা এবং স্কিট-লার্ন টুল হিসেবে ব্যবহার করব।

ডেটা সেটের বর্ণনা এবং সমস্যা বিবৃতি

একটি ডেটা সেট দেওয়া হয়েছে যা নিম্নলিখিত রুমের বৈশিষ্ট্যগুলি বর্ণনা করে:

এটিতে ঘরের বৈশিষ্ট্য রয়েছে যার ভিত্তিতে বিশ্লেষণ করা হবে এবং লোডের মানগুলি যা পূর্বাভাস দেওয়া দরকার।

প্রাথমিক তথ্য বিশ্লেষণ

প্রথমে, আসুন আমাদের ডেটা ডাউনলোড করি এবং এটি দেখি:

Pandas Import Read_csv থেকে, Sklearn.neighbours থেকে DataFrame Kneighborsressor থেকে Sklearn.Linear_MPORT LINEARREGRESSION, SKLEARN থেকে LOGISTICREGREGRESSION. Sklearn.SVM IMM IM পোর্ট SVR থেকে Sklearn.Neighbours থেকে Sklearn.Rankportk_fornregres. learn.cross_validation Import Train_Test_SPLIT DATASET = Read_CSV (" Energy Icience /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

এখন দেখা যাক কোন বৈশিষ্ট্য একে অপরের সাথে সম্পর্কিত কিনা। এটি সমস্ত কলামের জন্য পারস্পরিক সম্পর্ক সহগ গণনা করে করা যেতে পারে। এটি কীভাবে করবেন তা পূর্ববর্তী নিবন্ধে বর্ণনা করা হয়েছিল:

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

আপনি আমাদের ম্যাট্রিক্স থেকে দেখতে পাচ্ছেন, নিম্নলিখিত কলামগুলি একে অপরের সাথে সম্পর্কযুক্ত (সম্পর্ক সহগের মান 95% এর চেয়ে বেশি):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
এখন আমরা আমাদের নমুনা থেকে আমাদের জোড়ার কোন কলামগুলি সরাতে পারি তা বেছে নেওয়া যাক। এটি করার জন্য, প্রতিটি জোড়ায়, আমরা কলামগুলি নির্বাচন করি যা পূর্বাভাসিত মানগুলির উপর বেশি প্রভাব ফেলে। Y1এবং Y2এবং তাদের ছেড়ে বাকি মুছে দিন।
আপনি দেখতে পাচ্ছেন, পারস্পরিক সহগ সহ ম্যাট্রিস চালু আছে y1 ,y2 আরো তাৎপর্য আছে X2 এবং X5 X1 এবং X4 এর চেয়ে, তাই আমরা শেষ কলামগুলি সরাতে পারি।

ডেটাসেট = dataset.drop(["X1","X4"], axis=1) dataset.head()
উপরন্তু, আপনি যে ক্ষেত্র লক্ষ্য করতে পারেন Y1 এবং Y2 একে অপরের সাথে খুব ঘনিষ্ঠভাবে সম্পর্কযুক্ত। কিন্তু, যেহেতু আমাদের উভয় মানের ভবিষ্যদ্বাণী করা দরকার, আমরা সেগুলিকে "যেমন আছে" রেখে দিই।

মডেল নির্বাচন

আসুন আমাদের নমুনা থেকে ভবিষ্যদ্বাণী করা মানগুলি আলাদা করি:

Trg = ডেটাসেট[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
ডেটা প্রক্রিয়া করার পরে, আপনি একটি মডেল তৈরি করতে এগিয়ে যেতে পারেন। মডেলটি তৈরি করতে আমরা নিম্নলিখিত পদ্ধতিগুলি ব্যবহার করব:

এই পদ্ধতিগুলি সম্পর্কে তত্ত্বটি মেশিন লার্নিং এর উপর কেভি ভোরন্টসভের বক্তৃতার কোর্সে পড়া যেতে পারে।
আমরা নির্ণয়ের সহগ ব্যবহার করে একটি মূল্যায়ন করব ( আর-বর্গক্ষেত্র) এই সহগ নিম্নলিখিত হিসাবে নির্ধারিত হয়:

নির্ভরশীল রাশির শর্তসাপেক্ষ প্রকরণ কোথায় ফ্যাক্টর দ্বারা এক্স.
সহগ একটি ব্যবধানে একটি মান নেয় এবং এটি 1 এর যত কাছাকাছি হয়, নির্ভরতা তত শক্তিশালী হয়।
ঠিক আছে, এখন আপনি সরাসরি একটি মডেল তৈরি করতে এবং একটি মডেল বেছে নিতে পারেন। আরও বিশ্লেষণের সুবিধার জন্য আমাদের সমস্ত মডেলকে একটি তালিকায় রাখি:

মডেল =
সুতরাং মডেলগুলি প্রস্তুত, এখন আমরা আমাদের প্রাথমিক ডেটাকে 2টি সাবস্যাম্পলে বিভক্ত করব: পরীক্ষাএবং শিক্ষামূলক. যারা আমার আগের নিবন্ধগুলি পড়েছেন তারা জানেন যে এটি scikit-learn প্যাকেজ থেকে train_test_split() ফাংশন ব্যবহার করে করা যেতে পারে:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
এখন, যেহেতু আমাদের 2টি প্যারামিটারের ভবিষ্যদ্বাণী করতে হবে, তাই আমাদের তাদের প্রতিটির জন্য একটি রিগ্রেশন তৈরি করতে হবে। উপরন্তু, আরও বিশ্লেষণের জন্য, আপনি একটি অস্থায়ীভাবে প্রাপ্ত ফলাফল রেকর্ড করতে পারেন ডেটাফ্রেম. আপনি এটি এই মত করতে পারেন:

# অস্থায়ী কাঠামো তৈরি করুন TestModels = DataFrame() tmp = () # মডেলের মডেলের তালিকা থেকে প্রতিটি মডেলের জন্য: # মডেলের নাম পান m = str(model) tmp["Model"] = m[:m.index( "( ")] # xrange(Ytrn.shape) তে i এর জন্য সেট করা ফলাফলের প্রতিটি কলামের জন্য: # মডেল মডেলকে ট্রেন করুন। %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #ডেটা রেকর্ড করুন এবং চূড়ান্ত DataFrame TestModels = TestModels.append() #মডেল দ্বারা একটি সূচক তৈরি করুন নাম TestModels.set_index("মডেল", inplace= True)
আপনি উপরের কোড থেকে দেখতে পাচ্ছেন, r2_score() ফাংশনটি সহগ গণনা করতে ব্যবহৃত হয়।
সুতরাং, বিশ্লেষণের জন্য তথ্য প্রাপ্ত হয়েছে. এখন গ্রাফগুলি প্লট করা যাক এবং দেখুন কোন মডেলটি সেরা ফলাফল দেখিয়েছে:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

ফলাফল এবং উপসংহার বিশ্লেষণ

উপরের গ্রাফগুলি থেকে, আমরা উপসংহারে আসতে পারি যে পদ্ধতিটি অন্যদের তুলনায় আরও ভালভাবে কাজটি মোকাবেলা করেছে এলোমেলো বন(এলোমেলো বন)। উভয় ভেরিয়েবলের জন্য এর নির্ণয়ের সহগ অন্যদের থেকে বেশি:
আরও বিশ্লেষণের জন্য, আসুন আমাদের মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়া যাক:

মডেল = মডেল মডেল.ফিট(Xtrn, Ytrn)
ঘনিষ্ঠভাবে পরীক্ষা করার পরে, প্রশ্ন উঠতে পারে কেন নির্ভরশীল নমুনাটি আগের বার ভাগ করা হয়েছিল। Ytrnভেরিয়েবলে (কলাম দ্বারা), কিন্তু এখন আমরা তা করি না।
বিন্দু হল যে কিছু পদ্ধতি, যেমন র‍্যান্ডম ফরেস্ট রিগ্রেসর, একাধিক ভবিষ্যদ্বাণীকারী ভেরিয়েবলের সাথে মোকাবিলা করতে পারে, অন্যরা (যেমন এসভিআর) শুধুমাত্র একটি ভেরিয়েবলের সাথে কাজ করতে পারে। অতএব, পূর্ববর্তী প্রশিক্ষণের সময়, আমরা কিছু মডেল নির্মাণের প্রক্রিয়ায় ত্রুটি এড়াতে কলাম বিভাজন ব্যবহার করেছি।
একটি মডেল নির্বাচন করা অবশ্যই ভাল, তবে প্রতিটি ফ্যাক্টর কীভাবে পূর্বাভাসিত মানকে প্রভাবিত করে সে সম্পর্কে তথ্য থাকা ভাল হবে। এই উদ্দেশ্যে, মডেল সম্পত্তি আছে বৈশিষ্ট্য_গুরুত্ব_.
এটি ব্যবহার করে, আপনি চূড়ান্ত মডেলগুলিতে প্রতিটি ফ্যাক্টরের ওজন দেখতে পারেন:

মডেল. বৈশিষ্ট্য_গুরুত্ব_
অ্যারে([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

আমাদের ক্ষেত্রে, এটি দেখা যায় যে সামগ্রিক উচ্চতা এবং এলাকা গরম এবং শীতল লোডকে সবচেয়ে বেশি প্রভাবিত করে। পূর্বাভাস মডেলে তাদের মোট অবদান প্রায় 72%।
এটিও লক্ষ করা উচিত যে উপরের চিত্রটি ব্যবহার করে আপনি প্রতিটি ফ্যাক্টরের প্রভাব আলাদাভাবে গরম করার উপর এবং আলাদাভাবে ঠান্ডা করার উপর দেখতে পারেন, কিন্তু যেহেতু এই কারণগুলি একে অপরের সাথে খুব ঘনিষ্ঠভাবে সম্পর্কযুক্ত (), আমরা তাদের উভয় সম্পর্কে একটি সাধারণ উপসংহার তৈরি করেছি, যা উপরে লেখা ছিল।

উপসংহার

নিবন্ধে আমি পাইথন এবং বিশ্লেষণাত্মক প্যাকেজ ব্যবহার করে রিগ্রেশন ডেটা বিশ্লেষণের প্রধান পর্যায়গুলি দেখানোর চেষ্টা করেছি পান্ডাএবং scikit-শিখা.
এটি উল্লেখ করা উচিত যে ডেটা সেটটি বিশেষভাবে এমনভাবে নির্বাচন করা হয়েছিল যাতে যতটা সম্ভব আনুষ্ঠানিকভাবে করা হয় এবং ইনপুট ডেটার প্রাথমিক প্রক্রিয়াকরণ ন্যূনতম হয়। আমার মতে, নিবন্ধটি তাদের জন্য উপযোগী হবে যারা সবেমাত্র ডেটা বিশ্লেষণে তাদের যাত্রা শুরু করছেন, সেইসাথে যাদের একটি ভাল তাত্ত্বিক ভিত্তি আছে, কিন্তু কাজের জন্য সরঞ্জামগুলি বেছে নিচ্ছেন তাদের জন্য।

প্রশ্ন:

4. একটি লিনিয়ার মাল্টিপল রিগ্রেশন মডেলের প্যারামিটারের অনুমান।

5. একাধিক লিনিয়ার রিগ্রেশনের গুণমান মূল্যায়ন করা।

6. মাল্টিফ্যাক্টর মডেলের উপর ভিত্তি করে বিশ্লেষণ এবং পূর্বাভাস।

একাধিক রিগ্রেশন হল পেয়ারওয়াইজ রিগ্রেশনের একটি সাধারণীকরণ। এটি ব্যাখ্যা করা (নির্ভরশীল) চলক Y এবং ব্যাখ্যামূলক (স্বাধীন) চলক X 1, X 2,..., X k-এর মধ্যে সম্পর্ক বর্ণনা করতে ব্যবহৃত হয়। একাধিক রিগ্রেশন হয় রৈখিক বা অরৈখিক হতে পারে, কিন্তু লিনিয়ার মাল্টিপল রিগ্রেশন অর্থনীতিতে সবচেয়ে বিস্তৃত।

তাত্ত্বিক রৈখিক একাধিক রিগ্রেশন মডেলের ফর্ম রয়েছে:

আমরা সংশ্লিষ্ট নমুনা রিগ্রেশন নির্দেশ করি:

পেয়ারওয়াইজ রিগ্রেশনের মতো, এলোমেলো শব্দ ε অবশ্যই রিগ্রেশন বিশ্লেষণের মৌলিক অনুমানগুলি পূরণ করবে। তারপর, OLS ব্যবহার করে, তাত্ত্বিক রিগ্রেশন প্যারামিটারের সর্বোত্তম নিরপেক্ষ এবং দক্ষ অনুমান পাওয়া যায়। উপরন্তু, চলক X 1, X 2,…, X k অবশ্যই একে অপরের সাথে সম্পর্কহীন (রৈখিকভাবে স্বাধীন) হতে হবে। সর্বনিম্ন বর্গক্ষেত্রের ভিত্তিতে প্রাপ্ত রিগ্রেশন সহগ (2) অনুমান করার জন্য সূত্রগুলি লিখতে, আমরা নিম্নলিখিত স্বরলিপি প্রবর্তন করি:

তারপর আমরা ভেক্টর-ম্যাট্রিক্স আকারে লিখতে পারি তাত্ত্বিক মডেল:

এবং নমুনা রিগ্রেশন

OLS নমুনা রিগ্রেশন সহগগুলির ভেক্টর অনুমান করার জন্য নিম্নলিখিত সূত্রের দিকে নিয়ে যায়:

(3)

দুটি স্বাধীন ভেরিয়েবল সহ একাধিক রৈখিক রিগ্রেশন সহগ অনুমান করতে , আমরা সমীকরণ সিস্টেম সমাধান করতে পারেন:

(4)

পেয়ারড লিনিয়ার রিগ্রেশনের মতো, স্ট্যান্ডার্ড রিগ্রেশন ত্রুটি S একাধিক রিগ্রেশনের জন্য গণনা করা হয়:

(5)

এবং রিগ্রেশন সহগগুলির মানক ত্রুটি:

(6)

টি-টেস্ট ব্যবহার করে সহগগুলির তাত্পর্য পরীক্ষা করা হয়।

স্বাধীনতার ডিগ্রীর সংখ্যা সহ ছাত্রের এক্সটেনশন থাকা v= n-k-1.

রিগ্রেশনের গুণমান মূল্যায়ন করতে, সংকল্প সহগ (সূচক) ব্যবহার করা হয়:

, (8)

1 এর কাছাকাছি, রিগ্রেশনের গুণমান তত বেশি।

নির্ণয়ের সহগের তাত্পর্য পরীক্ষা করার জন্য, ফিশার পরীক্ষা বা এফ-পরিসংখ্যান ব্যবহার করা হয়।



(9)

সঙ্গে v 1=কে, v 2=n-k-1 স্বাধীনতা ডিগ্রী।

মাল্টিভেরিয়েট রিগ্রেশনে, অতিরিক্ত ব্যাখ্যামূলক ভেরিয়েবল যোগ করলে তা নির্ধারণের সহগ বৃদ্ধি পায়। এই বৃদ্ধির জন্য ক্ষতিপূরণের জন্য, সংকল্পের একটি সামঞ্জস্যপূর্ণ (বা স্বাভাবিক) সহগ প্রবর্তন করা হয়:

(10)

একটি নতুন ভেরিয়েবল যোগ করার সময় ব্যাখ্যাকৃত রিগ্রেশনের অনুপাতের বৃদ্ধি যদি ছোট হয়, তবে এটি হ্রাস পেতে পারে। এর মানে হল যে একটি নতুন ভেরিয়েবল যোগ করা অনুপযুক্ত।

উদাহরণ 4:

আসুন আমরা নতুন সরঞ্জাম এবং প্রযুক্তির খরচ এবং শ্রমিকদের দক্ষতা উন্নত করার খরচের উপর এন্টারপ্রাইজের লাভের নির্ভরতা বিবেচনা করি। 6টি অনুরূপ উদ্যোগের পরিসংখ্যানগত তথ্য সংগ্রহ করা হয়েছিল। মিলিয়ন ডলারে ডেটা। ইউনিট টেবিল 1 এ দেওয়া আছে।

1 নং টেবিল

একটি দ্বি-ফ্যাক্টর তৈরি করুন লিনিয়ার রিগ্রেশন এবং এর তাৎপর্য মূল্যায়ন করুন। আসুন নিম্নলিখিত স্বরলিপি পরিচয় করিয়ে দিই:

আমরা ম্যাট্রিক্স এক্স স্থানান্তর করি:

এই ম্যাট্রিক্সের বিপরীত:

সুতরাং, নতুন সরঞ্জাম এবং যন্ত্রপাতির খরচ এবং শ্রমিকদের দক্ষতা উন্নত করার খরচের উপর লাভের নির্ভরতা নিম্নলিখিত রিগ্রেশন দ্বারা বর্ণনা করা যেতে পারে:

সূত্র (5) ব্যবহার করে, যেখানে k=2, আমরা স্ট্যান্ডার্ড রিগ্রেশন ত্রুটি S=0.636 গণনা করি।

আমরা সূত্র (6) ব্যবহার করে রিগ্রেশন সহগগুলির মানক ত্রুটিগুলি গণনা করি:

একইভাবে:

আসুন 1, a 2 এর রিগ্রেশন সহগগুলির তাত্পর্য পরীক্ষা করা যাক। আসুন টি ক্যাল্ক হিসাব করি।

আসুন তাত্পর্য স্তর, স্বাধীনতা ডিগ্রী সংখ্যা নির্বাচন করা যাক

মানে সহগ একটি 1উল্লেখযোগ্য

আসুন একটি 2 সহগ এর তাৎপর্য মূল্যায়ন করি:

গুণাঙ্ক একটি 2তুচ্ছ

আসুন সূত্র (7) ব্যবহার করে সংকল্পের সহগ গণনা করি। একটি এন্টারপ্রাইজের মুনাফা 96% দ্বারা নতুন সরঞ্জাম এবং প্রযুক্তির খরচ এবং উন্নত প্রশিক্ষণের উপর 4% অন্যান্য এবং এলোমেলো কারণগুলির উপর নির্ভর করে। আসুন নির্ণয়ের সহগটির তাত্পর্য পরীক্ষা করি। আসুন এফ গণনা করা যাক:

যে. সংকল্পের সহগ তাৎপর্যপূর্ণ, রিগ্রেশন সমীকরণ তাৎপর্যপূর্ণ।

মাল্টিভেরিয়েট রিগ্রেশনের উপর ভিত্তি করে বিশ্লেষণে অত্যন্ত গুরুত্বপূর্ণ নির্ভরশীল সূচক y-এর উপর কারণের প্রভাবের তুলনা। পরিমাপ একক এবং পার্থক্যের কারণে এই উদ্দেশ্যে রিগ্রেশন সহগ ব্যবহার করা হয় না সকলে সমানওঠানামা এই ত্রুটিগুলি থেকে, বিনামূল্যে স্থিতিস্থাপকতা সহগ:

স্থিতিস্থাপকতা দেখায় যে নির্ভরশীল সূচক y গড় কত শতাংশ পরিবর্তন করে যখন পরিবর্তনশীল 1% পরিবর্তিত হয়, তবে শর্ত থাকে যে অন্যান্য ভেরিয়েবলের মান অপরিবর্তিত থাকে। বৃহত্তর, সংশ্লিষ্ট চলকের প্রভাব তত বেশি। পেয়ারওয়াইজ রিগ্রেশনের মতো, একাধিক রিগ্রেশন পয়েন্ট পূর্বাভাস এবং ব্যবধানের পূর্বাভাসের মধ্যে পার্থক্য করে। বিন্দু পূর্বাভাস (সংখ্যা) স্বাধীন ভেরিয়েবলের পূর্বাভাসিত মানগুলিকে একাধিক রিগ্রেশন সমীকরণে প্রতিস্থাপন করে প্রাপ্ত করা হয়। এর দ্বারা চিহ্নিত করা যাক:

(12)

স্বাধীন ভেরিয়েবলের পূর্বাভাসিত মানের ভেক্টর, তারপর বিন্দু পূর্বাভাস

একাধিক রিগ্রেশনের ক্ষেত্রে ভবিষ্যদ্বাণীর মানক ত্রুটি নিম্নরূপ নির্ধারিত হয়:

(15)

আসুন শিক্ষার্থী বন্টন সারণী অনুসারে তাৎপর্য স্তর α নির্বাচন করি। তাত্পর্য স্তরের জন্য α এবং স্বাধীনতা ডিগ্রীর সংখ্যা ν = n-k-1, আমরা t cr খুঁজে পাই। তারপর সম্ভাব্যতা 1- α সহ প্রকৃত মান y p ব্যবধানে পড়ে:


টপিক 5:

সময় সিরিজ।

প্রশ্ন:

4. সময় সিরিজের মৌলিক ধারণা।

5. প্রধান উন্নয়ন প্রবণতা একটি প্রবণতা.

6. একটি সংযোজন মডেল নির্মাণ।

সময় সিরিজপরপর বেশ কয়েকটি মুহূর্ত বা সময়ের জন্য যেকোনো সূচকের মানগুলির একটি সেট উপস্থাপন করে।

সময়ের মুহূর্ত (বা সময়কাল) টি দ্বারা চিহ্নিত করা হয়, এবং সময়ের মুহুর্তে সূচকের মান y(t) দ্বারা চিহ্নিত করা হয় এবং বলা হয় সারি স্তর .

টাইম সিরিজের প্রতিটি স্তর প্রচুর সংখ্যক কারণের প্রভাবে গঠিত হয়, যাকে 3 টি গ্রুপে ভাগ করা যায়:

দীর্ঘমেয়াদী, ক্রমাগত অপারেটিং ফ্যাক্টর যা অধ্যয়নের অধীনে ঘটনার উপর একটি সিদ্ধান্তমূলক প্রভাব ফেলে এবং সিরিজের প্রধান প্রবণতা গঠন করে - প্রবণতা T(t)।

স্বল্প-মেয়াদী পর্যায়ক্রমিক কারণ যা S(t) সিরিজে ঋতু ওঠানামা করে।

র্যান্ডম ফ্যাক্টর যা সিরিজের ε(t) স্তরে এলোমেলো পরিবর্তন ঘটায়।

সংযোজন মডেলটাইম সিরিজ হল এমন একটি মডেল যেখানে সিরিজের প্রতিটি স্তর প্রবণতা, মৌসুমী এবং এলোমেলো উপাদানের যোগফল দ্বারা উপস্থাপিত হয়:

গুনগত মডেলএকটি মডেল যেখানে সিরিজের প্রতিটি স্তর তালিকাভুক্ত উপাদানগুলির পণ্য:

মডেলগুলির মধ্যে একটির পছন্দটি ঋতু ওঠানামার কাঠামোর বিশ্লেষণের উপর ভিত্তি করে। যদি দোলনের প্রশস্ততা প্রায় ধ্রুবক হয়, তাহলে একটি সংযোজন মডেল তৈরি করা হয়। যদি প্রশস্ততা বৃদ্ধি পায়, তাহলে গুণক মডেল।

ইকোনোমেট্রিক বিশ্লেষণের প্রধান কাজ হল তালিকাভুক্ত প্রতিটি উপাদান চিহ্নিত করা।

প্রধান উন্নয়ন প্রবণতা (ধারা)সময়ের সাথে সাথে সিরিজের স্তরে একটি মসৃণ এবং স্থিতিশীল পরিবর্তন বলা হয়, এলোমেলো এবং ঋতুগত ওঠানামা থেকে মুক্ত।

প্রধান উন্নয়ন প্রবণতা চিহ্নিত করার কাজ বলা হয় সময় সিরিজ প্রান্তিককরণ .

সময় সিরিজ প্রান্তিককরণ পদ্ধতি অন্তর্ভুক্ত:

1) ব্যবধান বাড়ানোর পদ্ধতি,

2) পদ্ধতি চলন্ত গড়,

3) বিশ্লেষণাত্মক প্রান্তিককরণ।

1) যে সময়সীমার সাথে সিরিজের স্তরগুলি সম্প্রসারিত হয়। তারপর সিরিজের স্তরগুলি বর্ধিত ব্যবধানে সংক্ষিপ্ত করা হয়। কারণে স্তরে ওঠানামা এলোমেলো কারণ, একে অপরকে বাতিল করুন। সাধারণ প্রবণতা আরও স্পষ্টভাবে আবির্ভূত হবে।

2) সিরিজের প্রথম স্তরের সংখ্যা নির্ধারণ করতে, গড় মান গণনা করা হয়। তারপর গড় গণনা করা হয় সিরিজের একই সংখ্যক স্তর থেকে, দ্বিতীয় স্তর থেকে শুরু করে ইত্যাদি। গড় মান ডায়নামিক্স সিরিজ বরাবর স্লাইড করে, 1 টার্ম (সময়ে পয়েন্ট) এগিয়ে যায়। সিরিজের স্তরের সংখ্যা যার দ্বারা গড় গণনা করা হয় তা জোড় বা বিজোড় হতে পারে। একটি বিজোড় সংখ্যার জন্য, চলমান গড়কে স্লাইডিং সময়ের মাঝামাঝি হিসাবে উল্লেখ করা হয়। একটি সমান সময়ের জন্য, গড় মান খোঁজার সাথে t এর সংকল্পের তুলনা করা হয় না, তবে একটি কেন্দ্রীকরণ পদ্ধতি ব্যবহার করা হয়, যেমন পরপর দুটি চলমান গড়ের গড় গণনা করুন।

3) সময়ের উপর সিরিজের স্তরের নির্ভরতা বৈশিষ্ট্যযুক্ত একটি বিশ্লেষণাত্মক ফাংশন নির্মাণ। নিম্নলিখিত ফাংশন প্রবণতা তৈরি করতে ব্যবহৃত হয়:

ট্রেন্ড প্যারামিটারগুলি সর্বনিম্ন বর্গক্ষেত্র ব্যবহার করে নির্ধারিত হয়। সেরা ফাংশন নির্বাচন করা হয় সহগ R 2 এর উপর ভিত্তি করে।

আমরা একটি উদাহরণ ব্যবহার করে একটি সংযোজন মডেল তৈরি করব।

উদাহরণ 7:

একটি নির্দিষ্ট এলাকায় 4 বছরের জন্য বিদ্যুৎ খরচের পরিমাণের ত্রৈমাসিক তথ্য রয়েছে। টেবিল 1-এ মিলিয়ন কিলোওয়াট ডেটা।

1 নং টেবিল

একটি টাইম সিরিজ মডেল তৈরি করুন।

এই উদাহরণে, আমরা ত্রৈমাসিক সংখ্যাটিকে স্বাধীন পরিবর্তনশীল হিসাবে বিবেচনা করি এবং ত্রৈমাসিকের জন্য বিদ্যুত খরচকে নির্ভরশীল পরিবর্তনশীল y(t) হিসাবে বিবেচনা করি।

স্ক্যাটারপ্লট থেকে আপনি দেখতে পাচ্ছেন যে প্রবণতাটি রৈখিক। একই প্রশস্ততার ঋতু ওঠানামার (পিরিয়ড = 4) উপস্থিতিও কেউ দেখতে পারে, তাই আমরা একটি সংযোজন মডেল তৈরি করব।

মডেল নির্মাণ অন্তর্ভুক্ত পরবর্তী পদক্ষেপ:

1. চলুন 4 চতুর্থাংশের জন্য চলমান গড় পদ্ধতি ব্যবহার করে মূল সিরিজটি সারিবদ্ধ করি এবং কেন্দ্রীকরণ সম্পাদন করি:

1.1। প্রতি 4 ত্রৈমাসিকের জন্য ধারাবাহিকভাবে 1 পয়েন্টের সময় পরিবর্তনের সাথে সিরিজের স্তরগুলি যোগ করা যাক৷

1.2। ফলের পরিমাণকে 4 দ্বারা ভাগ করলে আমরা চলমান গড় খুঁজে পাই।

1.3। আমরা এই মানগুলিকে সময়ের সাথে প্রকৃত বিন্দুর সাথে সঙ্গতিতে নিয়ে আসি, যার জন্য আমরা পরপর দুটি চলমান গড়ের গড় মান খুঁজে পাই - কেন্দ্রীভূত চলমান গড়।

2. চলুন ঋতু পরিবর্তন গণনা করা যাক। ঋতু পরিবর্তন (t) = y(t) - কেন্দ্রীভূত চলমান গড়। আসুন টেবিল 2 তৈরি করি।

টেবিল ২

এন্ড-টু-এন্ড ব্লক নম্বর টি বিদ্যুৎ খরচ Y(t) 4 কোয়ার্টার মুভিং এভারেজ কেন্দ্রীভূত চলমান গড় ঋতু পরিবর্তনের অনুমান
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. সারণি 3-তে ঋতুগত পরিবর্তনের উপর ভিত্তি করে, ঋতু উপাদান গণনা করা হয়।

সূচক বছর I II III IV বছরে ত্রৈমাসিকের সংখ্যা
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
মোট 1,8 -5,875 -3,825 8,125 সমষ্টি
গড় 0,6 -1,958 -1,275 2,708 0,075
মৌসুমী উপাদান 0,581 -1,977 -1,294 2,690

4. থেকে ঋতু উপাদান নির্মূল প্রাথমিক স্তরসারি:

উপসংহার:

সংযোজন মডেলটি মূল সময় সিরিজের স্তরের মোট বৈচিত্র্যের 98.4% ব্যাখ্যা করে।



সাইটে নতুন

>

সবচেয়ে জনপ্রিয়