صفحه اصلی حذف نمونه هایی از حل مسائل رگرسیون چندگانه مقدمه ای بر رگرسیون چندگانه

حذف

نمونه هایی از حل مسائل رگرسیون چندگانه مقدمه ای بر رگرسیون چندگانه

هدف از رگرسیون چندگانه تحلیل رابطه بین یک متغیر وابسته و چند متغیر مستقل است.

مثال: داده هایی در مورد هزینه یک ایستگاه کاری (هنگام خرید 50 ایستگاه کاری) برای سیستم های مختلف PDM وجود دارد. مورد نیاز: ارزیابی رابطه بین قیمت ایستگاه کاری سیستم PDM و تعداد مشخصه های پیاده سازی شده در آن، ارائه شده در جدول 2.

جدول 2 - ویژگی های سیستم های PDM

شماره سفارش	سیستم PDM	قیمت	مدیریت پیکربندی محصول	مدل های محصول	کار گروهی	مدیریت تغییر محصول	جریان سند	آرشیوها	جستجوی اسناد	برنامه ریزی پروژه	مدیریت تولید محصول
	iMAN			آره	آره
	PartYPlus			آره	آره
	مجموعه PDM STEP			آره	آره
	جستجو کردن			آره	آره
	بادگیر			آره	آره
	مدیر قطب نما			آره	آره
	T-Flex Docs			آره	آره
	تکنو پرو			خیر	خیر

مقدار عددی مشخصه ها (به جز "هزینه"، "مدل های محصول" و "کار تیمی") به معنای تعداد الزامات هر مشخصه اجرا شده است.

بیایید یک صفحه گسترده با داده های اولیه ایجاد و پر کنیم (شکل 27).

مقدار "1" از متغیرهای "Mod. اد." و "مجموعه". ناحیه." با مقدار "بله" داده منبع و مقدار "0" به مقدار "خیر" داده منبع مطابقت دارد.

بیایید یک رگرسیون بین متغیر وابسته "هزینه" و متغیرهای مستقل "Ex. conf."، "Mod. ed."، "Collect. r-ta، "Ex. تغییرات.»، «سند.»، «بایگانی»، «جستجو»، «Plan-e»، «کنترل. ساخته شده است."

برای شروع تجزیه و تحلیل آماری داده های منبع، ماژول "رگرسیون چندگانه" را فراخوانی کنید (شکل 22).

در کادر محاوره ای ظاهر شده (شکل 23)، متغیرهایی را که تجزیه و تحلیل آماری برای آنها انجام می شود، مشخص کنید.

شکل 27 - داده های اولیه

برای انجام این کار، روی دکمه Variables کلیک کنید و در کادر محاوره ای ظاهر شده (شکل 28)، در قسمت مربوط به متغیرهای وابسته (وابسته var.)، گزینه 1-Cost را انتخاب کنید و در قسمت مربوط به متغیرهای مستقل. (فهرست متغیر مستقل)، همه متغیرهای دیگر را انتخاب کنید. انتخاب چندین متغیر از لیست با استفاده از کلیدهای "Ctrl" یا "Shift" یا با تعیین اعداد (محدوده اعداد) متغیرها در قسمت مربوطه انجام می شود.

شکل 28 - کادر گفتگو برای تنظیم متغیرها برای تجزیه و تحلیل آماری

پس از انتخاب متغیرها، روی دکمه "OK" در کادر محاوره ای برای تنظیم پارامترهای ماژول "رگرسیون چندگانه" کلیک کنید. در پنجره ای که با کتیبه «No of indep. vars. >=(N-1); نمی تواند corr را معکوس کند. ماتریس." (شکل 29) دکمه "OK" را فشار دهید.

این پیام زمانی ظاهر می شود که سیستم نتواند برای همه متغیرهای مستقل اعلام شده یک رگرسیون بسازد، زیرا تعداد متغیرها بزرگتر یا مساوی تعداد موارد منهای 1 است.

در پنجره ظاهر شده (شکل 30) در تب "Advanced" می توانید روش ساخت معادله رگرسیون را تغییر دهید.

شکل 29 - پیغام خطا

برای انجام این کار، در قسمت "روش"، "به جلو گام به گام" (گام به گام با گنجاندن) را انتخاب کنید.

شکل 30 - پنجره ای برای انتخاب روش و تنظیم پارامترهای ساخت معادله رگرسیون

روش رگرسیون گام به گام شامل افزودن یا حذف برخی از متغیرهای مستقل به مدل در هر مرحله است. بنابراین، بسیاری از «مهم‌ترین» متغیرها برجسته می‌شوند. این به شما امکان می دهد تعداد متغیرهایی را که وابستگی را توصیف می کنند کاهش دهید.

تجزیه و تحلیل گام به گام با حذف ("گام به عقب"). در این حالت ابتدا همه متغیرها در مدل گنجانده می شوند و سپس در هر مرحله متغیرهایی که سهم کمی در پیش بینی ها دارند حذف می شوند. سپس، به عنوان نتیجه یک تجزیه و تحلیل موفق، تنها متغیرهای "مهم" در مدل را می توان حفظ کرد، یعنی آن متغیرهایی که سهم آنها در تبعیض بیشتر از سایرین است.

تجزیه و تحلیل گام به گام با گنجاندن ("به جلو گام به گام"). هنگام استفاده از این روش، متغیرهای مستقل به صورت متوالی در معادله رگرسیون گنجانده می شوند تا زمانی که معادله داده های اصلی را به طور رضایت بخشی توصیف کند. گنجاندن متغیرها با استفاده از آزمون F تعیین می شود. در هر مرحله، همه متغیرها بررسی می‌شوند و متغیری که بیشترین سهم را در تفاوت بین جمعیت‌ها دارد، پیدا می‌شود. این متغیر باید در این مرحله در مدل گنجانده شود و به مرحله بعد بروید.

در قسمت "Intercept" (اصطلاح رگرسیون آزاد)، می توانید انتخاب کنید که آیا آن را در معادله ("شامل در مدل") لحاظ کنید یا آن را در نظر نگیرید و آن را برابر با صفر در نظر بگیرید ("Set to zero").

پارامتر "تحمل" تحمل متغیرها است. به صورت 1 منهای مربع ضریب تعریف می شود همبستگی چندگانهاین متغیر با تمام متغیرهای مستقل دیگر در معادله رگرسیون. بنابراین، هرچه تحمل یک متغیر کمتر باشد، سهم آن در معادله رگرسیون اضافی‌تر است. اگر تلورانس هر یک از متغیرهای معادله رگرسیون برابر یا نزدیک به صفر باشد، معادله رگرسیون قابل تخمین نیست. بنابراین، توصیه می شود که پارامتر تلرانس را روی 0.05 یا 0.1 تنظیم کنید.

پارامتر "رگرسیون ریج; lambda:" زمانی استفاده می شود که متغیرهای مستقل به شدت همبسته باشند و تخمین های قوی برای ضرایب معادله رگرسیون را نمی توان از طریق روش به دست آورد. کمترین مربعات. ثابت مشخص شده (لامبدا) به قطر ماتریس همبستگی اضافه می شود که سپس مجدداً استاندارد می شود (به طوری که همه عناصر مورب برابر با 1.0 باشند). به عبارت دیگر، این پارامتر به طور مصنوعی ضرایب همبستگی را کاهش می‌دهد تا تخمین‌های قوی‌تر (در عین حال مغرضانه) پارامترهای رگرسیون را بتوان محاسبه کرد. در مورد ما، این پارامتر استفاده نمی شود.

پارامتر «پردازش/چاپ دسته‌ای» زمانی استفاده می‌شود که لازم باشد فوراً چندین جدول برای گزارش تهیه شود که نتایج و فرآیند را منعکس می‌کند. تجزیه و تحلیل رگرسیون. این گزینه زمانی بسیار مفید است که شما نیاز به چاپ یا تجزیه و تحلیل نتایج تحلیل رگرسیون گام به گام در هر مرحله دارید.

در برگه "Stepwise" (شکل 31)، می توانید پارامترهایی را برای شرایط گنجاندن ("F برای ورود") یا حذف ("F برای حذف") متغیرها هنگام ساخت یک معادله رگرسیون و همچنین تعداد متغیرها تنظیم کنید. مراحل ساخت معادله ("تعداد مراحل").

شکل 31 - تب "Stepwise" پنجره برای انتخاب روش و تنظیم پارامترهای ساخت معادله رگرسیون

F مقدار مقدار F-test است.

اگر در طول تجزیه و تحلیل گام به گام با گنجاندن، لازم باشد که همه یا تقریباً همه متغیرها وارد معادله رگرسیون شوند، مقدار "F to enter" باید روی حداقل (0.0001) و "F برای حذف" تنظیم شود. مقدار ” نیز باید روی حداقل تنظیم شود.

اگر در حین تجزیه و تحلیل گام به گام با حذف، لازم است همه متغیرها (یک در یک زمان) از معادله رگرسیون حذف شوند، باید مقدار "F to enter" را بسیار بزرگ تنظیم کنید، برای مثال 999، و مقدار “F to remove” را نزدیک به “F to enter” قرار دهید.

لازم به یادآوری است که مقدار پارامتر "F to remove" همیشه باید کمتر از "F to enter" باشد.

گزینه "نمایش نتایج" دو گزینه دارد:

2) در هر مرحله - نمایش نتایج تجزیه و تحلیل در هر مرحله.

پس از کلیک بر روی دکمه "OK" در پنجره انتخاب روش های تحلیل رگرسیون، پنجره نتایج تجزیه و تحلیل ظاهر می شود (شکل 32).

شکل 32 - پنجره نتایج تجزیه و تحلیل

شکل 33 - نتایج مختصر تحلیل رگرسیون

با توجه به نتایج تجزیه و تحلیل، ضریب تعیین است. این بدان معنی است که رگرسیون ساخته شده 99.987٪ از گسترش مقادیر را نسبت به میانگین توضیح می دهد. تقریباً تمام تغییرپذیری متغیرها را توضیح می دهد.

پراهمیتو سطح معنی داری آن نشان می دهد که رگرسیون ساخته شده بسیار معنی دار است.

برای مشاهده نتایج خلاصهرگرسیون، روی دکمه "خلاصه: نتیجه رگرسیون" کلیک کنید. صفحه نمایش ظاهر خواهد شد صفحه گستردهبا نتایج تجزیه و تحلیل (شکل 33).

ستون سوم ("B") تخمینی از پارامترهای ناشناخته مدل را نشان می دهد، به عنوان مثال. ضرایب معادله رگرسیون.

بنابراین، رگرسیون مورد نظر به نظر می رسد:

معادله رگرسیون کیفی ساخته شده را می توان به صورت زیر تفسیر کرد:

1) هزینه یک سیستم PDM با افزایش تعداد عملکردهای پیاده سازی شده برای مدیریت تغییر، جریان اسناد و برنامه ریزی، و همچنین اگر سیستم شامل یک تابع پشتیبانی از مدل محصول باشد، افزایش می یابد.

2) هزینه یک سیستم PDM با افزایش توابع مدیریت پیکربندی پیاده سازی شده و با افزایش قابلیت های جستجو کاهش می یابد.

هدف از رگرسیون خطی چندگانه ایجاد یک مدل خطی از رابطه بین مجموعه ای از پیش بینی کننده های پیوسته و یک متغیر وابسته پیوسته است. معمولاً از معادله رگرسیون زیر استفاده می شود:

اینجا و من- ضرایب رگرسیون، b 0- عضو رایگان (در صورت استفاده)، ه- اصطلاحی حاوی خطا - مفروضات مختلفی در مورد آن وجود دارد که با این حال، اغلب به نرمال بودن توزیع با یک تشت بردار صفر می رسد. انتظارات و ماتریس همبستگی

این مدل خطی بسیاری از مسائل را در زمینه های موضوعی مختلف به خوبی توصیف می کند، به عنوان مثال، اقتصاد، صنعت، پزشکی. این به این دلیل است که برخی از مشکلات ماهیت خطی دارند.

بیایید یک مثال ساده بزنیم. فرض کنید باید هزینه ساخت جاده را بر اساس پارامترهای شناخته شده آن پیش بینی کنید. در عین حال، ما داده‌هایی در مورد جاده‌هایی داریم که قبلاً گذاشته شده‌اند که نشان‌دهنده طول، عمق روسازی، مقدار مواد کار، تعداد کارگران و غیره است.

معلوم است که هزینه راه در نهایت خواهد شد برابر با مقدارهزینه های همه این عوامل به طور جداگانه. شما به مقدار مشخصی مثلاً سنگ خرد شده با هزینه مشخص در هر تن و مقدار مشخصی آسفالت نیز با هزینه مشخص نیاز خواهید داشت.

ممکن است برای نصب نیاز به قطع جنگل ها باشد که هزینه های اضافی را نیز به دنبال خواهد داشت. همه اینها با هم هزینه ایجاد جاده را خواهد داد.

در این حالت، این مدل شامل یک عضو رایگان خواهد بود که به عنوان مثال، مسئول هزینه های سازمانی (که تقریباً برای تمام کارهای ساخت و ساز و نصب در یک سطح مشخص یکسان است) یا کسر مالیات خواهد بود.

خطا شامل عواملی خواهد بود که ما هنگام ساخت مدل در نظر نگرفتیم (مثلاً آب و هوا در حین ساخت - اصلاً نمی توان آن را در نظر گرفت).

مثال: تحلیل رگرسیون چندگانه

برای این مثال، چندین همبستگی احتمالی نرخ فقر و میزانی که درصد خانواده‌های زیر خط فقر را پیش‌بینی می‌کند، تحلیل می‌شود. بنابراین، متغیر مشخص کننده درصد خانواده های زیر خط فقر را متغیر وابسته و بقیه متغیرها را پیش بینی کننده های پیوسته در نظر می گیریم.

ضرایب رگرسیون

برای اینکه بفهمیم کدام یک از متغیرهای مستقل نقش بیشتری در پیش‌بینی سطوح فقر دارد، به بررسی می‌پردازیم ضرایب استاندارد شدهرگرسیون (یا بتا).

برنج. 1. برآورد پارامترهای ضرایب رگرسیون.

ضرایب بتا ضرایبی هستند که اگر همه متغیرها را به میانگین 0 و انحراف استاندارد 1 نرمال کنید، به دست می آورید. بنابراین، بزرگی این ضرایب بتا به شما امکان می دهد سهم نسبی هر متغیر مستقل را با متغیر وابسته مقایسه کنید. همانطور که از جدول بالا مشاهده می شود، متغیرهای تغییر جمعیت از سال 1960 (POP_ CHING)، درصد جمعیت ساکن در مناطق روستایی (PT_RURAL) و تعداد افراد شاغل در کشاورزی (N_Empld) مهمترین عوامل پیش بینی کننده سطح فقر هستند. ، زیرا فقط آنها از نظر آماری معنی دار هستند (95٪ آنها فاصله اطمینان 0 را شامل نمی شود). ضریب رگرسیون برای تغییر جمعیت از سال 1960 (Pop_Chng) منفی است، بنابراین، هر چه جمعیت کمتر افزایش یابد، خانواده های بیشترکه زیر خط فقر در شهرستان مربوطه زندگی می کنند. ضریب رگرسیون برای جمعیت (%) ساکن در روستا (Pt_Rural) مثبت است، یعنی درصد بیشتر است. ساکنان روستایی، سطح فقر بالاتر است.

اهمیت اثرات پیش بینی کننده

بیایید به جدول با معیارهای اهمیت نگاه کنیم.

برنج. 2. نتایج همزمان برای هر متغیر معین.

همانطور که این جدول نشان می دهد، تنها اثرات 2 متغیر از نظر آماری معنی دار است: تغییر جمعیت از سال 1960 (Pop_Chng) و درصد جمعیت ساکن در یک روستا (Pt_Rural)، p.< .05.

تجزیه و تحلیل باقیمانده پس از برازش یک معادله رگرسیون، تقریباً همیشه باید مقادیر و باقیمانده های پیش بینی شده را بررسی کنید. به عنوان مثال، مقادیر پرت بزرگ می تواند نتایج را تا حد زیادی مخدوش کند و منجر به نتیجه گیری های اشتباه شود.

نمودار انتشار خط به خط

معمولاً لازم است باقیمانده های اصلی یا استاندارد شده را از نظر نقاط پرت بزرگ بررسی کنید.

برنج. 3. اعداد مشاهده و باقیمانده.

مقیاس محور عمودی این نمودار با توجه به مقدار سیگما ترسیم می شود، یعنی: انحراف معیارباقی مانده اگر یک یا چند مشاهدات در بازه 3 ± سیگما قرار نگیرند، ممکن است ارزش آن را داشته باشد که آن مشاهدات را حذف کنیم (این کار را می توان به راحتی از طریق شرایط انتخاب مشاهده انجام داد) و تجزیه و تحلیل را دوباره اجرا کرد تا اطمینان حاصل شود که نتایج تحت تأثیر این موارد قرار نمی گیرند. موارد پرت

فواصل ماهالانوبیس

بیشتر کتاب های درسی آمار زمان زیادی را صرف مقادیر پرت و باقی مانده نسبت به متغیر وابسته می کنند. با این حال، نقش پرت در پیش بینی ها اغلب ناشناخته باقی می ماند. در سمت متغیر پیش بینی، لیستی از متغیرها وجود دارد که با وزن های مختلف (ضرایب رگرسیون) در پیش بینی متغیر وابسته شرکت می کنند. شما می توانید متغیرهای مستقل را به عنوان یک فضای چند بعدی در نظر بگیرید که در آن هر مشاهده ای را می توان ترسیم کرد. به عنوان مثال، اگر دو متغیر مستقل با ضرایب رگرسیون مساوی داشته باشید، می توانید یک نمودار پراکنده از دو متغیر ترسیم کنید و هر مشاهده را روی آن نمودار قرار دهید. سپس می توانید مقدار میانگین را روی این نمودار علامت بزنید و فواصل هر مشاهده تا این میانگین (به اصطلاح مرکز ثقل) را در فضای دو بعدی محاسبه کنید. این ایده اصلی در پس محاسبه فاصله Mahalanobis است. حال بیایید به هیستوگرام متغیر تغییر جمعیت از سال 1960 نگاه کنیم.

برنج. 4. هیستوگرام توزیع فاصله ماهالانوبیس.

از نمودار بر می آید که در فواصل ماهالانوبیس یک نقطه پرت وجود دارد.

برنج. 5. مقادیر مشاهده شده، پیش بینی شده و باقیمانده.

توجه داشته باشید که شهرستان شلبی (در ردیف اول) از بقیه شهرستان ها متمایز است. اگر به داده های خام نگاه کنید، متوجه خواهید شد که شهرستان شلبی در واقع بیشترین تعداد افراد شاغل در کشاورزی را دارد (متغیر N_Empld). ممکن است منطقی باشد که آن را به عنوان یک درصد به جای یک عدد مطلق بیان کنیم، در این صورت فاصله ماهالانوبیس شهرستان شلبی احتمالاً در مقایسه با سایر شهرستان ها زیاد نخواهد بود. واضح است که شهرستان شلبی یک منطقه پرت است.

بقایای حذف شده

آمار بسیار مهم دیگری که به ارزیابی شدت مشکل انتشار کمک می کند، باقی مانده های حذف شده است. اینها باقیمانده های استاندارد شده برای مشاهدات مربوطه هستند که با حذف آن مشاهدات از تجزیه و تحلیل به دست می آیند. به یاد داشته باشید که روش رگرسیون چندگانه با سطح رگرسیون متناسب است تا رابطه بین متغیر وابسته و متغیر پیش بینی را نشان دهد. اگر یکی از مشاهدات دور افتاده باشد (مانند شهرستان شلبی)، در این صورت تمایلی برای سطح رگرسیون وجود دارد که به سمت آن نقطه پرت "کشش" کند. در نتیجه، اگر مشاهده مربوطه حذف شود، سطح متفاوتی (و ضرایب بتا) به دست می آید. بنابراین، اگر باقیمانده‌های حذف شده بسیار متفاوت از باقیمانده‌های استاندارد شده باشند، دلیلی برای این باور خواهید داشت که تحلیل رگرسیون به طور جدی توسط مشاهدات مربوطه سوگیری دارد. در این مثال، باقیمانده‌های حذف‌شده برای شهرستان شلبی نشان می‌دهد که این یک نقطه پرت است، که به‌طور جدی تحلیل را دچار سوگیری می‌کند. نمودار پراکندگی به وضوح یک نقطه پرت را نشان می دهد.

برنج. 6. باقیمانده های اولیه و باقیمانده های حذف شده متغیری که نشان دهنده درصد خانواده هایی است که زیر سطح معیشتی زندگی می کنند.

اکثر آنها تفسیرهای کم و بیش روشنی دارند، با این حال، اجازه دهید به نمودارهای احتمال عادی بپردازیم.

همانطور که قبلا ذکر شد، رگرسیون چندگانه فرض می کند که یک رابطه خطی بین متغیرهای معادله وجود دارد و باقیمانده ها به طور معمول توزیع می شوند. اگر این مفروضات نقض شوند، نتیجه گیری ممکن است نادرست باشد. نمودار احتمال عادی باقیمانده ها به شما می گوید که آیا نقض جدی این مفروضات وجود دارد یا خیر.

برنج. 7. نمودار احتمال عادی; مانده های اولیه

این نمودار به صورت زیر ساخته شده است. ابتدا، باقیمانده های استاندارد شده به ترتیب رتبه بندی می شوند. از این رتبه‌ها، امتیازهای z (یعنی مقادیر استاندارد توزیع نرمال) را می‌توان بر اساس این فرض که داده‌ها رعایت می‌کنند محاسبه کرد. توزیع نرمال. این مقادیر z بر روی محور y در نمودار رسم می شوند.

اگر باقیمانده های مشاهده شده (نمودار روی محور x) به طور معمول توزیع شوند، آنگاه همه مقادیر روی یک خط مستقیم روی نمودار قرار می گیرند. در نمودار ما، همه نقاط بسیار نزدیک به منحنی قرار دارند. اگر باقیمانده ها به طور معمول توزیع نشده باشند، از این خط منحرف می شوند. نقاط پرت نیز در این نمودار قابل توجه است.

اگر تناسب از دست برود و به نظر می رسد که داده ها یک منحنی واضح (مثلاً یک شکل S) در مورد خط تشکیل می دهند، آنگاه متغیر وابسته را می توان به نحوی تبدیل کرد (مثلاً یک تبدیل لگاریتمی برای "کوچک کردن" دنباله خط توزیع و غیره). بحث در مورد این روش فراتر از محدوده این مثال است (Neter, Wasserman, and Kutner, 1985, pp. 134-141, ارائه بحثی در مورد تبدیل هایی که غیر عادی بودن و غیرخطی بودن داده ها را حذف می کند). با این حال، محققان اغلب به سادگی تحلیل‌ها را بدون آزمایش مفروضات اساسی انجام می‌دهند که منجر به نتیجه‌گیری‌های اشتباه می‌شود.

فرض کنید یک توسعه دهنده در حال ارزیابی ارزش گروهی از ساختمان های اداری کوچک در یک منطقه تجاری سنتی است.

یک توسعه دهنده می تواند از تحلیل رگرسیون چندگانه برای تخمین قیمت یک ساختمان اداری در آن استفاده کند این منطقهبر اساس متغیرهای زیر

y قیمت تخمینی یک ساختمان اداری است.

x 1 - مساحت کل در متر مربع؛

x 2 - تعداد دفاتر.

x 3 - تعداد ورودی ها (0.5 ورودی به معنای ورودی فقط برای تحویل مکاتبات است).

x 4 - زمان بهره برداری از ساختمان بر حسب سال.

این مثال فرض می کند که وجود دارد وابستگی خطیبین هر متغیر مستقل (x 1، x 2، x 3 و x 4) و متغیر وابسته (y)، یعنی قیمت یک ساختمان اداری در یک منطقه معین. داده های منبع در شکل نشان داده شده است.

تنظیمات برای حل مشکل در تصویر پنجره نشان داده شده است " پسرفتنتایج محاسبات در یک برگه جداگانه در سه جدول قرار داده شده است

در نتیجه به موارد زیر رسیدیم مدل ریاضی:

y = 52318 + 27.64*x1 + 12530*x2 + 2553*x3 - 234.24*x4.

اکنون توسعه دهنده می تواند ارزش تخمینی یک ساختمان اداری را در همان منطقه تعیین کند. اگر این ساختمان دارای 2500 متر مربع مساحت، سه دفتر، دو ورودی و 25 سال عمر مفید باشد، می توانید ارزش آن را با استفاده از فرمول زیر تخمین بزنید:

y = 27.64*2500 + 12530*3 + 2553*2 - 234.24*25 + 52318 = 158261 c.u.

در تحلیل رگرسیون، مهمترین نتایج عبارتند از:

ضرایب متغیرها و تقاطع Y که پارامترهای مورد نیاز مدل هستند.
R چندگانه، که دقت مدل را برای داده های منبع موجود مشخص می کند.
تست F فیشر(در مثال در نظر گرفته شده، به طور قابل توجهی بیش از آن است ارزش بحرانی، برابر با 4.06)؛
آمار t- مقادیری که درجه اهمیت ضرایب فردی مدل را مشخص می کند.

آمار t سزاوار توجه ویژه است. خیلی اوقات، هنگام ساخت یک مدل رگرسیون، مشخص نیست که آیا این یا آن عامل x بر y تأثیر می گذارد یا خیر. گنجاندن عواملی در مدل که بر مقدار خروجی تأثیر نمی گذارد، کیفیت مدل را کاهش می دهد. محاسبه آمار t به شناسایی چنین عواملی کمک می کند. تخمین تقریبی را می توان به صورت زیر انجام داد: اگر برای n>>k مقدار آمار t برای قدر مطلقبه طور قابل توجهی بیش از سه، ضریب مربوطه باید معنی دار در نظر گرفته شود و عامل باید در مدل گنجانده شود، در غیر این صورت از مدل حذف می شود. بنابراین، ما می توانیم یک فناوری برای ساخت یک مدل رگرسیون، شامل دو مرحله پیشنهاد کنیم:

1) پردازش با بسته " پسرفت"تمام داده های موجود، مقادیر آمار t را تجزیه و تحلیل کنید.

2) ستون های جدول داده های منبع را با آن دسته از عواملی که ضرایب آنها ناچیز است حذف کنید و آنها را با بسته پردازش کنید " پسرفت"جدول جدید

عصر بخیر، خوانندگان عزیز.
در مقالات قبلی، در نمونه های عملی، راه هایی برای حل مسائل طبقه بندی (مسئله امتیازدهی اعتبار) و مبانی تحلیل اطلاعات متنی (مسئله پاسپورت) را نشان دادم. امروز می‌خواهم به دسته دیگری از مشکلات یعنی بازیابی رگرسیون بپردازم. معمولاً از مشکلات این کلاس در پیش بینی استفاده می شود.
برای مثالی از حل یک مشکل پیش‌بینی، مجموعه داده‌های بهره‌وری انرژی را از بزرگترین مخزن UCI گرفتم. به طور سنتی، ما از Python با بسته های تحلیلی پانداها و scikit-learn به عنوان ابزار استفاده می کنیم.

شرح مجموعه داده ها و بیان مسئله

با توجه به مجموعه داده‌ای که ویژگی‌های اتاق زیر را توصیف می‌کند:

این شامل ویژگی های اتاق است که بر اساس آن تجزیه و تحلیل انجام می شود و مقادیر باری که باید پیش بینی شوند.

تجزیه و تحلیل داده های اولیه

ابتدا بیایید داده های خود را دانلود کرده و به آن نگاه کنیم:

از پانداها را وارد کنید read_csv، DataFrame را از sklearn.neighbors وارد کنید KNeighborsRegressor را از sklearn.linear_model وارد کنید LinearRegression، LogisticRegression را از sklearn.svm وارد کنید SVR از sklearn.ensemble import RandomForestcorenklearn.stricars وارد کردن مجموعه داده train_test_split = read_csv("EnergyEffici ency /ENB2012_data.csv";") dataset.head()

	X1	X2	X3	X4	X5	X6	Y1	Y2
0	0.98	514.5	294.0	110.25	7	2	15.55	21.33
1	0.98	514.5	294.0	110.25	7	3	15.55	21.33
2	0.98	514.5	294.0	110.25	7	4	15.55	21.33
3	0.98	514.5	294.0	110.25	7	5	15.55	21.33
4	0.90	563.5	318.5	122.50	7	2	20.84	28.28

حال بیایید ببینیم که آیا هر یک از ویژگی ها به یکدیگر مرتبط هستند یا خیر. این را می توان با محاسبه ضرایب همبستگی برای تمام ستون ها انجام داد. نحوه انجام این کار در مقاله قبلی توضیح داده شد:

Dataset.corr()

	X1	X2	X3	X4	X5	X6	X7	X8	Y1	Y2
X1	1.000000e+00	-9.919015e-01	-2.037817e-01	-8.688234e-01	8.277473e-01	0.000000	1.283986e-17	1.764620e-17	0.622272	0.634339
X2	-9.919015e-01	1.000000e+00	1.955016e-01	8.807195e-01	-8.581477e-01	0.000000	1.318356e-16	-3.558613e-16	-0.658120	-0.672999
X3	-2.037817e-01	1.955016e-01	1.000000e+00	-2.923165e-01	2.809757e-01	0.000000	-7.969726e-19	0.000000e+00	0.455671	0.427117
X4	-8.688234e-01	8.807195e-01	-2.923165e-01	1.000000e+00	-9.725122e-01	0.000000	-1.381805e-16	-1.079129e-16	-0.861828	-0.862547
X5	8.277473e-01	-8.581477e-01	2.809757e-01	-9.725122e-01	1.000000e+00	0.000000	1.861418e-18	0.000000e+00	0.889431	0.895785
X6	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	0.000000e+00	1.000000	0.000000e+00	0.000000e+00	-0.002587	0.014290
X7	1.283986e-17	1.318356e-16	-7.969726e-19	-1.381805e-16	1.861418e-18	0.000000	1.000000e+00	2.129642e-01	0.269841	0.207505
X8	1.764620e-17	-3.558613e-16	0.000000e+00	-1.079129e-16	0.000000e+00	0.000000	2.129642e-01	1.000000e+00	0.087368	0.050525
Y1	6.222722e-01	-6.581202e-01	4.556712e-01	-8.618283e-01	8.894307e-01	-0.002587	2.698410e-01	8.736759e-02	1.000000	0.975862
Y2	6.343391e-01	-6.729989e-01	4.271170e-01	-8.625466e-01	8.957852e-01	0.014290	2.075050e-01	5.052512e-02	0.975862	1.000000

همانطور که از ماتریس ما می بینید، ستون های زیر با یکدیگر همبستگی دارند (مقدار ضریب همبستگی بیشتر از 95٪ است):

y1 --> y2
x1 --> x2
x4 --> x5

حالا بیایید انتخاب کنیم کدام ستون از جفت های خود را می توانیم از نمونه خود حذف کنیم. برای این کار در هر جفت ستون هایی را انتخاب می کنیم که تاثیر بیشتری روی مقادیر پیش بینی شده دارند Y1و Y2و آنها را رها کنید و بقیه را حذف کنید.
همانطور که می بینید، ماتریس هایی با ضرایب همبستگی روشن هستند y1 ,y2 اهمیت بیشتری دارند X2 و X5 ، به جای X1 و X4، بنابراین می توانیم آخرین ستون ها را حذف کنیم.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
علاوه بر این، می توانید متوجه شوید که فیلدها Y1 و Y2 ارتباط بسیار نزدیکی با یکدیگر دارند. اما، از آنجایی که ما باید هر دو مقدار را پیش بینی کنیم، آنها را "همانطور که هستند" رها می کنیم.

انتخاب مدل

بیایید مقادیر پیش بینی شده را از نمونه خود جدا کنیم:

Trg = مجموعه داده[["Y1"، "Y2"]] trn = database.drop(["Y1"، "Y2"]، axis=1)
پس از پردازش داده ها می توانید به ساخت مدل اقدام کنید. برای ساخت مدل از روش های زیر استفاده می کنیم:

تئوری در مورد این روش ها را می توان در دوره سخنرانی های K.V Vorontsov در مورد یادگیری ماشین خواند.
ما با استفاده از ضریب تعیین ( R-square). این ضریب به صورت زیر تعیین می شود:

واریانس شرطی کمیت وابسته کجاست درتوسط عامل ایکس.
ضریب در یک بازه مقدار می گیرد و هر چه به 1 نزدیکتر باشد وابستگی قوی تر است.
خوب حالا می توانید مستقیما به سراغ ساخت مدل و انتخاب مدل بروید. بیایید تمام مدل های خود را برای سهولت تجزیه و تحلیل بیشتر در یک لیست قرار دهیم:

مدل ها =
بنابراین مدل ها آماده هستند، اکنون داده های اولیه خود را به 2 نمونه فرعی تقسیم می کنیم: تستو آموزشی. کسانی که مقالات قبلی من را خوانده‌اند می‌دانند که این کار را می‌توان با استفاده از تابع train_test_split() از بسته scikit-learn انجام داد:

Xtrn، Xtest، Ytrn، Ytest = train_test_split(trn، trg، test_size=0.4)
حال، از آنجایی که باید 2 پارامتر را پیش بینی کنیم، باید برای هر یک از آنها یک رگرسیون بسازیم. علاوه بر این، برای تجزیه و تحلیل بیشتر، می توانید نتایج به دست آمده را به صورت موقت ثبت کنید DataFrame. شما می توانید این کار را به این صورت انجام دهید:

#ایجاد ساختارهای موقت TestModels = DataFrame() tmp = () #برای هر مدل از لیست مدل در مدل ها: #نام مدل m = str(model) tmp["Model"] = m[:m.index( "(")] #برای هر ستون از مجموعه نتایج برای i در xrange(Ytrn.shape): #train the model model.fit(Xtrn, Ytrn[:,i]) #محاسبه ضریب تعیین tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #داده‌ها و DataFrame نهایی را بنویسید TestModels = TestModels.append() #با استفاده از مدل نمایه بسازید نام TestModels.set_index("Model"، inplace= True)
همانطور که از کد بالا می بینید، از تابع r2_score() برای محاسبه ضریب استفاده می شود.
بنابراین، داده های مورد تجزیه و تحلیل دریافت شده است. حالا بیایید نمودارها را رسم کنیم و ببینیم کدام مدل بهترین نتیجه را نشان می دهد:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

تجزیه و تحلیل نتایج و نتیجه گیری

از نمودارهای بالا، می‌توان نتیجه گرفت که روش بهتر از سایرین با این کار کنار آمد RandomForest(جنگل تصادفی). ضرایب تعیین آن برای هر دو متغیر بالاتر از سایرین است:
برای تحلیل بیشتر، بیایید مدل خود را دوباره آموزش دهیم:

Model = models model.fit(Xtrn، Ytrn)
با بررسی دقیق تر، ممکن است این سوال پیش بیاید که چرا نمونه وابسته دفعه قبل تقسیم شده است. یترنبه متغیرها (بر اساس ستون)، اما اکنون این کار را انجام نمی دهیم.
نکته این است که برخی روش ها مانند RandomForestRegressor، می تواند با چندین متغیر پیش بینی کننده سر و کار داشته باشد، در حالی که بقیه (مثلاً SVR) فقط می تواند با یک متغیر کار کند. از این رو طی آموزش های قبلی از پارتیشن بندی ستونی استفاده کردیم تا در روند ساخت برخی مدل ها دچار خطا نشویم.
البته انتخاب یک مدل خوب است، اما داشتن اطلاعاتی در مورد چگونگی تأثیر هر عامل بر مقدار پیش بینی شده نیز خوب است. برای این منظور، مدل دارای ویژگی است ویژگی_اهمیت_.
با استفاده از آن می توانید وزن هر فاکتور را در مدل های نهایی مشاهده کنید:

Model.feature_importances_
آرایه([ 0.40717901، 0.11394948، 0.34984766، 0.00751686، 0.09158358،
0.02992342])

در مورد ما، می توان دید که ارتفاع و مساحت کلی بیشترین تأثیر را بر بار گرمایش و سرمایش دارد. سهم کل آنها در مدل پیش بینی حدود 72 درصد است.
همچنین لازم به ذکر است که با استفاده از نمودار بالا می توانید تأثیر هر یک از عوامل را به طور جداگانه بر گرمایش و به طور جداگانه بر سرمایش مشاهده کنید، اما از آنجایی که این عوامل بسیار با یکدیگر همبستگی دارند () در مورد هر دو یک نتیجه کلی گرفتیم. که در بالا نوشته شده بود.

نتیجه

در مقاله سعی کردم مراحل اصلی تجزیه و تحلیل داده های رگرسیونی را با استفاده از پایتون و بسته های تحلیلی نشان دهم. پانداهاو scikit-یادگیری.
لازم به ذکر است که مجموعه داده ها بطور ویژه به گونه ای انتخاب شده است که تا حد امکان رسمی باشد و پردازش اولیه داده های ورودی حداقل باشد. به نظر من، این مقاله برای کسانی که به تازگی سفر خود را در تجزیه و تحلیل داده ها شروع کرده اند و همچنین برای کسانی که پایه نظری خوبی دارند، اما ابزارهایی را برای کار انتخاب می کنند مفید خواهد بود.

سوالات:

4. برآورد پارامترهای یک مدل رگرسیون چندگانه خطی.

5. ارزیابی کیفیت رگرسیون خطی چندگانه.

6. تحلیل و پیش بینی بر اساس مدل های چند عاملی.

رگرسیون چندگانه تعمیم رگرسیون زوجی است. برای توصیف رابطه بین متغیر توضیح داده شده (وابسته) Y و متغیرهای توضیحی (مستقل) X 1، X 2،...، X k استفاده می شود. رگرسیون چندگانه می‌تواند خطی یا غیرخطی باشد، اما رگرسیون چندگانه خطی در اقتصاد رایج‌ترین است.

مدل رگرسیون چندگانه خطی نظری به شکل زیر است:

ما رگرسیون نمونه مربوطه را نشان می دهیم:

مانند رگرسیون زوجی، عبارت تصادفی ε باید مفروضات اساسی تحلیل رگرسیون را برآورده کند. سپس با استفاده از OLS بهترین تخمین های بی طرفانه و کارآمد از پارامترهای رگرسیون نظری به دست می آید. علاوه بر این، متغیرهای X 1, X 2,…, X k باید با یکدیگر همبستگی (به طور خطی مستقل) نداشته باشند. به منظور نوشتن فرمول های تخمین ضرایب رگرسیون (2) که بر اساس حداقل مربعات به دست آمده است، نماد زیر را معرفی می کنیم:

سپس می توانیم به صورت ماتریس برداری بنویسیم مدل نظری:

و رگرسیون نمونه

OLS به فرمول زیر برای تخمین بردار ضرایب رگرسیون نمونه منجر می شود:

(3)

برآورد ضرایب رگرسیون خطی چندگانه با دو متغیر مستقل ، می توانیم سیستم معادلات را حل کنیم:

(4)

همانطور که در رگرسیون خطی زوجی، خطای رگرسیون استاندارد S برای رگرسیون چندگانه محاسبه می شود:

(5)

و خطاهای استاندارد ضرایب رگرسیون:

(6)

اهمیت ضرایب با استفاده از آزمون t بررسی می شود.

داشتن پسوند دانشجویی با تعداد درجات آزادی v= n-k-1.

برای ارزیابی کیفیت رگرسیون از ضریب تعیین (شاخص) استفاده می شود:

, (8)

هر چه به 1 نزدیکتر باشد، کیفیت رگرسیون بالاتر است.

برای بررسی معناداری ضریب تعیین از آزمون فیشر یا آماره F استفاده می شود.

(9)

با v 1=k، v 2=n-k-1 درجه آزادی.

در رگرسیون چند متغیره، افزودن متغیرهای توضیحی اضافی ضریب تعیین را افزایش می دهد. برای جبران این افزایش، یک ضریب تعیین تعدیل شده (یا نرمال شده) معرفی شده است:

(10)

اگر افزایش نسبت رگرسیون توضیح داده شده هنگام اضافه کردن یک متغیر جدید کم باشد، ممکن است کاهش یابد. این بدان معناست که افزودن یک متغیر جدید نامناسب است.

مثال 4:

اجازه دهید وابستگی سود شرکت به هزینه های تجهیزات و فناوری جدید و هزینه های بهبود مهارت های کارگران را در نظر بگیریم. داده های آماری 6 شرکت مشابه جمع آوری شد. داده ها به میلیون ها دلار. واحدها در جدول 1 آورده شده است.

میز 1

دو عاملی بسازید رگرسیون خطی و اهمیت آن را ارزیابی کنید. اجازه دهید نماد زیر را معرفی کنیم:

ماتریس X را جابجا می کنیم:

وارونگی این ماتریس:

بنابراین، وابستگی سود به هزینه‌های تجهیزات و ماشین‌آلات جدید و هزینه‌های بهبود مهارت‌های کارگران را می‌توان با رگرسیون زیر توصیف کرد:

با استفاده از فرمول (5)، که در آن k=2، خطای رگرسیون استاندارد S=0.636 را محاسبه می کنیم.

ما خطاهای استاندارد ضرایب رگرسیون را با استفاده از فرمول (6) محاسبه می کنیم:

به همین ترتیب:

بیایید اهمیت ضرایب رگرسیون a 1، a 2 را بررسی کنیم. بیایید t calc را محاسبه کنیم.

بیایید سطح معناداری، تعداد درجات آزادی را انتخاب کنیم

به معنی ضریب یک 1قابل توجه

بیایید اهمیت ضریب a 2 را ارزیابی کنیم:

ضریب یک 2ناچیز

با استفاده از فرمول (7) ضریب تعیین را محاسبه می کنیم. سود یک شرکت 96 درصد به هزینه تجهیزات و فناوری جدید و 4 درصد به آموزش پیشرفته به عوامل دیگر و تصادفی بستگی دارد. بیایید اهمیت ضریب تعیین را بررسی کنیم. بیایید F را محاسبه کنیم:

که ضریب تعیین معنی دار است، معادله رگرسیون معنی دار است.

از اهمیت زیادی در تحلیل مبتنی بر رگرسیون چند متغیره، مقایسه تأثیر عوامل بر شاخص وابسته y است. ضرایب رگرسیون برای این منظور استفاده نمی شود، به دلیل تفاوت در واحدهای اندازه گیری و درجات مختلفنوسانات از این کاستی ها، ضرایب کشش آزاد:

کشش نشان می دهد که شاخص وابسته y به طور متوسط با چه درصدی تغییر می کند که متغیر 1٪ تغییر می کند، مشروط بر اینکه مقادیر سایر متغیرها بدون تغییر باقی بماند. هر چه بزرگتر باشد، تأثیر متغیر مربوطه بیشتر است. همانند رگرسیون زوجی، رگرسیون چندگانه بین پیش بینی نقطه ای و پیش بینی فاصله ای تمایز قائل می شود. پیش بینی نقطه (عدد) با جایگزینی مقادیر پیش بینی شده متغیرهای مستقل در معادله رگرسیون چندگانه به دست می آید. بیایید نشان دهیم:

(12)

بردار مقادیر پیش بینی شده متغیرهای مستقل و سپس پیش بینی نقطه

خطای استاندارد پیش‌بینی در حالت رگرسیون چندگانه به صورت زیر تعیین می‌شود:

(15)

اجازه دهید سطح معناداری α را با توجه به جدول توزیع Student انتخاب کنیم. برای سطح اهمیت α و تعداد درجات آزادی ν = n-k-1، t cr را پیدا می کنیم. سپس مقدار واقعی y p با احتمال 1- α در بازه قرار می گیرد:

مبحث 5:

سری زمانی.

سوالات:

4. مفاهیم اولیه سری های زمانی.

5. روند اصلی توسعه یک روند است.

6. ساخت یک مدل افزودنی.

سری زمانیمجموعه ای از مقادیر هر شاخص را برای چندین لحظه یا دوره زمانی متوالی نشان می دهد.

لحظه (یا دوره) زمان با t نشان داده می شود و مقدار شاخص در لحظه زمان با y (t) نشان داده می شود و نامیده می شود. سطح ردیف .

هر سطح از سری های زمانی تحت تأثیر تعداد زیادی از عوامل تشکیل می شود که می توان آنها را به 3 گروه تقسیم کرد:

عوامل طولانی مدت و دائماً عامل که تأثیر تعیین کننده ای بر پدیده مورد مطالعه دارند و روند اصلی سری - روند T(t) را تشکیل می دهند.

عوامل دوره ای کوتاه مدت که نوسانات فصلی را در سری S(t) تشکیل می دهند.

عوامل تصادفی که تغییرات تصادفی در سطوح سری ε(t) را تشکیل می دهند.

مدل افزودنیسری زمانی مدلی است که در آن هر سطح از سری با مجموع مولفه های روند، فصلی و تصادفی نشان داده می شود:

مدل ضربیمدلی است که در آن هر سطح از سری حاصل ضرب اجزای فهرست شده است:

انتخاب یکی از مدل ها بر اساس تجزیه و تحلیل ساختار نوسانات فصلی است. اگر دامنه نوسانات تقریباً ثابت باشد، یک مدل افزایشی ساخته می شود. اگر دامنه افزایش یابد، مدل ضربی.

وظیفه اصلی تحلیل اقتصاد سنجی شناسایی هر یک از اجزای فهرست شده است.

روند اصلی توسعه (روند)تغییر آرام و پایدار در سطوح یک سری در طول زمان، بدون نوسانات تصادفی و فصلی نامیده می شود.

وظیفه شناسایی روندهای اصلی توسعه نامیده می شود هم ترازی سری های زمانی .

روش های هم ترازی سری های زمانی عبارتند از:

1) روش بزرگ کردن فواصل،

2) روش میانگین متحرک,

3) تراز تحلیلی

1) دوره های زمانی که سطوح سری به آنها مربوط می شود بزرگ می شوند. سپس سطوح سری در فواصل بزرگ شده خلاصه می شوند. نوسانات سطوح به دلیل دلایل تصادفی، یکدیگر را خنثی می کنند. روند کلی با وضوح بیشتری ظاهر خواهد شد.

2) برای تعیین تعداد سطوح اول سری، مقدار میانگین محاسبه می شود. سپس میانگین از همان تعداد سطوح سری، شروع از سطح دوم و غیره محاسبه می شود. مقدار متوسط در امتداد سری دینامیک می لغزد و با 1 دوره (نقطه زمانی) به جلو حرکت می کند. تعداد سطوح سری که میانگین بر اساس آنها محاسبه می شود می تواند زوج یا فرد باشد. برای یک عدد فرد، میانگین متحرک به عنوان وسط دوره لغزشی نامیده می شود. برای یک دوره زوج، یافتن مقدار متوسط با تعیین t مقایسه نمی‌شود، بلکه از یک روش مرکزی استفاده می‌شود، به عنوان مثال. میانگین دو میانگین متحرک متوالی را محاسبه کنید.

3) ساخت یک تابع تحلیلی که وابستگی سطح سری به زمان را مشخص می کند. از توابع زیر برای ساخت ترند استفاده می شود:

پارامترهای روند با استفاده از حداقل مربعات تعیین می شوند. انتخاب بهترین تابع بر اساس ضریب R 2 است.

ما با استفاده از یک مثال یک مدل افزودنی خواهیم ساخت.

مثال 7:

داده های فصلی در مورد حجم مصرف برق در یک منطقه خاص به مدت 4 سال وجود دارد. داده ها به میلیون کیلووات در جدول 1.

میز 1

ساخت مدل سری زمانی

در این مثال، عدد سه ماهه را به عنوان متغیر مستقل، و مصرف برق برای سه ماهه را به عنوان متغیر وابسته y(t) در نظر می گیریم.

از نمودار پراکندگی می توانید ببینید که روند خطی است. همچنین می‌توانیم شاهد وجود نوسانات فصلی (دوره = 4) با همان دامنه باشیم، بنابراین یک مدل افزایشی خواهیم ساخت.

ساخت مدل شامل مراحل بعدی:

1. بیایید سری اصلی را با استفاده از روش میانگین متحرک به مدت 4 چهارم تراز کنیم و مرکز را انجام دهیم:

1.1. اجازه دهید سطوح سری را به صورت متوالی برای هر 4 چهارم با یک جابجایی 1 نقطه ای در زمان جمع کنیم.

1.2. با تقسیم مقادیر به دست آمده بر 4، میانگین متحرک را پیدا می کنیم.

1.3. ما این مقادیر را با نقاط واقعی در زمان مطابقت می دهیم، که برای آنها مقدار میانگین دو میانگین متحرک متوالی - میانگین متحرک متمرکز را پیدا می کنیم.

2. بیایید تغییرات فصلی را محاسبه کنیم. تغییرات فصلی (t) = y (t) - میانگین متحرک مرکزی. بیایید جدول 2 را بسازیم.

جدول 2

شماره بلوک انتها به انتها t	مصرف برق Y(t)	میانگین متحرک 4 چهارم	میانگین متحرک متمرکز	تخمین تغییرات فصلی
	6,0	-	-	-
	4,4	6,1	-	-
	5,0	6,4	6,25	-1,25
	9,0	6,5	6,45	2,55
	7,2	6,75	6,625	0,575
:	:	:	:	:
	6,6	8,35	8,375	-1,775
	7,0	-	-	-
	10,8	-	-	-

3. بر اساس تغییرات فصلی در جدول 3، مولفه فصلی محاسبه می شود.

شاخص ها	سال	تعداد ربع در سال I II III IV
		-	-	-1,250	2,550
	0,575	-2,075	-1,100	2,700
	0,550	-2,025	-1,475	2,875
	0,675	-1,775	-	-
جمع		1,8	-5,875	-3,825	8,125	مجموع
میانگین		0,6	-1,958	-1,275	2,708	0,075
جزء فصلی		0,581	-1,977	-1,294	2,690