صفحه اصلی لثه الزامات یک مدل تحلیل رگرسیون چیست؟ روش های آمار ریاضی

لثه

الزامات یک مدل تحلیل رگرسیون چیست؟ روش های آمار ریاضی

نتیجه گیری از نتایج

جدول 8.3a. آمار رگرسیون

آمار رگرسیون
جمع R	0,998364
R-square	0,99673
R-squared نرمال شده	0,996321
خطای استاندارد	0,42405
مشاهدات	10

بیایید ابتدا در نظر بگیریم قسمت بالامحاسبات ارائه شده در جدول 8.3a - آمار رگرسیون.

مقدار R-squared که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های منبع و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در فاصله زمانی است.

در بیشتر موارد، مقدار R-squared بین این مقادیر قرار می‌گیرد که به آن مقادیر شدید می‌گویند. بین صفر و یک

اگر مقدار R-squared نزدیک به یک باشد، به این معنی است که مدل ساخته شده تقریباً تمام تغییرات متغیرهای مربوطه را توضیح می دهد. برعکس، یک مقدار R-squared نزدیک به صفر به این معنی است که کیفیت مدل ساخته شده ضعیف است.

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

جمع R- ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

R چندگانه برابر است با ریشه دوماز ضریب تعیین، این کمیت مقادیری در محدوده صفر تا یک می گیرد.

در تحلیل رگرسیون خطی ساده، R مضربی برابر با ضریب همبستگی پیرسون است. در واقع، R مضاعف در مورد ما برابر با ضریب همبستگی پیرسون از مثال قبلی (0.998364) است.

جدول 8.3b. ضرایب رگرسیون

	شانس	خطای استاندارد	آمار t
تقاطع Y	2,694545455	0,33176878	8,121757129
متغیر X 1	2,305454545	0,04668634	49,38177965
* یک نسخه کوتاه از محاسبات ارائه شده است

اکنون قسمت میانی محاسبات ارائه شده در جدول 8.3b را در نظر بگیرید. در اینجا ضریب رگرسیون b (2.305454545) و جابجایی در امتداد محور ارتین آورده شده است، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت ارتباط بین متغیرها بر اساس علائم (منفی یا مثبت) تعیین می شود. ضرایب رگرسیون(ضریب ب).

اگر علامت در ضریب رگرسیون- مثبت، رابطه بین متغیر وابسته و متغیر مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت در ضریب رگرسیون- منفی، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

در جدول 8.3c. نتایج حاصل از استخراج باقیمانده ارائه شده است. برای اینکه این نتایج در گزارش ظاهر شوند، هنگام اجرای ابزار Regression باید چک باکس "Residuals" را فعال کنید.

انصراف بقیه

جدول 8.3c. باقیمانده

مشاهده	Y را پیش بینی کرد	باقیمانده	ترازهای استاندارد
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین مقدار مطلق

هدف از تحلیل رگرسیون اندازه گیری رابطه بین یک متغیر وابسته و یک (تحلیل رگرسیون زوجی) یا چند (چند) متغیر مستقل است. متغیرهای مستقل را متغیرهای عامل، توضیحی، تعیین کننده، رگرسیون و پیش بینی نیز می نامند.

متغیر وابسته گاهی اوقات متغیر تعریف شده، توضیح داده شده یا "پاسخ" نامیده می شود. استفاده بسیار گسترده از تحلیل رگرسیون در تحقیقات تجربی تنها به این دلیل نیست که ابزار مناسبی برای آزمون فرضیه ها است. رگرسیون به ویژه رگرسیون چندگانه است روش موثرمدل سازی و پیش بینی

بیایید توضیح اصول کار با تحلیل رگرسیون را با یک روش ساده تر - روش جفتی - شروع کنیم.

تحلیل رگرسیون زوجی

اولین گام‌ها هنگام استفاده از تحلیل رگرسیون تقریباً مشابه اقداماتی است که در محاسبه ضریب همبستگی برداشتیم. سه شرط اصلی برای اثربخشی تجزیه و تحلیل همبستگیطبق روش پیرسون - توزیع نرمال متغیرها، اندازه‌گیری فاصله متغیرها، رابطه خطی بین متغیرها - برای رگرسیون چندگانه نیز مرتبط هستند. بر این اساس، در مرحله اول، نمودارهای پراکنده ساخته شده، تجزیه و تحلیل آماری و توصیفی متغیرها انجام شده و خط رگرسیون محاسبه می شود. همانطور که در چارچوب تحلیل همبستگی، خطوط رگرسیون با استفاده از روش ساخته می‌شوند کمترین مربعات.

برای توضیح واضح‌تر تفاوت‌های بین دو روش تجزیه و تحلیل داده‌ها، اجازه دهید به مثالی که قبلاً با متغیرهای «حمایت SPS» و «سهم جمعیت روستایی» مورد بحث قرار گرفت، برویم. داده های منبع یکسان است. تفاوت در نمودارهای پراکندگی این خواهد بود که در تحلیل رگرسیون، ترسیم متغیر وابسته - در مورد ما، "حمایت SPS" روی محور Y صحیح است، در حالی که در تحلیل همبستگی این مهم نیست. پس از تمیز کردن نقاط پرت، نمودار پراکندگی به صورت زیر است:

ایده اساسی تحلیل رگرسیون این است که داشتن روند کلیبرای متغیرها - در قالب یک خط رگرسیون - می توانید مقدار متغیر وابسته را با توجه به مقادیر متغیر مستقل پیش بینی کنید.

بیایید ریاضی معمول را تصور کنیم تابع خطی. هر خط مستقیم در فضای اقلیدسی را می توان با فرمول توصیف کرد:

که در آن a ثابتی است که جابجایی را در امتداد محور ارتین مشخص می کند. b ضریبی است که زاویه میل خط را تعیین می کند.

با دانستن شیب و ثابت، می توانید مقدار y را برای هر x محاسبه (پیش بینی) کنید.

این ساده ترین عملکردو مبنای یک مدل تحلیل رگرسیون را با این احتیاط تشکیل داد که ما مقدار y را دقیقاً پیش‌بینی نمی‌کنیم، اما در محدوده معینی فاصله اطمینان، یعنی تقریبا

ثابت نقطه تقاطع خط رگرسیون و محور y است (تقاطع F که معمولاً در بسته‌های آماری "رهگیر" نشان داده می‌شود). در مثال ما با رای دادن به اتحادیه نیروهای راست، مقدار گرد شده آن 10.55 خواهد بود. ضریب زاویه ای b تقریباً 0.1- خواهد بود (همانطور که در تحلیل همبستگی، علامت نوع اتصال را نشان می دهد - مستقیم یا معکوس). بنابراین، مدل حاصل به شکل SP C = -0.1 x Sel خواهد بود. ما + 10.55.

ATP = -0.10 x 47 + 10.55 = 5.63.

تفاوت بین مقادیر اصلی و پیش بینی شده باقیمانده نامیده می شود (ما قبلاً با این اصطلاح روبرو شده ایم که برای آمار در هنگام تجزیه و تحلیل جداول احتمالی ضروری است). بنابراین، برای مورد "جمهوری آدیگه" باقیمانده برابر با 3.92 - 5.63 = -1.71 خواهد بود. هر چه مقدار مدولار باقیمانده بزرگتر باشد، مقدار پیش بینی شده با موفقیت کمتر است.

ما مقادیر پیش‌بینی‌شده و باقیمانده‌ها را برای همه موارد محاسبه می‌کنیم:

اتفاق می افتد	نشست. ما	ممنون (اصل)	ممنون (پیش بینی شده)	باقیمانده
جمهوری آدیگه	47	3,92	5,63	-1,71 -
جمهوری آلتای	76	5,4	2,59	2,81
جمهوری باشقیرستان	36	6,04	6,78	-0,74
جمهوری بوریاتیا	41	8,36	6,25	2,11
جمهوری داغستان	59	1,22	4,37	-3,15
جمهوری اینگوشتیا	59	0,38	4,37	3,99
و غیره.

تجزیه و تحلیل نسبت مقادیر اولیه و پیش بینی شده برای ارزیابی کیفیت مدل حاصل و توانایی پیش بینی آن است. یکی از شاخص های اصلی آمار رگرسیون، ضریب همبستگی چندگانه R است - ضریب همبستگی بین مقادیر اصلی و پیش بینی شده متغیر وابسته. در تحلیل رگرسیون زوجی، برابر است با ضریب همبستگی معمول پیرسون بین متغیرهای وابسته و مستقل، در مورد ما - 0.63. برای تفسیر معنادار چندگانه R، باید آن را به ضریب تعیین تبدیل کرد. این کار به همان روشی که در تجزیه و تحلیل همبستگی انجام می شود - با مربع کردن انجام می شود. ضریب تعیین R-squared (R2) نسبت تغییرات در متغیر وابسته را نشان می دهد که توسط متغیر(های) مستقل توضیح داده می شود.

در مورد ما، R 2 = 0.39 (0.63 2)؛ این بدان معناست که متغیر «سهم جمعیت روستایی» تقریباً 40 درصد از تغییرات متغیر «حمایت SPS» را توضیح می‌دهد. هر چه ضریب تعیین بزرگتر باشد، کیفیت مدل بالاتر است.

یکی دیگر از شاخص های کیفیت مدل، خطای استاندارد برآورد است. این معیاری است که نشان می دهد چقدر نقاط در اطراف خط رگرسیون "پراکنده" هستند. اندازه گیری اسپرد برای متغیرهای بازه ای است انحراف معیار. بر این اساس، خطای استاندارد برآورد، انحراف معیار توزیع باقیمانده است. هر چه مقدار آن بیشتر باشد، پراکندگی بیشتر و مدل بدتر است. در مورد ما، خطای استاندارد 2.18 است. در این مقدار است که مدل ما هنگام پیش‌بینی مقدار متغیر «حمایت SPS» «به طور متوسط» اشتباه می‌کند.

آمار رگرسیون نیز شامل تحلیل واریانس می باشد. با کمک آن متوجه می شویم: 1) چه نسبتی از تغییرات (پراکندگی) متغیر وابسته توسط متغیر مستقل توضیح داده می شود. 2) چه نسبتی از واریانس متغیر وابسته توسط باقیمانده ها به حساب می آید (بخش غیرقابل توضیح). 3) نسبت این دو کمیت چقدر است (/"-ratio) آمار پراکندگی به ویژه برای مطالعات نمونه- نشان می دهد که چقدر احتمال وجود رابطه بین متغیرهای مستقل و وابسته وجود دارد جمعیت. با این حال، حتی برای تحقیقات مستمر (مانند مثال ما)، مطالعه نتایج تحلیل واریانسبی فایده. در این مورد، آنها بررسی می‌کنند که آیا الگوی آماری شناسایی‌شده ناشی از تصادفی شرایط تصادفی است یا خیر، برای مجموعه شرایطی که جامعه مورد مطالعه در آن قرار دارد، چقدر معمول است، یعنی. این حقیقت نتیجه به‌دست‌آمده برای برخی از جمعیت عمومی بزرگ‌تر نیست، بلکه میزان منظم بودن و آزادی آن از تأثیرات تصادفی است.

در مورد ما، آمار ANOVA به شرح زیر است:

	اس اس	df	ام‌اس	اف	معنی
پسرفت.	258,77	1,00	258,77	54,29	0.000000001
باقی مانده	395,59	83,00	L,11
جمع	654,36

نسبت F 54.29 در سطح 0.0000000001 قابل توجه است. بر این اساس، می‌توانیم با اطمینان فرضیه صفر را رد کنیم (اینکه رابطه‌ای که کشف کردیم ناشی از شانس است).

معیار t عملکرد مشابهی را انجام می دهد، اما در رابطه با ضرایب رگرسیون (زاویه ای و تقاطع F). با استفاده از معیار / این فرضیه را آزمایش می کنیم که در جامعه عمومی ضرایب رگرسیون برابر با صفر است. در مورد ما، دوباره می توانیم با اطمینان فرضیه صفر را رد کنیم.

تحلیل رگرسیون چندگانه

مدل رگرسیون چندگانهتقریباً مشابه مدل رگرسیون زوجی است. تنها تفاوت این است که چندین متغیر مستقل به صورت متوالی در تابع خطی گنجانده می شوند:

Y = b1X1 + b2X2 + …+ bpXp + a.

اگر بیش از دو متغیر مستقل وجود داشته باشد، نمی‌توانیم یک ایده بصری از رابطه آنها بدست آوریم، رگرسیون چندگانه کمتر از رگرسیون زوجی «بصری» است. هنگامی که دو متغیر مستقل دارید، نمایش داده ها در یک نمودار پراکندگی سه بعدی می تواند مفید باشد. در بسته های نرم افزاری آماری حرفه ای (مثلا Statistica) گزینه ای برای چرخاندن نمودار سه بعدی وجود دارد که به شما امکان می دهد ساختار داده ها را به صورت بصری نمایش دهید.

هنگام کار با رگرسیون چندگانه، بر خلاف رگرسیون زوجی، تعیین الگوریتم تجزیه و تحلیل ضروری است. الگوریتم استاندارد شامل تمامی پیش بینی کننده های موجود در مدل رگرسیون نهایی می باشد. الگوریتم گام به گامشامل گنجاندن متوالی (حذف) متغیرهای مستقل بر اساس "وزن" توضیحی آنها است. روش گام به گام زمانی خوب است که متغیرهای مستقل زیادی وجود داشته باشد. این مدل را از پیش‌بینی‌کننده‌های آشکار ضعیف «پاک می‌کند» و آن را فشرده‌تر و مختصرتر می‌کند.

یک شرط اضافی برای صحت رگرسیون چندگانه (همراه با فاصله، نرمال بودن و خطی بودن) عدم وجود چند خطی - وجود همبستگی قوی بین متغیرهای مستقل است.

تفسیر آمار رگرسیون چندگانه شامل تمام عناصری است که برای مورد رگرسیون زوجی در نظر گرفتیم. علاوه بر این، مؤلفه های مهم دیگری نیز در آمار تحلیل رگرسیون چندگانه وجود دارد.

ما کار را با رگرسیون چندگانه با استفاده از مثال آزمایش فرضیه هایی که تفاوت در سطح فعالیت های انتخاباتی در مناطق روسیه را توضیح می دهد، نشان خواهیم داد. مطالعات تجربی خاص نشان داده اند که میزان مشارکت رای دهندگان تحت تأثیر موارد زیر است:

عامل ملی (متغیر "جمعیت روسیه"؛ عملیاتی شده به عنوان سهم جمعیت روسیه در نهادهای تشکیل دهنده فدراسیون روسیه). فرض بر این است که افزایش در سهم جمعیت روسیه منجر به کاهش مشارکت رای دهندگان می شود.

عامل شهرنشینی (متغیر" جمعیت شهری"؛ به عنوان سهم جمعیت شهری در نهادهای تشکیل دهنده فدراسیون روسیه، ما قبلاً با این عامل در چارچوب تحلیل همبستگی کار کرده ایم. فرض بر این است که افزایش در سهم جمعیت شهری نیز منجر به کاهش مشارکت رای دهندگان می شود.

متغیر وابسته - "شدت فعالیت انتخاباتی" ("فعال") از طریق داده های میانگین مشارکت به تفکیک منطقه در انتخابات فدرال از سال 1995 تا 2003 عملیاتی می شود. جدول داده های اولیه برای دو متغیر مستقل و یک متغیر وابسته به شرح زیر خواهد بود:

اتفاق می افتد	متغیرها
اتفاق می افتد	دارایی های.	گور. ما	روس ما
جمهوری آدیگه	64,92	53	68
جمهوری آلتای	68,60	24	60
جمهوری بوریاتیا	60,75	59	70
جمهوری داغستان	79,92	41	9
جمهوری اینگوشتیا	75,05	41	23
جمهوری کالمیکیا	68,52	39	37
جمهوری کاراچایی-چرکس	66,68	44	42
جمهوری کارلیا	61,70	73	73
جمهوری کومی	59,60	74	57
ماری ال جمهوری	65,19	62	47

و غیره. (پس از پاکسازی آلاینده ها، 83 مورد از 88 مورد باقی می ماند)

آماری که کیفیت مدل را توصیف می کند:

1. چندگانه R = 0.62; L-square = 0.38. در نتیجه، عامل ملی و عامل شهرنشینی با هم حدود 38 درصد از تغییرات متغیر «فعالیت انتخاباتی» را توضیح می‌دهند.

2. خطای متوسط 3.38 است. این دقیقاً همان مقدار "به طور متوسط" اشتباه است که مدل ساخته شده هنگام پیش‌بینی میزان مشارکت در انتخابات انجام می‌شود.

3. نسبت /l تغییرات توضیح داده شده و غیرقابل توضیح 25.2 در سطح 0.000000003 است. فرضیه صفر در مورد تصادفی بودن روابط شناسایی شده رد می شود.

4. معیار / برای ضرایب ثابت و رگرسیون متغیرهای «جمعیت شهری» و «جمعیت روسیه» در سطح 0000001/0 معنادار است. 0.00005 و 0.007 به ترتیب. فرض صفر مبنی بر تصادفی بودن ضرایب رد می شود.

آمار مفید اضافی در تجزیه و تحلیل رابطه بین مقادیر اصلی و پیش بینی شده متغیر وابسته، فاصله ماهالانوبیس و فاصله کوک است. اولی معیاری برای منحصر به فرد بودن مورد است (نشان می دهد که ترکیب مقادیر همه متغیرهای مستقل چقدر است این مورداز میانگین برای همه متغیرهای مستقل به طور همزمان انحراف دارد). دومی معیاری برای سنجش تأثیر پرونده است. مشاهدات مختلف اثرات متفاوتی بر شیب خط رگرسیون دارند و می توان از فاصله کوک برای مقایسه آنها در این شاخص استفاده کرد. این می تواند هنگام تمیز کردن نقاط پرت مفید باشد (یک مورد پرت را می توان به عنوان یک مورد بسیار تأثیرگذار در نظر گرفت).

در مثال ما، موارد منحصر به فرد و تأثیرگذار شامل داغستان است.

اتفاق می افتد	اصل ارزش های	پردسکا ارزش های	باقیمانده	فاصله ماهالانوبیس	فاصله
آدیگه	64,92	66,33	-1,40	0,69	0,00
جمهوری آلتای	68,60	69.91	-1,31	6,80	0,01
جمهوری بوریاتیا	60,75	65,56	-4,81	0,23	0,01
جمهوری داغستان	79,92	71,01	8,91	10,57	0,44
جمهوری اینگوشتیا	75,05	70,21	4,84	6,73	0,08
جمهوری کالمیکیا	68,52	69,59	-1,07	4,20	0,00

خود مدل رگرسیون دارای پارامترهای زیر است: Y-تقاطع (ثابت) = 75.99; b (افقی) = -0.1; کومرسانت (ناس روسی) = -0.06. فرمول نهایی

ویژگی های وابستگی های علی

روابط علت و معلولی- این ارتباط بین پدیده ها و فرآیندها است، زمانی که تغییر در یکی از آنها - علت - منجر به تغییر در دیگری - معلول می شود.

نشانه ها با توجه به اهمیتشان برای مطالعه رابطه به دو دسته تقسیم می شوند.

علائمی که باعث تغییر در سایر ویژگی های مرتبط می شوند نامیده می شوند فاکتوریل (یا عوامل).

علائمی که تحت تأثیر علائم عاملی تغییر می کنند تاثير گذار.

اشکال زیر از ارتباطات متمایز می شوند: عملکردی و تصادفی. عملکردیرابطه ای است که در آن مقدار معینی از یک مشخصه عامل با یک و تنها یک مقدار مشخصه حاصل مطابقت دارد. ارتباط عملکردی در همه موارد مشاهده و برای هر واحد خاص از جمعیت مورد مطالعه آشکار می شود.

رابطه تابعی را می توان با معادله زیر نشان داد:
y i =f(x i)،کجا: y من - علامت حاصل؛ f(x i) - یک تابع شناخته شده از ارتباط بین ویژگی های حاصل و عامل. x i - علامت عامل
در طبیعت واقعی هیچ ارتباط عملکردی وجود ندارد. آنها فقط انتزاع هستند، در تجزیه و تحلیل پدیده ها مفید هستند، اما واقعیت را ساده می کنند.

تصادفی (آماری یا تصادفی)ارتباطنشان دهنده رابطه بین کمیت ها است که در آن یکی از آنها با تغییر قانون توزیع به تغییر کمیت دیگر یا کمیت های دیگر واکنش نشان می دهد. به عبارت دیگر با این ارتباط معانی مختلفیک متغیر با توزیع های مختلف متغیر دیگر مطابقت دارد. این امر به این دلیل است که متغیر وابسته علاوه بر متغیرهای مستقل مورد بررسی، تحت تأثیر تعدادی از عوامل تصادفی حساب نشده یا کنترل نشده و همچنین برخی خطاهای اجتناب ناپذیر در اندازه گیری متغیرها قرار می گیرد. با توجه به اینکه مقادیر متغیر وابسته در معرض پراکندگی تصادفی هستند، نمی توان آنها را با دقت کافی پیش بینی کرد، بلکه فقط با احتمال مشخصی می توان آنها را نشان داد.

با توجه به ابهام وابستگی تصادفی بین Y و X، به ویژه، طرح وابستگی به طور میانگین بر روی x مورد توجه است، یعنی. الگویی در تغییر در مقدار متوسط - انتظار ریاضی شرطی Mx(Y) (انتظار ریاضی یک متغیر تصادفی Y، یافت شده به شرطی که متغیر X مقدار x را دریافت کند) بسته به x.

یک مورد خاص از ارتباط تصادفی، ارتباط همبستگی است. همبستگی(از لات همبستگی- همبستگی، رابطه). تعریف مستقیم این اصطلاح همبستگی - تصادفی، احتمالی، ممکن ارتباط بین دو (جفت) یا چند (چند) متغیرهای تصادفی.

وابستگی همبستگی بین دو متغیر، رابطه آماری بین این متغیرها نیز نامیده می شود که در آن هر مقدار یک متغیر با مقدار متوسط معینی مطابقت دارد. انتظارات ریاضی مشروط متفاوت است. وابستگی همبستگی یک مورد خاص از وابستگی تصادفی است که در آن تغییر در مقادیر ویژگی های عامل (x 1 x 2 ...، x n) مستلزم تغییر در مقدار متوسط مشخصه حاصل می شود.

مرسوم است که انواع زیر را از همبستگی تشخیص دهیم:

1. همبستگی جفت - ارتباط بین دو ویژگی (نتیجه و عامل یا دو عامل).

2. همبستگی جزئی - وابستگی بین ویژگی های حاصل و یک عامل با مقدار ثابت سایر ویژگی های عامل موجود در مطالعه.

3. همبستگی چندگانه - وابستگی ویژگی های حاصل و دو یا چند عامل موجود در مطالعه.

هدف از تحلیل رگرسیون

شکل تحلیلی نمایش روابط علت و معلولی مدل های رگرسیونی است. اعتبار علمی و محبوبیت تحلیل رگرسیون آن را به یکی از ابزارهای ریاضی اصلی برای مدل‌سازی پدیده مورد مطالعه تبدیل می‌کند. این روش برای هموارسازی داده های تجربی و به دست آوردن تخمین های کمی تأثیر مقایسه ای استفاده می شود عوامل مختلفبه متغیر نتیجه

تجزیه و تحلیل رگرسیوناستدر تعیین بیان تحلیلی رابطه ای که در آن تغییر در یک مقدار (متغیر وابسته یا مشخصه حاصل) به دلیل تأثیر یک یا چند مورد است. مقادیر مستقل(عوامل یا پیش بینی کننده ها) و مجموعه همه عوامل دیگری که بر مقدار وابسته نیز تأثیر می گذارند به عنوان مقادیر ثابت و متوسط در نظر گرفته می شوند.

اهداف تحلیل رگرسیون:

ارزیابی وابستگی عملکردی مقدار میانگین شرطی مشخصه حاصل از y به عوامل عاملی (x 1, x 2, ..., x n);

پیش بینی مقدار یک متغیر وابسته با استفاده از متغیر(های) مستقل.

تعیین سهم متغیرهای مستقل منفرد در تغییر متغیر وابسته.

نمی توان از تحلیل رگرسیون برای تعیین اینکه آیا رابطه ای بین متغیرها وجود دارد استفاده کرد، زیرا وجود چنین رابطه ای شرط لازم برای اعمال تحلیل است.

در تجزیه و تحلیل رگرسیون، از قبل فرض می شود که روابط علت و معلولی بین ویژگی های حاصل (U) و عامل x 1، x 2 ...، x n وجود دارد.

تابع , opوابستگی تعیین کننده شاخص به پارامترها را معادله رگرسیون (تابع) می گویند. 1 . معادله رگرسیون مقدار مورد انتظار متغیر وابسته را با توجه به مقادیر مشخصی از متغیرهای مستقل نشان می دهد.
بسته به تعداد عوامل موجود در مدل ایکسمدل ها به تک عاملی (مدل رگرسیون زوجی) و چند عاملی (مدل رگرسیون چندگانه) تقسیم می شوند. بسته به نوع تابع، مدل ها به خطی و غیر خطی تقسیم می شوند.

مدل رگرسیون زوجی

به دلیل تأثیر عوامل و علل تصادفی نامشخص، مشاهدات فردی y به میزان کم یا زیاد از تابع رگرسیون f(x) منحرف می شود. در این مورد، معادله رابطه بین دو متغیر (مدل رگرسیون زوجی) را می توان به صورت زیر ارائه کرد:

Y=f(X) + ɛ،

که در آن ɛ یک متغیر تصادفی است که انحراف از تابع رگرسیون را مشخص می کند. این متغیر را اختلال یا اختلال (باقیمانده یا خطا) می نامند. بنابراین در مدل رگرسیون متغیر وابسته Yبرخی از عملکرد وجود دارد f (X)تا اختلال تصادفی ɛ.

بیایید مدل رگرسیون زوجی خطی کلاسیک (CLMPR) را در نظر بگیریم. اون شبیه

y i =β 0 +β 1 x i +ɛ i (i=1،2، …، n)،(1)

جایی که y من- توضیح داده شده (متغیر حاصل، وابسته، درون زا)؛ x i- متغیر توضیحی (پیش بینی کننده، عاملی، برونزا)؛ β 0، β 1- ضرایب عددی؛ ɛi- جزء یا خطای تصادفی (تصادفی).

شرایط اساسی (پیش نیازها، فرضیه ها) KLMPR:

1) x i- یک کمیت قطعی (غیر تصادفی) و فرض بر این است که در بین مقادیر x i - همه یکسان نیستند.

2) ارزش مورد انتظار(مقدار متوسط) اختلالات ɛiبرابر با صفر است:

М[ɛ i ]=0 (i=1،2، …، n).

3) پراکندگی اختلال برای هر مقدار i ثابت است (شرایط همسانی):

D[ɛ i ]=σ 2 (i=1،2، …، n).

4) اختلالات برای مشاهدات مختلف ارتباطی ندارند:

cov[ɛ i، ɛ j ]=M[ɛ i، ɛ j ]=0 برای i≠j،

جایی که cov[ɛ i، ɛj] ضریب کوواریانس (لحظه همبستگی) است.

5) اختلالات معمولاً متغیرهای تصادفی توزیع شده با میانگین صفر و واریانس σ 2 هستند:

ɛ i ≈ N(0، σ 2).

برای به دست آوردن یک معادله رگرسیون، چهار فرض اول کافی است. برای ارزیابی صحت معادله رگرسیون و پارامترهای آن، شرط تحقق پیش نیاز پنجم ضروری است.

اظهار نظر:تمرکز بر روابط خطی با تنوع محدود متغیرها و این واقعیت توضیح داده می شود که در اغلب موارد اشکال غیرخطی روابط (با لگاریتم یا جایگزینی متغیرها) به شکل خطی برای انجام محاسبات تبدیل می شوند.

روش سنتیحداقل مربعات (LS)

برآورد مدل از نمونه معادله است

ŷ i = a 0 + a 1 x i(i=1،2، …، n)، (2)

که در آن ŷ i - مقادیر نظری (تقریبی) متغیر وابسته به دست آمده از معادله رگرسیون. a 0, a 1 - ضرایب (پارامترهای) معادله رگرسیون (تخمین نمونه ضرایب β 0، β 1، به ترتیب).

با توجه به حداقل مربعات، پارامترهای مجهول a 0، a 1 طوری انتخاب می شوند که مجموع انحرافات مجذور مقادیر ŷ i از مقادیر تجربی y i (مجموع باقیمانده مربع ها) حداقل باشد:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

که در آن e i = y i - ŷ i - تخمین نمونه اختلال ɛ i، یا باقیمانده رگرسیون.

مشکل به یافتن چنین مقادیری از پارامترهای a 0 و a 1 می رسد که تابع Q e برای آنها می گیرد. کوچکترین ارزش. توجه داشته باشید که تابع Q e = Q e (a 0, a 1) تابعی از دو متغیر a 0 و a 1 است تا زمانی که مقادیر "بهترین" آنها (به معنای روش حداقل مربعات) a x i را پیدا کرده و سپس ثابت کنیم. ، y i اعداد ثابتی هستند که به صورت تجربی یافت می شوند.

شرایط لازمافراط (3) با معادل سازی مشتقات جزئی این تابع دو متغیر به صفر می رسد. در نتیجه، یک سیستم دو به دست می آوریم معادلات خطیکه به آن سیستم معادلات عادی می گویند:

(4)

ضریب a 1 یک ضریب رگرسیون نمونه از y روی x است که نشان می‌دهد وقتی متغیر x با یک واحد اندازه‌گیری تغییر می‌کند، متغیر y به طور میانگین چند واحد تغییر می‌کند، یعنی تغییر در y در هر واحد تغییر در x. امضا کردن یک 1جهت این تغییر را نشان می دهد. ضریب a 0 - جابجایی مطابق (2) برابر با ارزشŷ i برای x=0 و ممکن است تفسیر معناداری نداشته باشد. به همین دلیل، گاهی اوقات متغیر وابسته را پاسخ می نامند.

ویژگی های آماری برآورد ضریب رگرسیون:

ضریب تخمین می زند 0، a 1 بی طرفانه است.

واریانس تخمین ها 0، 1 کاهش می یابد (دقت تخمین ها افزایش می یابد) با افزایش حجم نمونه n.

واریانس برآورد شیب a 1 با افزایش کاهش می یابد و بنابراین توصیه می شود x i را انتخاب کنید تا گسترش آنها در اطراف مقدار متوسط زیاد باشد.

برای x¯ > 0 (که بیشترین علاقه را دارد)، یک رابطه آماری منفی بین 0 و 1 وجود دارد (افزایش 1 منجر به کاهش 0 می شود).

ویژگی اصلی تحلیل رگرسیون: با کمک آن می توان اطلاعات خاصی در مورد اینکه رابطه بین متغیرهای مورد مطالعه چه شکل و ماهیتی دارد به دست آورد.

توالی مراحل تحلیل رگرسیون

اجازه دهید به طور خلاصه مراحل تحلیل رگرسیون را در نظر بگیریم.

فرمول مسأله. در این مرحله فرضیه های اولیه در مورد وابستگی پدیده های مورد بررسی شکل می گیرد.

تعریف متغیرهای وابسته و مستقل (تبیینی).

جمع آوری داده های آماری. داده ها باید برای هر یک از متغیرهای موجود در مدل رگرسیون جمع آوری شود.

تدوین یک فرضیه در مورد شکل اتصال (ساده یا چندگانه، خطی یا غیرخطی).

تعریف توابع رگرسیون (شامل محاسبه مقادیر عددی پارامترهای معادله رگرسیون است)

ارزیابی دقت تحلیل رگرسیون.

تفسیر نتایج به دست آمده. نتایج حاصل از تحلیل رگرسیون با فرضیه های اولیه مقایسه می شود. صحت و اعتبار نتایج به دست آمده ارزیابی می شود.

پیش بینی مقادیر ناشناختهمتغیر وابسته

با استفاده از تحلیل رگرسیون می توان مشکل پیش بینی و طبقه بندی را حل کرد. مقادیر پیش بینی شده با جایگزینی مقادیر متغیرهای توضیحی در معادله رگرسیون محاسبه می شود. مشکل طبقه بندی به این صورت حل می شود: خط رگرسیون کل مجموعه اشیاء را به دو کلاس تقسیم می کند و آن قسمت از مجموعه که مقدار تابع بزرگتر از صفر است متعلق به یک کلاس است و بخشی که در آن کمتر از صفر است. متعلق به کلاس دیگری است

مشکلات تحلیل رگرسیون

بیایید وظایف اصلی تحلیل رگرسیون را در نظر بگیریم: ایجاد شکل وابستگی، تعیین توابع رگرسیون، تخمین مقادیر مجهول متغیر وابسته.

ایجاد شکل وابستگی.

ماهیت و شکل رابطه بین متغیرها می تواند انواع رگرسیون زیر را تشکیل دهد:

مثبت رگرسیون خطی(بیان شده در رشد یکنواخت تابع)؛

رگرسیون افزایش یکنواخت مثبت؛

رگرسیون خطی منفی (به صورت کاهش یکنواخت در تابع بیان می شود).

رگرسیون کاهشی یکنواخت تسریع شده منفی.

رگرسیون یکنواخت کاهشی منفی

با این حال، انواع توصیف شده معمولا در آنها یافت نمی شود شکل خالص، اما در ترکیب با یکدیگر. در این مورد، ما در مورد اشکال ترکیبی رگرسیون صحبت می کنیم.

تعریف تابع رگرسیون

وظیفه دوم به شناسایی تأثیر عوامل یا علل اصلی بر متغیر وابسته برمی‌گردد، در حالی که سایر موارد برابر هستند و مشروط به حذف تأثیر عناصر تصادفی بر متغیر وابسته است. تابع رگرسیوندر قالب یک معادله ریاضی از یک نوع یا دیگری تعریف می شود.

تخمین مقادیر مجهول متغیر وابسته.

راه حل این مشکل به حل یک مشکل از یکی از انواع زیر خلاصه می شود:

برآورد مقادیر متغیر وابسته در بازه در نظر گرفته شده از داده های اولیه، به عنوان مثال. ارزش از دست رفته؛ در این صورت مشکل درون یابی حل می شود.

برآورد مقادیر آتی متغیر وابسته، یعنی. یافتن مقادیر خارج از فاصله زمانی مشخص داده منبع؛ در این صورت مشکل برون یابی حل می شود.

هر دو مشکل با جایگزینی تخمین پارامترهای یافت شده برای مقادیر متغیرهای مستقل در معادله رگرسیون حل می شوند. نتیجه حل معادله تخمینی از مقدار متغیر هدف (وابسته) است.

بیایید به برخی از مفروضاتی که تحلیل رگرسیون بر آنها تکیه دارد نگاه کنیم.

فرض خطی بودن، یعنی. رابطه بین متغیرهای مورد بررسی خطی فرض می شود. بنابراین، در این مثال، ما یک نمودار پراکنده ترسیم کردیم و توانستیم یک رابطه خطی واضح را ببینیم. اگر در نمودار پراکندگی متغیرها، فقدان واضح یک رابطه خطی را مشاهده کنیم، یعنی. در صورت وجود رابطه غیرخطی باید از روش های تحلیل غیرخطی استفاده کرد.

فرض نرمال بودن باقی مانده. فرض می کند که توزیع تفاوت بین مقادیر پیش بینی شده و مشاهده شده نرمال است. برای تعیین بصری ماهیت توزیع، می توانید از هیستوگرام استفاده کنید باقی مانده.

هنگام استفاده از تحلیل رگرسیون، محدودیت اصلی آن باید در نظر گرفته شود. این شامل این واقعیت است که تجزیه و تحلیل رگرسیون به ما امکان می دهد فقط وابستگی ها را تشخیص دهیم و نه ارتباطات زیربنایی این وابستگی ها.

تجزیه و تحلیل رگرسیون به شما امکان می دهد تا با محاسبه مقدار تخمینی یک متغیر بر اساس چندین مقدار شناخته شده، قدرت رابطه بین متغیرها را تخمین بزنید.

معادله رگرسیون

معادله رگرسیون به این صورت است: Y=a+b*X

با استفاده از این معادله، متغیر Y بر حسب ثابت a و شیب خط (یا شیب) b ضرب در مقدار متغیر X بیان می‌شود. ضریب رگرسیون یا ضریب B.

در بیشتر موارد (اگر نه همیشه) پراکندگی خاصی از مشاهدات نسبت به خط رگرسیون وجود دارد.

باقی مانده انحراف یک نقطه (مشاهده) از خط رگرسیون (مقدار پیش بینی شده) است.

برای حل مشکل تحلیل رگرسیون در MS Excel از منو انتخاب کنید سرویس"بسته تحلیل"و ابزار تحلیل رگرسیون ما فواصل ورودی X و Y را تنظیم می کنیم. فاصله ورودی Y محدوده داده های تحلیل شده وابسته است، باید شامل یک ستون باشد. بازه ورودی X محدوده ای از داده های مستقل است که نیاز به تجزیه و تحلیل دارد. تعداد محدوده های ورودی نباید از 16 تجاوز کند.

در خروجی رویه در محدوده خروجی، گزارش ارائه شده در آن را به دست می آوریم جدول 8.3a-8.3 ولت.

نتیجه گیری از نتایج

جدول 8.3a. آمار رگرسیون
آمار رگرسیون
جمع R
R-square
R-squared نرمال شده
خطای استاندارد
مشاهدات

بیایید ابتدا به قسمت بالای محاسبات ارائه شده در آن نگاه کنیم جدول 8.3a، - آمار رگرسیون.

اندازه R-squareکه معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های منبع و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در فاصله زمانی است.

در بیشتر موارد ارزش R-squareبین این مقادیر است، به نام افراطی، یعنی. بین صفر و یک

اگر ارزش R-squareنزدیک به وحدت، این بدان معنی است که مدل ساخته شده تقریباً تمام تغییرات متغیرهای مربوطه را توضیح می دهد. برعکس، معنی R-squareنزدیک به صفر به معنای کیفیت پایین مدل ساخته شده است.

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

R جمع - ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

جمع Rاین مقدار برابر با جذر ضریب تعیین است.

در تحلیل رگرسیون خطی ساده R جمعبرابر با ضریب همبستگی پیرسون واقعا، R جمعدر مورد ما، برابر است با ضریب همبستگی پیرسون از مثال قبلی (0.998364).

جدول 8.3b. ضرایب رگرسیون
	شانس	خطای استاندارد	آمار t
تقاطع Y
متغیر X 1
* یک نسخه کوتاه از محاسبات ارائه شده است

اکنون قسمت میانی محاسبات ارائه شده در آن را در نظر بگیرید جدول 8.3b. در اینجا ضریب رگرسیون b (2.305454545) و جابجایی در امتداد محور ارتین آورده شده است، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت رابطه بین متغیرها بر اساس علائم (منفی یا مثبت) ضرایب رگرسیون (ضریب b) تعیین می شود.

اگر علامت ضریب رگرسیون مثبت باشد، رابطه بین متغیر وابسته و متغیر مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت ضریب رگرسیون منفی باشد، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

که در جدول 8.3c. نتایج خروجی ارائه شده است باقی مانده. برای اینکه این نتایج در گزارش ظاهر شوند، هنگام اجرای ابزار Regression باید چک باکس "Residuals" را فعال کنید.

انصراف بقیه

جدول 8.3c. باقیمانده
مشاهده	Y را پیش بینی کرد	باقیمانده	ترازهای استاندارد

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین مقدار مطلق باقی ماندهدر مورد ما - 0.778، کوچکترین - 0.043. برای تفسیر بهتر این داده ها، از نمودار داده های اصلی و خط رگرسیون ساخته شده ارائه شده در آن استفاده خواهیم کرد برنج. 8.3. همانطور که می بینید، خط رگرسیون کاملاً با مقادیر داده های اصلی "مناسب" است.

باید در نظر داشت که مثال مورد بررسی بسیار ساده است و همیشه نمی توان خط رگرسیون خطی را به صورت کیفی ساخت.

برنج. 8.3.داده های منبع و خط رگرسیون

مشکل تخمین مقادیر مجهول آینده متغیر وابسته بر اساس مقادیر شناخته شده متغیر مستقل مورد توجه قرار نگرفته است. مشکل پیش بینی

با داشتن یک معادله رگرسیون، مسئله پیش بینی به حل معادله Y= x*2.305454545+2.694545455 با مقادیر شناخته شده x کاهش می یابد. نتایج پیش‌بینی متغیر وابسته Y شش گام جلوتر ارائه شده است در جدول 8.4.

جدول 8.4. نتایج متغیر پیش‌بینی Y
	Y (پیش بینی شده)

بنابراین، در نتیجه استفاده از تحلیل رگرسیون در مایکروسافت اکسل، ما:

یک معادله رگرسیون ساخت.

شکل وابستگی و جهت ارتباط بین متغیرها را ایجاد کرد - رگرسیون خطی مثبت که در رشد یکنواخت تابع بیان می شود.

جهت رابطه بین متغیرها را تعیین کرد.

کیفیت خط رگرسیون حاصل را ارزیابی کرد.

قادر به مشاهده انحراف داده های محاسبه شده از داده های مجموعه اصلی بودند.

مقادیر آتی متغیر وابسته را پیش بینی کرد.

اگر تابع رگرسیونتعریف، تفسیر و توجیه می شود و ارزیابی دقت تحلیل رگرسیون الزامات را برآورده می کند، مدل ساخته شده و مقادیر پیش بینی شده را می توان دارای پایایی کافی در نظر گرفت.

مقادیر پیش‌بینی‌شده به‌دست‌آمده از این طریق، مقادیر متوسطی هستند که می‌توان انتظار داشت.

در این کار ویژگی های اصلی را بررسی کردیم آمار توصیفیو در میان آنها مفاهیمی مانند مقدار متوسط,میانه,بیشترین,کمترینو سایر ویژگی های تنوع داده ها.

این مفهوم نیز به طور خلاصه مورد بحث قرار گرفت انتشارات. ویژگی های در نظر گرفته شده مربوط به به اصطلاح تجزیه و تحلیل داده های اکتشافی است که نتایج آن ممکن است برای جمعیت عمومی اعمال نشود، بلکه فقط برای نمونه ای از داده ها کاربرد دارد. تجزیه و تحلیل داده های اکتشافی برای به دست آوردن نتایج اولیه و تشکیل فرضیه در مورد جمعیت استفاده می شود.

مبانی تحلیل همبستگی و رگرسیون، وظایف و امکانات آنها برای استفاده عملی نیز مورد بحث قرار گرفت.

روش تحلیل رگرسیون برای تعیین پارامترهای فنی و اقتصادی محصولات متعلق به یک سری پارامتری خاص به منظور ایجاد و تراز کردن روابط ارزش استفاده می شود. این روش برای تجزیه و تحلیل و توجیه نسبت سطح و قیمت محصولات که با وجود یک یا چند پارامتر فنی و اقتصادی مشخص می شود که ویژگی های اصلی مصرف کننده را منعکس می کند، استفاده می شود. تجزیه و تحلیل رگرسیون به ما امکان می دهد یک فرمول تجربی پیدا کنیم که وابستگی قیمت به پارامترهای فنی و اقتصادی محصولات را توصیف می کند:

P=f(X1X2،...،Xn)،

که در آن P مقدار قیمت واحد محصول است، مالش. (X1, X2, ... Xn) - پارامترهای فنی و اقتصادی محصولات.

روش تحلیل رگرسیون - پیشرفته ترین روش هنجاری-پارامتری مورد استفاده - هنگام انجام محاسبات مبتنی بر استفاده از روش های مدرن مؤثر است. فناوری اطلاعاتو سیستم ها کاربرد آن شامل مراحل اصلی زیر است:

تعیین گروه های پارامتریک طبقه بندی محصولات؛
انتخاب پارامترهایی که بیشترین تأثیر را بر قیمت محصول دارند.
انتخاب و توجیه شکل ارتباط بین تغییرات قیمت هنگام تغییر پارامترها.
ساخت سیستم معادلات نرمال و محاسبه ضرایب رگرسیون.

پایه ای گروه صلاحیتمحصولاتی که قیمت آنها مشروط به یکسان سازی است، یک سری پارامتری است که در آن می توان محصولات را بسته به کاربرد، شرایط عملیاتی و نیازمندی ها و غیره در طرح های مختلفی دسته بندی کرد. هنگام تشکیل سری های پارامتری، می توان از روش های طبقه بندی خودکار استفاده کرد که در آن دسته بندی می شود. این امکان را به محصولات می دهد تا گروه های همگن خود را شناسایی کنند. انتخاب پارامترهای فنی و اقتصادی بر اساس الزامات اساسی زیر انجام می شود:

پارامترهای انتخاب شده شامل پارامترهای ثبت شده در استانداردها و شرایط فنی; علاوه بر پارامترهای فنی (قدرت، ظرفیت بار، سرعت و غیره)، از شاخص های سریال سازی محصول، ضرایب پیچیدگی، یکسان سازی و غیره استفاده می شود.
مجموعه پارامترهای انتخاب شده باید به اندازه کافی ویژگی های طراحی، فن آوری و عملیاتی محصولات موجود در این سری را مشخص کند و ارتباط نسبتاً نزدیکی با قیمت داشته باشد.
پارامترها نباید به یکدیگر وابسته باشند.

برای انتخاب پارامترهای فنی و اقتصادی که به طور قابل توجهی بر قیمت تأثیر می گذارد، ماتریسی از ضرایب همبستگی جفت محاسبه می شود. بر اساس بزرگی ضرایب همبستگی بین پارامترها، می توان نزدیکی اتصال آنها را قضاوت کرد. در عین حال، همبستگی نزدیک به صفر تأثیر ناچیز پارامتر را بر قیمت نشان می دهد. انتخاب نهایی پارامترهای فنی و اقتصادی در فرآیند تحلیل رگرسیون گام به گام با استفاده از آن انجام می شود تجهیزات کامپیوترو برنامه های استاندارد مربوطه

در عمل قیمت گذاری، مجموعه ای از توابع زیر استفاده می شود:

خطی

P = ao + alXl + ... + antXn،

خطی-قدرت

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

لگاریتم معکوس

P = a0 + a1: در X1 + ... + an: در Xn،

قدرت

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

نشان دهنده

P = e^(a1+a1X1+...+anXn)

هذلولی

P = ao + a1:X1 + a2:X2 + ... + ap:Xn،

جایی که P برابری قیمت است. X1 X2،...، Xn - مقدار پارامترهای فنی و اقتصادی محصولات سری؛ a0, a1 ..., аn - ضرایب محاسبه شده معادله رگرسیون.

در کار عملی قیمت گذاری، بسته به شکل رابطه بین قیمت ها و پارامترهای فنی و اقتصادی، می توان از معادلات رگرسیونی دیگر استفاده کرد. نوع عملکرد ارتباط بین قیمت و مجموعه ای از پارامترهای فنی و اقتصادی را می توان به طور خودکار در طول پردازش کامپیوتری از پیش تنظیم یا انتخاب کرد. نزدیکی همبستگی بین قیمت و مجموعه ای از پارامترها توسط مقدار ارزیابی می شود ضریب چندگانههمبستگی ها نزدیکی آن به یکی نشان دهنده ارتباط نزدیک است. با استفاده از معادله رگرسیون، مقادیر قیمت یکسان شده (محاسبه شده) برای محصولات یک سری پارامتری معین به دست می آید. برای ارزیابی نتایج یکسان سازی، مقادیر نسبی انحراف مقادیر قیمت محاسبه شده از مقادیر واقعی محاسبه می شود:

Tsr = Rf - Rr: R x 100

جایی که Рф، Рр - قیمت های واقعی و محاسبه شده.

مقدار CR نباید از 8-10٪ تجاوز کند. در صورت انحراف قابل توجه مقادیر محاسبه شده از مقادیر واقعی، بررسی موارد زیر ضروری است:

صحت تشکیل یک سری پارامتریک، زیرا ممکن است حاوی محصولاتی باشد که در پارامترهای خود، به شدت با سایر محصولات این سری متفاوت است. آنها باید حذف شوند.
انتخاب صحیح پارامترهای فنی و اقتصادی مجموعه ای از پارامترها ممکن است که با قیمت همبستگی ضعیفی دارند. در این صورت باید به جستجو و انتخاب پارامترها ادامه داد.

روش و روش انجام تحلیل رگرسیون، یافتن پارامترهای مجهول معادله و ارزیابی اقتصادی نتایج به دست آمده مطابق با الزامات آمار ریاضی انجام می شود.