صفحه اصلی حفره دهان ضرایب همبستگی ضریب همبستگی چندگانه و ضریب تعیین

ضرایب همبستگی ضریب همبستگی چندگانه و ضریب تعیین


  1. کیفیت مدل ساخته شده را ارزیابی کنید. آیا کیفیت مدل نسبت به مدل تک عاملی بهبود یافته است؟ ارزیابی تأثیر را ارائه دهید عوامل مهمدر نتیجه با استفاده از ضرایب کشش، - و -ضرایب.
برای ارزیابی کیفیت مدل چندگانه انتخابی (6)، مشابه بند 1.4 این مسئله، از ضریب تعیین استفاده می کنیم. آر- مربع، متوسط خطای مربوطهتقریب و اف-معیار فیشر

ضریب تعیین آرمربع از نتایج "رگرسیون" (جدول "آمار رگرسیون" برای مدل (6)) گرفته می شود.

در نتیجه، تغییر (تغییر) در قیمت یک آپارتمان Yبر اساس این معادله 77/76 درصد با تغییر شهر منطقه توضیح داده می شود ایکس 1 ، تعداد اتاق در آپارتمان ایکس 2 و فضای زندگی ایکس 4 .

ما از داده های اصلی استفاده می کنیم Y منو باقیمانده های یافت شده توسط ابزار رگرسیون (جدول "خروجی باقیمانده" برای مدل (6)). بیایید خطاهای نسبی را محاسبه کنیم و مقدار متوسط ​​را پیدا کنیم
.

انصراف بقیه


مشاهده

Y را پیش بینی کرد

باقی مانده

رابطه خطا

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

میانگین

101,2375

22,51770962

با استفاده از ستون خطاهای نسبی، مقدار متوسط ​​را پیدا می کنیم =22.51% (با استفاده از تابع AVERAGE).

مقایسه نشان می دهد که 22.51٪> 7٪. در نتیجه، دقت مدل رضایت بخش نیست.

با استفاده از اف - معیار فیشر بیایید اهمیت مدل را به طور کلی بررسی کنیم. برای این کار از نتایج استفاده از ابزار رگرسیون یادداشت می کنیم (جدول تحلیل واریانس مدل (6)) اف= 39,6702.

با استفاده از تابع FRIST مقدار را پیدا می کنیم اف cr =3.252 برای سطح اهمیت α = 5%و تعداد درجات آزادی ک 1 = 2 , ک 2 = 37 .

اف> اف crبنابراین، معادله مدل (6) معنی دار است، استفاده از آن توصیه می شود، متغیر وابسته Yبه خوبی با متغیرهای عامل موجود در مدل (6) توصیف می شود. ایکس 1 , ایکس 2. و ایکس 4 .

علاوه بر این با استفاده از تی – آزمون تی دانشجویی بیایید اهمیت ضرایب فردی مدل را بررسی کنیم.

تی-آمار ضرایب معادله رگرسیون در نتایج ابزار "رگرسیون" آورده شده است. مقادیر زیر برای مدل انتخابی (6) به دست آمد:


شانس

خطای استاندارد

آمار t

P-Value

95% پایین

95% برتر

95.0% پایین

95.0% برتر

تقاطع Y

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

ارزش بحرانی تی crبرای سطح معنی داری یافت شد α=5%و تعداد درجات آزادی ک=40–2–1=37 . تی cr =2.026 (تابع STUDAR).

برای شانس رایگان α =–5.643 آمار تعریف شده است
, تی crبنابراین ضریب آزاد معنی دار نبوده و می توان آن را از مدل حذف کرد.

برای ضریب رگرسیون β 1 =6.859 آمار تعریف شده است
, β 1 قابل توجه نیست، می توان آن را و عامل شهر منطقه ای را از مدل حذف کرد.

برای ضریب رگرسیون β 2 =-1,985 آمار تعریف شده است
, تی crبنابراین، ضریب رگرسیون β 2 قابل توجه نیست و فاکتور تعداد اتاق های آپارتمان را می توان از مدل حذف کرد.

برای ضریب رگرسیون β 4 =2.591 آمار تعریف شده است
, > t cr، بنابراین، ضریب رگرسیون β 4 قابل توجه است، آن و فاکتور منطقه نشیمن آپارتمان را می توان در مدل حفظ کرد.

نتیجه گیری در مورد معناداری ضرایب مدل در سطح معنی داری انجام می شود α=5%. با نگاهی به ستون P-value، توجه می کنیم که ضریب آزاد است α را می توان در سطح 0.64 = 64٪ در نظر گرفت. ضریب رگرسیون β 1 - در سطح 0.46 = 46٪؛ ضریب رگرسیون β 2 - در سطح 0.8 = 80٪؛ و ضریب رگرسیون β 4 – در سطح 2.27E-06= 2.26691790951854E-06 = 0.0000002%.

هنگامی که متغیرهای عامل جدیدی به معادله اضافه می شوند، ضریب تعیین به طور خودکار افزایش می یابد آر 2 و کاهش می یابد خطای متوسطتقریب، اگرچه این همیشه کیفیت مدل را بهبود نمی بخشد. بنابراین برای مقایسه کیفیت مدل (3) و مدل چندگانه انتخابی (6) از ضرایب تعیین نرمال شده استفاده می کنیم.

بنابراین، هنگام اضافه کردن عامل "شهر منطقه" به معادله رگرسیون ایکس 1 و فاکتور "تعداد اتاق در آپارتمان" ایکس 2 کیفیت مدل بدتر شده است که به نفع حذف عوامل است ایکس 1 و ایکس 2 از مدل.

بیایید محاسبات بیشتری را انجام دهیم.

ضرایب کشش متوسط در مورد یک مدل خطی با فرمول تعیین می شود
.

با استفاده از تابع AVERAGE پیدا می کنیم: S Y، تنها با افزایش عامل ایکس 4 برای یکی از او انحراف معیار- 0.914 افزایش می یابد اس Y

ضرایب دلتا توسط فرمول ها تعیین می شوند
.

بیایید ضرایب همبستگی جفت را با استفاده از ابزار "Correlation" بسته "تحلیل داده ها" در اکسل پیدا کنیم.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

ضریب تعیین زودتر تعیین شده و برابر با 0.7677 است.

بیایید ضرایب دلتا را محاسبه کنیم:

;

از آنجایی که Δ 1 1 و ایکس 2 بد انتخاب شده و باید از مدل حذف شوند. این بدان معناست که با توجه به معادله مدل سه عاملی خطی حاصل، تغییر ضریب حاصله Y(قیمت آپارتمان) 104٪ با تأثیر عامل توضیح داده شده است ایکس 4 (مساحت آپارتمان)، 4 درصد تحت تأثیر عامل ایکس 2 (تعداد اتاق)، 0.0859٪ تحت تاثیر عامل ایکس 1 (شهر منطقه).

تحلیل رگرسیون یک روش تحقیق آماری است که به شما امکان می دهد وابستگی یک پارامتر خاص را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که صحبت از حجم زیادی از داده ها بود. امروزه، با آموختن نحوه ایجاد رگرسیون در اکسل، می توانید مسائل پیچیده آماری را تنها در چند دقیقه حل کنید. در زیر نمونه های مشخصی از حوزه اقتصاد آورده شده است.

انواع رگرسیون

این مفهوم خود در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

  • خطی؛
  • سهموی
  • آرام بخش
  • نمایی;
  • هذلولی
  • نمایشی؛
  • لگاریتمی

مثال 1

بیایید مشکل تعیین وابستگی تعداد اعضای تیمی که از کار کناره گیری می کنند به میانگین حقوق در 6 شرکت صنعتی در نظر بگیریم.

وظیفه. در شش شرکت ما میانگین ماهانه را تجزیه و تحلیل کردیم دستمزدو تعداد کارمندانی که به دلیل ترک به میل خود. به شکل جدول داریم:

تعداد افرادی که ترک کردند

حقوق

30000 روبل

35000 روبل

40000 روبل

45000 روبل

50000 روبل

55000 روبل

60000 روبل

برای تعیین وابستگی تعداد کارگران انصرافی به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +...+a k x k است که x i معادل است. متغیرهای تأثیرگذار، a i ضرایب رگرسیون و k تعداد عوامل است.

برای این مشکل، Y شاخص ترک کار کارکنان است و عامل تأثیرگذار، حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های پردازشگر صفحه گسترده اکسل

تجزیه و تحلیل رگرسیون در اکسل باید با اعمال توابع داخلی به داده های جدولی موجود انجام شود. با این حال، برای این اهداف بهتر است از افزونه بسیار مفید "Analysis Pack" استفاده کنید. برای فعال کردن آن نیاز دارید:

  • از برگه "فایل" به بخش "گزینه ها" بروید.
  • در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
  • روی دکمه "Go" واقع در زیر، سمت راست خط "Management" کلیک کنید.
  • کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک روی «تأیید» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نیاز در سمت راست برگه "داده ها" که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که همه ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می‌توانیم شروع به حل مشکل خود کنیم. برای این:

  • بر روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
  • در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
  • در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندان ترک) و X (حقوق آنها) را وارد کنید.
  • ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه گسترده جدید را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل به شما امکان می دهد مکان مورد نظر خود را برای این منظور به صورت دستی تنظیم کنید. به عنوان مثال، این می تواند همان برگه ای باشد که مقادیر Y و X در آن قرار دارند یا حتی یک کتاب کار جدید که به طور خاص برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-squared

در اکسل، داده های به دست آمده در هنگام پردازش داده ها در مثال مورد بررسی به شکل زیر است:

اول از همه، باید به مقدار R-squared توجه کنید. نشان دهنده ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را تا 75.5% توضیح می دهد. هر چه مقدار ضریب تعیین بیشتر باشد، مدل انتخاب شده برای یک کار خاص مناسب تر است. در نظر گرفته می شود که به درستی وضعیت واقعی را هنگامی که مقدار R-square بالاتر از 0.8 باشد، توصیف می کند. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تحلیل شانس

عدد 64.1428 نشان می دهد که اگر تمام متغیرهای xi در مدلی که در نظر داریم به صفر برسند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان استدلال کرد که مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن کاملاً کم است. علامت "-" نشان دهنده منفی بودن ضریب است. این بدیهی است ، زیرا همه می دانند که هرچه حقوق در شرکت بالاتر باشد ، افراد کمتری تمایل به فسخ قرارداد کار یا ترک کار را دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله رابطه با چندین متغیر مستقل از شکل اشاره دارد:

y=f(x 1 +x 2 +…x m) + ε، که در آن y مشخصه حاصل (متغیر وابسته) است، و x 1، x 2،…x m ویژگی های عاملی (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه (MR)، با استفاده از روش انجام می شود کمترین مربعات(MNC). برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε ما سیستمی از معادلات عادی می سازیم (به زیر مراجعه کنید)

برای درک اصل روش، یک مورد دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

OLS برای معادله MR در مقیاس استاندارد قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استانداردی هستند که مقادیر میانگین آنها برابر با 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفا توجه داشته باشید که تمام β i در در این مورداستاندارد و متمرکز مشخص می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول تلقی می شود. علاوه بر این، مرسوم است که عوامل را با کنار گذاشتن آنهایی که کمترین مقدار βi را دارند، غربال کنند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت برای یک محصول خاص N در 8 ماه گذشته داریم. لازم است در مورد توصیه خرید دسته ای از آن با قیمت 1850 روبل در تن تصمیم گیری شود.

شماره ماه

نام ماه

قیمت محصول N

1750 روبل در هر تن

1755 روبل در هر تن

1767 روبل در هر تن

1760 روبل در هر تن

1770 روبل در هر تن

1790 روبل در هر تن

1810 روبل در هر تن

1840 روبل در هر تن

برای حل این مشکل در پردازشگر صفحه گسترده اکسل، باید از ابزار "تحلیل داده ها" استفاده کنید، که قبلاً از مثال ارائه شده در بالا شناخته شده است. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر را برای متغیر وابسته (در این مورد قیمت کالاها در ماه های خاص سال) و در "فاصله ورودی X" وارد کنید. - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک صفحه جدید (اگر چنین باشد) داده هایی را برای رگرسیون به دست می آوریم.

با استفاده از آنها، یک معادله خطی به شکل y=ax+b می سازیم، که در آن پارامترهای a و b ضرایب خط با نام شماره ماه و ضرایب و خطوط "تقاطع Y" از صفحه با نتایج تجزیه و تحلیل رگرسیون. بنابراین، معادله رگرسیون خطی (LR) برای کار 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و تعیین و همچنین آزمون فیشر و آزمون تی دانشجویی استفاده می شود. در صفحه‌گسترده اکسل با نتایج رگرسیون، به ترتیب R، R-squared، F-statistic و t-statistic نامیده می‌شوند.

KMC R امکان ارزیابی نزدیکی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده ارتباط نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت محصول N به روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R2 (RI) یک مشخصه عددی نسبت پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر با 84.8 درصد است، یعنی داده های آماری با درجه دقت بالایی توسط SD حاصل توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(آزمون دانشجویی) به ارزیابی معنی داری ضریب با یک جمله مجهول یا آزاد رابطه خطی کمک می کند. اگر مقدار آزمون t > t cr باشد، فرضیه در مورد بی اهمیت بودن عبارت آزاد معادله خطیرد شد.

در مسئله مورد بررسی برای عبارت آزاد، با استفاده از ابزار اکسل، به دست آمد که t = 169.20903، و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عبارت آزاد رد شود. . برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل امکان سنجی خرید بلوکی از سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. بیایید یک مشکل کاربردی خاص را در نظر بگیریم.

مدیریت شرکت NNN باید در مورد امکان خرید 20 درصد سهام در MMM JSC تصمیم بگیرد. هزینه بسته (SP) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده هایی را در مورد تراکنش های مشابه جمع آوری کرده اند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

  • حساب های پرداختنی (VK)؛
  • حجم گردش مالی سالانه (VO)؛
  • حساب های دریافتنی (VD)؛
  • هزینه دارایی های ثابت (COF).

علاوه بر این، پارامتر معوقه دستمزد شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از پردازشگر صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های منبع ایجاد کنید. به نظر می رسد این است:

  • با پنجره "تحلیل داده ها" تماس بگیرید.
  • بخش "Regression" را انتخاب کنید؛
  • در کادر "فاصله ورودی Y"، محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
  • روی نماد با یک فلش قرمز در سمت راست پنجره "Input interval X" کلیک کنید و دامنه همه مقادیر از ستون های B، C، D، F را در برگه برجسته کنید.

مورد «کاربرگ جدید» را علامت بزنید و روی «تأیید» کلیک کنید.

یک تحلیل رگرسیون برای یک مسئله معین بدست آورید.

مطالعه نتایج و نتیجه گیری

ما معادله رگرسیون را از داده های گرد ارائه شده در بالا در صفحه گسترده اکسل "جمع آوری" می کنیم:

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های MMM JSC در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی برابر با 64.72 میلیون دلار آمریکا بدست می آوریم. این بدان معناست که سهام MMM JSC ارزش خرید ندارد زیرا ارزش 70 میلیون دلاری آنها کاملاً متورم است.

همانطور که می بینید، استفاده از پردازشگر صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال های اکسل که در بالا مورد بحث قرار گرفت به شما در حل مسائل عملی در زمینه اقتصاد سنجی کمک می کند.

هنگام مطالعه پدیده های پیچیده، باید بیش از دو عامل تصادفی را در نظر گرفت. درک درستی از ماهیت رابطه بین این عوامل تنها در صورتی به دست می آید که همه عوامل تصادفی مورد بررسی به طور همزمان بررسی شوند. مطالعه مشترک سه یا چند عامل تصادفی به محقق این امکان را می دهد که فرضیات کم و بیش معقولی در مورد وابستگی های علی بین پدیده های مورد مطالعه ایجاد کند. یک شکل ساده از رابطه چندگانه یک رابطه خطی بین سه ویژگی است. عوامل تصادفی به عنوان نشان داده می شوند ایکس 1 , ایکس 2 و ایکس 3. ضرایب همبستگی زوجی بین ایکس 1 و ایکس 2 به عنوان نشان داده شده است r 12، به ترتیب بین ایکس 1 و ایکس 3 - r 12، بین ایکس 2 و ایکس 3 - r 23. به عنوان اندازه گیری نزدیکی رابطه خطی بین سه ویژگی، از ضرایب همبستگی چندگانه استفاده می شود. آر 1 ּ 23, آر 2 ּ 13, آر 3 ּ 12 و ضرایب همبستگی جزئی، نشان داده شده است r 12.3 , r 13.2 , r 23.1 .

ضریب همبستگی چندگانه R 1.23 سه عامل نشانگر نزدیکی رابطه خطی بین یکی از عوامل (شاخص قبل از نقطه) و ترکیب دو عامل دیگر (شاخص های بعد از نقطه) است.

مقادیر ضریب R همیشه در محدوده 0 تا 1 است. با نزدیک شدن R به یک، درجه رابطه خطی بین سه مشخصه افزایش می یابد.

بین ضریب همبستگی چندگانه، به عنوان مثال. آر 2 ּ 13 و ضریب همبستگی دو جفت r 12 و r 23 یک رابطه وجود دارد: هر یک از ضرایب جفت شده نمی تواند تجاوز کند قدر مطلق آر 2 ּ 13.

فرمول های محاسبه ضرایب همبستگی چندگانه وقتی ارزش های شناخته شدهضرایب همبستگی جفتی r 12، r 13 و r 23 به شکل زیر است:

ضریب همبستگی چندگانه مربعی آر 2 نامیده می شود ضریب تعیین چندگانهنسبت تغییرات متغیر وابسته را تحت تأثیر عوامل مورد مطالعه نشان می دهد.

اهمیت همبستگی چندگانه توسط ارزیابی می شود اف-معیار:

n -اندازهی نمونه؛ k –تعداد عوامل در مورد ما ک = 3.

فرضیه صفر در مورد برابری ضریب همبستگی چندگانه در جامعه به صفر ( ساعت:r= 0) پذیرفته می شود اگر f f<f t، و رد می شود اگر
f f ³ fتی.

ارزش نظری f-معیار تعیین شده است v 1 = ک- 1 و v 2 = n - کدرجات آزادی و سطح اهمیت پذیرفته شده a (پیوست 1).

مثالی از محاسبه ضریب همبستگی چندگانه. هنگام مطالعه رابطه بین عوامل، ضرایب همبستگی زوجی به دست آمد. n =15): r 12 ==0.6; g 13 = 0.3; r 23 = - 0,2.

لازم است وابستگی ویژگی را دریابید ایکس 2 از علامت ایکس 1 و ایکس 3، یعنی ضریب همبستگی چندگانه را محاسبه کنید:

مقدار جدول اف- معیارهایی با n 1 = 2 و n 2 = 15 – 3 = 12 درجه آزادی با a = 0.05 اف 0.05 = 3.89 و در a = 0.01 اف 0,01 = 6,93.

بنابراین، رابطه بین علائم آر 2.13 = 0.74 در معنی دار است
سطح معناداری 1 درصد اف f > اف 0,01 .

قضاوت با ضریب تعیین چندگانه آر 2 = (0.74) 2 = 0.55، تنوع صفت ایکس 2 55 درصد با تأثیر عوامل مورد مطالعه مرتبط است و 45 درصد از تغییرات (1-R 2) را نمی توان با تأثیر این متغیرها توضیح داد.

خصوصی همبستگی خطی

ضریب همبستگی جزئیشاخصی است که میزان همگرایی دو مشخصه را می سنجد.

آمار ریاضی به شما امکان می دهد بدون انجام آزمایش خاصی، اما با استفاده از ضرایب همبستگی زوج، بین دو مشخصه با مقدار ثابت سوم ارتباط برقرار کنید. r 12 , r 13 , r 23 .

ضرایب همبستگی جزئی با استفاده از فرمول های زیر محاسبه می شود:

اعداد قبل از نقطه نشان می دهد که کدام ویژگی رابطه در حال مطالعه است و اعداد بعد از نقطه نشان می دهد که تأثیر کدام ویژگی حذف شده است (حذف شده است). معیار خطا و اهمیت برای همبستگی جزئی با استفاده از فرمول های مشابه برای همبستگی جفت تعیین می شود:

.

ارزش نظری t-معیار تعیین شده است v = n– 2 درجه آزادی و سطح اهمیت پذیرفته شده a (پیوست 1).

فرضیه صفر که ضریب همبستگی جزئی در جامعه برابر با صفر است ( H o: r= 0) پذیرفته می شود اگر تی f< تی t، و رد می شود اگر
تی f ³ تیتی.

ضرایب جزئی می توانند مقادیری بین -1 و +1 داشته باشند. خصوصی ضرایب تعیینبا مجذور ضرایب همبستگی جزئی بدست می آید:

دی 12.3 = r 2 12ּ3 ;د 13.2 = r 2 13ּ2 ;د 23¼1 = r 2 23ּ1.

تعیین میزان تأثیر نسبی عوامل فردی بر یک صفت مؤثر در حالی که ارتباط آن با سایر صفات را که این همبستگی را مخدوش می کنند حذف (حذف) می کند، اغلب مورد توجه است. گاهی اوقات اتفاق می افتد که با مقدار ثابت مشخصه حذف شده، نمی توان تأثیر آماری آن را بر تغییرپذیری سایر ویژگی ها مشاهده کرد. برای درک تکنیک محاسبه ضریب همبستگی جزئی، یک مثال را در نظر بگیرید. سه گزینه وجود دارد ایکس, Yو ز. برای اندازه نمونه n= 180 ضرایب همبستگی زوجی تعیین می شود

r xy = 0,799; r xz = 0,57; r yz = 0,507.

اجازه دهید ضرایب همبستگی جزئی را تعیین کنیم:

ضریب همبستگی جزئی بین پارامتر ایکسو Y ز (r xy = 0.720) نشان می دهد که تنها بخش کوچکی از رابطه بین این ویژگی ها در همبستگی کلی ( r xy= 0.799) به دلیل تأثیر ویژگی سوم ( ز). یک نتیجه مشابه باید در مورد ضریب همبستگی جزئی بین پارامتر انجام شود ایکسو پارامتر زبا مقدار پارامتر ثابت Y (rایکس zּу = 0.318 و r xz= 0.57). در برابر، ضریب جزئیهمبستگی بین پارامترها Yو زبا مقدار پارامتر ثابت X r yz ּ ایکس 0.105 = به طور قابل توجهی متفاوت است ضریب عمومیهمبستگی r y z = 0.507. از اینجا مشخص است که اگر اشیایی را با مقدار پارامتر یکسان انتخاب کنید ایکس، سپس رابطه بین علائم Yو زآنها یک رابطه بسیار ضعیف خواهند داشت، زیرا بخش مهمی از این رابطه به دلیل تغییر در پارامتر است ایکس.

تحت برخی شرایط، ضریب همبستگی جزئی ممکن است با علامت زوجی مخالف باشد.

به عنوان مثال، هنگام مطالعه رابطه بین ویژگی ها X، Yو ز- ضرایب همبستگی زوجی به دست آمد (با n = 100): r xy = 0.6; rایکس z= 0,9;
r y z = 0,4.

ضرایب همبستگی جزئی به استثنای تأثیر ویژگی سوم:

از مثال مشخص است که مقادیر ضریب جفتو ضریب همبستگی جزئی در علامت متفاوت است.

روش همبستگی جزئی امکان محاسبه ضریب همبستگی جزئی مرتبه دوم را فراهم می کند. این ضریب ارتباط بین مشخصه اول و دوم را با مقدار ثابت سوم و چهارم نشان می دهد. تعیین ضریب جزئی مرتبه دوم بر اساس ضرایب جزئی مرتبه اول با استفاده از فرمول است:

جایی که r 12 . 4 , r 13 ¼4, r 23 ּ4 - ضرایب جزئی که مقدار آنها با فرمول ضریب جزئی با استفاده از ضرایب همبستگی زوجی تعیین می شود. r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

7.1. تحلیل رگرسیون خطیشامل برازش یک نمودار به مجموعه ای از مشاهدات با استفاده از روش حداقل مربعات است. تجزیه و تحلیل رگرسیون به ما اجازه می دهد تا یک رابطه کارکردی بین برخی ایجاد کنیم متغیر تصادفی Yو برخی تاثیرگذار Yارزش های ایکس. این وابستگی را معادله رگرسیون می نامند. ساده وجود دارد ( y=m*x+b) و جمع ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) رگرسیون از نوع خطی و غیر خطی.
برای ارزیابی میزان ارتباط بین کمیت ها از آن استفاده می شود ضریب همبستگی چندگانه پیرسون R(نسبت همبستگی)، که می تواند مقادیری از 0 تا 1 داشته باشد. آر=0 اگر بین کمیت ها رابطه ای وجود نداشته باشد، و آراگر یک ارتباط عملکردی بین کمیت ها وجود داشته باشد = 1. در بیشتر موارد، R مقادیر میانی را از 0 تا 1 می گیرد R 2تماس گرفت ضریب تعیین.
وظیفه ساخت وابستگی رگرسیونی، یافتن بردار ضرایب است ممدل رگرسیون خطی چندگانه، که در آن ضریب آرحداکثر مقدار را می گیرد.
برای ارزیابی اهمیت آراعمال میشود تست F فیشر، با فرمول محاسبه می شود:

جایی که n- تعداد آزمایشات؛ ک– تعداد ضرایب مدل اگر افاز برخی فراتر می رود ارزش بحرانیبرای داده ها nو کو پذیرفت احتمال اطمینان، سپس مقدار آرقابل توجه در نظر گرفته شده است.

7.2. ابزار پسرفتاز جانب بسته تحلیلیبه شما امکان می دهد داده های زیر را محاسبه کنید:

· شانس تابع خطیپسرفت- روش حداقل مربعات؛ نوع تابع رگرسیون توسط ساختار داده های منبع تعیین می شود.

· ضریب تعیین و کمیت های مرتبط(جدول آمار رگرسیون);

· جدول واریانس و آمار معیار برای آزمون اهمیت رگرسیون(جدول تحلیل واریانس );

· انحراف معیار و سایر مشخصات آماری آن برای هر ضریب رگرسیون، به شما امکان می دهد اهمیت این ضریب را بررسی کنید و برای آن بسازید. فاصله اطمینان;

· مقادیر تابع رگرسیون و باقیمانده ها- تفاوت بین مقادیر اولیه متغیر Yو مقادیر محاسبه شده تابع رگرسیون (جدول برداشت تعادل);

· احتمالات مربوط به مقادیر متغیر Y که به ترتیب صعودی مرتب شده اند(جدول خروجی احتمال).

7.3. با ابزار انتخاب تماس بگیرید داده > تجزیه و تحلیل داده > رگرسیون.

7.4. در زمینه فاصله ورودی Yآدرس محدوده حاوی مقادیر متغیر وابسته Y را وارد کنید. محدوده باید از یک ستون تشکیل شده باشد.
در زمینه فاصله ورودی Xآدرس یک محدوده حاوی مقادیر متغیر X را وارد کنید. محدوده باید از یک یا چند ستون تشکیل شده باشد، اما بیش از 16 ستون نباشد. اگر در فیلدها مشخص شده باشد فاصله ورودی Yو فاصله ورودی Xمحدوده ها شامل سرصفحه های ستون هستند، سپس باید کادر گزینه را علامت بزنید برچسب ها– این هدرها در جداول خروجی تولید شده توسط ابزار استفاده خواهند شد پسرفت.
چک باکس گزینه ثابت - صفراگر معادله رگرسیون یک ثابت داشته باشد باید برقرار شود باجباری برابر با صفر است.
گزینه سطح قابلیت اطمینانزمانی تنظیم می شود که لازم باشد برای ضرایب رگرسیون فاصله های اطمینان با سطح اطمینانی غیر از 0.95 ساخته شود که به طور پیش فرض استفاده می شود. پس از تیک زدن کادر گزینه سطح قابلیت اطمینانیک فیلد ورودی در دسترس می شود که در آن یک مقدار سطح اطمینان جدید وارد می شود.
در منطقه باقی ماندهچهار گزینه وجود دارد: باقی مانده, ترازهای استاندارد شده, نمودار تعادلو برنامه انتخاب. اگر حداقل یکی از آنها نصب شده باشد، جدول در نتایج خروجی ظاهر می شود برداشت تعادل، که در آن مقادیر تابع رگرسیون و باقیمانده ها نمایش داده می شود - تفاوت بین مقادیر اولیه متغیر Y و مقادیر محاسبه شده تابع رگرسیون. در منطقه احتمال عادییک گزینه وجود دارد - ; نصب آن یک جدول در نتایج خروجی ایجاد می کند خروجی احتمالو منجر به ساخت نمودار مربوطه می شود.


7.5. پارامترها را مطابق تصویر تنظیم کنید. مطمئن شوید که مقدار Y اولین متغیر است (شامل سلول با نام)، و مقدار X دو متغیر دیگر (شامل سلول های دارای نام) است. کلیک خوب.

7.6. در جدول آمار رگرسیونداده های زیر ارائه شده است.

جمع R– ریشه ضریب تعیین R 2 در سطر بعد آورده شده است. نام دیگر این شاخص، شاخص همبستگی یا ضریب همبستگی چندگانه است.

R-square– ضریب تعیین R 2 ; به عنوان یک نسبت محاسبه می شود مجموع رگرسیون مربع ها(سلول C12) به مجموع مجموع مربع ها(سلول C14).

R-squared نرمال شدهبا فرمول محاسبه می شود

که در آن n تعداد مقادیر متغیر Y است، k تعداد ستون های بازه ورودی متغیر X است.

خطای استاندارد– ریشه واریانس باقیمانده (سلول D13).

مشاهدات- تعداد مقادیر متغیر Y.

7.7. که در جدول پراکندگیدر ستون اس اسمجموع مربع ها در ستون آورده شده است df- تعداد درجات آزادی در ستون ام‌اس- پراکندگی در صف پسرفتدر ستون fارزش آمار معیار برای آزمون معنی داری رگرسیون محاسبه شد. این مقدار به عنوان نسبت واریانس رگرسیون به واریانس باقیمانده (سلول های D12 و D13) محاسبه می شود. در ستون اهمیت Fاحتمال مقدار به دست آمده از آمار معیار محاسبه می شود. اگر این احتمال کمتر از مثلاً 05/0 (سطح معنی‌داری معین) باشد، فرضیه بی‌اهمیت بودن رگرسیون (یعنی فرضیه صفر بودن همه ضرایب تابع رگرسیون) رد می‌شود و رگرسیون برابر است. قابل توجه تلقی می شود. در این مثال، رگرسیون معنی دار نیست.

7.8. در جدول زیر، در ستون شانس، مقادیر محاسبه شده ضرایب تابع رگرسیون نوشته می شود، در حالی که در خط تقاطع Yارزش اصطلاح آزاد نوشته شده است ب. در ستون خطای استانداردانحراف معیار ضرایب محاسبه شد.
در ستون آمار tنسبت مقادیر ضرایب به انحراف استاندارد آنها ثبت می شود. اینها مقادیر معیارهای آماری برای آزمون فرضیه های مربوط به معنی دار بودن ضرایب رگرسیون هستند.
در ستون P-Valueسطوح معنی داری مربوط به مقادیر آمار معیار محاسبه می شود. اگر سطح معنی داری محاسبه شده کمتر از سطح معنی داری مشخص شده باشد (مثلاً 05/0). سپس این فرضیه که ضریب به طور قابل توجهی با صفر تفاوت دارد پذیرفته می شود. در غیر این صورت فرضیه تفاوت ناچیز ضریب با صفر پذیرفته می شود. در این مثال فقط ضریب ببه طور قابل توجهی متفاوت از صفر، بقیه - ناچیز.
در ستون ها 95% پایینو 95% برترمرزهای فواصل اطمینان با سطح اطمینان 0.95 داده شده است. این مرزها با استفاده از فرمول ها محاسبه می شوند
95% کمتر = ضریب - خطای استاندارد * t α;
95% بالا = ضریب + خطای استاندارد * t α.
اینجا t α- مقدار سفارش α توزیع t دانش آموز با (n-k-1) درجه آزادی. در این مورد α = 0.95. مرزهای فواصل اطمینان در ستون ها نیز به همین ترتیب محاسبه می شود 90.0% پایینو 90.0% برتر.

7.9. جدول را در نظر بگیرید برداشت تعادلاز نتایج خروجی این جدول تنها زمانی در نتایج خروجی ظاهر می شود که حداقل یک گزینه در منطقه تنظیم شده باشد باقی ماندهکادر محاوره ای پسرفت.

در ستون مشاهدهشماره سریال مقادیر متغیر داده شده است Y.
در ستون Y را پیش بینی کردمقادیر تابع رگرسیون y i = f(x i) برای آن مقادیر متغیر محاسبه می شود. ایکس، که مطابقت دارد شماره سریال من در ستون مشاهده.
در ستون باقی ماندهشامل تفاوت ها (بقایای) ε i =Y-y i و ستون است ترازهای استاندارد- باقیمانده های نرمال شده، که به عنوان نسبت ε i / s ε محاسبه می شوند. که در آن s ε انحراف استاندارد باقیمانده ها است. مربع مقدار s ε با استفاده از فرمول محاسبه می شود

میانگین باقیمانده ها کجاست مقدار را می توان به عنوان نسبت دو مقدار از جدول پراکندگی محاسبه کرد: مجموع باقیمانده های مربع (سلول C13) و درجه آزادی از ردیف. جمع(سلول B14).

7.10. بر اساس مقادیر جدول برداشت تعادلدو نوع نمودار ساخته می شود: نمودارهای باقی ماندهو برنامه های انتخاب(اگر گزینه های مناسب در منطقه تنظیم شده باشد باقی ماندهکادر محاوره ای پسرفت). آنها برای هر جزء متغیر ساخته شده اند ایکسبصورت جداگانه.

بر نمودارهای تعادلموجودی نمایش داده می شود، یعنی تفاوت بین مقادیر اصلی Yو از تابع رگرسیون برای هر مقدار جزء متغیر محاسبه می شود ایکس.

بر برنامه های انتخابهم مقادیر Y اصلی و هم مقادیر تابع رگرسیون محاسبه شده را برای هر مقدار جزء متغیر نمایش می دهد ایکس.

7.11. آخرین جدول از نتایج خروجی جدول است خروجی احتمال. اگر در کادر محاوره ای ظاهر می شود پسرفتگزینه نصب شده نمودار احتمال عادی.
مقادیر ستون صدکبه شرح زیر محاسبه می شوند. مرحله محاسبه می شود h = (1/n)*100%، اولین مقدار است h/2، دومی برابر است 100-h/2. با شروع از مقدار دوم، هر مقدار بعدی برابر با مقدار قبلی است که یک مرحله به آن اضافه می شود ساعت.
در ستون Yمقادیر متغیر داده شده است Y، به ترتیب صعودی مرتب شده اند. بر اساس داده های این جدول، به اصطلاح برنامه توزیع نرمال . این به شما امکان می دهد به صورت بصری میزان خطی بودن رابطه بین متغیرها را ارزیابی کنید ایکسو Y.


8. دی تحلیل واریانس

8.1. بسته تحلیلیامکان سه نوع تحلیل واریانس را فراهم می کند. انتخاب یک ابزار خاص با تعداد عوامل و تعداد نمونه در مجموعه داده های مورد مطالعه تعیین می شود.
برای آزمون این فرضیه استفاده می شود که میانگین دو یا چند نمونه متعلق به یک نمونه مشابه هستند جمعیت.
ANOVA دو طرفه با تکرارگزینه پیچیده تری است تحلیل تک متغیره، شامل بیش از یک نمونه برای هر گروه از داده ها.
ANOVA دو طرفه بدون تکراریک تحلیل واریانس دو طرفه است که بیش از یک نمونه در هر گروه را شامل نمی شود. برای آزمون این فرضیه استفاده می شود که میانگین دو یا چند نمونه یکسان هستند (نمونه ها متعلق به یک جامعه هستند).

8.2. ANOVA یک طرفه

8.2.1. بیایید داده ها را برای تجزیه و تحلیل آماده کنیم. یک برگه جدید ایجاد کنید و ستون ها را در آن کپی کنید آ ب پ ت. دو خط اول را بردارید. داده های آماده شده را می توان برای انجام استفاده کرد تحلیل واریانس یک طرفه.

8.2.2. با ابزار انتخاب تماس بگیرید داده > تجزیه و تحلیل داده > ANOVA یک طرفه.مطابق تصویر پر کنید. کلیک خوب.

8.2.3. جدول را در نظر بگیرید نتایج: بررسی- تعداد تکرار مجموع- مجموع مقادیر شاخص بر اساس ردیف، پراکندگی- واریانس جزئی نشانگر

8.2.4. جدول تحلیل واریانس: ستون اول منبع تنوعحاوی نام پراکندگی ها، اس اس- مجموع انحرافات مجذور، df- میزان آزادی، ام‌اس- مربع متوسط، آزمون Fتوزیع F واقعی P-value- احتمال اینکه واریانس بازتولید شده توسط معادله برابر با واریانس باقیمانده ها باشد. این احتمال را ایجاد می کند که تعیین کمی به دست آمده از رابطه بین عوامل و نتیجه می تواند تصادفی در نظر گرفته شود. F- بحرانی- این مقدار F نظری است که متعاقباً با F واقعی مقایسه می شود.

8.2.5. فرضیه صفر برابری انتظارات ریاضیدر صورت عدم تساوی از تمام نمونه ها پذیرفته می شود آزمون F < F- بحرانی. این فرضیه را باید رد کرد. در این مورد، مقادیر متوسط ​​نمونه ها به طور قابل توجهی متفاوت است.

ساخت رگرسیون خطی، ارزیابی پارامترهای آن و اهمیت آنها در هنگام استفاده از پکیج بسیار سریعتر انجام می شود. تجزیه و تحلیل اکسل(پسرفت). اجازه دهید تفسیر نتایج به دست آمده را در نظر بگیریم مورد کلی (کمتغیرهای توضیحی) مطابق مثال 3.6.

در جدول آمار رگرسیون مقادیر زیر داده شده است:

چندگانه آر - ضریب همبستگی چندگانه

آر- مربع– ضریب تعیین آر 2 ;

عادی شده است آر - مربع- تنظیم شده آر 2 تنظیم شده برای تعداد درجات آزادی؛

خطای استاندارد- خطای استاندارد رگرسیون اس;

مشاهدات -تعداد مشاهدات n.

در جدول تحلیل واریانسداده می شود:

1. ستون df - تعداد درجات آزادی برابر است

برای رشته پسرفت df = ک;

برای رشته باقی ماندهdf = nک – 1;

برای رشته جمعdf = n– 1.

2. ستون اس اس -مجموع مجذور انحرافات برابر است

برای رشته پسرفت ;

برای رشته باقی مانده ;

برای رشته جمع .

3. ستون ام‌اسواریانس های تعیین شده توسط فرمول ام‌اس = اس اس/df:

برای رشته پسرفت- پراکندگی فاکتور؛

برای رشته باقی مانده- واریانس باقیمانده

4. ستون اف - ارزش محاسبه شده اف-معیار محاسبه شده با فرمول

اف = ام‌اس(پسرفت)/ ام‌اس(باقی مانده).

5. ستون اهمیت اف - مقدار سطح معنی داری مربوط به محاسبه شده است اف-آمار .

اهمیت اف= FDIST( F-آمار، df(پسرفت)، df(باقیمانده)).

اگر اهمیت دارد اف < стандартного уровня значимости, то آر 2 از نظر آماری معنی دار است.

شانس خطای استاندارد آمار t P-value 95% پایین 95% برتر
Y 65,92 11,74 5,61 0,00080 38,16 93,68
ایکس 0,107 0,014 7,32 0,00016 0,0728 0,142

این جدول نشان می دهد:

1. شانس- مقادیر ضرایب آ, ب.

2. خطای استاندارد- خطاهای استاندارد ضرایب رگرسیون S a, S ب.



3. t-آمار- مقادیر محاسبه شده تی - معیارهای محاسبه شده با فرمول:

t-statistic = ضرایب/خطای استاندارد.

4.آر-ارزش (اهمیت تی) مقدار سطح معناداری مربوط به محاسبه شده است t-آمار.

آر-ارزش = دانشجو(تی-آمار، df(باقیمانده)).

اگر آر-معنی< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95% پایین و 95% بالا- پایین تر و حدود بالافاصله اطمینان 95% برای ضرایب معادله رگرسیون خطی نظری.

انصراف بقیه
مشاهده y را پیش بینی کرد باقیمانده ها e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

در جدول انصراف بقیهنشان داد:

در ستون مشاهده- شماره مشاهده؛

در ستون پیشگویی شده است y - مقادیر محاسبه شده متغیر وابسته؛

در ستون باقی مانده ه - تفاوت بین مقادیر مشاهده شده و محاسبه شده متغیر وابسته.

مثال 3.6.داده ها (واحدهای متعارف) در مورد هزینه های غذا وجود دارد yو درآمد سرانه ایکسبرای نه گروه از خانواده ها:

ایکس
y

با استفاده از نتایج بسته تحلیل اکسل (رگرسیون) به تحلیل وابستگی هزینه های مواد غذایی به درآمد سرانه می پردازیم.

نتایج تحلیل رگرسیون معمولاً به شکل زیر نوشته می شود:

که در آن خطاهای استاندارد ضرایب رگرسیون در پرانتز نشان داده شده است.

ضرایب رگرسیون آ = 65,92 و ب= 0.107. جهت ارتباط بین yو ایکسعلامت ضریب رگرسیون را تعیین می کند ب= 0.107، یعنی ارتباط مستقیم و مثبت است. ضریب ب= 0.107 نشان می دهد که با افزایش درآمد سرانه 1 متعارف. واحدها هزینه های غذا 0.107 واحد معمولی افزایش می یابد. واحدها

اجازه دهید اهمیت ضرایب مدل حاصل را ارزیابی کنیم. اهمیت ضرایب ( الف، ب) توسط بررسی می شود تی-تست:

مقدار P ( آ) = 0,00080 < 0,01 < 0,05

مقدار P ( ب) = 0,00016 < 0,01 < 0,05,

بنابراین، ضرایب ( الف، ب) در سطح 1% و حتی بیشتر از آن در سطح معنی داری 5% معنی دار هستند. بنابراین، ضرایب رگرسیون معنی دار بوده و مدل برای داده های اصلی مناسب است.

نتایج برآورد رگرسیون نه تنها با مقادیر به دست آمده از ضرایب رگرسیون، بلکه با مجموعه خاصی از آنها (فاصله اطمینان) سازگار است. با احتمال 95%، فواصل اطمینان برای ضرایب (38.16 - 93.68) برای آو (0.0728 - 0.142) برای ب

کیفیت مدل با ضریب تعیین ارزیابی می شود آر 2 .

اندازه آر 2 = 0.884 به این معنی است که عامل درآمد سرانه می تواند 88.4 درصد از تغییرات (پراکندگی) در هزینه های غذا را توضیح دهد.

اهمیت آر 2 توسط بررسی می شود F-آزمون: اهمیت اف = 0,00016 < 0,01 < 0,05, следовательно, آر 2 در سطح 1% و حتی بیشتر از آن در سطح معنی داری 5% معنی دار است.

در مورد رگرسیون خطی زوجی، ضریب همبستگی را می توان به صورت تعریف کرد . مقدار به دست آمده از ضریب همبستگی نشان می دهد که رابطه بین هزینه های خوراک و درآمد سرانه بسیار نزدیک است.



جدید در سایت

>

محبوبترین