صفحه اصلی حفره دهان نحوه بررسی اهمیت ضرایب همبستگی آزمون: سنجش معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

نحوه بررسی اهمیت ضرایب همبستگی آزمون: سنجش معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

ورزش. برای سرزمین های منطقه، داده های 199X ارائه شده است.
شماره منطقه متوسط ​​دستمزد سرانه زندگی در روز یک فرد توانمند، روبل، ایکس متوسط ​​دستمزد روزانه، روبل، در
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
ضروری:
1. یک معادله خطی برای رگرسیون جفتی y از x بسازید.
2. محاسبه کنید ضریب خطیهمبستگی زوجی و میانگین خطای تقریب.
3. اهمیت آماری پارامترهای رگرسیون و همبستگی را ارزیابی کنید.
4. پیش بینی را اجرا کنید دستمزد y با مقدار پیش‌بینی میانگین سرانه سطح معیشتی x معادل 107 درصد از سطح متوسط.
5. صحت پیش بینی را با محاسبه خطای پیش بینی و فاصله اطمینان آن ارزیابی کنید.

راه حلبا استفاده از ماشین حساب پیدا کنید
استفاده روش گرافیکی .
این روش برای به تصویر کشیدن بصری شکل ارتباط بین مورد مطالعه استفاده می شود نشانگرهای اقتصادی. برای انجام این کار، نموداری در یک سیستم مختصات مستطیلی رسم می‌شود، مقادیر فردی مشخصه حاصل از Y در امتداد محور مختصات و مقادیر فردی مشخصه عامل X در امتداد محور آبسیسا رسم می‌شوند.
مجموعه نقاط مشخصه برآیند و عاملی نامیده می شود زمینه همبستگی.
بر اساس میدان همبستگی، می‌توانیم (برای جامعه) فرض کنیم که رابطه بین تمام مقادیر ممکن X و Y خطی است.
معادله رگرسیون خطی y = bx + a + ε است
در اینجا ε یک خطای تصادفی (انحراف، اختلال) است.
دلایل وجود خطای تصادفی:
1. عدم گنجاندن متغیرهای توضیحی معنادار در مدل رگرسیون.
2. تجمیع متغیرها. به عنوان مثال، تابع مصرف کل تلاشی برای بیان کلی تصمیمات مخارج فردی است. این فقط تقریبی از روابط فردی است که پارامترهای مختلفی دارند.
3. توصیف نادرست ساختار مدل.
4. مشخصات عملکردی نادرست.
5. خطاهای اندازه گیری.
از آنجایی که انحرافات ε i برای هر مشاهده خاص i تصادفی هستند و مقادیر آنها در نمونه ناشناخته است، پس:
1) از مشاهدات x i و y i فقط تخمین پارامترهای α و β را می توان به دست آورد
2) تخمین پارامترهای α و β مدل رگرسیون به ترتیب مقادیر a و b هستند که ماهیت تصادفی دارند، زیرا مطابق با یک نمونه تصادفی؛
سپس معادله رگرسیون تخمینی (ساخته شده از داده های نمونه) به شکل y = bx + a + ε خواهد بود که e i مقادیر مشاهده شده (تخمین) خطاهای εi است و a و b به ترتیب تخمین هایی از پارامترهای α و β مدل رگرسیون که باید پیدا شوند.
برای تخمین پارامترهای α و β - از روش حداقل مربعات (روش حداقل مربعات) استفاده می شود.
سیستم معادلات عادی
برای داده های ما، سیستم معادلات شکل دارد
از معادله اول a را بیان می کنیم و آن را جایگزین معادله دوم می کنیم
ما b = 0.92، a = 76.98 را دریافت می کنیم
معادله رگرسیون:
y = 0.92 x + 76.98

1. پارامترهای معادله رگرسیون.
معنی نمونه.



واریانس های نمونه:


انحراف معیار


ضریب همبستگی
ما نشانگر نزدیکی اتصال را محاسبه می کنیم. این شاخص نمونه ضریب همبستگی خطی است که با فرمول محاسبه می شود:

ضریب همبستگی خطی مقادیری از -1 تا +1 می گیرد.
ارتباط بین ویژگی ها می تواند ضعیف و قوی (نزدیک) باشد. معیارهای آنها بر اساس مقیاس چادوک ارزیابی می شود:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
در مثال ما، ارتباط بین متوسط ​​دستمزد روزانه و متوسط ​​دستمزد سرانه زندگی بالا و مستقیم است.
1.2. معادله رگرسیون(تخمین معادله رگرسیون).

معادله رگرسیون خطی y = 0.92 x + 76.98 است
ضرایب معادله رگرسیون خطیمی توان معنای اقتصادی داد.
ضریب b = 0.92 میانگین تغییر شاخص مؤثر (بر حسب واحد اندازه گیری y) را با افزایش یا کاهش مقدار عامل x در واحد اندازه گیری آن نشان می دهد. در این مثال، با افزایش 1 روبل. سطح معیشت سرانه در روز، متوسط ​​دستمزد روزانه به طور متوسط ​​0.92 افزایش می یابد.
ضریب a = 76.98 به طور رسمی سطح پیش بینی شده متوسط ​​دستمزد روزانه را نشان می دهد، اما تنها در صورتی که x=0 به مقادیر نمونه نزدیک باشد.
با جایگزین کردن مقادیر x مناسب در معادله رگرسیون، می‌توانیم مقادیر همتراز (پیش‌بینی‌شده) شاخص عملکرد y(x) را برای هر مشاهده تعیین کنیم.
رابطه بین میانگین دستمزد روزانه و میانگین سرانه حداقل معیشت در روز با علامت ضریب رگرسیون b (اگر > 0 - رابطه مستقیم، در غیر این صورت - معکوس) تعیین می شود. در مثال ما، اتصال مستقیم است.
ضریب الاستیسیته.
استفاده از ضرایب رگرسیون (در مثال ب) برای ارزیابی مستقیم تأثیر عوامل بر یک مشخصه حاصل، در صورتی که تفاوتی در واحدهای اندازه گیری شاخص حاصل y و مشخصه عامل x وجود داشته باشد، توصیه نمی شود.
برای این منظور، ضرایب کشش و ضرایب بتا محاسبه می شود. ضریب کشش با فرمول بدست می آید:


این نشان می دهد که با چه درصدی به طور متوسط ​​ویژگی موثر y تغییر می کند زمانی که ویژگی عامل x به میزان 1 درصد تغییر می کند. درجه نوسان عوامل را در نظر نمی گیرد.
ضریب کشش کمتر از 1 است. بنابراین، اگر میانگین سرانه هزینه زندگی در روز 1٪ تغییر کند، متوسط ​​دستمزد روزانه کمتر از 1٪ تغییر می کند. به عبارت دیگر، تأثیر میانگین سرانه سطح معیشتی X بر میانگین دستمزد روزانه Y معنادار نیست.
ضریب بتانشان می دهد که چه بخشی از مقدار میانگین آن است انحراف مربعزمانی که مشخصه عامل با مقدار انحراف استاندارد با مقدار متغیرهای مستقل باقی مانده در یک سطح ثابت تغییر کند، مقدار متوسط ​​مشخصه حاصل تغییر می کند:

آن ها افزایش x توسط انحراف معیار این شاخص منجر به افزایش متوسط ​​دستمزد روزانه Y به میزان 0.721 انحراف معیار این شاخص خواهد شد.
1.4. خطای تقریب
اجازه دهید کیفیت معادله رگرسیون را با استفاده از خطای تقریب مطلق ارزیابی کنیم.


از آنجایی که خطا کمتر از 15 درصد است، می توان از این معادله به عنوان رگرسیون استفاده کرد.
ضریب تعیین.
مربع ضریب همبستگی (چندگانه) ضریب تعیین نامیده می شود که نسبت تغییرات در ویژگی حاصل را نشان می دهد که با تغییر در ویژگی عامل توضیح داده شده است.
بیشتر اوقات ، هنگام تفسیر ضریب تعیین ، به صورت درصد بیان می شود.
R2 = 0.722 = 0.5199
آن ها در 51.99 درصد موارد، تغییرات در سطح متوسط ​​سرانه معیشت x منجر به تغییر در میانگین دستمزد روزانه y می شود. به عبارت دیگر دقت انتخاب معادله رگرسیون متوسط ​​است. 48.01 درصد باقی مانده از تغییر متوسط ​​دستمزد روزانه Y با عواملی توضیح داده می شود که در مدل در نظر گرفته نشده اند.

ایکس y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. برآورد پارامترهای معادله رگرسیون.
2.1. اهمیت ضریب همبستگی.

با استفاده از جدول Student با سطح معناداری 0.05= α و درجه آزادی k=10، t کریت را پیدا می کنیم:
t crit = (10; 0.05) = 1.812
که m = 1 تعداد متغیرهای توضیحی است.
اگر t > t بحرانی مشاهده شود، آنگاه مقدار حاصل از ضریب همبستگی معنی دار در نظر گرفته می شود (فرضیه صفر مبنی بر اینکه ضریب همبستگی برابر با صفر است رد می شود).
از آنجایی که t obs > t crit، این فرضیه که ضریب همبستگی برابر با 0 است را رد می کنیم. به عبارت دیگر ضریب همبستگی از نظر آماری معنادار است.
در رگرسیون خطی زوجی t 2 r = t 2 b و سپس آزمون فرضیات در مورد اهمیت رگرسیون و ضرایب همبستگی معادل آزمون فرضیه معناداری است. معادله خطیپسرفت.

2.3. تجزیه و تحلیل دقت تعیین برآورد ضریب رگرسیون.
یک تخمین بی طرفانه از پراکندگی اختلالات مقدار زیر است:


S 2 y = 157.4922 - واریانس غیرقابل توضیح (معیار گسترش متغیر وابسته در اطراف خط رگرسیون).

12.5496 - خطای استاندارد برآورد (خطای استاندارد رگرسیون).
S a - انحراف معیارمتغیر تصادفی a.


S b - انحراف معیار متغیر تصادفی b.


2.4. فواصل اطمینان برای متغیر وابسته.
پیش‌بینی اقتصادی بر اساس مدل ساخته‌شده فرض می‌کند که روابط از قبل موجود بین متغیرها برای دوره پیش‌زمان حفظ می‌شود.
برای پیش‌بینی متغیر وابسته صفت حاصل، لازم است مقادیر پیش‌بینی‌شده همه عوامل موجود در مدل را بدانیم.
مقادیر پیش‌بینی‌شده عوامل در مدل جایگزین می‌شوند و تخمین‌های نقطه‌ای پیش‌بینی‌کننده شاخص مورد مطالعه به‌دست می‌آیند.
(a + bx p ± ε)
جایی که

بیایید مرزهای فاصله ای را محاسبه کنیم که 95٪ در آن متمرکز خواهد شد مقادیر ممکن Y برای تعداد نامحدود مشاهدات و X p = 94

(76.98 + 0.92*94 7.8288 ±)
(155.67;171.33)
با احتمال 95% می توان تضمین کرد که مقدار Y برای تعداد نامحدودی از مشاهدات خارج از محدوده فواصل یافت شده قرار نمی گیرد.
2.5. آزمون فرضیه های مربوط به ضرایب معادله رگرسیون خطی.
1) آمار t. آزمون تی دانشجویی
بیایید فرضیه H 0 را در مورد برابری ضرایب رگرسیون فردی به صفر (اگر جایگزین برابر با H 1 نباشد) در سطح معناداری 0.05=α بررسی کنیم.
t crit = (10; 0.05) = 1.812


از آنجایی که 3.2906 > 1.812، معنی‌داری آماری ضریب رگرسیون b تأیید می‌شود (فرضیه صفر بودن این ضریب را رد می‌کنیم).


از آنجایی که 3.1793 > 1.812، معنی‌داری آماری ضریب رگرسیون a تأیید می‌شود (فرضیه صفر بودن این ضریب را رد می‌کنیم).
فاصله اطمینان برای ضرایب معادله رگرسیون.
بیایید تعریف کنیم فاصله اطمینانضرایب رگرسیون که با پایایی 95% به صورت زیر خواهد بود:
(b - t crit S b ؛ b + t crit S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
با احتمال 95% می توان بیان کرد که مقدار این پارامتر در بازه یافت شده قرار دارد.
2) آمار F. معیار فیشر
آزمایش اهمیت یک مدل رگرسیون با استفاده از آزمون F فیشر انجام می شود که مقدار محاسبه شده آن به عنوان نسبت واریانس سری اصلی مشاهدات شاخص مورد مطالعه و تخمین بی طرفانه واریانس دنباله باقیمانده است. برای این مدل
اگر مقدار محاسبه‌شده با درجه‌های آزادی k1=(m) و k2=(n-m-1) بیشتر از مقدار جدول‌بندی شده در سطح معنی‌داری معین باشد، آن‌گاه مدل معنادار در نظر گرفته می‌شود.

که m تعداد فاکتورهای مدل است.
مقطع تحصیلی اهمیت آماریرگرسیون خطی زوجی با استفاده از الگوریتم زیر انجام می شود:
1. یک فرضیه صفر مطرح می شود که معادله به عنوان یک کل از نظر آماری بی اهمیت است: H 0: R 2 = 0 در سطح معنی داری α.
2. سپس، مقدار واقعی معیار F را تعیین کنید:


که در آن m=1 برای رگرسیون زوجی.
3. مقدار جدولاز جداول توزیع فیشر برای سطح معنی‌داری معین، با در نظر گرفتن اینکه تعداد درجات آزادی برای مبلغ کلمربع (واریانس بزرگتر) 1 است و تعداد درجات آزادی مجموع مربعات باقیمانده (واریانس کوچکتر) در رگرسیون خطی n-2 است.
4. اگر مقدار واقعی F-test کمتر از مقدار جدول باشد، می گویند دلیلی برای رد فرضیه صفر وجود ندارد.
در غیر این صورت، فرض صفر رد می شود و فرضیه جایگزین در مورد اهمیت آماری کل معادله با احتمال (1-α) پذیرفته می شود.
مقدار جدول معیار با درجات آزادی k1=1 و k2=10، Fkp = 4.96
از آنجایی که مقدار واقعی F > Fkp، ضریب تعیین از نظر آماری معنادار است (تخمین یافت شده از معادله رگرسیون از نظر آماری قابل اعتماد است).

مرحله 3. یافتن روابط بین داده ها

همبستگی خطی

آخرین مرحله از کار مطالعه ارتباط بین پدیده ها، ارزیابی نزدیکی ارتباط بر اساس شاخص ها است. ارتباط همبستگی. این مرحله برای شناسایی وابستگی‌های بین ویژگی‌های عامل و عملکرد و در نتیجه امکان تشخیص و پیش‌آگهی پدیده مورد مطالعه بسیار مهم است.

تشخیص(از تشخیص یونانی تشخیص) - تعیین ماهیت و ویژگی های وضعیت یک شی یا پدیده بر اساس مطالعه جامع آن.

پیش بینی(از پیش بینی یونانی پیش بینی، پیش بینی) - هر پیش بینی خاص، قضاوت در مورد وضعیت هر پدیده در آینده (پیش بینی آب و هوا، نتیجه انتخابات و غیره). پیش بینی یک فرضیه مبتنی بر علمی در مورد وضعیت احتمالی آینده سیستم، شی یا پدیده تحت مطالعه و شاخص های مشخص کننده این وضعیت است. پیش بینی - توسعه پیش بینی، ویژه تحقیق علمیچشم اندازهای خاص برای توسعه هر پدیده.

بیایید تعریف همبستگی را به خاطر بسپاریم:

همبستگی- وابستگی بین متغیرهای تصادفی که در این واقعیت بیان می شود که توزیع یک مقدار به مقدار مقدار دیگر بستگی دارد.

یک همبستگی نه تنها بین ویژگی های کمی، بلکه کیفی نیز مشاهده می شود. وجود داشته باشد راه های مختلفو شاخص هایی برای ارزیابی نزدیکی روابط. ما فقط در ضریب همبستگی جفت خطی ، که زمانی استفاده می شود که یک رابطه خطی بین متغیرهای تصادفی وجود داشته باشد. در عمل، اغلب نیاز به تعیین سطح ارتباط بین متغیرهای تصادفی با ابعاد نابرابر وجود دارد، بنابراین مطلوب است که نوعی مشخصه بدون بعد این ارتباط وجود داشته باشد. چنین مشخصه ای (اندازه گیری اتصال) ضریب همبستگی خطی است r xy، که با فرمول مشخص می شود

جایی که , .

با نشان دادن و می توانیم عبارت زیر را برای محاسبه ضریب همبستگی بدست آوریم

.

اگر مفهوم را معرفی کنیم انحراف نرمال شده ، که انحراف مقادیر همبسته را از میانگین در کسری از انحراف استاندارد بیان می کند:



سپس عبارت ضریب همبستگی شکل خواهد گرفت

.

اگر ضریب همبستگی را با استفاده از مقادیر نهایی متغیرهای تصادفی اصلی از جدول محاسبه محاسبه کنید، ضریب همبستگی را می توان با استفاده از فرمول محاسبه کرد.

.

ویژگی های ضریب همبستگی خطی:

1). ضریب همبستگی یک کمیت بدون بعد است.

2). |r| 1 پوند یا .

3). , الف، ب= const، - اگر تمام مقادیر متغیرهای تصادفی X و Y در یک ثابت ضرب (یا تقسیم) شوند، مقدار ضریب همبستگی تغییر نخواهد کرد.

4). , الف، ب= const، - مقدار ضریب همبستگی تغییر نخواهد کرد اگر همه مقادیر متغیرهای تصادفی X و Y با یک ثابت افزایش (یا کاهش) داشته باشند.

5). بین ضریب همبستگی و ضریب رگرسیون رابطه وجود دارد:

مقادیر ضرایب همبستگی را می توان به صورت زیر تفسیر کرد:

معیارهای کمی برای ارزیابی نزدیکی ارتباطات:

برای اهداف پیش آگهی، مقادیر با |r| > 0.7.

ضریب همبستگی به ما امکان می دهد که وجود را نتیجه گیری کنیم وابستگی خطیبین دو متغیر تصادفی، اما نشان نمی دهد که کدام یک از متغیرها باعث تغییر در دیگری می شود. در واقع، ارتباط بین دو متغیر تصادفی می تواند بدون رابطه علت و معلولی بین خود مقادیر وجود داشته باشد، زیرا تغییر در هر دو متغیر تصادفی می تواند ناشی از تغییر (تأثیر) سوم باشد.

ضریب همبستگی r xyبا توجه به متغیرهای تصادفی مورد بررسی متقارن است ایکسو Y. این بدان معنی است که برای تعیین ضریب همبستگی کاملاً بی تفاوت است که کدام یک از کمیت ها مستقل و کدام وابسته است.

اهمیت ضریب همبستگی

حتی برای مقادیر مستقلضریب همبستگی ممکن است به دلیل پراکندگی تصادفی نتایج اندازه گیری یا به دلیل نمونه کوچکی از متغیرهای تصادفی با صفر متفاوت باشد. بنابراین، اهمیت ضریب همبستگی باید بررسی شود.

اهمیت ضریب همبستگی خطی بر اساس بررسی می شود آزمون تی دانشجویی :

.

اگر تی > تی کر(P,n-2)، پس ضریب همبستگی خطی معنی دار است و بنابراین رابطه آماری نیز معنی دار است ایکسو Y.

.

برای سهولت در محاسبه، جداول مقادیر حد اطمینان ضرایب همبستگی ایجاد شده است. اعداد مختلفدرجه آزادی f = n-2 (آزمون دو دنباله) و سطوح معنی داری مختلف آ= 0.1; 0.05; 0.01 و 0.001. اگر ضریب همبستگی محاسبه شده از مقدار حد اطمینان ضریب همبستگی برای داده شده بیشتر شود، همبستگی معنی دار در نظر گرفته می شود. fو آ.

برای بزرگ ها nو آ= 0.01 مقدار حد اطمینان ضریب همبستگی را می توان با استفاده از فرمول تقریبی محاسبه کرد

.

همانطور که بارها اشاره شد، برای نتیجه گیری آماری در مورد وجود یا عدم وجود همبستگی بین متغیرهای مورد مطالعه، بررسی معناداری ضریب همبستگی نمونه ضروری است. با توجه به اینکه پایایی ویژگی های آماری، از جمله ضریب همبستگی، به حجم نمونه بستگی دارد، ممکن است وضعیتی پیش بیاید که مقدار ضریب همبستگی کاملاً با نوسانات تصادفی در نمونه که بر اساس آن محاسبه می شود تعیین شود. . اگر بین متغیرها رابطه معناداری وجود داشته باشد، ضریب همبستگی باید با صفر تفاوت معناداری داشته باشد. اگر بین متغیرهای مورد مطالعه همبستگی وجود نداشته باشد، ضریب همبستگی جامعه برابر با صفر است. در تحقیقات عملی، به عنوان یک قاعده، آنها بر اساس مشاهدات نمونه هستند. مانند هر مشخصه آماری، ضریب همبستگی نمونه است متغیر تصادفی، یعنی مقادیر آن به طور تصادفی در اطراف پارامتر جمعیت به همان نام (مقدار واقعی ضریب همبستگی) پراکنده شده است. اگر بین متغیرها همبستگی وجود نداشته باشد، ضریب همبستگی آنها در جامعه برابر با صفر است. اما به دلیل ماهیت تصادفی پراکندگی، شرایطی که برخی از ضرایب همبستگی محاسبه‌شده از نمونه‌های این جامعه با صفر متفاوت باشد، اساساً ممکن است.

آیا تفاوت های مشاهده شده را می توان به نوسانات تصادفی در نمونه نسبت داد، یا تغییر قابل توجهی را در شرایطی که در آن روابط بین متغیرها شکل گرفت، منعکس می کنند؟ اگر مقادیر ضریب همبستگی نمونه در ناحیه پراکندگی قرار گیرد،

به دلیل ماهیت تصادفی خود شاخص، این دلیلی بر عدم وجود رابطه نیست. بیشترین چیزی که می توان گفت این است که داده های مشاهده ای عدم وجود رابطه بین متغیرها را رد نمی کنند. اما اگر مقدار ضریب همبستگی نمونه خارج از ناحیه پراکندگی ذکر شده باشد، نتیجه می گیرند که با صفر تفاوت معنی داری دارد و می توان فرض کرد که بین متغیرها تفاوت آماری وجود دارد. ارتباط معنی دار. معیار مورد استفاده برای حل این مشکل بر اساس توزیع آمارهای مختلف، معیار معناداری نامیده می شود.

روش آزمون معناداری با فرمول بندی فرضیه صفر آغاز می شود نمای کلیاین در این واقعیت نهفته است که تفاوت معنی داری بین پارامتر نمونه و پارامتر جمعیت وجود ندارد. یک فرضیه جایگزین این است که تفاوت های قابل توجهی بین این پارامترها وجود دارد. به عنوان مثال، هنگام آزمایش وجود یک همبستگی در یک جامعه، فرضیه صفر این است که ضریب همبستگی واقعی صفر است. اگر نتیجه آزمون به این نتیجه برسد که فرضیه صفر غیرقابل قبول باشد، ضریب همبستگی نمونه به طور قابل توجهی با صفر متفاوت است (عدم صفر است. فرضیه رد و جایگزین پذیرفته می شود به عبارت دیگر فرض عدم همبستگی متغیرهای تصادفی در جامعه را باید بی اساس دانست و بالعکس اگر بر اساس معیار معناداری فرض صفر پذیرفته شود یعنی دروغ باشد. در ناحیه مجاز پراکندگی تصادفی، هیچ دلیلی وجود ندارد که فرض متغیرهای غیر همبسته در جامعه را مشکوک بدانیم.

در یک آزمون معنی‌داری، محقق سطح معناداری a را تعیین می‌کند که اطمینان عملی را فراهم می‌کند که نتیجه‌گیری‌های اشتباه فقط در موارد بسیار نادر انجام می‌شود. سطح معناداری بیانگر احتمال رد فرضیه صفر زمانی است که واقعاً درست باشد. واضح است که انتخاب این احتمال تا حد امکان معقول است.

اجازه دهید توزیع مشخصه نمونه مشخص باشد، که یک تخمین بی طرفانه از پارامتر جمعیت است. سطح اهمیت انتخاب شده a مربوط به مناطق سایه دار زیر منحنی این توزیع است (شکل 24 را ببینید). منطقه بدون سایه در زیر منحنی توزیع احتمال را تعیین می کند. مرزهای قطعات در محور آبسیسا در زیر مناطق سایه دار مقادیر بحرانی نامیده می شوند و خود قطعات منطقه بحرانی یا منطقه رد فرضیه را تشکیل می دهند.

در روش آزمون فرضیه، مشخصه نمونه محاسبه شده از نتایج مشاهدات با مقدار بحرانی مربوطه مقایسه می شود. در این صورت باید بین مناطق بحرانی یک طرفه و دو طرفه تمایز قائل شد. شکل تعیین منطقه بحرانی بستگی به فرمول بندی مسئله دارد تحقیق آماری. هنگام مقایسه یک پارامتر نمونه و یک پارامتر جمعیت، یک منطقه بحرانی دو طرفه مورد نیاز است

لازم است قدر مطلق اختلاف بین آنها تخمین زده شود، یعنی هم تفاوت مثبت و هم منفی بین مقادیر مورد مطالعه مورد توجه است. هنگامی که لازم است اطمینان حاصل شود که یک مقدار به طور متوسط ​​به شدت بزرگتر یا کمتر از مقدار دیگر است، از یک ناحیه بحرانی یک طرفه (سمت راست یا چپ) استفاده می شود. کاملاً واضح است که برای همان مقدار بحرانی سطح اهمیت هنگام استفاده از یک منطقه بحرانی یک طرفه کمتر از زمانی است که از یک منطقه دو طرفه استفاده می شود.

برنج. 24. آزمون فرضیه صفر

اگر توزیع مشخصه نمونه متقارن باشد، سطح اهمیت ناحیه بحرانی دو طرفه برابر با a و ناحیه بحرانی یک طرفه برابر با y است (شکل 24 را ببینید). اجازه دهید خودمان را به صورت بندی کلی مسئله محدود کنیم. در جزئیات بیشتر با توجیه نظری آزمون فرضیه های آماریمی توانید ملاقات کنید ادبیات تخصصی. در زیر ما فقط معیارهای اهمیت را نشان خواهیم داد رویه های مختلف، بدون توقف در ساخت آنها.

با بررسی معنی داری ضریب همبستگی زوجی، وجود یا عدم وجود همبستگی بین پدیده های مورد مطالعه مشخص می شود. در صورت عدم وجود ارتباط، ضریب همبستگی جامعه برابر با صفر است.رویال تأیید با فرمول‌بندی فرضیه‌های صفر و جایگزین آغاز می‌شود:

تفاوت بین ضریب همبستگی نمونه ناچیز است،

تفاوت بین آنها معنادار است و بنابراین بین متغیرهای آنها رابطه معناداری وجود دارد. فرضیه جایگزین حاکی از آن است که ما باید از یک منطقه بحرانی دو طرفه استفاده کنیم.

قبلاً در بخش 8.1 ذکر شد که ضریب همبستگی نمونه، تحت مفروضات خاصی، با متغیر تصادفی موضوع توزیع دانشجو با درجات آزادی همراه است. آمار از نتایج نمونه محاسبه شده است

با مقدار بحرانی تعیین شده از جدول توزیع دانش آموز در سطح معناداری معین a و درجات آزادی مقایسه می شود. قاعده اعمال معیار به این صورت است: اگر فرضیه صفر در سطح معناداری a رد شود، یعنی رابطه بین متغیرها معنادار باشد. اگر فرضیه صفر در سطح معناداری a پذیرفته شود. انحراف مقدار از را می توان به تغییرات تصادفی نسبت داد. داده‌های نمونه فرضیه مورد بررسی را بسیار ممکن و قابل قبول توصیف می‌کنند، یعنی فرضیه عدم وجود یک ارتباط اعتراضی ایجاد نمی‌کند.

اگر به جای آمار، از مقادیر بحرانی ضریب همبستگی استفاده کنیم که می‌توان از طریق چندک‌های توزیع دانشجویی با جایگزینی در تعیین کرد، روش آزمون فرضیه بسیار ساده‌تر می‌شود.

جداول مفصلی از مقادیر بحرانی وجود دارد که گزیده ای از آن در پیوست این کتاب آورده شده است (جدول 6 را ببینید). قاعده آزمایش یک فرضیه در این مورد به موارد زیر خلاصه می شود: اگر چنین است، می توانیم ادعا کنیم که رابطه بین متغیرها معنی دار است. اگر چنین است، ما نتایج مشاهدات را با فرضیه عدم وجود ارتباط سازگار می دانیم.

بیایید فرضیه استقلال بهره وری نیروی کار را از سطح مکانیزه شدن کار با توجه به داده های ارائه شده در بخش 4.1 آزمایش کنیم. قبلاً محاسبه شده بود که از (8.38) بدست می آوریم

با استفاده از جدول توزیع Student مقدار بحرانی این آمار را پیدا می کنیم: از آنجایی که فرضیه صفر را رد می کنیم، تنها در 5٪ موارد خطا می کنیم.

اگر با مقدار بحرانی ضریب همبستگی که از جدول مربوطه در

که دارای -توزیع با درجات آزادی است. در مرحله بعد، روش بررسی اهمیت مشابه با روش قبلی با استفاده از معیار - انجام می شود.

مثال

بر اساس تحلیل اقتصادی پدیده ها، ما در جمعیت عمومی ارتباط قوی بین بهره وری نیروی کار و سطح مکانیزه شدن کار را فرض می کنیم. اجازه دهید، برای مثال،. به عنوان جایگزین، در این مورد می‌توانیم این فرضیه را مطرح کنیم که ضریب همبستگی نمونه، بنابراین، باید از یک منطقه بحرانی یک طرفه استفاده کنیم. از (8.40) چنین می شود که

ما مقدار به دست آمده را با مقدار بحرانی مقایسه می کنیم بنابراین در سطح معنی داری 5% می توانیم وجود یک ارتباط بسیار نزدیک بین ویژگی های مورد مطالعه را فرض کنیم، یعنی داده های اولیه این امکان را به وجود می آورد که قابل قبول باشد.

اهمیت ضرایب همبستگی جزئی به روشی مشابه بررسی می شود. فقط تعداد درجات آزادی تغییر می کند که برابر با تعداد متغیرهای توضیحی می شود. ارزش آماری با استفاده از فرمول محاسبه می شود

با مقدار بحرانی a یافت شده از جدول توزیع در سطح معنی داری a و تعداد درجات آزادی مقایسه می شود. پذیرش یا رد فرضیه در مورد معنی دار بودن ضریب همبستگی جزئی طبق همان قاعده ای که در بالا توضیح داده شد انجام می شود. . تست اهمیت را می توان با استفاده از مقادیر بحرانی ضریب همبستگی مطابق با (8.39) و همچنین با استفاده از تبدیل فیشر (8.40) انجام داد.

مثال

بیایید بررسی کنیم پایایی آماریضرایب همبستگی جزئی محاسبه شده در بخش 4.5 در سطح معنی داری در زیر به همراه ضرایب همبستگی جزئی، مقادیر آمار محاسبه شده و بحرانی مربوطه آورده شده است.

با توجه به اینکه فرضیه معنی دار بودن ضرایب پذیرفته شده است، نتیجه می گیریم: سطح مکانیزه شدن کار بدون احتساب میانگین سنی کارگران (و میانگین درصد رعایت استانداردها). تفاوت صفر ضرایب باقی مانده

همبستگی‌های جزئی را می‌توان به نوسانات تصادفی در نمونه نسبت داد، بنابراین از آنها نمی‌توان چیزی قطعی در مورد تأثیرات جزئی متغیرهای مربوطه گفت.

اهمیت ضریب همبستگی چندگانه با نتیجه روش بررسی اهمیت ضریب قضاوت می شود. تعیین چندگانه. در بخش بعدی به تفصیل بیشتر به این موضوع خواهیم پرداخت.

سوالی که اغلب مورد توجه است این است: آیا دو ضریب همبستگی به طور قابل توجهی با یکدیگر متفاوت هستند؟ هنگام آزمایش این فرضیه، فرض می شود که همان ویژگی های جمعیت های همگن در نظر گرفته می شود. داده ها نتایج را نشان می دهد تست های مستقل; ضرایب همبستگی از یک نوع استفاده می شود، به عنوان مثال، ضرایب همبستگی جفتی یا ضرایب همبستگی جزئی در هنگام حذف همان تعداد متغیر.

حجم دو نمونه ای که ضرایب همبستگی از آنها محاسبه می شود ممکن است متفاوت باشد. فرضیه صفر: یعنی ضرایب همبستگی دو جمعیت مورد بررسی برابر است. فرضیه جایگزین: فرضیه جایگزین حاکی از آن است که باید از یک منطقه بحرانی دو طرفه استفاده شود. به عبارت دیگر، باید بررسی کنید که آیا تفاوت به طور قابل توجهی با صفر متفاوت است یا خیر. بیایید از آماری استفاده کنیم که توزیع تقریباً نرمال دارند:

که در آن - نتایج تبدیل ضرایب همبستگی - حجم نمونه. قانون آزمون: اگر فرضیه رد شود. اگر فرضیه پذیرفته شود.

در صورت پذیرش، مقدار

پس از محاسبه مجدد در استفاده از (8.6) به عنوان یک تخمین خلاصه از ضریب همبستگی عمل می کند.بعد با استفاده از آمار می توان این فرضیه را آزمایش کرد.

دارای توزیع نرمال

مثال

بگذارید مشخص شود که آیا نزدیکی ارتباط بین بهره وری نیروی کار و سطح مکانیزاسیون کار در شرکت های همان صنعت واقع در مناطق مختلف کشور متفاوت است یا خیر. بیایید شرکت های واقع در دو حوزه را با هم مقایسه کنیم. اجازه دهید ضریب همبستگی برای یکی از آنها با استفاده از نمونه حجمی محاسبه شود (به بخش 4.1 مراجعه کنید). برای منطقه Other، با استفاده از نمونه حجمی محاسبه می شود

پس از تبدیل هر دو ضریب همبستگی به مقادیر -، با استفاده از (8.42) مقدار آمار X را محاسبه می کنیم:

ارزش بحرانی آمار در است بنابراین، فرضیه پذیرفته می شود، یعنی بر اساس نمونه های موجود، نمی توانیم تفاوت معنی داری بین ضرایب همبستگی ایجاد کنیم. علاوه بر این، هر دو ضریب همبستگی معنادار هستند.

با استفاده از (8.43) و (8.6)، یک برآورد خلاصه از ضریب همبستگی برای دو منطقه به دست می آوریم:

در نهایت، بیایید این فرضیه را بررسی کنیم که آیا برآورد خلاصه ضریب همبستگی با استفاده از آمار (8.44) با صفر تفاوت معناداری دارد یا خیر.

از آنجایی که می توان ادعا کرد که در جمعیت عمومی بین بهره وری نیروی کار و سطح مکانیزه شدن کار ارتباط معناداری وجود دارد.

معیار X را می توان در جنبه های مختلف مورد استفاده قرار داد. بنابراین، به جای مناطق، صنایع مختلف را می توان در نظر گرفت، به عنوان مثال، زمانی که لازم است مشخص شود که آیا تفاوت در قدرت روابط مورد مطالعه بین شاخص های اقتصادی شرکت های متعلق به دو صنعت متفاوت قابل توجه است یا خیر.

اجازه دهید بر اساس دو نمونه حجمی، ضرایب همبستگی را محاسبه کنیم که رابطه نزدیک بین بهره وری نیروی کار و سطح مکانیزاسیون کار در شرکت های متعلق به دو صنعت (دو جمعیت عمومی) را مشخص می کند. از (8.42) می گیریم

از آنجایی که ما فرضیه صفر را رد می کنیم. در نتیجه، می توان استدلال کرد که تفاوت های قابل توجهی در نزدیکی رابطه بین بهره وری نیروی کار و سطح مکانیزه شدن کار در شرکت های متعلق به صنایع مختلف وجود دارد. ما این مثال را در بخش 8.7 ادامه خواهیم داد، جایی که خطوط رگرسیون ساخته شده برای دو جمعیت را با هم مقایسه خواهیم کرد.

با تجزیه و تحلیل مثال های ارائه شده، ما متقاعد می شویم که تنها با در نظر گرفتن تفاوت مطلق ضرایب همبستگی مقایسه شده

(اندازه نمونه در هر دو مورد یکسان است) بدون بررسی اهمیت این تفاوت منجر به نتیجه گیری اشتباه می شود. این امر لزوم استفاده از معیارهای آماری را هنگام مقایسه ضرایب همبستگی تأیید می کند.

روش مقایسه دو ضریب همبستگی را می توان به آن تعمیم داد تعداد بزرگترضرایب مشروط به پیش نیازهای فوق. فرضیه برابری ضرایب همبستگی بین متغیرها به صورت زیر بیان می شود: بر اساس ضرایب همبستگی محاسبه شده از نمونه های حجمی از جمعیت های عمومی. ضرایب همبستگی دوباره به مقادیر - محاسبه می شوند: از آنجایی که در مورد کلیناشناخته، تخمین آن را از طریق فرمول می یابیم که تعمیم (8.43) است.

کار دوره

موضوع: تحلیل همبستگی

معرفی

1. تحلیل همبستگی

1.1 مفهوم همبستگی

1.2 رده بندی کلیهمبستگی ها

1.3 زمینه های همبستگی و هدف از ساخت آنها

1.4 مرحله تجزیه و تحلیل همبستگی

1.5 ضرایب همبستگی

1.6 ضریب همبستگی Bravais-Pearson نرمال شده

1.7 ضریب همبستگی رتبهاسپیرمن

1.8 ویژگی های اساسی ضرایب همبستگی

1.9 بررسی اهمیت ضرایب همبستگی

1.10 ارزش های بحرانیضریب همبستگی جفتی

2. برنامه ریزی یک آزمایش چند عاملی

2.1 وضعیت مشکل

2.2 تعیین مرکز پلان (سطح پایه) و سطح تغییرات عامل

2.3 ساخت ماتریس برنامه ریزی

2.4 بررسی همگنی پراکندگی و هم ارزی اندازه گیری در سری های مختلف

2.5 ضرایب معادله رگرسیون

2.6 واریانس تکرارپذیری

2.7 بررسی اهمیت ضرایب معادله رگرسیون

2.8 بررسی کفایت معادله رگرسیون

نتیجه

کتابشناسی - فهرست کتب

معرفی

برنامه ریزی تجربی یک رشته ریاضی و آماری است که به مطالعه روش های سازماندهی منطقی تحقیقات تجربی می پردازد. انتخاب بهینهعوامل در حال مطالعه و تعیین طرح آزمایشی واقعی مطابق با هدف آن تا روش های تجزیه و تحلیل نتایج. برنامه‌ریزی تجربی با کار آماردان انگلیسی R. Fisher (1935) آغاز شد، که تأکید کرد برنامه‌ریزی تجربی منطقی در مقایسه با پردازش بهینه نتایج اندازه‌گیری، دستاوردهای مهمی در دقت برآوردها ندارد. در دهه 60 قرن بیستم وجود داشت نظریه مدرنبرنامه ریزی آزمایش روش های او ارتباط نزدیکی با نظریه تقریب تابع و برنامه ریزی ریاضی دارد. پلان های بهینه ساخته شد و خواص آنها برای کلاس وسیعی از مدل ها مورد مطالعه قرار گرفت.

برنامه ریزی تجربی - انتخاب یک طرح آزمایشی که الزامات مشخص شده را برآورده می کند، مجموعه ای از اقدامات با هدف توسعه یک استراتژی آزمایشی (از به دست آوردن اطلاعات قبلی تا به دست آوردن یک مدل ریاضی قابل اجرا یا تعیین). شرایط بهینه). این کنترل هدفمند یک آزمایش است که در شرایط دانش ناقص از مکانیسم پدیده مورد مطالعه اجرا می شود.

در فرآیند اندازه گیری ها، پردازش های بعدی داده ها و همچنین رسمی سازی نتایج در قالب یک مدل ریاضی، خطاهایی ایجاد می شود و برخی از اطلاعات موجود در داده های اصلی از بین می روند. استفاده از روش های برنامه ریزی تجربی، تشخیص خطای مدل ریاضی و قضاوت در مورد کفایت آن را ممکن می سازد. اگر دقت مدل ناکافی باشد، استفاده از روش های برنامه ریزی تجربی امکان نوسازی را فراهم می کند. مدل ریاضیبا آزمایش های اضافی بدون از دست دادن اطلاعات قبلی و با حداقل هزینه.

هدف از برنامه ریزی یک آزمایش، یافتن شرایط و قوانینی برای انجام آزمایش است که تحت آن امکان دستیابی به اطلاعات قابل اعتماد و قابل اعتماد در مورد یک شی با کمترین کار و همچنین ارائه این اطلاعات به شکل فشرده و راحت باشد. با ارزیابی کمی دقت.

از جمله روش های اصلی برنامه ریزی مورد استفاده در مراحل مختلف مطالعه عبارتند از:

برنامه ریزی یک آزمایش غربالگری، که معنای اصلی آن انتخاب از کل مجموعه عوامل گروهی از عوامل مهم است که مشمول مطالعه دقیق بیشتر هستند.

برنامه ریزی یک آزمایش برای تحلیل واریانس، یعنی تهیه نقشه برای اشیاء با عوامل کیفی؛

برنامه ریزی یک آزمایش رگرسیون که به شما امکان می دهد به دست آورید مدل های رگرسیون(چند جمله ای و دیگران)؛

برنامه ریزی یک آزمایش شدید که در آن وظیفه اصلی بهینه سازی آزمایشی موضوع تحقیق است.

برنامه ریزی هنگام مطالعه فرآیندهای پویا و غیره

هدف از مطالعه این رشته، آماده سازی دانشجویان برای فعالیت های تولیدی و فنی در تخصص خود با استفاده از روش های تئوری برنامه ریزی و فناوری های نوین اطلاعات است.

اهداف رشته: مطالعه روش های مدرنبرنامه ریزی، سازماندهی و بهینه سازی آزمایش های علمی و صنعتی، انجام آزمایش ها و پردازش نتایج به دست آمده.

1. تحلیل همبستگی

1.1 مفهوم همبستگی

یک محقق اغلب به چگونگی ارتباط دو یا چند متغیر با یکدیگر در یک یا چند نمونه مورد مطالعه علاقه مند است. به عنوان مثال، آیا قد می تواند بر وزن افراد تأثیر بگذارد یا فشار خون می تواند بر کیفیت محصول تأثیر بگذارد؟

به این نوع وابستگی بین متغیرها همبستگی یا همبستگی می گویند. همبستگی یک تغییر ثابت در دو ویژگی است که منعکس کننده این واقعیت است که تغییرپذیری یک مشخصه مطابق با متغیر بودن دیگری است.

به عنوان مثال مشخص است که به طور متوسط ​​بین قد افراد و وزن آنها رابطه مثبت وجود دارد و به این ترتیب که هر چه قد بیشتر باشد وزن فرد نیز بیشتر می شود. با این حال، استثناهایی برای این قاعده وجود دارد که نسبتاً باشد افراد کوتاه قددارند اضافه وزنو برعکس آستنیک ها با رشد زیاد وزن کمی دارند. دلیل چنین استثناهایی این است که هر بیولوژیکی، فیزیولوژیکی یا علامت روانیبا تأثیر عوامل زیادی تعیین می شود: محیطی، ژنتیکی، اجتماعی، محیطی و غیره.

اتصالات همبستگی تغییرات احتمالی هستند که فقط بر روی نمونه های نماینده با استفاده از روش های آمار ریاضی قابل مطالعه هستند. هر دو اصطلاح - پیوند همبستگی و وابستگی همبستگی - اغلب به جای هم استفاده می شوند. وابستگی مستلزم نفوذ، ارتباط است - هر تغییر هماهنگی که می تواند با صدها دلیل توضیح داده شود. پیوندهای همبستگی را نمی توان به عنوان شاهدی بر یک رابطه علت و معلولی در نظر گرفت، آنها فقط نشان می دهند که تغییرات در یک ویژگی معمولاً با تغییرات خاصی در ویژگی دیگر همراه است.

وابستگی همبستگی - اینها تغییراتی هستند که مقادیر یک مشخصه را به احتمال وقوع وارد می کنند معانی مختلفنشانه دیگری

وظیفه تحلیل همبستگی به تعیین جهت (مثبت یا منفی) و شکل (خطی، غیرخطی) رابطه بین ویژگی های مختلف، اندازه گیری نزدیکی آن، و در نهایت، بررسی سطح اهمیت ضرایب همبستگی به دست آمده می رسد.

اتصالات همبستگی در شکل، جهت و درجه (قدرت) متفاوت است. .

شکل رابطه همبستگی می تواند خطی یا منحنی باشد. به عنوان مثال، ارتباط بین تعداد جلسات آموزشی در شبیه ساز و تعداد مسائل به درستی حل شده در جلسه کنترل ممکن است ساده باشد. برای مثال، رابطه بین سطح انگیزه و اثربخشی یک کار ممکن است منحنی باشد (شکل 1). با افزایش انگیزه، ابتدا اثربخشی انجام یک کار افزایش می یابد، سپس سطح بهینه انگیزه به دست می آید که با حداکثر اثربخشی انجام کار مطابقت دارد. افزایش بیشتر انگیزه با کاهش کارایی همراه است.

شکل 1- رابطه بین اثربخشی حل مسئله و قدرت تمایلات انگیزشی

در جهت، رابطه همبستگی می تواند مثبت ("مستقیم") و منفی ("معکوس") باشد. با همبستگی خطی مثبت، مقادیر بالاتر یک مشخصه با مقادیر بالاتر مشخصه دیگر مطابقت دارد و مقادیر پایین تر یک مشخصه مربوط به مقادیر پاییندیگری (شکل 2). با یک همبستگی منفی، روابط معکوس هستند (شکل 3). با همبستگی مثبت، ضریب همبستگی دارد علامت مثبت، با یک همبستگی منفی - یک علامت منفی.

شکل 2 - همبستگی مستقیم

شکل 3 - همبستگی معکوس


شکل 4 - بدون همبستگی

درجه، قدرت یا نزدیکی همبستگی با مقدار ضریب همبستگی تعیین می شود. قدرت اتصال به جهت آن بستگی ندارد و با مقدار مطلق ضریب همبستگی تعیین می شود.

1.2 طبقه بندی کلی همبستگی ها

بسته به ضریب همبستگی، همبستگی های زیر متمایز می شوند:

قوی، یا نزدیک با ضریب همبستگی r>0.70.

میانگین (در 0.50

متوسط ​​(در 0.30

ضعیف (در 0.20

بسیار ضعیف (در r<0,19).

1.3 زمینه های همبستگی و هدف از ساخت آنها

همبستگی بر اساس داده های تجربی، که مقادیر اندازه گیری شده (x i، y i) دو ویژگی است، مورد مطالعه قرار می گیرد. اگر داده های تجربی کمی وجود داشته باشد، توزیع تجربی دو بعدی به عنوان یک سری دوگانه از مقادیر x i و y i نشان داده می شود. در عین حال، وابستگی همبستگی بین ویژگی ها را می توان به روش های مختلفی توصیف کرد. مطابقت بین یک آرگومان و یک تابع را می توان با جدول، فرمول، نمودار و غیره نشان داد.

تجزیه و تحلیل همبستگی، مانند سایر روش های آماری، مبتنی بر استفاده از مدل های احتمالی است که رفتار ویژگی های مورد مطالعه را در یک جامعه عمومی خاص که مقادیر تجربی xi و y i از آن به دست می آید، توصیف می کند. هنگام مطالعه همبستگی بین ویژگی های کمی، که مقادیر آن را می توان به طور دقیق در واحدهای مقیاس متریک (متر، ثانیه، کیلوگرم، و غیره) اندازه گیری کرد، اغلب یک مدل جمعیت دو بعدی توزیع شده معمولی اتخاذ می شود. چنین مدلی رابطه بین متغیرهای x i و y i را به صورت گرافیکی در قالب مکان هندسی نقاط در یک سیستم مختصات مستطیلی نمایش می دهد. به این رابطه گرافیکی، نمودار پراکندگی یا میدان همبستگی نیز می گویند.
این مدل از توزیع نرمال دو بعدی (میدان همبستگی) به ما اجازه می دهد تا تفسیر گرافیکی واضحی از ضریب همبستگی ارائه دهیم، زیرا توزیع در کل به پنج پارامتر بستگی دارد: μ x، μ y - مقادیر متوسط ​​(انتظارات ریاضی). σ x ,σ y – انحراف معیار متغیرهای تصادفی X و Y و p – ضریب همبستگی که معیاری از رابطه بین متغیرهای تصادفی X و Y است.
اگر p = 0، آنگاه مقادیر x i، y i به دست آمده از یک جمعیت نرمال دوبعدی بر روی نمودار در مختصات x، y در ناحیه محدود شده توسط دایره قرار دارند (شکل 5، a). در این حالت بین متغیرهای تصادفی X و Y همبستگی وجود ندارد و به آنها ناهمبسته می گویند. برای توزیع نرمال دو بعدی، عدم همبستگی به طور همزمان به معنای استقلال متغیرهای تصادفی X و Y است.

در تحقیقات علمی، اغلب نیاز به یافتن ارتباط بین متغیرهای پیامد و عامل (بازده محصول و میزان بارندگی، قد و وزن یک فرد در گروه‌های همگن بر حسب جنس و سن، ضربان قلب و دمای بدن است. ، و غیره.).

دوم نشانه هایی هستند که به تغییرات در موارد مرتبط با آنها کمک می کنند (اولی).

مفهوم تحلیل همبستگی

با توجه به موارد فوق، می توان گفت که تحلیل همبستگی روشی است که برای آزمون فرضیه اهمیت آماری دو یا چند متغیر در صورتی که محقق بتواند آنها را اندازه گیری کند، اما آنها را تغییر ندهد، استفاده می شود.

تعاریف دیگری از مفهوم مورد بحث وجود دارد. تحلیل همبستگی یک روش پردازشی است که شامل مطالعه ضرایب همبستگی بین متغیرها می شود. در این حالت، ضرایب همبستگی بین یک جفت یا چند جفت مشخصه مقایسه می شود تا روابط آماری بین آنها برقرار شود. تحلیل همبستگی روشی برای مطالعه وابستگی آماری بین متغیرهای تصادفی با حضور اختیاری یک ماهیت تابعی دقیق است که در آن پویایی یک متغیر تصادفی منجر به پویایی انتظارات ریاضی دیگری می‌شود.

مفهوم همبستگی کاذب

هنگام انجام تجزیه و تحلیل همبستگی، باید در نظر گرفت که می توان آن را در رابطه با هر مجموعه ای از ویژگی ها، اغلب در رابطه با یکدیگر پوچ، انجام داد. گاهی هیچ ارتباط سببی با یکدیگر ندارند.

در این مورد، آنها از یک همبستگی نادرست صحبت می کنند.

مشکلات تحلیل همبستگی

بر اساس تعاریف فوق، وظایف زیر از روش توصیف شده را می توان فرموله کرد: به دست آوردن اطلاعات در مورد یکی از متغیرهای جستجو شده با استفاده از دیگری. تعیین نزدیکی رابطه بین متغیرهای مورد مطالعه.

تحلیل همبستگی شامل تعیین رابطه بین ویژگی های مورد مطالعه است و بنابراین وظایف تحلیل همبستگی را می توان با موارد زیر تکمیل کرد:

  • شناسایی عواملی که بیشترین تأثیر را بر ویژگی حاصل دارند.
  • شناسایی علل اتصالات ناشناخته قبلی؛
  • ساخت یک مدل همبستگی با تجزیه و تحلیل پارامتری آن.
  • مطالعه اهمیت پارامترهای ارتباطی و ارزیابی فاصله آنها.

رابطه بین تحلیل همبستگی و رگرسیون

روش تحلیل همبستگی اغلب به یافتن نزدیکی رابطه بین کمیت های مورد مطالعه محدود نمی شود. گاهی اوقات با تلفیقی معادلات رگرسیونی تکمیل می شود که با استفاده از تحلیلی به همین نام به دست می آیند و توصیفی از وابستگی همبستگی بین مشخصه (ویژگی ها) حاصل و عامل (عامل) را نشان می دهند. این روش، همراه با تحلیل مورد بررسی، روش را تشکیل می دهد

شرایط استفاده از روش

عوامل موثر به یک تا چند عامل بستگی دارد. در صورتی می توان از روش تحلیل همبستگی استفاده کرد که تعداد مشاهدات زیادی در مورد ارزش شاخص های مؤثر و عاملی (عوامل) وجود داشته باشد، در حالی که عوامل مورد مطالعه باید کمی بوده و در منابع خاص منعکس شوند. اولین مورد را می توان با قانون عادی تعیین کرد - در این مورد، نتیجه تجزیه و تحلیل همبستگی ضرایب همبستگی پیرسون است، یا اگر ویژگی ها از این قانون تبعیت نمی کنند، از ضریب همبستگی رتبه اسپیرمن استفاده می شود.

قوانین انتخاب عوامل تحلیل همبستگی

هنگام استفاده از این روش، لازم است عواملی که بر شاخص های عملکرد تأثیر می گذارند، تعیین شوند. آنها با در نظر گرفتن این واقعیت انتخاب می شوند که باید روابط علت و معلولی بین شاخص ها وجود داشته باشد. در مورد ایجاد یک مدل همبستگی چند عاملی، آنهایی که تأثیر قابل توجهی بر شاخص حاصل دارند انتخاب می شوند، در حالی که ترجیحاً عوامل وابسته به هم با ضریب همبستگی جفتی بیش از 0.85 در مدل همبستگی و همچنین مواردی که که رابطه با پارامتر حاصل خطی یا کاراکتر عملکردی نیست.

نمایش نتایج

نتایج تحلیل همبستگی را می توان به صورت متنی و گرافیکی ارائه کرد. در مورد اول آنها به عنوان یک ضریب همبستگی ارائه می شوند، در مورد دوم - در قالب یک نمودار پراکندگی.

در غیاب همبستگی بین پارامترها، نقاط روی نمودار به طور آشفته قرار می گیرند، درجه متوسط ​​اتصال با درجه بیشتری از نظم مشخص می شود و با فاصله کم و بیش یکنواخت علائم مشخص شده از میانه مشخص می شود. یک اتصال قوی تمایل به مستقیم دارد و در r=1 نمودار نقطه یک خط صاف است. همبستگی معکوس در جهت نمودار از سمت چپ بالا به سمت راست پایین، همبستگی مستقیم - از پایین سمت چپ به گوشه سمت راست بالا متفاوت است.

نمایش سه بعدی نمودار پراکندگی

علاوه بر نمایش نمودار پراکندگی دوبعدی سنتی، یک نمایش گرافیکی سه بعدی از تحلیل همبستگی در حال حاضر استفاده می شود.

یک ماتریس پراکنده نیز استفاده می شود که تمام نمودارهای جفت شده را در یک شکل واحد در قالب ماتریس نمایش می دهد. برای n متغیر، ماتریس شامل n ردیف و n ستون است. نمودار واقع در تقاطع ردیف i و ستون j نموداری از متغیرهای Xi در مقابل Xj است. بنابراین، هر سطر و ستون یک بعد است، یک سلول تک نمودار پراکندگی دو بعدی را نشان می دهد.

ارزیابی تنگی اتصال

نزدیکی اتصال همبستگی با ضریب همبستگی (r) تعیین می شود: قوی - r = 0.7 ± تا 1 ±، متوسط ​​- r = 0.3 ± تا 0.699 ±، ضعیف - r = 0 تا 0.299 ±. این طبقه بندی سختگیرانه نیست. شکل یک نمودار کمی متفاوت را نشان می دهد.

نمونه ای از استفاده از روش تحلیل همبستگی

یک مطالعه جالب در بریتانیا انجام شد. این به ارتباط بین سیگار کشیدن و سرطان ریه اختصاص یافته است و از طریق تجزیه و تحلیل همبستگی انجام شد. این مشاهده در زیر ارائه شده است.

داده های اولیه برای تحلیل همبستگی

گروه حرفه ای

مرگ و میر

کشاورزان، جنگلبانان و ماهیگیران

کارگران معدن و کارگران معدن

تولید کنندگان گاز، کک و مواد شیمیایی

تولید کنندگان شیشه و سرامیک

کارگران کوره، آهنگری، ریخته گری و کارخانه های نورد

کارگران برق و الکترونیک

مهندسی و حرفه های مرتبط

صنایع نجاری

کارگران چرم

کارگران نساجی

تولید کنندگان لباس کار

کارگران صنایع غذایی، نوشیدنی و تنباکو

تولید کنندگان کاغذ و چاپ

تولید کنندگان سایر محصولات

سازندگان

نقاشان و دکوراتورها

رانندگان موتورهای ثابت، جرثقیل و غیره.

کارگرانی که در جای دیگر گنجانده نشده اند

کارگران حمل و نقل و ارتباطات

کارگران انبار، انبار داران، بسته بندان و کارگران دستگاه پرکن

کارمندان اداره

فروشندگان

کارگران ورزش و تفریح

مدیران و مدیران

حرفه ای ها، تکنسین ها و هنرمندان

تحلیل همبستگی را شروع می کنیم. برای وضوح بهتر است حل را با یک روش گرافیکی شروع کنیم که برای آن نمودار پراکندگی می سازیم.

ارتباط مستقیم را نشان می دهد. با این حال، نتیجه گیری بدون ابهام تنها بر اساس روش گرافیکی دشوار است. بنابراین، ما به انجام تحلیل همبستگی ادامه خواهیم داد. نمونه ای از محاسبه ضریب همبستگی در زیر ارائه شده است.

با استفاده از نرم افزار (MS Excel در زیر به عنوان مثال توضیح داده خواهد شد)، ضریب همبستگی را تعیین می کنیم که 0.716 است که به معنای ارتباط قوی بین پارامترهای مورد مطالعه است. بیایید پایایی آماری مقدار به دست آمده را با استفاده از جدول مربوطه تعیین کنیم، که برای آن باید 2 را از 25 جفت مقدار کم کنیم، در نتیجه 23 به دست می آید و با استفاده از این خط در جدول، r را برای p = 0.01 بحرانی می یابیم (از آنجا که اینها داده های پزشکی هستند، وابستگی شدیدتر، در موارد دیگر 0.05=p کافی است)، که برای این تحلیل همبستگی 0.51 است. مثال نشان داد که r محاسبه شده بزرگتر از r بحرانی است و مقدار ضریب همبستگی از نظر آماری قابل اعتماد در نظر گرفته می شود.

استفاده از نرم افزار هنگام انجام تحلیل همبستگی

نوع توصیف شده از پردازش داده های آماری را می توان با استفاده از نرم افزار، به ویژه MS Excel انجام داد. همبستگی شامل محاسبه پارامترهای زیر با استفاده از توابع است:

1. ضریب همبستگی با استفاده از تابع CORREL (array1; array2) تعیین می شود. آرایه 1،2 - سلول فاصله مقادیر متغیرهای حاصل و عامل.

ضریب همبستگی خطی، ضریب همبستگی پیرسون نیز نامیده می شود و بنابراین، با شروع اکسل 2007، می توانید از تابع با همان آرایه ها استفاده کنید.

نمایش گرافیکی تجزیه و تحلیل همبستگی در اکسل با استفاده از پانل "نمودارها" با انتخاب "نقشه پراکندگی" انجام می شود.

پس از مشخص کردن داده های اولیه، یک نمودار دریافت می کنیم.

2. ارزیابی معنی‌داری ضریب همبستگی زوجی با استفاده از آزمون t-استودنت. مقدار محاسبه شده معیار t با مقدار جدول بندی شده (بحرانی) این شاخص از جدول مربوط به مقادیر پارامتر مورد نظر با در نظر گرفتن سطح معنی داری مشخص شده و تعداد درجات آزادی مقایسه می شود. این تخمین با استفاده از تابع STUDISCOVER (احتمال؛ درجات_آزادی) انجام می شود.

3. ماتریس ضرایب همبستگی جفت. تجزیه و تحلیل با استفاده از ابزار تجزیه و تحلیل داده ها انجام شده است که در آن همبستگی انتخاب شده است. ارزیابی آماری ضرایب همبستگی جفتی با مقایسه مقدار مطلق آن با مقدار جدول بندی شده (بحرانی) انجام می شود. هنگامی که ضریب همبستگی زوجی محاسبه شده از بحرانی تجاوز می کند، می توان با در نظر گرفتن درجه احتمال داده شده، گفت که فرضیه صفر در مورد اهمیت رابطه خطی رد نمی شود.

سرانجام

استفاده از روش تحلیل همبستگی در تحقیقات علمی به ما امکان می دهد تا رابطه بین عوامل مختلف و شاخص های عملکرد را تعیین کنیم. باید در نظر گرفت که یک ضریب همبستگی بالا را می توان از یک جفت یا مجموعه داده های پوچ به دست آورد و بنابراین این نوع تجزیه و تحلیل باید روی یک آرایه به اندازه کافی بزرگ از داده ها انجام شود.

پس از به دست آوردن مقدار محاسبه‌شده r، توصیه می‌شود آن را با r بحرانی مقایسه کنید تا پایایی آماری یک مقدار مشخص تأیید شود. تجزیه و تحلیل همبستگی را می توان به صورت دستی با استفاده از فرمول ها، یا با استفاده از نرم افزار، به ویژه MS Excel انجام داد. در اینجا شما همچنین می توانید یک نمودار پراکندگی به منظور نمایش بصری رابطه بین عوامل مورد مطالعه تحلیل همبستگی و مشخصه حاصل بسازید.



جدید در سایت

>

محبوبترین