صفحه اصلی زبان روکش دار برای آزمون معناداری آماری از ضریب همبستگی استفاده شده است. آزمون: سنجش معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

برای آزمون معناداری آماری از ضریب همبستگی استفاده شده است. آزمون: سنجش معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student.

همانطور که بارها اشاره شد، برای نتیجه گیری آماری در مورد وجود یا عدم وجود همبستگی بین متغیرهای مورد مطالعه، بررسی معناداری ضریب همبستگی نمونه ضروری است. با توجه به اینکه پایایی ویژگی های آماری، از جمله ضریب همبستگی، به حجم نمونه بستگی دارد، ممکن است وضعیتی پیش بیاید که مقدار ضریب همبستگی کاملاً با نوسانات تصادفی در نمونه که بر اساس آن محاسبه می شود تعیین شود. . اگر بین متغیرها رابطه معناداری وجود داشته باشد، ضریب همبستگی باید با صفر تفاوت معناداری داشته باشد. اگر بین متغیرهای مورد مطالعه همبستگی وجود نداشته باشد، ضریب همبستگی جمعیت ρ برابر با صفر است. در تحقیقات عملی، به عنوان یک قاعده، آنها بر اساس مشاهدات نمونه هستند. مانند هر مشخصه آماری، ضریب همبستگی نمونه است متغیر تصادفی، یعنی مقادیر آن به طور تصادفی در اطراف پارامتر جمعیت به همان نام (مقدار واقعی ضریب همبستگی) پراکنده شده است. در صورت عدم وجود همبستگی بین متغیرها y و xضریب همبستگی در جامعه صفر است. اما به دلیل ماهیت تصادفی پراکندگی، شرایطی که برخی از ضرایب همبستگی محاسبه‌شده از نمونه‌های این جامعه با صفر متفاوت باشد، اساساً ممکن است.

آیا تفاوت های مشاهده شده را می توان به نوسانات تصادفی در نمونه نسبت داد، یا تغییر قابل توجهی را در شرایطی که در آن روابط بین متغیرها شکل گرفت، منعکس می کنند؟ اگر مقادیر ضریب همبستگی نمونه به دلیل ماهیت تصادفی خود شاخص در منطقه پراکندگی قرار گیرند، این دلیلی بر عدم وجود رابطه نیست. بیشترین چیزی که می توان گفت این است که داده های مشاهده ای عدم وجود رابطه بین متغیرها را رد نمی کنند. اما اگر مقدار ضریب همبستگی نمونه خارج از ناحیه پراکندگی ذکر شده باشد، نتیجه می گیرند که تفاوت معنی داری با صفر دارد و می توان فرض کرد که بین متغیرها y و xیک رابطه آماری معنادار وجود دارد. معیار مورد استفاده برای حل این مشکل بر اساس توزیع آمارهای مختلف، معیار معناداری نامیده می شود.

روش آزمون معناداری با فرمول بندی فرضیه صفر آغاز می شود اچ0 . به طور کلی، این است که تفاوت معنی داری بین پارامتر نمونه و پارامتر جمعیت وجود ندارد. فرضیه جایگزین اچ1 این است که تفاوت های قابل توجهی بین این پارامترها وجود دارد. به عنوان مثال، هنگام آزمایش همبستگی در یک جامعه، فرضیه صفر این است که ضریب همبستگی واقعی صفر است ( H0: ρ = 0). اگر در نتیجه آزمون معلوم شد که فرض صفر قابل قبول نیست، ضریب همبستگی نمونه rوایتفاوت معنی داری با صفر (فرضیه صفر رد می شود و جایگزین پذیرفته می شود H1).به عبارت دیگر، فرض عدم همبستگی متغیرهای تصادفی در جامعه را باید بی اساس دانست. برعکس، اگر بر اساس آزمون معناداری، فرض صفر پذیرفته شود، یعنی. rوایدر ناحیه مجاز پراکندگی تصادفی قرار دارد، پس دلیلی وجود ندارد که فرض متغیرهای نامرتبط در جمعیت را مشکوک بدانیم.

در آزمون معنی‌داری، محقق سطح معناداری α را تعیین می‌کند که اطمینان عملی را فراهم می‌کند که نتیجه‌گیری‌های اشتباه فقط در موارد بسیار نادر انجام می‌شود. سطح معنی داری احتمال وجود فرضیه صفر را بیان می کند H0رد می شود زمانی که واقعا درست است. واضح است که انتخاب این احتمال تا حد امکان معقول است.

اجازه دهید توزیع مشخصه نمونه مشخص باشد، که یک تخمین بی طرفانه از پارامتر جمعیت است. سطح اهمیت انتخاب شده α مربوط به مناطق سایه دار زیر منحنی این توزیع است (شکل 24 را ببینید). ناحیه بدون سایه در زیر منحنی توزیع احتمال را تعیین می کند P = 1 - α . مرزهای قطعات در محور x در زیر نواحی سایه دار، مقادیر بحرانی نامیده می شوند و خود بخش ها منطقه بحرانی یا ناحیه رد فرضیه را تشکیل می دهند.

در روش آزمون فرضیه، مشخصه نمونه محاسبه شده از نتایج مشاهدات با مقدار بحرانی مربوطه مقایسه می شود. در این صورت باید بین مناطق بحرانی یک طرفه و دو طرفه تمایز قائل شد. شکل تعیین منطقه بحرانی بستگی به فرمول بندی مسئله در تحقیقات آماری دارد. یک منطقه بحرانی دو طرفه زمانی ضروری است که هنگام مقایسه یک پارامتر نمونه و یک پارامتر جمعیت، قدر مطلق اختلاف بین آنها تخمین زده شود، یعنی هر دو تفاوت مثبت و منفی بین مقادیر مورد مطالعه وجود داشته باشد. علاقه هنگامی که لازم است اطمینان حاصل شود که یک مقدار به طور متوسط ​​بزرگتر یا کمتر از مقدار دیگر است، از یک ناحیه بحرانی یک طرفه (سمت راست یا چپ) استفاده می شود. کاملاً واضح است که برای همان مقدار بحرانی سطح اهمیت هنگام استفاده از یک منطقه بحرانی یک طرفه کمتر از زمانی است که از یک منطقه دو طرفه استفاده می شود. اگر توزیع مشخصه نمونه متقارن باشد،

برنج. 24. آزمون فرضیه صفر H0

سپس سطح اهمیت منطقه بحرانی دو طرفه برابر با α است و سطح یک طرفه - (نگاه کنید به شکل 24). اجازه دهید خود را به صورت بندی کلی مسئله محدود کنیم. اطلاعات دقیق تر در مورد مبنای نظری برای آزمایش فرضیه های آماری را می توان در ادبیات تخصصی یافت. در زیر ما فقط معیارهای اهمیت رویه های مختلف را بدون پرداختن به ساخت آنها نشان خواهیم داد.

با بررسی معنی داری ضریب همبستگی زوجی، وجود یا عدم وجود همبستگی بین پدیده های مورد مطالعه مشخص می شود. در صورت عدم وجود ارتباط، ضریب همبستگی جمعیت صفر است (ρ = 0). روند تأیید با فرمول بندی فرضیه های صفر و جایگزین آغاز می شود:

H0: تفاوت بین ضریب همبستگی نمونه r و ρ = 0 ناچیز است،

H1: تفاوت بین rو ρ = 0 معنی دار است، و بنابراین بین متغیرها درو Xارتباط قابل توجهی وجود دارد. فرضیه جایگزین حاکی از آن است که ما باید از یک منطقه بحرانی دو طرفه استفاده کنیم.

قبلاً در بخش 8.1 ذکر شد که ضریب همبستگی نمونه، تحت مفروضات خاصی، با یک متغیر تصادفی مرتبط است. تی، رعایت توزیع دانش آموز با f = n- 2 درجه آزادی آمار از نتایج نمونه محاسبه شده است

با مقدار بحرانی تعیین شده از جدول توزیع دانش آموز در سطح اهمیت معین α مقایسه می شود وf = n- 2 درجه آزادی قاعده اعمال معیار به شرح زیر است: اگر | تی| >tf، A، سپس فرضیه صفر در سطح معناداری α رد شد، یعنی رابطه بین متغیرها معنادار است. اگر | تی| ≤tf، A، سپس فرضیه صفر در سطح معناداری α پذیرفته می شود. انحراف ارزش r از ρ = 0 را می توان به تغییرات تصادفی نسبت داد. داده‌های نمونه فرضیه مورد بررسی را بسیار ممکن و قابل قبول توصیف می‌کنند، یعنی فرضیه در مورد عدم وجود یک ارتباط اعتراضی ایجاد نمی‌کند.

روش آزمایش یک فرضیه به جای آمار، بسیار ساده شده است تیاز مقادیر بحرانی ضریب همبستگی استفاده کنید که می توان آن را از طریق چندک های توزیع Student با جایگزینی (8.38) تعیین کرد. تی= tf, یک و r= ρ f, الف:

(8.39)

جداول مفصلی از مقادیر بحرانی وجود دارد که گزیده ای از آن در پیوست این کتاب آورده شده است (جدول 6 را ببینید). قانون آزمون فرضیه در این مورد به موارد زیر خلاصه می شود: اگر r> ρ f, و سپس می توان ادعا کرد که رابطه بین متغیرها معنادار است. اگر rrf، A، سپس نتایج مشاهدات را با فرضیه عدم وجود ارتباط سازگار می دانیم.

همانطور که بارها اشاره شد، برای نتیجه گیری آماری در مورد وجود یا عدم وجود همبستگی بین متغیرهای مورد مطالعه، بررسی معناداری ضریب همبستگی نمونه ضروری است. با توجه به اینکه پایایی ویژگی های آماری، از جمله ضریب همبستگی، به حجم نمونه بستگی دارد، ممکن است وضعیتی پیش بیاید که مقدار ضریب همبستگی کاملاً با نوسانات تصادفی در نمونه که بر اساس آن محاسبه می شود تعیین شود. . اگر بین متغیرها رابطه معناداری وجود داشته باشد، ضریب همبستگی باید با صفر تفاوت معناداری داشته باشد. اگر بین متغیرهای مورد مطالعه همبستگی وجود نداشته باشد، ضریب همبستگی جامعه برابر با صفر است. در تحقیقات عملی، به عنوان یک قاعده، آنها بر اساس مشاهدات نمونه هستند. مانند هر مشخصه آماری، ضریب همبستگی نمونه یک متغیر تصادفی است، یعنی مقادیر آن به طور تصادفی در اطراف پارامتر جامعه با همان نام (مقدار واقعی ضریب همبستگی) پراکنده شده است. اگر بین متغیرها همبستگی وجود نداشته باشد، ضریب همبستگی آنها در جامعه برابر با صفر است. اما به دلیل ماهیت تصادفی پراکندگی، شرایطی که برخی از ضرایب همبستگی محاسبه‌شده از نمونه‌های این جامعه با صفر متفاوت باشد، اساساً ممکن است.

آیا تفاوت های مشاهده شده را می توان به نوسانات تصادفی در نمونه نسبت داد، یا تغییر قابل توجهی را در شرایطی که در آن روابط بین متغیرها شکل گرفت، منعکس می کنند؟ اگر مقادیر ضریب همبستگی نمونه در ناحیه پراکندگی قرار گیرد،

به دلیل ماهیت تصادفی خود شاخص، این دلیلی بر عدم وجود رابطه نیست. بیشترین چیزی که می توان گفت این است که داده های مشاهده ای عدم وجود رابطه بین متغیرها را رد نمی کنند. اما اگر مقدار ضریب همبستگی نمونه خارج از ناحیه پراکندگی ذکر شده باشد، نتیجه می گیرند که با صفر تفاوت معنی داری دارد و می توان فرض کرد که بین متغیرها تفاوت آماری وجود دارد. ارتباط معنی دار. معیاری که برای حل این مشکل بر اساس توزیع آمارهای مختلف مورد استفاده قرار می گیرد، معیار معناداری نامیده می شود.

روش آزمون معنی‌داری با فرمول‌بندی فرضیه صفر آغاز می‌شود. به طور کلی، تفاوت معنی‌داری بین پارامتر نمونه و پارامتر جمعیت وجود ندارد. یک فرضیه جایگزین این است که تفاوت های قابل توجهی بین این پارامترها وجود دارد. به عنوان مثال، هنگام آزمایش وجود یک همبستگی در یک جامعه، فرضیه صفر این است که ضریب همبستگی واقعی صفر است اگر نتیجه آزمون مشخص شود که فرضیه صفر قابل قبول نیست، ضریب همبستگی نمونه به طور قابل توجهی متفاوت است. از صفر (فرضیه صفر رد می شود و جایگزین پذیرفته می شود. به عبارت دیگر، فرض عدم همبستگی متغیرهای تصادفی در جامعه را باید بی اساس تلقی کرد. و بالعکس، اگر بر اساس معیار معناداری، فرضیه صفر پذیرفته شود. یعنی در ناحیه مجاز پراکندگی تصادفی قرار دارد، پس هیچ دلیلی وجود ندارد که فرض عدم همبستگی متغیرها در جامعه را مشکوک بدانیم.

در یک آزمون معنی‌داری، محقق سطح معناداری a را تعیین می‌کند که اطمینان عملی را فراهم می‌کند که نتیجه‌گیری‌های اشتباه فقط در موارد بسیار نادر انجام می‌شود. سطح معناداری بیانگر احتمال رد فرضیه صفر زمانی است که واقعاً درست باشد. واضح است که انتخاب این احتمال تا حد امکان معقول است.

اجازه دهید توزیع مشخصه نمونه مشخص باشد، که یک تخمین بی طرفانه از پارامتر جمعیت است. سطح اهمیت انتخاب شده a مربوط به مناطق سایه دار زیر منحنی این توزیع است (شکل 24 را ببینید). ناحیه بدون سایه در زیر منحنی توزیع، احتمال را تعیین می‌کند. مرزهای بخش‌ها در محور آبسیسا در زیر نواحی سایه‌دار، مقادیر بحرانی نامیده می‌شوند و خود بخش‌ها ناحیه بحرانی یا ناحیه رد فرضیه را تشکیل می‌دهند.

در روش آزمون فرضیه، مشخصه نمونه محاسبه شده از نتایج مشاهدات با مقدار بحرانی مربوطه مقایسه می شود. در این صورت باید بین مناطق بحرانی یک طرفه و دو طرفه تمایز قائل شد. شکل مشخص کردن منطقه بحرانی بستگی به فرمول بندی مسئله دارد تحقیق آماری. هنگام مقایسه یک پارامتر نمونه و یک پارامتر جمعیت، یک منطقه بحرانی دو طرفه مورد نیاز است

لازم است قدر مطلق اختلاف بین آنها تخمین زده شود، یعنی هم تفاوت مثبت و هم منفی بین مقادیر مورد مطالعه مورد توجه است. هنگامی که لازم است اطمینان حاصل شود که یک مقدار به طور متوسط ​​بزرگتر یا کمتر از مقدار دیگر است، از یک ناحیه بحرانی یک طرفه (سمت راست یا چپ) استفاده می شود. کاملاً واضح است که برای همان مقدار بحرانی سطح اهمیت هنگام استفاده از یک منطقه بحرانی یک طرفه کمتر از زمانی است که از یک منطقه دو طرفه استفاده می شود.

برنج. 24. آزمون فرضیه صفر

اگر توزیع مشخصه نمونه متقارن باشد، سطح اهمیت ناحیه بحرانی دو طرفه برابر با a و ناحیه بحرانی یک طرفه برابر با y است (شکل 24 را ببینید). اجازه دهید خودمان را به صورت بندی کلی مسئله محدود کنیم. در جزئیات بیشتر با توجیه نظری آزمون فرضیه های آماریمی توانید ملاقات کنید ادبیات تخصصی. در زیر ما فقط معیارهای اهمیت را نشان خواهیم داد رویه های مختلف، بدون توقف در ساخت آنها.

با بررسی معنی داری ضریب همبستگی زوجی، وجود یا عدم وجود همبستگی بین پدیده های مورد مطالعه مشخص می شود. در صورت عدم وجود ارتباط، ضریب همبستگی جمعیت برابر با صفر است.

تفاوت بین ضریب همبستگی نمونه ناچیز است،

تفاوت بین آنها معنادار است و بنابراین بین متغیرهای آنها رابطه معناداری وجود دارد. فرضیه جایگزین حاکی از آن است که ما باید از یک منطقه بحرانی دو طرفه استفاده کنیم.

قبلاً در بخش 8.1 ذکر شد که ضریب همبستگی نمونه، تحت شرایط خاص، با یک متغیر تصادفی موضوع توزیع دانشجو با درجات آزادی همراه است. آمار از نتایج نمونه محاسبه شده است

با مقدار بحرانی تعیین شده از جدول توزیع دانش آموز در سطح معناداری معین a و درجات آزادی مقایسه می شود. قاعده اعمال معیار به این صورت است: اگر فرضیه صفر در سطح معناداری a رد شود، یعنی رابطه بین متغیرها معنادار باشد. اگر فرضیه صفر در سطح معناداری a پذیرفته شود. انحراف مقدار از را می توان به تغییرات تصادفی نسبت داد. داده‌های نمونه فرضیه مورد بررسی را بسیار ممکن و قابل قبول توصیف می‌کنند، یعنی فرضیه در مورد عدم وجود یک ارتباط اعتراضی ایجاد نمی‌کند.

اگر به جای آمار، از مقادیر بحرانی ضریب همبستگی استفاده کنیم که می‌توان از طریق چندک‌های توزیع دانشجویی با جایگزینی در تعیین کرد، روش آزمون فرضیه بسیار ساده‌تر می‌شود.

جداول مفصلی از مقادیر بحرانی وجود دارد که گزیده ای از آن در پیوست این کتاب آورده شده است (جدول 6 را ببینید). قاعده آزمایش یک فرضیه در این مورد به موارد زیر خلاصه می شود: اگر چنین است، می توانیم ادعا کنیم که رابطه بین متغیرها معنی دار است. اگر چنین است، ما نتایج مشاهدات را با فرضیه عدم وجود ارتباط سازگار می دانیم.

بیایید فرضیه استقلال بهره وری نیروی کار را از سطح مکانیزه شدن کار با توجه به داده های ارائه شده در بخش 4.1 بررسی کنیم. قبلاً محاسبه شده بود که از (8.38) بدست می آوریم

با استفاده از جدول توزیع Student مقدار بحرانی این آمار را می یابیم: از آنجایی که فرضیه صفر را رد می کنیم، فقط در 5٪ موارد خطا می کنیم.

اگر با مقدار بحرانی ضریب همبستگی که از جدول مربوطه در

که دارای -توزیع با درجات آزادی است. در مرحله بعد، روش بررسی اهمیت مشابه با روش قبلی با استفاده از معیار - انجام می شود.

مثال

بر اساس تحلیل اقتصادی پدیده ها، ما در جمعیت عمومی ارتباط قوی بین بهره وری نیروی کار و سطح مکانیزه شدن کار را فرض می کنیم. اجازه دهید، برای مثال،. به عنوان جایگزین، در این مورد می‌توانیم این فرضیه را مطرح کنیم که ضریب همبستگی نمونه، بنابراین، باید از یک منطقه بحرانی یک طرفه استفاده کنیم. از (8.40) چنین می شود که

ما مقدار به دست آمده را با مقدار بحرانی که داریم مقایسه می کنیم بنابراین، در سطح معنی داری 5 درصد، می توانیم وجود یک ارتباط بسیار نزدیک بین ویژگی های مورد مطالعه را فرض کنیم، یعنی داده های اولیه این امکان را فراهم می کند که قابل قبول باشد.

اهمیت ضرایب همبستگی جزئی به روشی مشابه بررسی می شود. فقط تعداد درجات آزادی تغییر می کند که برابر با تعداد متغیرهای توضیحی می شود. ارزش آماری با استفاده از فرمول محاسبه می شود

با مقدار بحرانی a یافت شده از جدول توزیع در سطح معنی داری a مقایسه می شود و تعداد درجات آزادی پذیرش یا رد فرضیه در مورد اهمیت ضریب همبستگی جزئی طبق همان قاعده ای که در بالا توضیح داده شد انجام می شود. . تست اهمیت را می توان با استفاده از مقادیر بحرانی ضریب همبستگی مطابق با (8.39) و همچنین با استفاده از تبدیل فیشر (8.40) انجام داد.

مثال

بیایید بررسی کنیم پایایی آماریضرایب همبستگی جزئی محاسبه شده در بخش 4.5 در سطح معنی داری در زیر به همراه ضرایب همبستگی جزئی، مقادیر آمار محاسبه شده و بحرانی مربوطه آورده شده است.

با توجه به اینکه فرضیه معنی دار بودن ضرایب پذیرفته شده است، نتیجه می گیریم: سطح مکانیزه شدن کار بدون احتساب میانگین سنی کارگران (و میانگین درصد رعایت استانداردها). تفاوت با صفر سایر ضرایب

همبستگی‌های جزئی را می‌توان به نوسانات تصادفی در نمونه نسبت داد، و بنابراین از آنها نمی‌توان چیزی قطعی در مورد تأثیرات جزئی متغیرهای مربوطه گفت.

در مورد اهمیت ضریب همبستگی چندگانهبر اساس نتیجه روش بررسی اهمیت ضریب قضاوت می شود تعیین چندگانه. در بخش بعدی به تفصیل بیشتر به این موضوع خواهیم پرداخت.

سوالی که اغلب مورد توجه است این است: آیا دو ضریب همبستگی به طور قابل توجهی با یکدیگر متفاوت هستند؟ هنگام آزمایش این فرضیه، فرض می شود که همان ویژگی های جمعیت های همگن در نظر گرفته می شود. داده ها نتایج را نشان می دهد تست های مستقل; ضرایب همبستگی از یک نوع استفاده می شود، به عنوان مثال، ضرایب همبستگی جفتی یا ضرایب همبستگی جزئی در هنگام حذف همان تعداد متغیر.

حجم دو نمونه ای که ضرایب همبستگی از آنها محاسبه می شود ممکن است متفاوت باشد. فرضیه صفر: یعنی ضرایب همبستگی دو جمعیت مورد بررسی برابر است. فرضیه جایگزین: فرضیه جایگزین حاکی از آن است که باید از یک منطقه بحرانی دو طرفه استفاده شود. به عبارت دیگر، باید بررسی کنید که آیا این تفاوت به طور قابل توجهی با صفر متفاوت است یا خیر.

که در آن - نتایج تبدیل ضرایب همبستگی - حجم نمونه. قانون آزمون: اگر فرضیه رد شود. اگر فرضیه پذیرفته شود.

در صورت پذیرش، مقدار

پس از محاسبه مجدد در استفاده از (8.6) به عنوان یک تخمین خلاصه از ضریب همبستگی عمل می کند

دارای توزیع نرمال

مثال

بگذارید مشخص شود که آیا نزدیکی ارتباط بین بهره وری نیروی کار و سطح مکانیزاسیون کار در شرکت های همان صنعت واقع در مناطق مختلف کشور متفاوت است یا خیر. بیایید شرکت های واقع در دو حوزه را با هم مقایسه کنیم. اجازه دهید ضریب همبستگی برای یکی از آنها با استفاده از نمونه حجمی محاسبه شود (به بخش 4.1 مراجعه کنید). برای منطقه Other، با استفاده از نمونه حجمی محاسبه می شود

پس از تبدیل هر دو ضریب همبستگی به مقادیر -، با استفاده از (8.42) مقدار آمار X را محاسبه می کنیم:

ارزش بحرانی آمار در است بنابراین، فرضیه پذیرفته می شود، یعنی بر اساس نمونه های موجود، نمی توانیم تفاوت معنی داری بین ضرایب همبستگی ایجاد کنیم. علاوه بر این، هر دو ضریب همبستگی معنادار هستند.

با استفاده از (8.43) و (8.6)، یک برآورد خلاصه از ضریب همبستگی برای دو منطقه به دست می آوریم:

در نهایت، بیایید این فرضیه را بررسی کنیم که آیا برآورد خلاصه ضریب همبستگی با استفاده از آمار (8.44) با صفر تفاوت معناداری دارد یا خیر.

از آنجایی که می توان ادعا کرد که در جمعیت عمومی بین بهره وری نیروی کار و سطح مکانیزه شدن کار ارتباط معناداری وجود دارد.

معیار X را می توان در جنبه های مختلف مورد استفاده قرار داد. بنابراین، به جای مناطق، صنایع مختلفی را می توان در نظر گرفت، برای مثال، زمانی که لازم است مشخص شود که آیا تفاوت در قدرت اتصالات مورد مطالعه بین شاخص های اقتصادیشرکت های متعلق به دو صنعت مختلف

اجازه دهید بر اساس دو نمونه حجمی، ضرایب همبستگی را محاسبه کنیم که رابطه نزدیک بین بهره وری نیروی کار و سطح مکانیزاسیون کار در شرکت های متعلق به دو صنعت (دو جمعیت عمومی) را مشخص می کند. از (8.42) می گیریم

از آنجایی که ما فرضیه صفر را رد می کنیم. در نتیجه، می توان استدلال کرد که تفاوت های قابل توجهی در نزدیکی رابطه بین بهره وری نیروی کار و سطح مکانیزه شدن کار در شرکت های متعلق به صنایع مختلف وجود دارد. ما این مثال را در بخش 8.7 ادامه خواهیم داد، جایی که خطوط رگرسیون ساخته شده برای دو جمعیت را با هم مقایسه خواهیم کرد.

با تجزیه و تحلیل مثال های ارائه شده، ما متقاعد می شویم که تنها با در نظر گرفتن تفاوت مطلق ضرایب همبستگی مقایسه شده

(اندازه نمونه در هر دو مورد یکسان است) بدون بررسی اهمیت این تفاوت منجر به نتیجه گیری اشتباه می شود. این امر لزوم استفاده از معیارهای آماری را هنگام مقایسه ضرایب همبستگی تأیید می کند.

روش مقایسه دو ضریب همبستگی را می توان به آن تعمیم داد تعداد بزرگترضرایب مشروط به پیش نیازهای فوق. فرضیه برابری ضرایب همبستگی بین متغیرها به صورت زیر بیان می شود: بر اساس ضرایب همبستگی محاسبه شده از نمونه های حجمی از جمعیت های عمومی. ضرایب همبستگی دوباره به مقادیر - محاسبه می شوند: از آنجایی که در مورد کلیناشناخته، تخمین آن را از طریق فرمول می یابیم که تعمیم (8.43) است.

نسخه کامل این یادداشت (به همراه فرمول ها و جداول) را می توانید از این صفحه با فرمت PDF دریافت کنید. متن قرار داده شده در خود صفحه است خلاصهمطالب این یادداشت و مهمترین نتیجه گیری

تقدیم به خوش بینان آمار

ضریب همبستگی (CC) یکی از ساده ترین و محبوب ترین آماری است که رابطه بین متغیرهای تصادفی را مشخص می کند. در عین حال، CC در تعداد نتیجه‌گیری‌های اشتباه و بی‌معنی که با کمک آن انجام شده است، پیشتاز است. این وضعیت به دلیل رویه ثابت ارائه مطالب مرتبط با همبستگی و همبستگی است.

مقادیر QC بزرگ، کوچک و "متوسط".

هنگام در نظر گرفتن رابطه همبستگی، مفهوم همبستگی "قوی" (تقریبا منفرد) و "ضعیف" (تقریبا صفر) به تفصیل مورد بحث قرار می گیرد، اما در عمل نه با یکی و نه دیگری هرگز مواجه نمی شویم. در نتیجه، سوال در مورد تفسیر معقول مقادیر QC "واسطه" که در عمل رایج است نامشخص است. ضریب همبستگی برابر است 0.9 یا 0.8 الهام بخش خوش بینی در یک مبتدی است، اما ارزش های پایین تر او را گیج می کند.

با کسب تجربه، خوش بینی رشد می کند و اکنون QC برابر است 0.7 یا 0.6 محقق را به وجد می آورد و خوش بینی را القا می کند 0.5 و 0.4 . اگر محقق با روش‌های آزمایش فرضیه‌های آماری آشنا باشد، آستانه مقادیر QC "خوب" به پایین می‌آید. 0.3 یا 0.2 .

در واقع، کدام مقادیر CC را می توان «به اندازه کافی بزرگ» در نظر گرفت و کدام «بسیار کوچک» باقی می ماند؟ دو پاسخ کاملاً متضاد برای این سؤال وجود دارد - خوش بینانه و بدبینانه. بیایید ابتدا پاسخ خوش بینانه (محبوب ترین) را در نظر بگیریم.

اهمیت ضریب همبستگی

این گزینه پاسخ توسط آمار کلاسیک به ما داده شده است و مربوط به مفهوم است اهمیت آماری KK. ما در اینجا فقط وضعیتی را در نظر خواهیم گرفت که یک همبستگی مثبت مورد توجه است (مورد همبستگی منفی کاملاً مشابه است). بیشتر مورد دشوار، زمانی که فقط وجود یک همبستگی بدون در نظر گرفتن علامت بررسی شود، در عمل نسبتاً نادر است.

اگر برای QC rنابرابری ارضا شده است r > r e (n)، سپس می گویند که KK از نظر آماری معنی دار استدر سطح معناداری ه. اینجا r e (n)- چندک، در رابطه با آن ما فقط به این واقعیت علاقه مند خواهیم بود که در سطح معنی داری ثابت e مقدار آن با افزایش طول به صفر میل می کند. nنمونه ها به نظر می رسد که با افزایش آرایه داده ها، می توان به اهمیت آماری QC حتی در مقادیر بسیار کوچک دست یافت. در نتیجه، اگر یک نمونه به اندازه کافی بزرگ وجود داشته باشد، وسوسه اعتراف به حضور وجود دارد برای مثال، در مورد CC برابر، 0.06 . با این حال، عقل سلیم حکم می کند که نتیجه گیری در مورد وجود یک همبستگی معنی دار زمانی که r=0.06نمی تواند برای هر اندازه نمونه درست باشد. باید ماهیت خطا را درک کنیم. برای انجام این کار، بیایید نگاهی دقیق‌تر به مفهوم معنی‌داری آماری بیندازیم.

طبق معمول، هنگام آزمون فرضیه های آماری، معنای محاسبات در انتخاب فرضیه صفر و فرضیه جایگزین نهفته است. هنگام بررسی اهمیت CC، این فرض به عنوان یک فرضیه صفر در نظر گرفته می شود (r=0)تحت فرضیه جایگزین (r > 0)(به یاد داشته باشید که ما در اینجا فقط وضعیتی را در نظر می گیریم که یک همبستگی مثبت مورد توجه است). سطح اهمیت آزادانه قابل انتخاب هاحتمال به اصطلاح را تعیین می کند وقتی فرضیه صفر درست باشد، نوع I خطا می کند ( r=0، اما توسط آزمون آماری رد می شود (یعنی آزمون به اشتباه وجود یک همبستگی قابل توجه را تشخیص می دهد). با انتخاب سطح معنی داری، احتمال کم چنین خطایی را تضمین می کنیم، یعنی. ما تقریباً از این واقعیت مصون هستیم که برای نمونه های مستقل ( r=0) به اشتباه وجود یک همبستگی را تشخیص دهد ( r > 0). به طور کلی، اهمیت ضریب همبستگی تنها به این معنی است که به احتمال زیاد با صفر متفاوت است.

به همین دلیل است که اندازه نمونه و مقدار QC یکدیگر را جبران می کنند - نمونه های بزرگ به سادگی امکان دستیابی به دقت بیشتری را در بومی سازی یک QC کوچک با توجه به برآورد نمونه آن فراهم می کنند.

واضح است که مفهوم اهمیت به سؤال اصلی در مورد درک مقوله‌های «بزرگ/کوچک» در رابطه با مقادیر CC پاسخ نمی‌دهد. پاسخ داده شده توسط معیار معناداری چیزی در مورد ویژگی های همبستگی به ما نمی گوید، بلکه فقط به ما اجازه می دهد تا بررسی کنیم که با احتمال زیاد نابرابری ارضا شده است. r > 0. در عین حال، مقدار CC خود حاوی اطلاعات بسیار مهم تری در مورد ویژگی های اتصال همبستگی است. در واقع، CCهای به همان اندازه معنی دار برابر هستند 0.1 و 0.9 ، به طور قابل توجهی در درجه بیان ارتباط همبستگی متناظر و بیانیه در مورد اهمیت CC متفاوت است. r = 0.06برای عمل کاملاً بی فایده است، زیرا با هر اندازه نمونه نیازی به صحبت در مورد همبستگی در اینجا نیست.

در نهایت می توان گفت که در عمل هیچ ویژگی رابطه همبستگی و حتی وجود آن از معنی داری ضریب همبستگی ناشی نمی شود. از نقطه نظر عملی، خود انتخاب یک فرضیه جایگزین که هنگام آزمایش اهمیت QC استفاده می شود ناقص است، زیرا موارد r=0و r>0در کوچک rاز نقطه نظر عملی قابل تشخیص نیستند.

در واقع، زمانی که از اهمیت QCاستنباط وجود همبستگی معنی دار، جایگزینی کاملاً بی شرمانه از مفاهیم را بر اساس ابهام معنایی کلمه "اهمیت" انجام دهید. اهمیت QC (مفهومی به وضوح تعریف شده) به طور فریبنده ای به یک "همبستگی معنی دار" تبدیل می شود و این عبارت که تعریف دقیقی ندارد به عنوان مترادف "همبستگی تلفظ شده" تفسیر می شود.

تقسیم واریانس

بیایید پاسخ دیگری به سؤال در مورد مقادیر CC "کوچک" و "بزرگ" در نظر بگیریم. این گزینه پاسخ با روشن کردن معنای رگرسیون QC همراه است و برای تمرین بسیار مفید است، اگرچه بسیار کمتر از معیارهای اهمیت QC خوش بینانه است.

جالب است که بحث از معنای رگرسیون CC اغلب با مشکلاتی از ماهیت آموزشی (یا بهتر بگوییم روانشناختی) مواجه می شود. اجازه دهید به طور خلاصه در مورد آنها توضیح دهیم. پس از معرفی رسمی CC و تبیین معنای همبستگی‌های قوی و ضعیف، لازم است به مباحث فلسفی رابطه بین همبستگی و روابط علت و معلولی پرداخته شود. در عین حال، تلاش های شدیدی برای رد تلاش (فرضی!) برای تفسیر رابطه همبستگی به عنوان یک رابطه علت و معلولی انجام می شود. در این زمینه، بحث در مورد موضوع در دسترس بودن وابستگی عملکردی(از جمله رگرسیون) بین کمیت های مرتبط به سادگی کفرآمیز به نظر می رسد. بالاخره از وابستگی عملکردی تا رابطه علت و معلولی فقط یک مرحله وجود دارد! در نتیجه، به طور کلی از سؤال معنای رگرسیون CC و همچنین سؤال در مورد خواص همبستگی رگرسیون خطی اجتناب می شود.

در واقع، همه چیز در اینجا ساده است. اگر برای متغیرهای تصادفی نرمال شده (یعنی داشتن انتظار صفر و واریانس واحد). Xو Yیک رابطه وجود دارد

Y = a + bX + N،

کجا ن- برخی از متغیرهای تصادفی با انتظار صفر (نویز افزودنی)، سپس تأیید آن آسان است a = 0و b = r. این رابطه بین متغیرهای تصادفی است Xو Yمعادله رگرسیون خطی نامیده می شود.

محاسبه واریانس یک متغیر تصادفی Yدریافت عبارت زیر آسان است:

D[Y] = b 2 D[X] + D[N].

در آخرین عبارت، جمله اول سهم متغیر تصادفی را تعیین می کند Xبه واریانس Yو اصطلاح دوم سهم نویز است نبه واریانس Y. با استفاده از عبارت بالا برای پارامتر ب، بیان مشارکت متغیرهای تصادفی آسان است Xو ناز طریق قدر r =r(به یاد داشته باشید که ما در حال شمارش مقادیر هستیم Xو Yنرمال شده، یعنی D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r 2

با در نظر گرفتن فرمول های به دست آمده، اغلب گفته می شود که برای متغیرهای تصادفی Xو Yمرتبط معادله رگرسیون، قدر r 2نسبت واریانس یک متغیر تصادفی را تعیین می کند Y، به صورت خطی با تغییر در متغیر تصادفی تعیین می شود X. بنابراین، واریانس کل متغیر تصادفی Yبه پراکندگی تجزیه می شود، شرطی خطیوجود یک اتصال رگرسیون و واریانس باقیمانده، به دلیل وجود نویز افزودنی.


نمودار پراکندگی یک متغیر تصادفی دو بعدی را در نظر بگیرید (X, Y). در کوچک D[N]نمودار پراکندگی به انحطاط می رسد وابستگی خطیبین متغیرهای تصادفی، کمی با نویز افزایشی تحریف شده است (یعنی نقاط روی نمودار پراکندگی بیشتر در نزدیکی خط مستقیم متمرکز خواهند شد. X=Y). این مورد برای مقادیر رخ می دهد r، از نظر مدول به وحدت نزدیک است. با کاهش (در مقدار مطلق) مقدار CC، پراکندگی جزء نویز نشروع به ایجاد سهم بیشتر در پراکندگی کمیت می کند Yو در کوچک rنمودار پراکندگی به طور کامل شباهت خود را به یک خط مستقیم از دست می دهد. در این حالت ابری از نقاط داریم که پراکندگی آنها عمدتاً به دلیل نویز است. این مورد است که در مقادیر قابل توجه، اما کوچک در مقدار مطلق، CC تحقق می یابد. واضح است که در این مورد نیازی به صحبت در مورد همبستگی نیست.

اکنون ببینیم که چه پاسخی به سؤال در مورد مقادیر "بزرگ" و "کوچک" KK توسط تفسیر رگرسیون KK به ما ارائه می شود. اول از همه، لازم است تأکید شود که پراکندگی طبیعی ترین معیار پراکندگی مقادیر یک متغیر تصادفی است. ماهیت این "طبیعی بودن" در افزایش واریانس برای متغیرهای تصادفی مستقل نهفته است، اما این ویژگی دارای تظاهرات بسیار متنوعی است، که شامل تقسیم واریانس نشان داده شده در بالا به واریانس های شرطی خطی و باقیمانده است.

بنابراین ارزش r 2نسبت واریانس کمیت را تعیین می کند Y، به صورت خطی با وجود رابطه رگرسیون با یک متغیر تصادفی تعیین می شود X. این سؤال که چه نسبتی از واریانس تعیین شده به صورت خطی را می توان نشانه وجود یک همبستگی برجسته در نظر گرفت، بر وجدان محقق باقی می ماند. با این حال، مشخص می شود که مقادیر کوچک ضریب همبستگی ( r< 0.3 ) نسبت کوچکی از واریانس توضیح داده شده خطی را ارائه می دهد که صحبت در مورد همبستگی مشخص منطقی نیست. در r > 0.5ما می توانیم در مورد وجود یک همبستگی قابل توجه بین کمیت ها و زمان صحبت کنیم r > 0.7همبستگی را می توان معنادار در نظر گرفت.


مقدمه. 2

1. سنجش معنی داری ضرایب رگرسیون و همبستگی با استفاده از آزمون f استودیو. 3

2. محاسبه اهمیت ضرایب رگرسیون و همبستگی با استفاده از آزمون f استودیو. 6

نتیجه گیری 15

پس از ساخت معادله رگرسیون، لازم است اهمیت آن بررسی شود: با استفاده از معیارهای خاص، تعیین کنید که آیا وابستگی حاصل است یا خیر. با معادله بیان می شودرگرسیون، تصادفی، یعنی. آیا می توان از آن برای اهداف پیش بینی و برای تحلیل عاملی استفاده کرد؟ در آمار، روش‌هایی برای آزمایش دقیق اهمیت ضرایب رگرسیون توسعه داده شده‌اند تجزیه و تحلیل واریانسو محاسبه معیارهای خاص (مثلاً معیار F). با محاسبه میانگین انحراف خطی نسبی (ε)، که میانگین خطای تقریب نامیده می‌شود، می‌توان یک تست شل را انجام داد:

اجازه دهید اکنون به ارزیابی اهمیت ضرایب رگرسیون bj و ایجاد فاصله اطمینان برای پارامترهای مدل رگرسیونی Ru (J=l,2,..., p) بپردازیم.

بلوک 5 - ارزیابی اهمیت ضرایب رگرسیون بر اساس مقدار آزمون ^-Student. مقادیر محاسبه شده ta با مقدار مجاز مقایسه می شود

بلوک 5 - ارزیابی اهمیت ضرایب رگرسیون بر اساس مقدار ^-معیار. مقادیر محاسبه شده t0n با مقدار مجاز 4،/ مقایسه می شود که از جداول توزیع t برای یک احتمال خطای داده شده (a) و تعداد درجه آزادی (/) تعیین می شود.

علاوه بر بررسی معنی‌داری کل مدل، لازم است معنی‌داری ضرایب رگرسیون را با استفاده از آزمون Student /-آزمایش کرد. حداقل مقدار ضریب رگرسیون bg باید با شرط bifob-^t مطابقت داشته باشد، جایی که bi مقدار ضریب معادله رگرسیون در مقیاس طبیعی در فاکتور i-cعلامت؛ آه - میانگین مربعات خطای هر ضریب. عدم مقایسه ضرایب D در اهمیت آنها.

تجزیه و تحلیل آماری بیشتر مربوط به آزمایش اهمیت ضرایب رگرسیون است. برای انجام این کار، مقدار ^-معیار را برای ضرایب رگرسیون پیدا می کنیم. در نتیجه مقایسه آنها، کوچکترین ^-معیار تعیین می شود. عاملی که ضریب آن با کوچکترین ^-معیار مطابقت دارد از تجزیه و تحلیل بیشتر حذف می شود.

برای ارزیابی معنی‌داری آماری ضرایب همبستگی و رگرسیون از آزمون t استیودنت و فواصل اطمینانهر یک از شاخص ها فرضیه ای در مورد ماهیت تصادفی شاخص ها مطرح می شود، به عنوان مثال. در مورد تفاوت ناچیز آنها از صفر. ارزیابی اهمیت ضرایب رگرسیون و همبستگی با استفاده از آزمون F Student با مقایسه مقادیر آنها با بزرگی خطای تصادفی انجام می شود:

ارزیابی اهمیت ضرایب رگرسیون خالص با استفاده از آزمون Student's /- به محاسبه مقدار می رسد.

کیفیت کار مشخصه کار خاص است که نشان دهنده میزان پیچیدگی، شدت (شدت)، شرایط و اهمیت آن برای توسعه اقتصادی است. K.t. از طریق یک سیستم تعرفه ای اندازه گیری می شود که اجازه می دهد دستمزدها بسته به سطح صلاحیت ها (پیچیدگی کار)، شرایط، شدت کار و شدت آن و همچنین اهمیت صنایع و تولیدات منفرد، مناطق، سرزمین ها برای توسعه متفاوت باشد. اقتصاد کشور K.t. بیان می یابد در دستمزدکارگران، تحت تأثیر عرضه و تقاضا در بازار کار توسعه می یابند نیروی کار(انواع خاص کار). K.t. - ساختار پیچیده

امتیازهای به‌دست‌آمده از اهمیت نسبی پیامدهای اقتصادی، اجتماعی و زیست‌محیطی فردی پروژه، زمینه‌ای برای مقایسه پروژه‌های جایگزین و گزینه‌های آنها با استفاده از «معیار امتیازدهی پیچیده بدون بعد کارایی اجتماعی و زیست‌محیطی-اقتصادی» پروژه Ek، محاسبه‌شده فراهم می‌کند. (در میانگین نمرات معنی داری) با استفاده از فرمول

مقررات درون صنعتی، تفاوت در دستمزد کارگران در یک صنعت معین را بسته به اهمیت انواع تولید در یک صنعت معین، پیچیدگی و شرایط کاری، و همچنین شکل‌های دستمزد مورد استفاده تضمین می‌کند.

ارزیابی رتبه بندی حاصل از شرکت تحلیل شده در رابطه با شرکت استاندارد بدون در نظر گرفتن اهمیت شاخص های فردی، مقایسه ای است. هنگام مقایسه رتبه بندی چندین شرکت بالاترین امتیازدارای شرکتی با حداقل ارزش ارزیابی مقایسه ای به دست آمده است.

درک کیفیت یک محصول به عنوان معیاری برای سودمندی آن به صورت عملی است سوال مهمدر مورد اندازه گیری آن راه حل آن با مطالعه اهمیت ویژگی های فردی در ارضای یک نیاز خاص به دست می آید. اهمیت حتی یک ویژگی ممکن است بسته به شرایط مصرف محصول متفاوت باشد. در نتیجه، سودمندی محصول در شرایط مختلفکاربردهای آن متفاوت است

مرحله دوم کار، مطالعه داده های آماری و شناسایی رابطه و تعامل شاخص ها، تعیین اهمیت عوامل فردی و دلایل تغییر در شاخص های کلی است.

همه شاخص های در نظر گرفته شده به گونه ای در یکی ترکیب می شوند که نتیجه یک ارزیابی جامع از تمام جنبه های تجزیه و تحلیل شده فعالیت های شرکت با در نظر گرفتن شرایط فعالیت آن و با در نظر گرفتن درجه اهمیت شاخص های فردی باشد. انواع مختلفسرمایه گذاران:

ضرایب رگرسیون شدت تأثیر عوامل بر شاخص عملکرد را نشان می دهد. اگر استانداردسازی اولیه شاخص‌های عاملی انجام شده باشد، b0 برابر است با میانگین مقدار شاخص مؤثر در مجموع. ضرایب b, b2 ..... bl نشان می دهد که اگر مقادیر شاخص عامل از میانگین برابر با صفر در یک انحراف داشته باشد، سطح شاخص مؤثر از مقدار میانگین آن چند واحد انحراف دارد. انحراف معیار. بنابراین، ضرایب رگرسیون درجه اهمیت عوامل فردی را برای افزایش سطح شاخص عملکرد مشخص می کند. مقادیر ویژه ضرایب رگرسیون بر اساس روش از داده های تجربی تعیین می شود حداقل مربعات(در نتیجه حل سیستم های معادلات عادی).

2. محاسبه معنی داری رگرسیون و ضرایب همبستگی با استفاده از آزمون F Student.

اجازه دهید شکل خطی روابط چند عاملی را نه تنها به عنوان ساده ترین، بلکه به عنوان شکل ارائه شده توسط بسته های نرم افزار کاربردی برای رایانه های شخصی در نظر بگیریم. اگر ارتباط بین یک عامل منفرد و ویژگی حاصل خطی نباشد، معادله با جایگزینی یا تبدیل مقدار ویژگی عامل خطی می شود.

نمای کلیمعادله رگرسیون چند متغیره به شکل زیر است:


که در آن k تعداد مشخصه های عامل است.

برای ساده سازی سیستم معادلات حداقل مربعات لازم برای محاسبه پارامترهای معادله (8.32)، معمولاً انحراف مقادیر فردی همه ویژگی ها از مقادیر میانگین این ویژگی ها معرفی می شود.

ما سیستمی از k معادلات حداقل مربعات را به دست می آوریم:

با حل این سیستم، مقادیر ضرایب رگرسیون خالص مشروط b را بدست می آوریم. جمله آزاد معادله با فرمول محاسبه می شود


اصطلاح "ضریب رگرسیون خالص مشروط" به این معنی است که هر یک از مقادیر bj میانگین مجموع انحراف مشخصه حاصل از مقدار متوسط ​​خود را هنگامی که یک عامل معین xj از مقدار متوسط ​​خود به اندازه یک واحد اندازه گیری انحراف داشته باشد اندازه گیری می کند و به شرطی که همه سایر عوامل موجود در معادله رگرسیون، ثابت در مقادیر متوسط، تغییر نمی کنند، تغییر نمی کنند.

بنابراین، بر خلاف ضریب رگرسیون زوجی، ضریب رگرسیون خالص شرطی تأثیر یک عامل را اندازه‌گیری می‌کند و از رابطه تغییر این عامل با تغییرات سایر عوامل انتزاع می‌کند. اگر می توان در معادله رگرسیون همه عوامل مؤثر بر تغییر مشخصه حاصل را گنجاند، آنگاه مقادیر bj. را می توان معیارهای تأثیر محض عوامل در نظر گرفت. اما از آنجایی که در واقع گنجاندن همه عوامل در معادله غیرممکن است، ضرایب bj. عاری از ترکیب تأثیر عواملی که در معادله گنجانده نشده است.

گنجاندن همه عوامل در معادله رگرسیون به یکی از سه دلیل یا همه آنها به طور همزمان غیرممکن است، زیرا:

1) برخی از عوامل ممکن است ناشناخته باشند علم مدرندانش هر فرآیندی همیشه ناقص است.

2) اطلاعاتی در مورد برخی از عوامل نظری شناخته شده وجود ندارد یا غیر قابل اعتماد است.

3) اندازه جامعه مورد مطالعه (نمونه) محدود است که امکان گنجاندن تعداد محدودی از عوامل را در معادله رگرسیون فراهم می کند.

ضرایب رگرسیون خالص شرطی bj. اعدادی هستند که در واحدهای اندازه گیری مختلف بیان می شوند و بنابراین با یکدیگر غیر قابل مقایسه هستند. برای تبدیل آنها به شاخص های نسبی قابل مقایسه، همان تبدیلی که برای به دست آوردن ضریب همبستگی زوجی استفاده می شود. مقدار حاصل نامیده می شود ضریب استاندارد شدهرگرسیون یا ضریب؟


ضریب عامل xj، اندازه گیری تأثیر تغییر عامل xj را بر تغییر مشخصه حاصل از y، انتزاع از تغییرات همراه سایر عوامل موجود در معادله رگرسیون، تعیین می کند.

بیان ضرایب رگرسیون خالص مشروط در قالب شاخص های نسبی قابل مقایسه اتصال، ضرایب کشش مفید است:

ضریب کشش ضریب xj می گوید که وقتی مقدار یک عامل معین از مقدار متوسط ​​آن 1% انحراف داشته باشد و از انحراف همزمان سایر عوامل موجود در معادله انتزاع شود، مشخصه حاصل از مقدار متوسط ​​آن به میزان ej درصد منحرف خواهد شد. از y. بیشتر اوقات، ضرایب کشش بر حسب دینامیک تفسیر و اعمال می شود: با افزایش ضریب x به میزان 1٪ از مقدار متوسط ​​آن، مشخصه حاصل با درصد میانگین آن افزایش می یابد.

بیایید محاسبه و تفسیر معادله رگرسیون چند عاملی را با استفاده از همان 16 مزرعه به عنوان مثال در نظر بگیریم (جدول 8.1). علامت - سطح درآمد ناخالصو سه عامل مؤثر بر آن در جدول ارائه شده است. 8.7.

اجازه دهید یک بار دیگر یادآوری کنیم که برای به دست آوردن شاخص های قابل اعتماد و به اندازه کافی دقیق از همبستگی، به جمعیت بیشتری نیاز است.


جدول 8.7

سطح درآمد ناخالص و عوامل آن

اعداد مزرعه

درآمد ناخالص، روبل./ra

هزینه های نیروی کار، روز انسان در هکتار x1

سهم زمین زراعی،

تولید شیر در هر 1 گاو،


جدول 8.8 شاخص های معادله رگرسیون


متغیر وابسته: y

ضریب رگرسیون

ثابت-240.112905

Std. خطای est = 79.243276


راه حل با استفاده از برنامه "Microstat" برای رایانه شخصی انجام شد. در اینجا جداول از چاپ آمده است: جدول. 8.7 مقادیر متوسط ​​و انحراف استاندارد همه ویژگی ها را نشان می دهد. جدول 8.8 شامل ضرایب رگرسیون و ارزیابی احتمالی آنها است:

ستون اول "var" - متغیرها، یعنی عوامل؛ ستون دوم "ضریب رگرسیون" - ضرایب رگرسیون خالص مشروط bj. ستون سوم «std. err" - میانگین خطا در برآورد ضرایب رگرسیون. ستون چهارم - مقادیر آزمون t Student با 12 درجه آزادی تنوع. ستون پنجم "prob" - احتمال فرضیه صفر نسبت به ضرایب رگرسیون.

ستون ششم "R2 جزئی" - ضرایب تعیین جزئی. محتوا و روش محاسبه شاخص ها در ستون های 3-6 در فصل 8 بیشتر مورد بحث قرار گرفته است. "ثابت" عبارت آزاد معادله رگرسیون a است. "سنت خطای est. - میانگین مربعات خطای تخمین مشخصه مؤثر با استفاده از معادله رگرسیون. معادله به دست آمد رگرسیون چندگانه:


y = 2.26x1 - 4.31x2 + 0.166x3 - 240.


این بدان معناست که میزان درآمد ناخالص در هر 1 هکتار زمین کشاورزی به طور متوسط ​​2.26 روبل افزایش یافت. با افزایش هزینه های نیروی کار 1 ساعت در هکتار؛ به طور متوسط ​​4.31 روبل کاهش یافت. با افزایش سهم زمین قابل کشت در زمین های کشاورزی 1٪ و افزایش 0.166 روبل. با افزایش تولید شیر در هر گاو 1 کیلوگرم ارزش منفی مدت آزاد کاملاً طبیعی است و همانطور که قبلاً در بند 8.2 ذکر شد ، علامت مؤثر - درآمد ناخالص مدتها قبل از اینکه عوامل به مقادیر صفر برسند صفر می شود ، که در تولید غیرممکن است.

مقدار منفی ضریب برای x^ سیگنالی از مشکل قابل توجه در اقتصاد مزارع مورد مطالعه است که در آن کشاورزی زراعی سودآور نیست و فقط دامداری سودآور است. با روش‌های منطقی کشاورزی و قیمت‌های معمولی (تعادل یا نزدیک به آنها) برای محصولات همه بخش‌ها، درآمد نباید کاهش یابد، بلکه با افزایش حاصلخیزترین سهم زمین کشاورزی - زمین‌های زراعی، افزایش یابد.

بر اساس داده های دو ردیف ماقبل آخر جدول. 8.7 و جدول. 8.8 ما ضرایب p و ضرایب کشش را با توجه به فرمول های (8.34) و (8.35) محاسبه می کنیم.

هر دو تغییر در سطح درآمد و تغییر احتمالی آن در پویایی به شدت تحت تأثیر عامل x3 - بهره وری گاوها، و ضعیف ترین آنها توسط x2 - سهم زمین قابل کشت است. مقادیر P2/ بیشتر مورد استفاده قرار خواهند گرفت (جدول 8.9).


جدول 8.9 تأثیر مقایسه ای عوامل بر سطح درآمد

عوامل xj


بنابراین، ما به دست آوردیم که ضریب - ضریب xj به ضریب کشش این ضریب مربوط می شود، همانطور که ضریب تغییرات ضریب به ضریب تغییرات مشخصه حاصل مربوط می شود. از آنجایی که همانطور که از خط آخر جدول مشخص است. 8.7، ضرایب تغییرات همه عوامل کمتر از ضریب تغییرات مشخصه حاصل است. همه ضرایب؟ کمتر از ضرایب کشش هستند.

بیایید رابطه بین ضریب رگرسیون زوجی و شرطی خالص را با استفاده از عامل -с به عنوان مثال در نظر بگیریم. جفت معادله خطیارتباط y با x به شکل زیر است:


y = 3.886x1 - 243.2


ضریب رگرسیون خالص مشروط در x1 تنها 58 درصد از ضریب رگرسیون زوجی است. 42 درصد باقی مانده به این دلیل است که تغییر x1 با تغییر در عوامل x2 x3 همراه است که به نوبه خود بر صفت حاصل تأثیر می گذارد. اتصالات همه مشخصه ها و ضرایب رگرسیون زوجی آنها در نمودار اتصالات ارائه شده است (شکل 8.2).

اگر تخمین‌های تأثیر مستقیم و غیرمستقیم تغییر x1 را روی y جمع کنیم، یعنی حاصل ضرب ضرایب رگرسیون زوجی در امتداد همه «مسیرها» (شکل 8.2)، به دست می‌آید: 2.26 + 12.55 0.166 + (0.00128-) (- 4.31) + (0.00128-) 17.00 0.166 = 4.344.

این ارزش حتی بیشتر است ضریب جفتاتصال x1 با y. در نتیجه، تأثیر غیرمستقیم تغییر x1 از طریق عواملی که در معادله گنجانده نشده اند، برعکس است و در مجموع نشان می دهد:


1 Ayvazyan S.A., Mkhitaryan V.S. آمار کاربردی و مبانی اقتصاد سنجی. کتاب درسی برای دانشگاه ها. - م.: وحدت، 2008، - 311 ص.

2 جانستون جی. روشهای اقتصادسنجی. - م.: آمار، 1980. – ۲۸۲ ثانیه.

3 Dougherty K. مقدمه ای بر اقتصاد سنجی. - M.: INFRA-M، 2004، - 354 p.

4 Dreyer N.، Smith G.، تحلیل رگرسیون کاربردی. - م.: امور مالی و آمار، 2006، - 191 ص.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. اقتصاد سنجی. دوره اولیه.-م.: دلو، 2006، – 259 ص.

6 کارگاه اقتصاد سنجی / ویرایش. I.I. Eliseeva - M.: امور مالی و آمار، 2004، - 248 ص.

7 اقتصاد سنجی / ویرایش. I.I. Eliseeva - M.: امور مالی و آمار، 2004، - 541 ص.

8 Kremer N., Putko B. Econometrics - M.: UNITY-DANA, 200, – 281 p.



تدریس خصوصی

برای مطالعه یک موضوع به کمک نیاز دارید؟

متخصصان ما در مورد موضوعات مورد علاقه شما مشاوره یا خدمات آموزشی ارائه خواهند کرد.
درخواست خود را ارسال کنیدبا نشان دادن موضوع در حال حاضر برای اطلاع از امکان اخذ مشاوره.

کار دوره

موضوع: تحلیل همبستگی

مقدمه

1. تحلیل همبستگی

1.1 مفهوم همبستگی

1.2 طبقه بندی کلیهمبستگی ها

1.3 زمینه های همبستگی و هدف از ساخت آنها

1.4 مرحله تحلیل همبستگی

1.5 ضرایب همبستگی

1.6 ضریب همبستگی Bravais-Pearson نرمال شده

1.7 ضریب همبستگی رتبهاسپیرمن

1.8 ویژگی های اساسی ضرایب همبستگی

1.9 بررسی اهمیت ضرایب همبستگی

1.10 ارزش های بحرانیضریب همبستگی جفتی

2. برنامه ریزی یک آزمایش چند عاملی

2.1 وضعیت مشکل

2.2 تعیین مرکز پلان (سطح پایه) و سطح تغییرات عامل

2.3 ساخت ماتریس برنامه ریزی

2.4 بررسی همگنی پراکندگی و هم ارزی اندازه گیری در سری های مختلف

2.5 ضرایب معادله رگرسیون

2.6 واریانس تکرارپذیری

2.7 بررسی اهمیت ضرایب معادله رگرسیون

2.8 بررسی کفایت معادله رگرسیون

نتیجه گیری

مراجع

مقدمه

برنامه ریزی تجربی یک رشته ریاضی و آماری است که به مطالعه روش های سازماندهی منطقی می پردازد تحقیق تجربی- از انتخاب بهینهعوامل در حال مطالعه و تعیین طرح آزمایشی واقعی مطابق با هدف آن تا روش های تجزیه و تحلیل نتایج. برنامه‌ریزی تجربی با کار آماردان انگلیسی R. Fisher (1935) آغاز شد، که تأکید کرد برنامه‌ریزی تجربی منطقی در مقایسه با پردازش بهینه نتایج اندازه‌گیری، دستاوردهای مهمی در دقت برآوردها ندارد. در دهه 60 قرن بیستم وجود داشت نظریه مدرنبرنامه ریزی آزمایش روش های او ارتباط نزدیکی با نظریه تقریب تابع و برنامه ریزی ریاضی دارد. پلان های بهینه ساخته شد و خواص آنها برای کلاس وسیعی از مدل ها مورد مطالعه قرار گرفت.

برنامه ریزی تجربی - انتخاب یک طرح آزمایشی که الزامات مشخص شده را برآورده می کند، مجموعه ای از اقدامات با هدف توسعه یک استراتژی آزمایشی (از به دست آوردن اطلاعات قبلی تا به دست آوردن یک مدل ریاضی قابل اجرا یا تعیین). شرایط بهینه). این کنترل هدفمند یک آزمایش است که در شرایط دانش ناقص از مکانیسم پدیده مورد مطالعه اجرا می شود.

در فرآیند اندازه گیری ها، پردازش های بعدی داده ها و همچنین رسمی سازی نتایج در قالب یک مدل ریاضی، خطاهایی ایجاد می شود و برخی از اطلاعات موجود در داده های اصلی از بین می روند. استفاده از روش های برنامه ریزی تجربی، تشخیص خطای مدل ریاضی و قضاوت در مورد کفایت آن را ممکن می سازد. اگر دقت مدل ناکافی باشد، استفاده از روش های برنامه ریزی تجربی امکان نوسازی را فراهم می کند. مدل ریاضیبا آزمایش های اضافی بدون از دست دادن اطلاعات قبلی و با حداقل هزینه.

هدف از برنامه ریزی یک آزمایش، یافتن شرایط و قوانینی برای انجام آزمایش است که تحت آن امکان دستیابی به اطلاعات قابل اعتماد و قابل اعتماد در مورد یک شی با کمترین کار و همچنین ارائه این اطلاعات به شکل فشرده و راحت باشد. با ارزیابی کمی دقت.

از جمله روش های اصلی برنامه ریزی مورد استفاده در مراحل مختلف مطالعه عبارتند از:

برنامه ریزی یک آزمایش غربالگری، که معنای اصلی آن انتخاب از کل مجموعه عوامل گروهی از عوامل مهم است که مشمول مطالعه دقیق بیشتر هستند.

طراحی تجربی برای ANOVA، i.e. تهیه نقشه برای اشیاء با عوامل کیفی؛

برنامه ریزی یک آزمایش رگرسیون که به شما امکان می دهد به دست آورید مدل های رگرسیون(چند جمله ای و دیگران)؛

برنامه ریزی یک آزمایش شدید که در آن وظیفه اصلی بهینه سازی آزمایشی موضوع تحقیق است.

برنامه ریزی هنگام مطالعه فرآیندهای پویا و غیره

هدف از مطالعه این رشته، آماده سازی دانشجویان برای فعالیت های تولیدی و فنی در تخصص خود با استفاده از روش های تئوری برنامه ریزی و فناوری های نوین اطلاعات است.

اهداف رشته: مطالعه روش های مدرنبرنامه ریزی، سازماندهی و بهینه سازی آزمایش های علمی و صنعتی، انجام آزمایش ها و پردازش نتایج به دست آمده.

1. تحلیل همبستگی

1.1 مفهوم همبستگی

یک محقق اغلب به چگونگی ارتباط دو یا چند متغیر با یکدیگر در یک یا چند نمونه مورد مطالعه علاقه مند است. به عنوان مثال، آیا قد می تواند بر وزن افراد تأثیر بگذارد یا فشار خون می تواند بر کیفیت محصول تأثیر بگذارد؟

به این نوع وابستگی بین متغیرها همبستگی یا همبستگی می گویند. همبستگی یک تغییر ثابت در دو ویژگی است که منعکس کننده این واقعیت است که تغییرپذیری یک مشخصه مطابق با متغیر بودن دیگری است.

برای مثال مشخص است که به طور متوسط ​​بین قد افراد و وزن آنها تفاوت وجود دارد. ارتباط مثبتو به این صورت که هر چه قد بیشتر باشد وزن فرد بیشتر می شود. با این حال، استثناهایی برای این قاعده وجود دارد که نسبتاً باشد افراد کوتاه قددارند اضافه وزنو برعکس آستنیک ها با رشد زیاد وزن کمی دارند. دلیل چنین استثناهایی این است که هر بیولوژیکی، فیزیولوژیکی یا علامت روانیبا تأثیر عوامل زیادی تعیین می شود: محیطی، ژنتیکی، اجتماعی، محیطی و غیره.

اتصالات همبستگی تغییرات احتمالی هستند که فقط بر روی نمونه های نماینده با استفاده از روش های آمار ریاضی قابل مطالعه هستند. هر دو اصطلاح - رابطه همبستگی و وابستگی همبستگی - اغلب به جای هم استفاده می شوند. وابستگی مستلزم نفوذ، ارتباط است - هر تغییر هماهنگی که می تواند با صدها دلیل توضیح داده شود. همبستگی ها را نمی توان به عنوان شاهدی بر رابطه علت و معلولی در نظر گرفت.

وابستگی همبستگی - اینها تغییراتی هستند که مقادیر یک مشخصه را به احتمال وقوع وارد می کنند معانی مختلفنشانه دیگری

وظیفه تحلیل همبستگی به تعیین جهت (مثبت یا منفی) و شکل (خطی، غیرخطی) رابطه بین ویژگی های مختلف، اندازه گیری تنگی آن و در نهایت بررسی سطح اهمیت ضرایب همبستگی به دست آمده می رسد.

اتصالات همبستگی در شکل، جهت و درجه (قدرت) متفاوت است. .

شکل رابطه همبستگی می تواند خطی یا منحنی باشد. به عنوان مثال، ارتباط بین تعداد جلسات آموزشی در شبیه ساز و تعداد مسائل به درستی حل شده در جلسه کنترل ممکن است ساده باشد. برای مثال، رابطه بین سطح انگیزه و اثربخشی یک کار ممکن است منحنی باشد (شکل 1). با افزایش انگیزه، ابتدا اثربخشی انجام یک کار افزایش می یابد، سپس سطح بهینه انگیزه به دست می آید که با حداکثر اثربخشی انجام کار مطابقت دارد. افزایش بیشتر انگیزه با کاهش کارایی همراه است.

شکل 1- رابطه بین اثربخشی حل مسئله و قدرت تمایلات انگیزشی

در جهت، رابطه همبستگی می تواند مثبت ("مستقیم") و منفی ("معکوس") باشد. با همبستگی خطی مثبت، مقادیر بالاتر یک مشخصه با مقادیر بالاتر مشخصه دیگر مطابقت دارد و مقادیر پایین تر یک مشخصه مربوط به مقادیر پاییندیگری (شکل 2). با یک همبستگی منفی، روابط معکوس هستند (شکل 3). با همبستگی مثبت، ضریب همبستگی دارد علامت مثبت، با یک همبستگی منفی - یک علامت منفی.

شکل 2 - همبستگی مستقیم

شکل 3 - همبستگی معکوس


شکل 4 - بدون همبستگی

درجه، قدرت یا نزدیکی همبستگی با مقدار ضریب همبستگی تعیین می شود. قدرت اتصال به جهت آن بستگی ندارد و توسط ارزش مطلقضریب همبستگی

1.2 طبقه بندی کلی همبستگی ها

بسته به ضریب همبستگی، همبستگی های زیر متمایز می شوند:

قوی، یا نزدیک با ضریب همبستگی r>0.70.

میانگین (در 0.50

متوسط ​​(در 0.30

ضعیف (در 0.20

بسیار ضعیف (در r<0,19).

1.3 زمینه های همبستگی و هدف از ساخت آنها

همبستگی بر اساس داده های تجربی، که مقادیر اندازه گیری شده (x i، y i) دو ویژگی است، مورد مطالعه قرار می گیرد. اگر داده های تجربی کمی وجود داشته باشد، توزیع تجربی دو بعدی به عنوان یک سری دوگانه از مقادیر x i و y i نشان داده می شود. در عین حال، وابستگی همبستگی بین ویژگی ها را می توان به روش های مختلفی توصیف کرد. مطابقت بین یک آرگومان و یک تابع را می توان با جدول، فرمول، نمودار و غیره نشان داد.

تجزیه و تحلیل همبستگی، مانند سایر روش های آماری، مبتنی بر استفاده از مدل های احتمالی است که رفتار ویژگی های مورد مطالعه را در یک جامعه عمومی خاص که مقادیر تجربی xi و y i از آن به دست می آید، توصیف می کند. هنگام مطالعه همبستگی بین ویژگی های کمی، که مقادیر آن را می توان به طور دقیق در واحدهای مقیاس متریک (متر، ثانیه، کیلوگرم، و غیره) اندازه گیری کرد، اغلب یک مدل جمعیت دو بعدی توزیع شده معمولی اتخاذ می شود. چنین مدلی رابطه بین متغیرهای x i و y i را به صورت گرافیکی در قالب مکان هندسی نقاط در یک سیستم مختصات مستطیلی نمایش می دهد. به این رابطه گرافیکی، نمودار پراکندگی یا میدان همبستگی نیز می گویند.
این مدل از توزیع نرمال دو بعدی (میدان همبستگی) به ما اجازه می دهد تا تفسیر گرافیکی واضحی از ضریب همبستگی ارائه دهیم، زیرا توزیع در کل به پنج پارامتر بستگی دارد: μ x، μ y - مقادیر متوسط ​​(انتظارات ریاضی). σ x ,σ y – انحراف معیار متغیرهای تصادفی X و Y و p – ضریب همبستگی که معیاری از رابطه بین متغیرهای تصادفی X و Y است.
اگر p = 0، آنگاه مقادیر x i، y i به دست آمده از یک جمعیت نرمال دوبعدی بر روی نمودار در مختصات x، y در ناحیه محدود شده توسط دایره قرار دارند (شکل 5، a). در این حالت بین متغیرهای تصادفی X و Y همبستگی وجود ندارد و به آنها ناهمبسته می گویند. برای توزیع نرمال دو بعدی، عدم همبستگی به طور همزمان به معنای استقلال متغیرهای تصادفی X و Y است.



جدید در سایت

>

محبوب ترین