Додому Порожнину рота Коефіцієнти кореляції. Множинний коефіцієнт кореляції та коефіцієнт детермінації

Коефіцієнти кореляції. Множинний коефіцієнт кореляції та коефіцієнт детермінації


  1. Оцініть якість збудованої моделі. Чи покращилася якість моделі порівняно з однофакторною моделлю? Дайте оцінку впливу значущих чинниківна результат за допомогою коефіцієнтів еластичності, - та -коефіцієнтів.
Для оцінки якості обраної множини (6) , аналогічно п.1.4 даної задачі, використовуємо коефіцієнт детермінації R- квадрат, середню відносну помилкуапроксимації та F-Критер Фішера.

Коефіцієнт детермінації R-Квадрат візьмемо з підсумків «Регресії» (таблиця «Регресійна статистика» для моделі (6)).

Отже, варіація (зміна) ціни квартири Yна 76,77% пояснюється за цим рівнянням варіацією міста області Х 1 , числа кімнат у квартирі Х 2 та житлової площі Х 4 .

Використовуємо вихідні дані Y iта знайдені інструментом «Регресія» залишки (Таблиця «Виведення залишку» для моделі (6)). Розрахуємо відносні похибки та знайдемо середнє значення
.

ВИСНОВОК ЗАЛИШКУ


Спостереження

Передбачене Y

Залишки

Отн. похибка

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Середнє

101,2375

22,51770962

За стовпцем відносних похибок знайдемо середнє значення =22.51% (за допомогою функції СРЗНАЧ).

Порівняння показує, що 22.51%>7%. Отже, точність моделі є незадовільною.

За допомогою F - Критерія Фішера перевіримо значущість моделі загалом. Для цього випишемо з результатів застосування інструменту «Регресія» (таблиця «дисперсійний аналіз» для моделі (6)) F= 39,6702.

За допомогою функції FРАСПОБР знайдемо значення F кр =3.252 для рівня значимості α = 5%, і чисел ступенів свободи k 1 = 2 , k 2 = 37 .

F> F кр, отже, рівняння моделі (6) є значущим, його використання доцільно, залежна змінна Yдосить добре описується включеними в модель (6) факторними змінними Х 1 , Х 2 . і Х 4 .

Додатково за допомогою t -Крітерія Стьюдента перевіримо значимість окремих коефіцієнтів моделі.

t-Статистики для коефіцієнтів рівняння регресії наведені в підсумках інструменту «Регресія». Отримано такі значення для вибраної моделі (6) :


Коефіцієнти

Стандартна помилка

t-статистика

P-Значення

Нижні 95%

Верхні 95%

Нижні 95,0%

Верхні 95,0%

Y-перетин

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2,27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Критичне значення t крзнайдено для рівня значимості α=5%та числа ступенів свободи k=40–2–1=37 . t кр =2.026 (функція СТЬЮДРАСПОБР).

Для вільного коефіцієнта α =–5.643 визначено статистику
, t крОтже, вільний коефіцієнт не є значущим, його можна виключити з моделі.

Для коефіцієнта регресії β 1 =6.859 визначено статистику
, β 1 не є значним, його та фактор міста області можна видалити з моделі.

Для коефіцієнта регресії β 2 =-1,985 визначено статистику
, t кр, отже, коефіцієнт регресії β 2 Не є значним, його і фактор числа кімнат у квартирі можна виключити з моделі.

Для коефіцієнта регресії β 4 =2.591 визначено статистику
, >t кр, отже, коефіцієнт регресії β 4 є значним, його і фактор житлової площі квартири можна зберегти в моделі.

Висновки про значимість коефіцієнтів моделі зроблено лише на рівні значимості α=5%. Розглядаючи стовпець «P-значення», зазначимо, що вільний коефіцієнт α вважатимуться значним лише на рівні 0.64 = 64%; коефіцієнт регресії β 1 - На рівні 0,46 = 46%; коефіцієнт регресії β 2 - На рівні 0,8 = 80%; а коефіцієнт регресії β 4 - На рівні 2,27 E-06 = 2,26691790951854E-06 = 0,0000002%.

При додаванні до рівняння нових факторних змінних автоматично збільшується коефіцієнт детермінації R 2 і зменшується середня помилкаапроксимації, хоча при цьому не завжди покращується якість моделі. Тому для порівняння якості моделі (3) та обраної множинної моделі (6) використовуємо нормовані коефіцієнти детермінації.

Таким чином, при додаванні до рівняння регресії фактора «місто області» Х 1 та фактора «число кімнат у квартирі» Х 2 якість моделі погіршилося, що говорить на користь видалення факторів Х 1 та Х 2 із моделі.

Проведемо подальші розрахунки.

Середні коефіцієнти еластичності у разі лінійної моделі визначаються формулами
.

За допомогою функції СРЗНАЧ знайдемо: S Y, при збільшенні лише фактора Х 4 на одне його стандартне відхилення- Збільшується на 0,914 S Y

Дельта-коефіцієнти визначаються формулами
.

Знайдемо коефіцієнти парної кореляції за допомогою інструмента «Кореляція» пакета «Аналіз даних» в Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Коефіцієнт детермінації було визначено раніше і дорівнює 0.7677.

Обчислимо дельта-коефіцієнти:

;

Оскільки Δ 1 1 і Х 2 вибрано невдало, і їх потрібно видалити з моделі. Отже, за рівнянням отриманої лінійної трифакторної моделі зміна результуючого фактора Y(ціни квартири) на 104% пояснюється впливом фактора Х 4 (житловою площею квартири), на 4% впливом фактора Х 2 (кількість кімнат), на 0,0859% впливом фактора Х 1 (Місто області).

Регресійний аналіз - це статистичний метод дослідження, що дозволяє показати залежність того чи іншого параметра від однієї чи кількох незалежних змінних. У докомп'ютерну епоху його застосування було досить складно, особливо якщо йшлося про великі обсяги даних. Сьогодні, дізнавшись, як побудувати регресію в Excel, можна вирішувати складні статистичні завдання буквально за пару хвилин. Нижче представлені конкретні приклади галузі економіки.

Види регресії

Саме це поняття було введено в математику у 1886 році. Регресія буває:

  • лінійної;
  • параболічній;
  • статечною;
  • експоненційною;
  • гіперболічній;
  • показовою;
  • логарифмічні.

Приклад 1

Розглянемо завдання визначення залежності кількості членів колективу, що звільнилися, від середньої зарплати на 6 промислових підприємствах.

Завдання. На шести підприємствах проаналізували середньомісячну заробітну платута кількість співробітників, які звільнилися за власним бажанням. У табличній формі маємо:

Кількість звільнених

Зарплата

30000 рублів

35000 рублів

40000 рублів

45000 рублів

50000 рублів

55000 рублів

60000 рублів

Для завдання визначення залежності кількості працівників, що звільнилися, від середньої зарплати на 6 підприємствах модель регресії має вигляд рівняння Y = а 0 + а 1 x 1 +…+а k x k , де х i — що впливають змінні, a i — коефіцієнти регресії, a k — число факторів.

Для цього завдання Y — це показник співробітників, що звільнилися, а впливаючий фактор — зарплата, яку позначаємо X.

Використання можливостей табличного процесора «Ексель»

Аналізу регресії в Excel має передувати застосування наявних табличних даних вбудованих функцій. Однак для цього краще скористатися дуже корисною надбудовою «Пакет аналізу». Для його активації потрібно:

  • з вкладки "Файл" перейти до розділу "Параметри";
  • у вікні вибрати рядок «Надбудови»;
  • клацнути на кнопці «Перейти», розташованої внизу, праворуч від рядка «Управління»;
  • поставити галочку поруч із назвою «Пакет аналізу» та підтвердити свої дії, натиснувши «Ок».

Якщо все зроблено правильно, у правій частині вкладки "Дані", розташованому над робочим листом "Ексель", з'явиться потрібна кнопка.

в Excel

Тепер, коли під рукою є всі необхідні віртуальні інструменти для здійснення економетричних розрахунків, можемо розпочати вирішення нашого завдання. Для цього:

  • клацаємо по кнопці «Аналіз даних»;
  • у вікні натискаємо на кнопку «Регресія»;
  • в вкладку, що з'явилася, вводимо діапазон значень для Y (кількість звільнених працівників) і для X (їх зарплати);
  • підтверджуємо свої дії, натиснувши кнопку «Ok».

В результаті програма автоматично заповнить новий аркуш табличного процесора даними аналізу регресії. Зверніть увагу! В Excel є можливість самостійно задати місце, якому ви надаєте перевагу для цієї мети. Наприклад, це може бути той самий аркуш, де є значення Y і X, або навіть нова книга, спеціально призначена для зберігання подібних даних.

Аналіз результатів регресії для R-квадрату

В Excel дані отримані в ході обробки даних прикладу, що розглядається, мають вигляд:

Насамперед, слід звернути увагу до значення R-квадрата. Він є коефіцієнтом детермінації. У цьому прикладі R-квадрат = 0,755 (75,5%), тобто розрахункові параметри моделі пояснюють залежність між параметрами, що розглядаються, на 75,5 %. Чим вище значення коефіцієнта детермінації, тим вибрана модель вважається застосовнішою для конкретної задачі. Вважається, що вона коректно визначає реальну ситуацію за значення R-квадрату вище 0,8. Якщо R-квадрату<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Аналіз коефіцієнтів

Число 64,1428 показує, яким буде значення Y, якщо всі змінні xi в моделі, що розглядається, обнуляться. Іншими словами можна стверджувати, що на значення аналізованого параметра впливають інші фактори, не описані в конкретній моделі.

Наступний коефіцієнт -0,16285, розташований у осередку B18, показує вагомість впливу змінної Х на Y. Це означає, що середньомісячна зарплата співробітників у межах аналізованої моделі впливає кількість звільнених з вагою -0,16285, т. е. ступінь її впливу зовсім невелика. Знак «-» свідчить про те, що коефіцієнт має негативне значення. Це очевидно, оскільки всім відомо, що чим більша зарплата на підприємстві, тим менше людей висловлюють бажання розірвати трудовий договір чи звільняється.

Множинна регресія

Під таким терміном розуміється рівняння зв'язку з кількома незалежними змінними видами:

y=f(x 1 +x 2 +…x m) + ε, де y — це результативна ознака (залежна змінна), а x 1 , x 2 , …x m — ознаки-фактори (незалежні змінні).

Оцінка параметрів

Для множинної регресії (МР) її здійснюють, використовуючи метод найменших квадратів(МНК). Для лінійних рівнянь виду Y = a + b 1 x 1 +…+b m x m + ε будуємо систему нормальних рівнянь (див. нижче)

Щоб зрозуміти принцип методу, розглянемо двофакторний випадок. Тоді маємо ситуацію, що описується формулою

Звідси отримуємо:

де σ - це дисперсія відповідної ознаки, відображеної в індексі.

МНК застосуємо до рівняння МР в масштабі, що стандартизується. У такому разі отримуємо рівняння:

в якому t y , t x 1, ... t xm - Змінні, що стандартизуються, для яких середні значення рівні 0; β i - стандартизовані коефіцієнти регресії, а середньоквадратичне відхилення - 1.

Зверніть увагу, що всі β i в даному випадкузадані, як нормовані та централізовані, тому їх порівняння між собою вважається коректним та допустимим. Крім того, прийнято здійснювати відсівання факторів, відкидаючи ті з них, які мають найменші значення βi.

Завдання з використанням рівняння лінійної регресії

Припустимо, є таблиця динаміки ціни конкретного товару протягом останніх 8 місяців. Необхідно ухвалити рішення про доцільність придбання його партії за ціною 1850 руб./т.

номер місяця

назва місяця

ціна товару N

1750 рублів за тонну

1755 рублів за тонну

1767 рублів за тонну

1760 рублів за тонну

1770 рублів за тонну

1790 рублів за тонну

1810 рублів за тонну

1840 рублів за тонну

Для вирішення цього завдання в табличному процесорі «Ексель» потрібно задіяти вже відомий за наведеним вище прикладом інструмент «Аналіз даних». Далі вибирають розділ «Регресія» та задають параметри. Потрібно пам'ятати, що у полі «Вхідний інтервал Y» має вводитися діапазон значень для залежної змінної (у разі ціни на товар у конкретні місяці року), а «Вхідний інтервал X» — для незалежної (номер місяця). Підтверджуємо дії натисканням OK. На новому аркуші (якщо було зазначено) отримуємо дані для регресії.

Будуємо за ними лінійне рівняння виду y=ax+b, де як параметри a та b виступають коефіцієнти рядка з найменуванням номера місяця та коефіцієнти та рядки «Y-перетин» з аркуша з результатами регресійного аналізу. Таким чином, лінійне рівняння регресії (УР) для задачі 3 записується у вигляді:

Ціна товару N = 11,714* номер місяця + 1727,54.

або в позначеннях алгебри

y = 11,714 x + 1727,54

Аналіз результатів

Щоб вирішити, чи адекватно отримане рівняння лінійної регресії, використовуються коефіцієнти множинної кореляції (КМК) та детермінації, а також критерій Фішера та критерій Стьюдента. У таблиці «Ексель» з результатами регресії вони виступають під назвами множинний R, R-квадрат, F-статистика та t-статистика відповідно.

КМК R дає можливість оцінити тісноту ймовірнісного зв'язку між незалежною та залежною змінними. Її високе значення свідчить про досить сильний зв'язок між змінними «Номер місяця» та «Ціна товару N у рублях за 1 тонну». Проте характер цього зв'язку залишається невідомим.

Квадрат коефіцієнта детермінації R 2 (RI) є числову характеристику частки загального розкиду і показує, розкид якої частини експериментальних даних, тобто. значень залежної змінної відповідає рівнянню лінійної регресії У даній задачі ця величина дорівнює 84,8%, тобто статистичні дані з високим ступенем точності описуються отриманим УР.

F-статистика, яка називається також критерієм Фішера, використовується для оцінки значущості лінійної залежності, спростовуючи або підтверджуючи гіпотезу про її існування.

(Критерій Стьюдента) допомагає оцінювати значущість коефіцієнта при невідомій чи вільного члена лінійної залежності. Якщо значення t-критерію > t кр, то гіпотеза про незначущість вільного члена лінійного рівняннявідкидається.

У розглянутій задачі для вільного члена за допомогою інструментів «Ексель» було отримано, що t=169,20903, а p=2,89Е-12, тобто маємо нульову ймовірність того, що буде відкинута вірна гіпотеза про незначущість вільного члена. Для коефіцієнта за невідомої t=5,79405, а p=0,001158. Іншими словами ймовірність того, що буде відкинута вірна гіпотеза про незначущість коефіцієнта за невідомої, дорівнює 0,12%.

Отже, можна стверджувати, що отримане рівняння лінійної регресії адекватно.

Завдання про доцільність купівлі пакету акцій

Множинна регресія в Excel виконується з використанням того ж інструменту «Аналіз даних». Розглянемо конкретне прикладне завдання.

Керівництво компанія «NNN» має ухвалити рішення про доцільність купівлі 20% пакету акцій АТ «MMM». Вартість пакету (СП) складає 70 млн. американських доларів. Фахівцями NNN зібрані дані про аналогічні угоди. Було ухвалено рішення оцінювати вартість пакета акцій за такими параметрами, вираженими у мільйонах американських доларів, як:

  • кредиторська заборгованість (VK);
  • обсяг річного обороту (VO);
  • дебіторська заборгованість (VD);
  • вартість основних фондів (СОФ).

Крім того, використовується параметр заборгованості підприємства із зарплати (V3 П) у тисячах американських доларів.

Рішення засобами табличного процесора Excel

Насамперед, необхідно скласти таблицю вихідних даних. Вона має такий вигляд:

  • викликають вікно "Аналіз даних";
  • обирають розділ «Регресія»;
  • у віконце «Вхідний інтервал Y» вводять діапазон значень залежних змінних зі стовпця G;
  • клацають по іконці з червоною стрілкою праворуч від вікна "Вхідний інтервал X" і виділяють на аркуші діапазон всіх значень зі стовпців B, C, D, F.

Позначають пункт «Новий робочий лист» та натискають «Ok».

Отримують аналіз регресії для цього завдання.

Вивчення результатів та висновки

«Збираємо» із заокруглених даних, представлених вище на аркуші табличного процесора Excel, рівняння регресії:

СП = 0,103 * СОФ + 0,541 * VO - 0,031 * VK + 0,405 * VD +0,691 * VZP - 265,844.

У більш звичному математичному вигляді його можна записати як:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 +0,405 * x4 +0,691 * x5 - 265,844

Дані для АТ «MMM» представлені у таблиці:

Підставивши їх у рівняння регресії, одержують цифру в 64,72 млн американських доларів. Це означає, що акції АТ «MMM» не варто купувати, оскільки їхня вартість у 70 млн американських доларів досить завищена.

Як бачимо, використання табличного процесора «Ексель» та рівняння регресії дозволило ухвалити обґрунтоване рішення щодо доцільності цілком конкретної угоди.

Тепер ви знаєте, що таке регресія. Приклади в Excel, розглянуті вище, допоможуть вам вирішити практичні завдання з галузі економетрики.

При вивченні складних явищ необхідно враховувати понад два випадкові фактори. Правильне уявлення про природу зв'язку між цими факторами можна отримати тільки в тому випадку, якщо дослідити відразу всі аналізовані випадкові фактори. Спільне вивчення трьох і більше випадкових факторів дозволить досліднику встановити більш менш обґрунтовані припущення про причинні залежності між явищами, що вивчаються. Простою формою множинного зв'язку є лінійна залежність між трьома ознаками. Випадкові фактори позначаються як X 1 , X 2 та X 3 . Парний коефіцієнти кореляції між X 1 та X 2 позначається як r 12 , відповідно між X 1 та X 3 - r 12 , між X 2 та X 3 - r 23 . Як міра тісноти лінійного зв'язку трьох ознак використовують множинні коефіцієнти кореляції, що позначаються R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 та приватні коефіцієнти кореляції, що позначаються r 12.3 , r 13.2 , r 23.1 .

Множинний коефіцієнт кореляції R 1.23 трьох факторів - це показник тісноти лінійного зв'язку між одним із факторів (індекс перед точкою) та сукупністю двох інших факторів (індекси після точки).

Значення коефіцієнта R завжди в межах від 0 до 1. При наближенні R до одиниці ступінь лінійного зв'язку трьох ознак збільшується.

Між коефіцієнтом множинної кореляції, наприклад R 2 ּ 13 і двома коефіцієнтами парної кореляції r 12 і r 23 існує співвідношення: кожен з парних коефіцієнтів не може перевищувати по абсолютної величини R 2 13 .

Формули для обчислення множинних коефіцієнтів кореляції при відомих значенняхкоефіцієнтів парної кореляції r 12 , r 13 і r 23 мають вигляд:

Квадрат коефіцієнта множинної кореляції R 2 називається коефіцієнтом множинної детермінації.Він показує частку варіації залежної змінної під впливом факторів, що вивчаються.

Значимість множинної кореляції оцінюється за F-критерію:

n –обсяг вибірки; k –кількість чинників. У нашому випадку k = 3.

нульова гіпотеза про рівність множинного коефіцієнта кореляції в сукупності нулю ( h o:r=0)приймається, якщо fф<f t, і відкидається, якщо
fф ³ fт.

теоретичне значення f-критерія визначається для v 1 = k- 1 та v 2 = n - kступенів свободи та прийнятого рівня значущості a (додаток 1).

Приклад обчислення коефіцієнта множинної кореляції. При вивченні взаємозв'язку між факторами було отримано коефіцієнти парної кореляції ( n =15): r 12 = = 0,6; р 13 = 0,3; r 23 = - 0,2.

Необхідно з'ясувати залежність ознаки X 2 від ознаки X 1 та X 3, тобто розрахувати коефіцієнт множинної кореляції:

Табличне значення F-Критерію при n 1 = 2 і n 2 = 15 - 3 = 12 степенях свободи при a = 0,05 F 0,05 = 3,89 і за a = 0,01 F 0,01 = 6,93.

Таким чином, взаємозв'язок між ознаками R 2.13 = 0,74 значуща
1%-ном рівні значимості Fф > F 0,01 .

Судячи з коефіцієнта множинної детермінації R 2 = (0,74) 2 = 0,55, варіація ознаки X 2 на 55% пов'язана з дією факторів, що вивчаються, а 45% варіації (1-R 2) не може бути пояснено впливом цих змінних.

Приватна лінійна кореляція

Приватний коефіцієнт кореляції- Це показник, що вимірює ступінь сполученості двох ознак.

Математична статистика дозволяє встановити кореляцію між двома ознаками при постійному значенні третього, не ставлячи спеціального експерименту, а використовуючи парні коефіцієнти кореляції r 12 , r 13 , r 23 .

Приватні коефіцієнти кореляції розраховують за формулами:

Цифри перед точкою вказують, між якими ознаками вивчається залежність, а цифра після точки – вплив якої ознаки виключається (елімінується). Помилка та критерій значущості приватної кореляції визначають за тими ж формулами, що й парної кореляції:

.

Теоретичне значення t-критерію визначається для v = n– 2 ступенів свободи та прийнятого рівня значущості a (додаток 1).

Нульова гіпотеза про рівність приватного коефіцієнта кореляції разом нулю ( H o: r= 0) приймається, якщо tф< tт, і відкидається, якщо
tф ³ tт.

Приватні коефіцієнти можуть набувати значень, укладених між -1 і +1. Приватні коефіцієнти детермінаціїзнаходять шляхом зведення у квадрат приватних коефіцієнтів кореляції:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Визначення ступеня приватного впливу окремих факторів на результативну ознаку при виключенні (елімінуванні) зв'язку його з іншими ознаками, що спотворюють цю кореляцію, часто цікавий. Іноді буває, що при постійному значенні ознаки, що елімінується, не можна помітити його статистичного впливу на мінливість інших ознак. Щоб зрозуміти техніку розрахунку приватного коефіцієнта кореляції, розглянемо приклад. Є три параметри X, Yі Z. Для обсягу вибірки n= 180 визначено парні коефіцієнти кореляції

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Визначимо окремі коефіцієнти кореляції:

Частковий коефіцієнт кореляції між параметром Xі Y Z (rхуּz = 0,720) показує, що лише незначна частина взаємозв'язку цих ознак у загальній кореляції ( r xy= 0,799) обумовлена ​​впливом третьої ознаки ( Z). Аналогічний висновок необхідно зробити щодо приватного коефіцієнта кореляції між параметром Xта параметром Zз постійним значенням параметра Y (rх z= = 0,318 і r xz= 0,57). Навпаки, приватний коефіцієнткореляції між параметрами Yі Zз постійним значенням параметра X ryz ּ x= 0,105 значно відрізняється від загального коефіцієнтакореляції r у z = 0,507. З цього видно, що якщо підібрати об'єкти з однаковим значенням параметра X, то зв'язок між ознаками Yі Zу них буде дуже слабкою, оскільки значна частина у цьому взаємозв'язку зумовлена ​​варіюванням параметра X.

За деяких обставин приватний коефіцієнт кореляції може виявитися протилежним за парним знаком.

Наприклад, щодо взаємозв'язку між ознаками X, Уі Z- були отримані парні коефіцієнти кореляції (при n = 100): rху = 0,6; rх z= 0,9;
r у z = 0,4.

Приватні коефіцієнти кореляції за винятком впливу третьої ознаки:

З прикладу видно, що значення парного коефіцієнтата приватного коефіцієнта кореляції різняться у знаку.

Метод приватної кореляції дозволяє обчислити приватний коефіцієнт кореляції другого порядку. Цей коефіцієнт вказує на взаємозв'язок між першою та другою ознакою при постійному значенні третього та четвертого. Визначення приватного коефіцієнта другого порядку ведуть з урахуванням приватних коефіцієнтів першого порядку за такою формулою:

де r 12 . 4 , r 13 ּ4 , r 23 4 - приватні коефіцієнти, значення яких визначають за формулою приватного коефіцієнта, використовуючи коефіцієнти парної кореляції r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

7.1. Лінійний регресійний аналізполягає у підборі графіка для набору спостережень за допомогою методу найменших квадратів. Регресійний аналіз дозволяє встановити функціональну залежність між деякою випадковою величиною Yі деякими, що впливають на Yвеличинами X. Така залежність отримала назву рівняння регресії. Розрізняють просту ( y=m*x+b) та множинну ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) регресію лінійного та нелінійного типу.
Для оцінки ступеня зв'язку між величинами використовується коефіцієнт множинної кореляції R Пірсона(кореляційне відношення), який може набувати значень від 0 до 1. R=0, якщо між величинами немає жодного зв'язку, та R=1, якщо між величинами є функціональний зв'язок. У більшості випадків R набуває проміжних значень від 0 до 1. Величина R 2називається коефіцієнтом детермінації.
Завданням побудови регресійної залежності є знаходження вектора коефіцієнтів Mмоделі множинної лінійної регресії, при якому коефіцієнт Rнабуває максимального значення.
Для оцінки значущості Rзастосовується F-критерій Фішера, що обчислюється за формулою:

Де n– кількість експериментів; k- Число коефіцієнтів моделі. Якщо Fперевищує деяке критичне значеннядля даних nі kта прийнятою довірчої ймовірностіто величина Rвважається суттєвою.

7.2. Інструмент Регресіяз Пакет аналізудозволяє обчислити такі дані:

· коефіцієнти лінійної функціїрегресії– методом найменших квадратів; вид функції регресії визначається структурою вихідних даних;

· коефіцієнт детермінації та пов'язані з ним величини(Таблиця Регресійна статистика);

· дисперсійну таблицю та критеріальну статистику для перевірки значущості регресії(Таблиця Дисперсійний аналіз );

· Середньоквадратичне відхилення та інші його статистичні характеристики для кожного коефіцієнта регресії, що дозволяють перевірити значущість цього коефіцієнта та побудувати для нього довірчі інтервали;

· значення функції регресії та залишки- Різниці між вихідними значеннями змінної Yта обчисленими значеннями функції регресії (таблиця Виведення залишку);

· ймовірності, що відповідають упорядкованим за зростанням значенням змінної Y(Таблиця Висновок ймовірності).

7.3. Викличте інструмент створення вибірки через Дані> Аналіз даних> Регресія.

7.4. В полі Вхідний інтервал Yвводиться адреса діапазону, що містить значення залежної змінної Y. Діапазон повинен складатися з одного стовпця.
В полі Вхідний інтервал Xвводиться адреса діапазону, що містить значення змінної X. Діапазон повинен складатися з одного або кількох стовпців, але не більше ніж 16 стовпців. Якщо вказані у полях Вхідний інтервал Yі Вхідний інтервал Xдіапазони включають заголовки стовпців, то необхідно встановити прапорець опції Мітки– ці заголовки будуть використані у вихідних таблицях, згенерованих інструментом Регресія.
Прапорець опції Константа – нульслід встановити, якщо у рівнянні регресії константа bпримусово належить рівної нулю.
Опція Рівень надійностівстановлюється тоді, коли необхідно побудувати довірчі інтервали для коефіцієнтів регресії з довірчим рівнем, відмінним від 0.95, який використовується за умовчанням. Після встановлення прапорця опції Рівень надійностістає доступним поле введення, де вводиться нове значення довірчого рівня.
В області Залишкиє чотири опції: Залишки, Стандартизовані залишки, Графік залишківі Графік підбору. Якщо встановлено хоча б одну з них, то у вихідних результатах з'явиться таблиця Виведення залишку, В якій будуть виведені значення функції регресії та залишки – різниці між вихідними значеннями змінної Y та обчисленими значеннями функції регресії. В області Нормальна ймовірністьє одна опція -; її встановлення породжує у вихідних результатах таблицю Висновок ймовірностіта призводить до побудови відповідного графіка.


7.5. Встановіть параметри відповідно до малюнку. Перевірте, що як величина Y вказана перша змінна (включаючи комірку з назвою), і як величину X вказано дві інші змінні (включаючи комірки з назвами). Натисніть OK.

7.6. В таблиці Регресійна статистиканаводяться такі дані.

Множинний R- Корінь з коефіцієнта детермінації R 2 , наведеного в наступному рядку. Інша назва цього показника – індекс кореляції, чи множинний коефіцієнт кореляції.

R-квадрат- Коефіцієнт детермінації R 2 ; обчислюється як відношення регресійної суми квадратів(осередок С12) до повній сумі квадратів(осередок С14).

Нормований R-квадратобчислюється за формулою

де n – кількість значень змінної Y, k – кількість шпальт у вхідному інтервалі змінної X.

Стандартна помилка– корінь із залишкової дисперсії (комірка D13).

Спостереження- Кількість значень змінної Y.

7.7. У Дисперсійна таблицяу стовпці SSнаводяться суми квадратів, у стовпці df- Число ступенів свободи. у стовпці MS- Дисперсії. В рядку Регресіяу стовпці fобчислено значення критеріальної статистики для перевірки значущості регресії. Це значення обчислюється як відношення регресійної дисперсії до залишкової (комірки D12 та D13). У стовпці Значення Fобчислюється ймовірність одержаного значення критеріальної статистики. Якщо ця ймовірність менше, наприклад, 0.05 (заданого рівня значущості), то гіпотеза про незначущість регресії (тобто гіпотеза у тому, що це коефіцієнти функції регресії дорівнюють нулю) відкидається і вважається, що регресія значуща. У цьому прикладі регресія незначна.

7.8. У наступній таблиці, у стовпці Коефіцієнти, записані обчислені значення коефіцієнтів функції регресії, причому у рядку Y-перетинзаписано значення вільного члена b. У стовпці Стандартна помилкаобчислено середньоквадратичні відхилення коефіцієнтів.
У стовпці t-статистиказаписані відношення значень коефіцієнтів до їх середньоквадратичних відхилень. Це значення критеріальних статистик для перевірки гіпотез про значущість коефіцієнтів регресії.
У стовпці P-Значенняобчислюються рівні значущості, які відповідають значенням критеріальних статистик. Якщо обчислений рівень значущості менший за заданий рівень значущості (наприклад, 0.05). то приймається гіпотеза про значну відмінність коефіцієнта від нуля; в іншому випадку приймається гіпотеза про незначну відмінність коефіцієнта від нуля. У цьому прикладі лише коефіцієнт bЗначно відрізняється від нуля, інші - незначимо.
У стовпцях Нижні 95%і Верхні 95%наводяться межі довірчих інтервалів із довірчим рівнем 0.95. Ці межі обчислюються за формулами
Нижні 95% = Коефіцієнт – Стандартна помилка * t α;
Верхні 95% = Коефіцієнт + Стандартна помилка * t α.
Тут t α– квантиль порядку α розподіл Стьюдента з (n-k-1) ступенем свободи. В даному випадку α = 0.95. Аналогічно обчислюються межі довірчих інтервалів у стовпцях Нижні 90.0%і Верхні 90.0%.

7.9. Розглянемо таблицю Виведення залишкуіз вихідних результатів. Ця таблиця з'являється у вихідних результатах тільки тоді, коли встановлено хоча б одну опцію в області Залишкидіалогового вікна Регресія.

У стовпці Спостереженнянаводяться порядкові номери значень змінної Y.
У стовпці Передбачене Yобчислюються значення функції регресії у i = f(х i) для тих значень змінної X, яким відповідає порядковий номер i у стовпці Спостереження.
У стовпці Залишкимістяться різниці (залишки) ε i =Y-у i , а в стовпці Стандартні залишки- Нормовані залишки, які обчислюються як відносини ε i / s ε. де s ε - Середньоквадратичне відхилення залишків. Квадрат величини s ε обчислюється за формулою

де – середнє залишків. Величину можна вирахувати як відношення двох значень з дисперсійної таблиці: суми квадратів залишків (осередок С13) та ступеня свободи з рядка Разом(осередок В14).

7.10. За значеннями таблиці Виведення залишкубудуються два типи графіків: графіки залишківі графіки підбору(якщо встановлені відповідні опції в області Залишкидіалогового вікна Регресія). Вони будуються для кожного компонента змінної Xокремо.

на графіки залишківвідображаються залишки, тобто. різниці між вихідними значеннями Yта обчисленими за функцією регресії для кожного значення компонента змінної X.

на графіки підборувідображаються як вихідні значення Y, так і обчислені значення функції регресії для кожного значення компонента змінної X.

7.11. Останньою таблицею вихідних результатів є таблиця Висновок ймовірності. Вона з'являється, якщо у діалоговому вікні Регресіявстановлена ​​опція Графік нормальної ймовірності.
Значення у стовпці Персентильобчислюються в такий спосіб. Обчислюється крок h = (1/n) * 100%, перше значення дорівнює h/2, останнє одно 100-h/2. Починаючи з другого значення кожне наступне значення дорівнює попередньому, до якого додано крок h.
У стовпці Yнаведено значення змінної Y, упорядковані за зростанням. За даними цієї таблиці будується так званий графік нормального розподілу . Він дозволяє візуально оцінити ступінь лінійності залежності між змінними. Xі Y.


8. Д Ісперсійний аналіз

8.1. Пакет аналізудозволяє провести три види дисперсійного аналізу. Вибір конкретного інструменту визначається числом факторів та числом вибірок у досліджуваній сукупності даних.
використовується для перевірки гіпотези про схожість середніх значень двох або більше вибірок, що належать до однієї і тієї ж генеральної сукупності.
Двофакторний дисперсійний аналіз із повтореннямиє більш складним варіантом однофакторного аналізу, що включає більш ніж одну вибірку кожної групи даних.
Двофакторний дисперсійний аналіз без повторенняє двофакторний аналіз дисперсії, що не включає більше однієї вибірки на групу. Він використовується для перевірки гіпотези про те, що середні значення двох або декількох вибірок однакові (вибірки належать до однієї і тієї ж генеральної сукупності).

8.2. Однофакторний дисперсійний аналіз

8.2.1. Підготуємо дані для аналізу. Створіть новий лист і скопіюйте на нього колонки A, B, C, D. Видаліть перші два рядки. Підготовлені дані можна використовуватиме проведення Однофакторний дисперсійний аналіз.

8.2.2. Викличте інструмент створення вибірки через Дані> Аналіз даних> Однофакторний дисперсійний аналіз.Заповніть відповідно до малюнку. Натисніть OK.

8.2.3. Розглянемо таблицю Підсумки: Рахунок- Число повторень, Сума– сума значень показника за рядками, Дисперсія- Приватна дисперсія показника.

8.2.4. Таблиця Дисперсійний аналіз: перша колонка Джерело варіаціїмістить найменування дисперсій, SS- Сума квадратів відхилень, df- ступінь свободи, MS- Середній квадрат, F-критерійфактичного F-розподілу. P-значення- Імовірність того, що дисперсія, що відтворюється рівнянням, дорівнює дисперсії залишків. Воно встановлює ймовірність того, що отримана кількісна визначеність взаємозв'язку між факторами та результатом може вважатися випадковою. F-критичне- Це значення F теоретичного, яке згодом порівнюється з F фактичним.

8.2.5. Нульова гіпотеза про рівність математичних очікуваньвсіх вибірок приймається, якщо виконується нерівність F-критерій < F-критичне. цю гіпотезу слід відкинути. У разі середні значення вибірок – значно різняться.

Побудова лінійної регресії, оцінювання її параметрів та їх значущості можна виконати значно швидше при використанні пакета аналізу Excel(Регресія). Розглянемо інтерпретацію отриманих результатів у загальному випадку (kпояснюють змінних) за даними прикладу 3.6.

В таблиці регресійної статистики наводяться значення:

Множинний R - Коефіцієнт множинної кореляції;

R- квадрат- Коефіцієнт детермінації R 2 ;

Нормований R - квадрат– скоригований R 2 із поправкою на число ступенів свободи;

Стандартна помилка– стандартна помилка регресії S;

Спостереження –кількість спостережень n.

В таблиці Дисперсійний аналізнаведено:

1. Стовпець df - Число ступенів свободи, рівне

для рядка Регресія df = k;

для рядка Залишокdf = nk – 1;

для рядка Разомdf = n– 1.

2. Стовпець SS –сума квадратів відхилень, рівна

для рядка Регресія ;

для рядка Залишок ;

для рядка Разом .

3. Стовпець MSдисперсії, що визначаються за формулою MS = SS/df:

для рядка Регресія- Факторна дисперсія;

для рядка Залишок- Залишкова дисперсія.

4. Стовпець F - Розрахункове значення F-критерію, що обчислюється за формулою

F = MS(Регресія) / MS(Залишок).

5. Стовпець Значимість F -значення рівня значущості, що відповідає обчисленій F-статистиці .

Значимість F= FРАСП( F-статистика, df(Регресія), df(Залишок)).

Якщо значимість F < стандартного уровня значимости, то R 2 статистично значущий.

Коефіцієнти Стандартна помилка t-cта-тистика P-значення Нижні 95% Верхні 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

У цій таблиці вказано:

1. Коефіцієнти- Значення коефіцієнтів a, b.

2. Стандартна помилка-стандартні помилки коефіцієнтів регресії S a, S b.



3. t-статистика- Розрахункові значення t -Критерію, що обчислюються за формулою:

t-статистика = Коефіцієнти/Стандартна помилка.

4.Р-значення (значущість t) – це значення рівня значущості, що відповідає обчисленій t-статистики.

Р-значення = Стьюдрасп(t-статистика, df(Залишок)).

Якщо Р-значення< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Нижні 95% та Верхні 95%- нижні та верхні межі 95% довірчих інтервалів для коефіцієнтів теоретичного рівняння лінійної регресії.

ВИСНОВОК ЗАЛИШКУ
Спостереження Передбачене y Залишки e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

В таблиці ВИСНОВОК ЗАЛИШКУвказано:

у стовпці Спостереження- Номер спостереження;

у стовпці Передбачене y - Розрахункові значення залежної змінної;

у стовпці Залишки e - Різниця між спостережуваними і розрахунковими значеннями залежною змінною.

Приклад 3.6.Є дані (ум. од.) про витрати на харчування yта душового доходу xдля дев'яти груп сімей:

x
y

Використовуючи результати роботи пакету аналізу Excel (Регресія), проаналізуємо залежність витрат харчування від величини душового доходу.

Результати регресійного аналізу прийнято записувати як:

де у дужках вказані стандартні помилки коефіцієнтів регресії.

Коефіцієнти регресії а = 65,92 і b= 0,107. Напрямок зв'язку між yі xвизначає знак коефіцієнта регресії b= 0,107, тобто. зв'язок є прямим і позитивним. Коефіцієнт b= 0,107 показує, що зі збільшенням душового доходу на 1 ум. од. Витрати харчування збільшуються на 0,107 ум. од.

Оцінимо значущість коефіцієнтів отриманої моделі. Значимість коефіцієнтів ( a, b) перевіряється по t-Тесту:

Р-значення ( a) = 0,00080 < 0,01 < 0,05

Р-значення ( b) = 0,00016 < 0,01 < 0,05,

отже, коефіцієнти ( a, b) значимі при 1%-ном рівні, а тим більше при 5%-ном рівні значущості. Отже, коефіцієнти регресії значимі і модель адекватна вихідним даним.

Результати оцінювання регресії сумісні як з отриманими значеннями коефіцієнтів регресії, але й деякою їх безліччю (довірчим інтервалом). З ймовірністю 95% довірчі інтервали для коефіцієнтів є (38,16 – 93,68) для aта (0,0728 – 0,142) для b.

Якість моделі оцінюється коефіцієнтом детермінації R 2 .

Величина R 2 = 0,884 означає, що фактором душового доходу можна пояснити 88,4% варіації (розкиду) витрат на харчування.

Значимість R 2 перевіряється за F-тесту: значимість F = 0,00016 < 0,01 < 0,05, следовательно, R 2 значимо при 1%-ном рівні, а тим більше при 5%-ном рівні значущості.

У разі парної лінійної регресії коефіцієнт кореляції можна визначити як . Отримане значення коефіцієнта кореляції свідчить, що зв'язок між витратами харчування і душовим доходом дуже тісний.



Нове на сайті

>

Найпопулярніше