Додому Запах із рота Оцінка значущості рівняння регресії коефіцієнта детермінації. Регресія в Excel: рівняння, приклади

Оцінка значущості рівняння регресії коефіцієнта детермінації. Регресія в Excel: рівняння, приклади

Для перевірки значущості аналізується відношення коефіцієнта регресії та її середньоквадратичного відхилення. Це ставлення є розподілом Стьюдента, тобто визначення значимості використовуємо t – критерій:

- СКОвід залишкової дисперсії;

- сума відхилень від середнього значення

Якщо t рас. >t таб. , то коефіцієнт b i є значимим.

Довірчий інтервал визначається за такою формулою:

ПОРЯДОК ВИКОНАННЯ РОБОТИ

    Взяти вихідні дані згідно з варіантом роботи (за номером студента в журналі). Задано статичний об'єкт управління з двома входами X 1 , X 2 та одним виходом Y. На об'єкті проведено пасивний експеримент та отримано вибірку обсягом 30 точок, що містить значення Х 1 , Х 2 і Yдля кожного експерименту.

    Відкрити новий файл у Excel 2007. Ввести вихідну інформацію в стовпці вихідної таблиці - значення вхідних змінних X 1 , Х 2 та вихідний змінної Y.

    Підготувати додатково два стовпці для введення розрахункових значень Yта залишків.

    Викликати програму «Регресія»: Дані/ Аналіз даних/ Регресія.

Мал. 1. Діалогове вікно "Аналіз даних".

    Ввести у діалогове вікно «Регресія» адреси вихідних даних:

    вхідний інтервал Y, вхідний інтервал X (2 стовпці),

    встановити рівень надійності 95%,

    в опції «Вихідний інтервал, вказати ліву верхню комірку місця виведення даних регресійного аналізу (першу комірку на 2-сторінці робочого листа),

    включити опції «Залишки» та «графік залишків»,

    натиснути кнопку ОК для запуску регресійного аналізу.

Мал. 2. Діалогове вікно "Регресія".

    Excel виведе 4 таблиці та 2 графіки залежності залишків від змінних Х1і Х2.

    Відформатувати таблицю "Виведення підсумків" - розширити стовпець з найменуваннями вихідних даних, зробити в другому стовпці 3 значущі цифри після коми.

    Відформатувати таблицю Дисперсійний аналіз»- зробити зручним для читання та розуміння кількість значущих цифрпісля ком, скоротити найменування змінних і налаштувати ширину стовпців.

    Відформатувати таблицю коефіцієнтів рівняння - скоротити найменування змінних і скоригувати за необхідності ширину стовпців, зробити зручним для читання та розуміння кількість значущих цифр, видалити 2 останні стовпці (значення та розмітку таблиці).

    Дані з таблиці "Виведення залишку" перенести в підготовлені стовпці вихідної таблиці, потім видалити таблицю "Виведення залишку" (опція "спеціальна вставка").

    Ввести отримані оцінки коефіцієнтів у вихідну таблицю.

    Підтягнути таблиці результатів максимум догори сторінки.

    Побудувати під таблицями діаграми Yексп, Yрозрахта помилки прогнозу (залишку).

    Форматувати діаграми залишків. За отриманими графіками оцінити правильність моделі входів Х1, Х2.

    Роздрукувати результати регресійного аналізу.

    Розібратися з результатами регресійного аналізу.

    Підготувати звіт роботи.

ПРИКЛАД ВИКОНАННЯ РОБОТИ

Прийом виконання регресійного аналізу у пакеті EXCEL представлений малюнки 3-5.

Мал. 3. Приклад регресійного аналізу у пакеті EXCEL.


Рис.4. Графіки залишків змінних Х1, Х2

Мал. 5. Графіки Yексп,Yрозрахта помилки прогнозу (залишку).

За даними регресійного аналізу можна сказати:

1. Рівняння регресії отримане за допомогою Excel має вигляд:

    Коефіцієнт детермінації:

Варіація результату 46,5% пояснюється варіацією чинників.

    Загальний F-критерій перевіряє гіпотезу про статистичну значущість рівняння регресії. Аналіз виконується при порівнянні фактичного та табличного значення F-критерію Фішера.

Оскільки фактичне значення перевищує табличне
, то робимо висновок, що отриманої рівняння регресії статистично значуще.

    Коефіцієнт множинної кореляції:

    b 0 :

t таб. (29, 0.975) = 2.05

b 0 :

Довірчий інтервал:

    Визначаємо довірчий інтервалдля коефіцієнта b 1 :

Перевірка значущості коефіцієнта b 1 :

t рас. >t таб. коефіцієнт b 1 є значним

Довірчий інтервал:

    Визначаємо довірчий інтервал для коефіцієнта b 2 :

Перевірка значущості для коефіцієнта b 2 :

Визначаємо довірчий інтервал:

ВАРІАНТИ ЗАВДАНЬ

Таблиця 2. Варіанти завдань

№ варіанта

Результативна ознака Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

№ фактора X i

№ фактора X i

Продовження таблиці 1

№ варіанта

Результативна ознака Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

№ фактора X i

№ фактора X i

Таблиця 3. Вихідні дані

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

ПИТАННЯ ДЛЯ САМОКОНТРОЛЮ

    Завдання регресійного аналізу.

    Причини регресійного аналізу.

    Основне рівняння дисперсійного аналізу.

    Що показує F-відношення Фішера?

    Як визначається табличне значення критерію Фішера?

    Що демонструє коефіцієнт детермінації?

    Як визначити значущість коефіцієнтів регресії?

    Як визначити довірчий інтервал коефіцієнтів регресії?

    Як визначити розрахункові значення t-критерію?

    Як визначити табличне значення t-критерію?

    Сформулюйте основну ідею дисперсійного аналізу, на вирішення яких завдань він найефективніший?

    Які основні теоретичні причини дисперсійного аналізу?

    Зробіть розкладання загальної суми квадратів відхилень на складові дисперсійному аналізі.

    Як отримати оцінки дисперсій із сум квадратів відхилень?

    Як виходять необхідні числа ступенів свободи?

    Як визначається стандартна помилка?

    Поясніть схему двофакторного дисперсійного аналізу.

    Чим відрізняється перехресна класифікація від ієрархічної класифікації?

    Чим відрізняються збалансовані дані?

Звіт оформляється у текстовому редакторі Word на папері формату А4 ГОСТ 6656-76 (210х297 мм) містить:

    Назва лабораторної роботи

    Мета роботи.

  1. Результати обчислення.

ЧАС, ВІДВЕДЕНИЙ НА ВИКОНАННЯ

ЛАБОРАТОРНОЇ РОБОТИ

Підготовка до роботи – 0,5 акад. години.

Виконання роботи – 0,5 акад. години.

Розрахунки на ЕОМ – 0,5 акад. години.

Оформлення роботи – 0,5 акад. години.

Література

    Ідентифікація об'єктів керування. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачов. Навчальний посібник. – Пенза: ПДУ, 2003. – 211 с.

    Основи статистичного аналізу. Практикум зі статистичних методів та дослідження операцій з використанням пакетів STATISTIC та EXCEL. / Вуколов Е.А. Навчальний посібник. – К.: ФОРУМ, 2008. – 464 с.

    Основи теорії ідентифікації об'єктів керування. / А.А. Ігнатьєв, С.А. Ігнатьєв. Навчальний посібник. – Саратов: СДТУ, 2008. – 44 с.

    Теорія ймовірності та математична статистика у прикладах та задачах із застосуванням EXCEL. / Г.В. Горєлова, І.А. Кацько. – Ростов н/Д: Фенікс, 2006. – 475 с.

    Мета роботи 2

    Основні поняття 2

    Порядок виконання роботи 6

    Приклад виконання роботи 9

    Запитання для самоконтролю 13

    Час, відведений на виконання роботи 14

    Після оцінки індивідуальної статистичної значимостікожного із коефіцієнтів регресії зазвичай аналізується сукупна значимість коефіцієнтів, тобто. всього рівняння загалом. Такий аналіз здійснюється на основі перевірки гіпотези про загальну значущість гіпотези про одночасну рівність нулю всіх коефіцієнтів регресії при пояснюючих змінних:

    H 0 : b 1 = b 2 = ... = b m = 0.

    Якщо дана гіпотеза не відхиляється, робиться висновок у тому, що сукупний вплив всіх m пояснюють змінних Х 1 , Х 2 , ..., Х m моделі на залежну змінну Y вважатимуться статистично несуттєвим, а загальне якість рівняння регресії – невисоким.

    Перевірка цієї гіпотези здійснюється на основі дисперсійного аналізу порівняння поясненої та залишкової дисперсії.

    Н 0: (пояснена дисперсія) = (залишкова дисперсія),

    H 1: (пояснена дисперсія) > (залишкова дисперсія).

    Будується F-статистика:

    де - Пояснена регресією дисперсія;

    - Залишкова дисперсія (сума квадратів відхилень, поділена на число ступенів свободи n-m-1). За виконання передумов МНК побудована F-статистика має розподіл Фішера з числами ступенів свободи n1 = m, n2 = n–m–1. Тому, якщо за необхідного рівня значущості a F набл > F a ; m; n - m -1 = F a (де F a ; m ; n - m -1 - критична точка розподілу Фішера), то Н 0 відхиляється на користь Н 1 . Це означає, що пояснена регресією дисперсія суттєво більша від залишкової дисперсії, а отже, рівняння регресії досить якісно відображає динаміку зміни залежної змінної Y. Якщо F набл.< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    Однак на практиці частіше замість зазначеної гіпотези перевіряють тісно пов'язану з нею гіпотезу про статистичну значущість коефіцієнта детермінації R 2:



    Н0: R2> 0.

    Для перевірки цієї гіпотези використовується наступна F-статистика:

    . (8.20)

    Величина F при виконанні передумов МНК і справедливості H 0 має розподіл Фішера, аналогічний розподілу F-статистики (8.19). Дійсно, розділивши чисельник і знаменник дробу (8.19) на загальну сумуквадратів відхилень і знаючи, що вона розпадається на суму квадратів відхилень, пояснену регресією, і залишкову суму квадратів відхилень (це є наслідком, як буде показано пізніше, системи нормальних рівнянь)

    ,

    ми отримаємо формулу (8.20):

    З (8.20) очевидно, що показники F і R 2 дорівнюють або не дорівнюють нулю одночасно. Якщо F = 0, то R 2 = 0, і лінія регресії Y = є найкращою МНК, і, отже, величина Y лінійно не залежить від Х 1 , Х 2 , ..., Х m . Для перевірки нульової гіпотези Н 0: F = 0 при заданому рівні значимості a за таблицями критичних точок розподілу Фішера знаходиться критичне значення F кр = F a; m; n-m-1. Нульова гіпотеза відхиляється, якщо F > F кр. Це рівнозначно з того що R 2 > 0, тобто. R 2 статистично значущий.

    Аналіз статистики F дозволяє зробити висновок про те, що для прийняття гіпотези про одночасну рівність нулю всіх коефіцієнтів лінійної регресії коефіцієнт детермінації R 2 не повинен суттєво відрізнятись від нуля. Його критичне значення зменшується при зростанні числа спостережень і може стати як завгодно малим.

    Нехай, наприклад, в оцінці регресії з двома пояснювальними змінними X 1 i , X 2 i за 30 спостереженнями R 2 = 0,65. Тоді

    F набл = = 25,07.

    По таблицях критичних точок розподілу Фішера знайдемо F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Оскільки F набл = 25,07 > F кр як при 5%-му, так і при 1%-му рівні значущості, то нульова гіпотеза в обох випадках відхиляється.

    Якщо тієї ж ситуації R 2 = 0,4, то

    F набл = = 9.

    Припущення про незначущість зв'язку відкидається і тут.

    Зазначимо, що у разі парної регресії перевірка нульової гіпотези для F-статистики рівносильна перевірці нульової гіпотези для t-статистики.

    коефіцієнта кореляції І тут F-статистика дорівнює квадрату t-статистики. Самостійну значущість коефіцієнт R 2 набуває у разі множинної лінійної регресії.

    8.6. Дисперсійний аналіз для розкладання суми квадратів відхилень. Ступені свободи для відповідних сум квадратів відхилень

    Застосуємо викладену вище теорію для парної лінійної регресії.

    Після того, як знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівняння загалом, і окремих його параметрів.

    Оцінка значущості рівняння регресії загалом дається з допомогою F-критерію Фішера. У цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює нулю, тобто. b = 0, і, отже, фактор х не впливає на результат у.

    Безпосереднім розрахунком F-критерію передує аналіз дисперсії. Центральне місце в ньому займає розкладання загальної суми квадратів відхилень змінної від середнього значення на дві частини - "пояснену" і "непояснену":

    Рівняння (8.21) є наслідком системи нормальних рівнянь, виведених однією попередніх тем.

    Доказ виразу (8.21).

    Залишилося довести, що останній доданок дорівнює нулю.

    Якщо скласти від 1 до n усі рівняння

    y i = a+b×x i +e i , (8.22)

    то отримаємо åy = a×å1+b×åx i +åe i . Так як e i = 0 і 1 = n, то отримаємо

    Тоді .

    Якщо ж відняти з виразу (8.22) рівняння (8.23), то отримаємо

    В результаті отримаємо

    Останні суми дорівнюють нулю через систему двох нормальних рівнянь.

    Загальна сума квадратів відхилень індивідуальних значень результативної ознаки від середнього значення викликана впливом безлічі причин. Умовно розділимо всю сукупність причин на дві групи: фактор х, що вивчається, та інші фактори. Якщо фактор не впливає на результат, то лінія регресії паралельна осі OX і . Тоді вся дисперсія результативної ознаки обумовлена ​​впливом інших факторів і загальна сума квадратів відхилень збігатиметься з залишковою. Якщо ж інші фактори не впливають на результат, то пов'язана з х функціонально і залишкова сума квадратів дорівнює нулю. І тут сума квадратів відхилень, пояснена регресією, збігається із загальною сумою квадратів.

    Оскільки в повному обсязі точки поля кореляції лежать лінії регресії, завжди має місце їх розкид як зумовлений впливом чинника x, тобто. регресією у по х, і викликаний дією інших причин (непояснена варіація). Придатність лінії регресії для прогнозу залежить від цього, яка частина загальної варіації ознаки припадає на пояснену варіацію. Очевидно, що якщо сума квадратів відхилень, обумовлена ​​регресією, буде більшою від залишкової суми квадратів, то рівняння регресії статистично значуще і фактор х істотно впливає на ознаку у. Це рівнозначно тому, що коефіцієнт детермінації наближатиметься до одиниці.

    Будь-яка сума квадратів пов'язана з числом ступенів свободи (df – degrees of freedom), з свободою незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності n і з числом констант, що визначаються за нею. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з n можливих потрібно освіти цієї суми квадратів. Так, для загальної суми квадратів потрібно (n-1) незалежних відхилень, бо за сукупністю з n одиниць після розрахунку середнього вільно варіюють лише (n-1) кількість відхилень. Наприклад, маємо ряд значень у: 1,2,3,4,5. Середнє їх дорівнює 3, і тоді n відхилень від середнього складуть: -2, -1, 0, 1, 2. Оскільки , то вільно варіюють лише чотири відхилення, а п'яте відхилення може бути визначено, якщо попередні чотири відомі.

    При розрахунку поясненої чи факторної суми квадратів використовуються теоретичні (розрахункові) значення результативної ознаки

    Тоді сума квадратів відхилень, зумовлених лінійною регресією, дорівнює

    Оскільки при заданому обсязі спостережень по x і y факторна сума квадратів при лінійній регресії залежить тільки від константи регресії b, то сума квадратів має тільки один ступінь свободи.

    Існує рівність між числом ступенів свободи загальною, факторною та залишковою сумою квадратів відхилень. Число ступенів свободи залишкової суми квадратів при лінійній регресії становить n-2. Число ступенів свободи загальної суми квадратів визначається числом одиниць ознак, що варіюються, і оскільки ми використовуємо середню обчислену за даними вибірки, то втрачаємо один ступінь свободи, тобто. df заг. = n-1.

    Отже, маємо дві рівності:

    Розділивши кожну суму квадратів на відповідне їй число ступенів свободи, отримаємо середній квадрат відхилень, або, що те саме, дисперсію на один ступінь свободи D.

    ;

    ;

    .

    Визначення дисперсії однією ступінь свободи призводить дисперсії до порівняльного виду. Зіставляючи факторну та залишкову дисперсію в розрахунку на один ступінь свободи, отримаємо величину F-критерію Фішера

    де F-критерій для перевірки нульової гіпотези H0: D факт = D зуп.

    Якщо нульова гіпотеза справедлива, то факторна та залишкова дисперсії не відрізняються одна від одної. Для H 0 необхідно спростування, щоб факторна дисперсія перевищувала залишкову кілька разів. Англійським статистиком Снедекором розроблено таблиці критичних значень F-відносин при різних рівнях суттєвості нульової гіпотези та різному числістепенів свободи. Табличне значення F-критерія - це максимальна величина відношення дисперсій, яка може мати місце при випадковому їх розбіжності для даного рівня ймовірності наявності нульової гіпотези. Обчислене значення F-відносини визнається достовірним, якщо воно більше табличного. Якщо F факт > F табл, то нульова гіпотеза H 0: D факт = D ост про відсутність зв'язку ознак відхиляється і робиться висновок про суттєвість зв'язку.

    Якщо F факт< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    У цьому прикладі з глави 3:

    = 131200 -7 * 144002 = 30400 - загальна сума квадратів;

    1057,878 * (135,43-7 * (3,92571) 2) = 28979,8 - факторна сума квадратів;

    =30400-28979,8 = 1420,197 – залишкова сума квадратів;

    D факт = 28 979,8;

    D зост = 1420,197/(n-2) = 284,0394;

    F факт = 28979,8/284,0394 = 102,0274;

    F a = 0,05; 2; 5 = 6,61; F a = 0,01; 2; 5 = 16,26.

    Оскільки F факт > F табл як за 1%-ном, і при 5%-ном рівні значимості, можна зробити висновок про значущість рівняння регресії (зв'язок доведено).

    Величина F-критерію пов'язана з коефіцієнтом детермінації. Факторну суму квадратів відхилень можна представити як

    ,

    а залишкову суму квадратів – як

    .

    Тоді значення F-критерію можна виразити як

    .

    Оцінка значущості регресії зазвичай подається у вигляді таблиці дисперсійного аналізу

    його величина порівнюється з табличним значенням при певному рівні значущості α і числі ступенів свободи (n-2).
    Джерела варіації Число ступенів свободи Сума квадратів відхилень Дисперсія на один ступінь свободи F-відношення
    фактичне Табличне при a=0,05
    Загальна
    Пояснена 28979,8 28979,8 102,0274 6,61
    Залишкова 1420,197 284,0394

    100 рбонус за перше замовлення

    Виберіть тип роботи Дипломна робота Курсова роботаРеферат Магістерська дисертаціяЗвіт з практики Стаття Доповідь Рецензія Контрольна роботаМонографія Розв'язання задач Бізнес-план Відповіді на запитання Творча роботаЕсе Чертеж Твори Переклад Презентації Набір тексту Інше Підвищення унікальності тексту Кандидатська дисертація Лабораторна роботаДопомога on-line

    Дізнатись ціну

    Після того, як знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівнянняв цілому, так і окремих його параметрів. Перевірити значущість рівняння регресії– отже встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальним даним і чи достатньо включених до рівняння пояснюючих змінних (однієї або декількох) для опису залежної змінної. Щоб мати загальне судження про якість моделі з відносних відхиленьза кожним спостереженням, визначають середню помилку апроксимації: Середня помилкаапроксимація не повинна перевищувати 8–10%.

    Оцінка значущості рівняння регресії загалом проводиться на основі F-критерія Фішера, якому передує дисперсійний аналіз Відповідно до основної ідеї дисперсійного аналізу, загальна сума квадратів відхилень змінної yвід середнього значення yрозкладається на дві частини - "пояснену" і "непояснену": де - загальна сума квадратів відхилень; - Сума квадратів відхилень, пояснена регресією (або факторна сума квадратів відхилень); - Залишкова сума квадратів відхилень, що характеризує вплив неврахованих в моделі факторів. Визначення дисперсії однією ступінь свободи призводить дисперсії до порівняльного виду. Зіставляючи факторну та залишкову дисперсії в розрахунку на один ступінь свободи, отримаємо величину F-критерія Фішера: Фактичне значення F-критерія Фішера порівнюється з

    табличним значенням Fтабл(a; k 1; k 2) при рівні значимості a та ступенях свободи k 1 = mі k 2= n-m-1.При цьому, якщо фактичне значення F- критерію більше табличного, то визнається статистична значущість рівняння загалом.

    Для парної лінійної регресії m=1, тому

    Величина F-критерія пов'язана з коефіцієнтом детермінації R2 її можна розрахувати за такою формулою:

    У парній лінійній регресії оцінюється значимість як рівняння загалом, а й окремих його. параметрів. З цією метою щодо кожного з параметрів визначається його стандартна помилка: m bі m a. Стандартна помилка коефіцієнта регресії визначається за такою формулою: , де

    Величина стандартної помилки спільно з t-розподілом Стьюдента при n-2 ступенях свободи застосовується для перевірки суттєвості коефіцієнта регресії та для розрахунку його довірчого інтервалу. Для оцінки суттєвості коефіцієнта регресії його величина порівнюється зі стандартною помилкою, тобто. визначається фактичне значення t-критерія Стьюдента: яке потім порівнюється з табличним значенням при певному рівні значущості a та числі ступенів свободи (n-2). Довірчий інтервал для коефіцієнта регресії визначається як b± tтабл × mb. Оскільки знак коефіцієнта регресії вказує на зростання результативної ознаки yзі збільшенням ознаки-фактора x(b>0), зменшення результативної ознаки зі збільшенням ознаки-фактора ( b<0) или его независимость от независимой переменной (b=0), то межі довірчого інтервалу для коефіцієнта регресії не повинні містити суперечливих результатів, наприклад -1,5 £ b£0,8. Такі запис вказує, що справжнє значення коефіцієнта регресії одночасно містить позитивні і негативні величини і навіть нуль, чого може бути.

    Стандартна помилка параметра a визначається за формулою: Процедура оцінювання суттєвості даного параметра не відрізняється від розглянутої вище коефіцієнта регресії. Обчислюється t-Критерій: , Його величина порівнюється з табличним значенням при n- 2 степенях свободи.


    Парна регресіяє регресією між двома змінними

    -у і х, тобто.модель виду + ​​Е

    Де у- результативна ознака, тобто залежна змінна; х- Ознака-фактор.

    Лінійна регресіязводиться до знаходження рівняння виду або

    Рівняння виду дозволяє за заданими значеннями фактора x мати теоретичні значення результативної ознаки, підставляючи фактичні значення фактора х.

    Побудова лінійної регресії зводиться до оцінки її параметрів і ст.

    Оцінки параметрів лінійної регресії можна знайти різними методами.

    1.

    2.

    Параметр bназивається коефіцієнтом регресії. Його величина показує

    середня зміна результату із зміною фактора на одну одиницю.

    Формально а- значення упри х = 0. Якщо ознака-фактор

    не має і не може мати нульового значення, то вищезазначена

    трактування вільного члена, ане має сенсу. Параметр, аможе

    не мати економічного змісту. Спроби економічно

    інтерпретувати параметр, аможуть призвести до абсурду, особливо при а < 0.

    Інтерпретувати можна лише знак за параметра а.Якщо а > 0,

    то відносна зміна результату відбувається повільніше, ніж зміна

    перевірка якості знайдених параметрів та всієї моделі в цілому:

    -Оцінка значущості коефіцієнта регресії (b) та коефіцієнта кореляції

    -Оцінка значимості всього рівняння регресії. Коефіцієнт детермінації

    Рівняння регресії завжди доповнюється показником тісноти зв'язку. При

    використання лінійної регресії як такий показник виступає

    лінійний коефіцієнт кореляції r xy . Існують різні

    модифікації формули лінійного коефіцієнта кореляції

    Лінійний коефіцієнт кореляції знаходиться в межах: -1≤ .r xy

    ≤ 1. При цьому чим ближче rдо 0 тим слабша кореляція і навпаки

    ближче r до 1 чи -1, тим більше кореляція, тобто. залежність х і близька до

    лінійної. Якщо rточно =1або -1 всі точки лежать на одній прямій.

    Якщо коеф. регресії b>0 то 0 ≤. r xy≤ 1 та

    навпаки при b<0 -1≤.r xy≤0. Коеф.

    кореляції відображає ступені лінійної залежностім/в величинами за наявності

    яскраво вираженої залежності ін. виду.

    Для оцінки якості підбору лінійної функції розраховується квадрат лінійного

    коефіцієнта кореляції

    Називний коефіцієнт детермінації.Коефіцієнт детермінації

    характеризує частку дисперсії результативної ознаки y, яка пояснюється

    регресією. Відповідна величина

    характеризує частку дисперсії у,викликану впливом інших не врахованих

    у моделі факторів.

    МНК дозволяєотримати такі оцінки параметрів аі b,яких

    сума квадратів відхилень фактичних значень результативної ознаки

    (у)від розрахункових (теоретичних)

    мінімальна:

    Іншими словами, з

    всього безлічі ліній лінія регресії на графіку вибирається так, щоб сума

    квадратів відстаней по вертикалі між точками та цією лінією була б

    мінімальної.

    Вирішується система нормальних рівнянь

    ОЦІНКА СУТНІСТЬ ПАРАМЕТРІВ ЛІНІЙНОЇ РЕГРЕСІЇ.

    Оцінка значущості рівняння регресії загалом дається з допомогою F-критерия

    Фішера. При цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює

    нулю, тобто. b = 0, і отже, фактор хне надає

    впливу на результат у.

    Безпосереднім розрахунком F-критерію передує аналіз дисперсії.

    Центральне місце у ньому займає розкладання загальної суми квадратів відхилень

    змінної увід середнього значення уна дві частини -

    «пояснену» та «непояснену»:

    Загальна сума квадратів відхилень

    Сума квадратів

    відхилення пояснене регресією

    Залишкова сума квадратів відхилення.

    Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи , т.

    е. з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності nз числом визначених нею констант. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з пможливих потрібно для

    утворення цієї суми квадратів.

    Дисперсія на один ступінь свободи D.

    F-відносини (F-критерій):

    Якщо нульова гіпотеза справедлива, то факторна і залишкова дисперсії не

    відрізняються один від одного. Для Н 0 необхідно спростування, щоб

    факторна дисперсія перевищувала залишкову у кілька разів. Англійською

    статистиком Снедекором розроблено таблиці критичних значень F-відносин

    при різних рівнях суттєвості нульової гіпотези та різному числі ступенів

    свободи. Табличне значення F-критерію – це максимальна величина відношення

    дисперсій, яка може мати місце при випадковому їх розбіжності для даного

    рівня ймовірності наявності нульової гіпотези Обчислене значення F-відносини

    визнається достовірним, якщо більше табличного. У цьому випадку нульова

    гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок

    суттєвості зв'язку: F факт > F табл Н 0

    відхиляється.

    Якщо ж величина виявиться меншою за табличну F факт ‹, F табл

    То ймовірність нульової гіпотези вище за заданий рівень і вона не може бути

    відхилено без серйозного ризику зробити неправильний висновок про наявність зв'язку. У

    У цьому випадку рівняння регресії вважається статистично незначним. Але

    не відхиляється.


    Подібна інформація.


    Оцінивши параметри aі b, ми отримали рівняння регресії, яким можна оцінити значення yза заданими значеннями x. Природно вважати, що розрахункові значення залежної змінної нічого очікувати збігатися з дійсними значеннями, оскільки лінія регресії визначає взаємозв'язок лише середньому, загалом. Окремі значення розпорошені навколо неї. Таким чином, надійність одержуваних за рівнянням регресії розрахункових значень багато в чому визначається розсіюванням значень, що спостерігаються навколо лінії регресії. На практиці, як правило, дисперсія помилок невідома та оцінюється за спостереженнями одночасно з параметрами регресії. aі b. Цілком логічно припустити, що оцінка пов'язана із сумою квадратів залишків регресії. Величина є вибірковою оцінкою дисперсії обурень, що містяться в теоретичної моделі . Можна показати, що для моделі парної регресії

    де - Відхилення фактичного значення залежної змінної від її розрахункового значення.

    Якщо , то всім спостережень фактичні значення залежної змінної збігаються з розрахунковими (теоретичними) значеннями . Графічно це означає, що теоретична лінія регресії (лінія, побудована за функцією ) проходить через усі точки кореляційного поля, що можливе лише за строго функціонального зв'язку. Отже, результативна ознака уповністю зумовлений впливом фактора х.

    Зазвичай практично має місце деяке розсіювання точок кореляційного поля щодо теоретичної лінії регресії, т. е. відхилення емпіричних даних від теоретичних . Цей розкид обумовлений як впливом фактора х, тобто. регресією yпо х, (Таку дисперсію називають поясненою, так як вона пояснюється рівнянням регресії),так і дією інших причин (непояснена варіація, випадкова). Величина цих відхилень лежить в основі розрахунку показників якості рівняння.

    Згідно з основним положенням дисперсійного аналізу загальна сума квадратів відхилень залежної змінної yвід середнього значення може бути розкладена на дві складові: пояснену рівнянням регресії та непояснену:

    ,

    де - значення y, обчислені за рівнянням .

    Знайдемо відношення суми квадратів відхилень, поясненої рівнянням регресії, до загальної суми квадратів:

    , звідки

    . (7.6)

    Відношення частини дисперсії, поясненої рівнянням регресії до загальної дисперсії результативної ознаки, називається коефіцієнтом детермінації. Значення неспроможна перевершити одиниці і це максимальне значення буде досягнуто при , тобто. коли кожне відхилення дорівнює нулю і тому всі точки діаграми розсіювання точно лежать на прямій.

    Коефіцієнт детермінації характеризує частку поясненої регресією дисперсії у загальній величині дисперсії залежною змінною . Відповідно величина характеризує частку варіації (дисперсії) у,непояснену рівнянням регресії, а отже, викликану впливом інших неврахованих у моделі факторів. Чим ближче до одиниці, тим вища якість моделі.



    При парній лінійній регресії коефіцієнт детермінації дорівнює квадратупарного лінійного коефіцієнтакореляції: .

    Корінь із цього коефіцієнта детермінації є коефіцієнт (індекс) множинної кореляції, або теоретичне кореляційне відношення.

    Для того щоб дізнатися, чи дійсно отримане при оцінці регресії значення коефіцієнта детермінації відображає справжню залежність між yі xвиконують перевірку значимості побудованого рівняння загалом та окремих параметрів. Перевірка значущості рівняння регресії дозволяє дізнатися, чи придатне рівняння регресії для практичного використання, наприклад, для прогнозу чи ні.

    При цьому висувають основну гіпотезу про незначущість рівняння в цілому, яка формально зводиться до гіпотези про рівність нулю параметрів регресії, або, що те саме, про рівність нуля коефіцієнта детермінації: . Альтернативна гіпотеза про значущість рівняння - гіпотеза про нерівність нулю параметрів регресії або про нерівність нулю коефіцієнта детермінації: .

    Для перевірки значущості моделі регресії використовують F-критерій Фішера, що обчислюється як відношення суми квадратів (з розрахунку на одну незалежну змінну) до залишкової суми квадратів (з розрахунку на один ступінь свободи):

    , (7.7)

    де k- Число незалежних змінних.

    Після поділу чисельника та знаменника співвідношення (7.7) на загальну суму квадратів відхилень залежною змінною, F-критерій може бути еквівалентно виражений на основі коефіцієнта:

    .

    Якщо нульова гіпотеза справедлива, то пояснена рівнянням регресії та непояснена (залишкова) дисперсії не відрізняються одна від одної.

    Розрахункове значення F-критерій порівнюється з критичним значенням, яке залежить від кількості незалежних змінних k, та від числа ступенів свободи (n-k-1). Табличне (критичне) значення F-критерію – це максимальна величина відносин дисперсій, що може бути при випадковому розбіжності їх за заданого рівня ймовірності наявності нульової гіпотези. Якщо розрахункове значення F-критерій більше табличного при заданому рівні важливості, то нульова гіпотеза про відсутність зв'язку відхиляється і робиться висновок про суттєвість зв'язку, тобто. модель вважається значною.

    Для моделі парної регресії

    .

    У лінійній регресії зазвичай оцінюється значущість як рівняння загалом, а й окремих його коефіцієнтів. Для цього визначається стандартна помилка кожного параметра. Стандартні помилки коефіцієнтів регресії параметрів визначаються за формулами:

    , (7.8)

    (7.9)

    Стандартні помилки коефіцієнтів регресії або середньоквадратичні відхилення, розраховані за формулами (7.8,7.9), як правило, наводяться у результатах розрахунку моделі регресії у статистичних пакетах.

    Маючи середньоквадратичні помилки коефіцієнтів регресії, перевіряють значимість цих коефіцієнтів використовуючи звичайну схему перевірки статистичних гіпотез.

    Як основну гіпотезу висувають гіпотезу про незначну відмінність від нуля «справжнього» коефіцієнта регресії. Альтернативною гіпотезою у своїй є гіпотеза зворотна, т. е. про нерівність нулю «істинного» параметра регресії. Перевірка цієї гіпотези здійснюється за допомогою t-статистики, що має t-розподіл Стьюдента:

    Потім розрахункові значення t-статистики порівнюються з критичними значеннями t-статистики, що визначаються за таблицями розподілу Стьюдента. Критичне значеннявизначається залежно від рівня значимості α та числа ступенів свободи, яке дорівнює (n-k-1), п -кількість спостережень, k- Число незалежних змінних. У разі лінійної парної регресії число ступенів свободи дорівнює (п- 2). Критичне значення також може бути обчислено на комп'ютері за допомогою вбудованої функції СТЮДРАСПОБР пакету Ехсеl.

    Якщо розрахункове значення t-статистики більше критичного, то основну гіпотезу відкидають і вважають, що з ймовірністю (1-α)«Істинний» коефіцієнт регресії істотно відрізняється від нуля, що статистичним підтвердженням існування лінійної залежності відповідних змінних.

    Якщо розрахункове значення t-статистики менше критичного, немає підстав відкидати основну гіпотезу, т. е. «справжній» коефіцієнт регресії незначно відрізняється від нуля за рівня значимості α . У цьому випадку фактор, що відповідає цьому коефіцієнту, повинен бути виключений з моделі.

    Значимість коефіцієнта регресії можна встановити шляхом побудови довірчого інтервалу. Довірчий інтервал для параметрів регресії aі bвизначають наступним чином:

    ,

    ,

    де визначається за таблицею розподілу Стьюдента рівня значимості α та числа ступенів свободи (п- 2) для парної регресії.

    Оскільки коефіцієнти регресії в економетричних дослідженнях мають чітку економічну інтерпретацію, довірчі інтервали повинні містити нуль. Справжнє значення коефіцієнта регресії неспроможна одночасно містити позитивні і негативні величини, зокрема й нуль, інакше ми отримуємо суперечливі результати за економічної інтерпретації коефіцієнтів, чого може бути. Таким чином, коефіцієнт значимий, якщо отриманий довірчий інтервал не накриває нуль.

    Приклад 7.4.За даними прикладу 7.1:

    а) Побудувати парну лінійну модель регресії залежності прибутку від реалізації від відпускної ціниіз використанням програмних засобів обробки даних.

    б) Оцінити значимість рівняння регресії загалом, використовуючи F-критерій Фішера при α=0,05.

    в) Оцінити значущість коефіцієнтів моделі регресії, використовуючи t-критерій Стьюдента при α=0,05і α=0,1.

    Для проведення регресійного аналізу використовуємо стандартну офісну програму EXCEL. Побудову регресійної моделі проведемо за допомогою інструмента РЕГРЕСІЯ налаштування ПАКЕТ АНАЛІЗУ (рис.7.5), запуск якого здійснюється наступним чином:

    СервісАналіз данихРЕГРЕСІЯОК.

    Рис.7.5. Використання інструменту РЕГРЕСІЯ

    У діалоговому вікні РЕГРЕСІЯ в полі Вхідний інтервал Y необхідно ввести адресу діапазону осередків, що містять залежну змінну. У полі Вхідний інтервал Х потрібно ввести адреси одного або декількох діапазонів, що містять значення незалежних змінних Прапорець Мітки в першому рядку – встановлюється в активний стан, якщо виділені заголовки стовпців. На рис. 7.6. показано екранну форму обчислення моделі регресії за допомогою інструмента РЕГРЕСІЯ.

    Мал. 7.6. Побудова моделі парної регресії за допомогою

    інструменту РЕГРЕСІЯ

    В результаті роботи інструменту РЕГРЕСІЯ формується наступний протокол регресійного аналізу (рис.7.7).

    Мал. 7.7. Протокол регресійного аналізу

    Рівняння залежності прибутку від відпускної ціни має вигляд:

    Оцінку значущості рівняння регресії проведемо використовуючи F-критерій Фішера. Значення F-критерій Фішера візьмемо із таблиці «Дисперсійний аналіз» протоколу EXCEL (рис. 7.7.). Розрахункове значення F-критерію 53,372. Табличне значення F-критерію при рівні значимості α=0,05та числі ступенів свободи складає 4,964. Так як , то рівняння вважається значним.

    Розрахункові значення t-критерія Стьюдента для коефіцієнтів рівняння регресії наведено у результативній таблиці (рис. 7.7). Табличне значення t-критерія Стьюдента за рівня значимості α=0,05та 10 степенях волі становить 2,228. Для коефіцієнта регресії a, отже коефіцієнт aне значущий. Для коефіцієнта регресії b, отже, коефіцієнт bзначущий.



Нове на сайті

>

Найпопулярніше