Додому Десни Які вимоги до моделі регресійного аналізу. Методи математичної статистики

Які вимоги до моделі регресійного аналізу. Методи математичної статистики

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частинурозрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний R дорівнює квадратного кореняз коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

Метою регресійного аналізу є вимірювання зв'язку між залежною змінною та однією (парний регресійний аналіз) або декількома (множинним) незалежними змінними. Незалежні змінні називають також факторними, що пояснюють, визначальними, регресорами та предикторами.

Залежну змінну іноді називають обумовленою, пояснюваною, «відгуком». Надзвичайно широке поширення регресійного аналізу в емпіричних дослідженнях пов'язано не лише з тим, що це зручний інструмент тестування гіпотез. Регресія, особливо множинна, є ефективним методоммоделювання та прогнозування.

Пояснення принципів роботи з регресійним аналізом почнемо з простішого - парного методу.

Парний регресійний аналіз

Перші дії при використанні регресійного аналізу будуть практично ідентичними нами в рамках обчислення коефіцієнта кореляції. Три основні умови ефективності кореляційного аналізуза методом Пірсона – нормальний розподіл змінних, інтервальний вимір змінних, лінійний зв'язок між змінними – актуальні і для множинної регресії. Відповідно, на першому етапі будуються діаграми розсіювання, проводиться статистично-описовий аналіз змінних та обчислюється лінія регресії. Як і в рамках кореляційного аналізу, лінії регресії будуються методом найменших квадратів.

Щоб наочно проілюструвати різницю між двома методами аналізу даних, звернемося до вже розглянутому прикладу зі змінними «підтримка УПС» і «частка сільського населення». Вихідні дані ідентичні. Відмінність у діаграмах розсіювання полягатиме у цьому, що у регресійному аналізі коректно відкладати залежну змінну - у разі «підтримка УПС» по осі Y, тоді як і кореляційному аналізі це має значення. Після чищення викидів діаграма розсіювання має вигляд:

Принципова ідея регресійного аналізу у тому, що, маючи загальну тенденціюдля змінних - як лінії регресії, - можна передбачити значення залежної змінної, маючи значення незалежної.

Уявимо звичайну математичну лінійну функцію. Будь-яку пряму в евклідовому просторі можна описати формулою:

де а - константа, що задає зміщення осі ординат; b – коефіцієнт, що визначає кут нахилу лінії.

Знаючи кутовий коефіцієнт і константу, можна розрахувати (передбачити) значення для будь-якого х.

Ця найпростіша функціяі лягла в основу моделі регресійного аналізу з тим застереженням, що значення ми передбачимо не точно, а в рамках певного довірчого інтервалу, тобто. приблизно.

Константою є точка перетину лінії регресії та осі ординат (F-перетин, у статистичних пакетах, як правило, що позначається «interceptor»). У нашому прикладі із голосуванням за УПС її округлене значення становитиме 10,55. Кутовий коефіцієнт Ъ дорівнюватиме приблизно -0,1 (як і в кореляційному аналізі, знак показує тип зв'язку - пряма або зворотна). Таким чином, отримана модель матиме вигляд СП = -0,1 х Сел. нас. + 10,55.

УПС = -0,10 х 47 + 10,55 = 5,63.

Різниця між вихідним і передбаченим значеннями називається залишком (з цим терміном – важливим для статистики – ми вже стикалися при аналізі таблиць сполученості). Так, для випадку «Республіка Адигея» залишок дорівнюватиме 3,92 - 5,63 = -1,71. Чим більше модульне значення залишку, тим менш успішно передбачено значення.

Розраховуємо передбачені значення та залишки для всіх випадків:
Випадок Село. нас. УПС

(вихідне)

УПС

(передбачене)

Залишки
Республіка Адигея 47 3,92 5,63 -1,71 -
Республіка Алтай 76 5,4 2,59 2,81
Республіка Башкортостан 36 6,04 6,78 -0,74
Республіка Бурятія 41 8,36 6,25 2,11
республіка Дагестан 59 1,22 4,37 -3,15
Республіка Інгушетія 59 0,38 4,37 3,99
І т.д.

Аналіз співвідношення вихідних та передбачених значень служить для оцінки якості отриманої моделі, її прогностичної здатності. Одним з головних показників регресійної статистики є множинний коефіцієнт кореляції R - коефіцієнт кореляції між вихідними та передбаченими значеннями залежної змінної. У парному регресійному аналізі він дорівнює звичайному коефіцієнту кореляції Пірсона між залежною та незалежною змінною, у нашому випадку – 0,63. Щоб змістовно інтерпретувати множинний R, його необхідно перетворити на коефіцієнт детермінації. Це робиться так само, як і в кореляційному аналізі – зведенням у квадрат. Коефіцієнт детермінації R-квадрат (R 2) показує частку варіації залежної змінної, яка пояснюється незалежною (незалежними) змінними.

У разі R 2 = 0,39 (0,63 2); це означає, що змінна «частка сільського населення» пояснює приблизно 40% варіації змінної «підтримка УПС». Чим більша величина коефіцієнта детермінації, тим вища якість моделі.

Іншим показником якості моделі є стандартна помилка оцінки (standard error of estimate). Це показник того, наскільки сильно точки розкидані навколо лінії регресії. Мірою розкиду для інтервальних змінних є стандартне відхилення. Відповідно, стандартна помилка оцінки – це стандартне відхилення розподілу залишків. Чим вище її значення, тим сильніший розкид і тим гірша модель. У разі стандартна помилка становить 2,18. Саме на цю величину наша модель "помилятиметься в середньому" при прогнозуванні значення змінної "підтримка УПС".

Регресійна статистика включає також дисперсійний аналіз. За його допомогою ми з'ясовуємо: 1) яка частка варіації (дисперсії) залежної змінної пояснюється незалежною змінною; 2) яка частка дисперсії залежної змінної посідає залишки (непояснена частина); 3) яке відношення цих двох величин (/"-відношення). Дисперсійна статистика особливо важлива для вибіркових досліджень- вона показує, наскільки ймовірно наявність зв'язку між незалежною та залежною змінними в генеральної сукупності. Однак і для суцільних досліджень (як у нашому прикладі) вивчення результатів дисперсійного аналізунедаремно. І тут перевіряють, чи викликана виявлена ​​статистична закономірність збігом випадкових обставин, наскільки вона у тому комплексу умов, у яких перебуває обстежувана сукупність, тобто. встановлюється не істинність отриманого результату для більш широкої генеральної сукупності, а ступінь його закономірності, свободи від випадкових впливів.

У нашому випадку статистика дисперсійного аналізу така:

SS df MS F значення
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Залиш. 395,59 83,00 Л,11
Усього 654,36

F-відношення 54,29 значимо лише на рівні 0,0000000001. Відповідно, ми можемо з упевненістю відкинути нульову гіпотезу (що виявлений нами зв'язок носить випадковий характер).

Аналогічну функцію виконує критерій t, але вже щодо регресійних коефіцієнтів (кутового та F-перетину). За допомогою критерію/перевіряємо гіпотезу про те, що в генеральній сукупності регресійні коефіцієнти дорівнюють нулю. У нашому випадку ми можемо знову впевнено відкинути нульову гіпотезу.

Множинний регресійний аналіз

Модель множинної регресіїпрактично ідентична моделі парної регресії; різниця лише тому, що у лінійну функцію послідовно включаються кілька незалежних змінних:

Y = b1X1 + b2X2 + … + bpXp + а.

Якщо незалежних змінних більше двох, ми не маємо можливості отримати візуальне уявлення про їхній зв'язок, у цьому плані множинна регресія менш «наочна», ніж парна. За наявності двох незалежних змінних дані корисно відобразити на тривимірній діаграмі розсіювання. У професійних статистичних пакетах програм (наприклад Statisticа) існує опція обертання тривимірної діаграми, що дозволяє добре візуально подати структуру даних.

Працюючи з множинної регресією, на відміну парної, необхідно визначати алгоритм аналізу. Стандартний алгоритм включає у підсумкову регресійну модель усі наявні предиктори. Покроковий алгоритмпередбачає послідовне включення (виключення) незалежних змінних, виходячи з їх пояснювальної «ваги». Покроковий метод хороший, коли є багато незалежних змінних; він «очищає» модель від відверто слабких предикторів, роблячи її компактнішою і лаконічнішою.

Додатковою умовою коректності множинної регресії (поряд з інтервальністю, нормальністю та лінійністю) є відсутність мультиколлінеарності – наявності сильних кореляційних зв'язків між незалежними змінними.

Інтерпретація статистики множинної регресії включає всі злементи, розглянуті нами для випадку парної регресії. Крім того, у статистиці множинного регресійного аналізу є й інші важливі складові.

Роботу з множинною регресією ми проілюструємо на прикладі тестування гіпотез, що пояснюють відмінності в рівні електоральної активності в регіонах Росії. У ході конкретних емпіричних досліджень було висловлено припущення, що на рівень явки виборців впливають:

Національний чинник (змінна «російське населення»; операціоналізована як частка російського населення суб'єктах РФ). Передбачається, що частка російського населення веде до зниження активності виборців;

Чинник урбанізації (змінна « міське населення»; операціоналізована як частка міського населення в суб'єктах РФ, із цим фактором ми вже працювали в рамках кореляційного аналізу). Передбачається, що збільшення частки міського населення також призводить до зниження активності виборців.

Залежна змінна - «інтенсивність виборчої активності» («актив») операціоналізована через усереднені дані явки по регіонах на федеральних виборах з 1995 по 2003 р. Вихідна таблиця даних для двох незалежних та однієї залежної змінної матиме такий вигляд:

Випадок Змінні
актив. Гір. нас. Рос. нас.
Республіка Адигея 64,92 53 68
Республіка Алтай 68,60 24 60
Республіка Бурятія 60,75 59 70
республіка Дагестан 79,92 41 9
Республіка Інгушетія 75,05 41 23
Республіка Калмикія 68,52 39 37
Карачаєво-Черкеська Республіка 66,68 44 42
республіка Карелія 61,70 73 73
Республіка Комі 59,60 74 57
Республіка Марій Ел 65,19 62 47

І т.д. (після чищення викидів залишається 83 випадки із 88)

Статистика, що описує якість моделі:

1. Множинний R = 0,62; Л-квадрат = 0,38. Отже, національний фактор та фактор урбанізації разом пояснюють близько 38% варіації змінної «електоральної активності».

2. Середня помилкаскладає 3,38. Саме настільки «в середньому помиляється» побудована модель під час прогнозування рівня явки.

3. /л-відношення поясненої та непоясненої варіації становить 25,2 на рівні 0,000000003. Нульова гіпотеза про випадковість виявлених зв'язків відкидається.

4. Критерій /для константи та регресійних коефіцієнтів змінних «міське населення» і «російське населення» значимо на рівні 0,0000001; 0,00005 та 0,007 відповідно. Нульова гіпотеза про випадковість коефіцієнтів відкидається.

Додаткова корисна статистика в аналізі співвідношення вихідних та передбачуваних значень залежної змінної – відстань Махаланобіса та відстань Кука. Перше - міра унікальності випадку (показує, наскільки поєднання значень всіх незалежних змінних для даного випадкувідхиляється від середнього значення за всіма незалежними змінними одночасно). Друге – міра впливовості випадку. p align="justify"> Різні спостереження по-різному впливають на нахил лінії регресії, і за допомогою відстані Кука можна зіставляти їх за цим показником. Це буває корисно при чищенні викидів (викид можна уявити як надмірно впливовий випадок).

У нашому прикладі до унікальних та впливових випадків, зокрема, відноситься Дагестан.

Випадок Вихідні

значення

Предська

значення

Залишки Відстань

Махаланобіса

Відстань
Адигея 64,92 66,33 -1,40 0,69 0,00
Республіка Алтай 68,60 69.91 -1,31 6,80 0,01
Республіка Бурятія 60,75 65,56 -4,81 0,23 0,01
республіка Дагестан 79,92 71,01 8,91 10,57 0,44
Республіка Інгушетія 75,05 70,21 4,84 6,73 0,08
Республіка Калмикія 68,52 69,59 -1,07 4,20 0,00

Власне регресійна модель має наступні параметри: У-перетин (константа) = 75,99; Ь (Мір. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Підсумкова формула.

Характеристика причинних залежностей

Причинно-наслідкові відносини– це зв'язок явищ і процесів, коли зміна однієї з них – причини – веде до зміни іншого – слідства.

Ознаки щодо їх значення для вивчення взаємозв'язку діляться на два класи.

Ознаки, що зумовлюють зміни інших, пов'язаних із ними ознак, називаються факторними (чи факторами).

Ознаки, що змінюються під впливом факторних ознак, є результативними.

Розрізняють такі форми зв'язку: функціональну та стохастичну. Функціональноюназивають таку зв'язок, коли він певному значенню факторного ознаки відповідає одне і лише одне значення результативної ознаки. Функціональна зв'язок проявляється завжди спостереження і кожної конкретної одиниці досліджуваної сукупності.

Функціональний зв'язок можна надати наступним рівнянням:
y i = f(x i),де: y i - результативна ознака; f(x i) - відома функція зв'язку результативної та факторної ознак; x i - факторний ознака.
У природі функціональних зв'язків немає. Вони лише абстракціями, корисними при аналізі явищ, але спрощують реальність.

Стохастична (статистична чи випадкова)зв'язокє зв'язок між величинами, при якому одна з них реагує на зміну іншої величини або інших величин зміною закону розподілу. Іншими словами, при цьому зв'язку різним значеннямоднієї змінної відповідають різні розподіли іншої змінної. Це обумовлюється тим, що залежна змінна, крім незалежних, схильна до впливу низки неврахованих або неконтрольованих випадкових факторів, а також деяких неминучих помилок вимірювання змінних. У зв'язку з тим, що значення залежної змінної схильні до випадкового розкиду, вони не можуть бути передбачені з достатньою точністю, а можуть бути лише зазначені з певною ймовірністю.

З огляду на неоднозначності стохастичної залежності між Y і X, зокрема цікавий усереднена по х схема залежності, тобто. закономірність зміни середнього значення – умовного математичного очікування Мх(У) (математичного очікування випадкової змінної У, знайденого за умови, що змінна Х прийняла значення х) залежно від х.

Окремим випадком стохастичного зв'язку є кореляційний зв'язок. Кореляція(Від лат. correlatio- Співвідношення, взаємозв'язок). Пряме токування терміну кореляція - стохастична, ймовірна, можлива зв'язок між двома (парна) або кількома (множинна) випадковими величинами.

Кореляційної залежністю між двома змінними також називають статистичну взаємозв'язок між цими змінними, коли він кожному значенню однієї змінної відповідає певне середнє значення, тобто. умовне математичне очікування іншого. Кореляційна залежність є окремим випадком стохастичної залежності, при якій зміна значень факторних ознак (х 1 х 2 ..., х n) тягне за собою зміну середнього значення результативної ознаки.



Прийнято розрізняти такі види кореляції:

1. Парна кореляція – зв'язок між двома ознаками (результативним та факторним або двома факторними).

2. Приватна кореляція – залежність між результативним та одним факторним ознаками при фіксованому значенні інших факторних ознак, включених у дослідження.

3. Множинна кореляція – залежність результативної та двох або більше факторних ознак, включених у дослідження.

Призначення регресійного аналізу

Аналітичною формою уявлення причинно-наслідкових відносин є регресійні моделі. Наукова обґрунтованість та популярність регресійного аналізу робить його одним із основних математичних засобів моделювання досліджуваного явища. Цей метод застосовується для згладжування експериментальних даних та отримання кількісних оцінок порівняльного впливу різних факторівна результативну змінну.

Регресійний аналізполягаєу визначенні аналітичного виразу зв'язку, в якому зміна однієї величини (залежної змінної чи результативної ознаки) обумовлена ​​впливом однієї чи кількох незалежних величин(факторів або предикторів), а безліч всіх інших факторів, що також впливають на залежну величину, приймається за постійні та середні значення.

Цілі регресійного аналізу:

Оцінка функціональної залежності умовного середнього значення результативної ознаки у від факторних (х 1, х 2, …, х n);

Передбачення значення залежної змінної за допомогою незалежної.

Визначення вкладу окремих незалежних змінних у варіацію залежної змінної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку є передумовою для застосування аналізу.

У регресійному аналізі заздалегідь мається на увазі наявність причинно-наслідкових зв'язків між результативним (У) та факторними х1, х2…, хn ознаками.

Функція , опзалежність показника від параметрів, що називається, називається рівнянням (функцією) регресії 1 . Рівняння регресії показує очікуване значення залежної змінної при певних значеннях незалежних змінних.
Залежно від кількості включених до моделі факторів Хмоделі діляться на однофакторні (парна модель регресії) та багатофакторні (модель множинної регресії). Залежно від виду функції моделі поділяються на лінійні та нелінійні.

Парна регресійна модель

У силу впливу неврахованих випадкових факторів і причин окремі спостереження у більшій чи меншій мірі відхилятимуться від функції регресії f(х). У цьому випадку рівняння взаємозв'язку двох змінних (парна регресійна модель) може бути подане у вигляді:

Y=f(X) + ɛ,

де - випадкова змінна, що характеризує відхилення від функції регресії. Цю змінну називають обурювальною або обуренням (залишком чи помилкою). Таким чином, у регресійній моделі залежна змінна Yє деяка функція f(X)з точністю до випадкового обурення ɛ.

Розглянемо класичну лінійну модель парної регресії (КЛМПР). Вона має вигляд

у i =β 0 +β 1 х i +? i (i=1,2, …, n),(1)

де у i-Пояснюється (результуюча, залежна, ендогенна змінна); х i- Пояснювальна (предикторна, факторна, екзогенна) змінна; β 0 , β 1- Чисельні коефіцієнти; ɛ i- Випадкова (стохастична) складова або помилка.

Основні умови (передумови, гіпотези) КЛМПР:

1) х i– детермінована (невипадкова) величина, у своїй передбачається, що з значень х i – в повному обсязі однакові.

2) Математичне очікування(Середнє значення) обурення ɛ iодно нулю:

М [? i] = 0 (i = 1,2, ..., n).

3) Дисперсія обурення стала для будь-яких значень i (умова гомоскедастичності):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Обурення для різних спостережень є некорельованими:

cov[ɛi, ɛj]=M[ɛi, ɛj]=0 при i≠j,

де cov [ɛ i, ɛ j] - Коефіцієнт коваріації (кореляційний момент).

5) Обурення є нормально розподіленими випадковими величинами з нульовим середнім значенням та дисперсією σ 2:

ɛ i ≈ N(0, σ 2).

Для отримання рівняння регресії достатньо перших чотирьох передумов. Вимога виконання п'ятої передумови необхідне оцінки точності рівняння регресії та її параметрів.

Примітка:Увага до лінійних зв'язків пояснюється обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язку до виконання розрахунків перетворять (шляхом логарифмування чи заміни змінних) в лінійну форму.

Традиційний методнайменших квадратів (МНК)

Оцінкою моделі за вибіркою є рівняння

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

де ŷ i – теоретичні (апроксимуючі) значення залежної змінної, отримані за рівнянням регресії; a 0 , a 1 - коефіцієнти (параметри) рівняння регресії (вибіркові оцінки коефіцієнтів 0, 1 відповідно).

Згідно МНК невідомі параметри a 0 a 1 вибирають так, щоб сума квадратів відхилень значень ŷ i від емпіричних значень y i (залишкова сума квадратів) була мінімальною:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

де e i = y i - ŷ i - вибіркова оцінка обурення ɛ i, або залишок регресії.

Завдання зводиться до пошуку таких значень параметрів a 0 і a 1 , у яких функція Q e приймає найменше значення. Зауважимо, що функція Q e = Q e (a 0 , a 1) є функція двох змінних a 0 і a 1 до того часу, поки ми знайшли, та був зафіксували їх «найкращі» (у сенсі методу найменших квадратів) значення, а х i, y i - Постійні числа, знайдені експериментально.

Необхідні умовиекстремуми (3) знаходяться шляхом прирівнювання до нуля приватних похідних цієї функції двох змінних. В результаті отримаємо систему двох лінійних рівнянь, Яка називається системою нормальних рівнянь:

(4)

Коефіцієнт a 1 - вибірковий коефіцієнт регресії у на х, який показує на скільки одиниць у середньому змінюється змінна у при зміні змінної х на одну одиницю свого виміру, тобто варіацію у, що припадає на одиницю варіації х. Знак a 1вказує напрямок цієї зміни. Коефіцієнт a 0 – зміщення згідно (2) дорівнює значеннюŷ i при х=0 і може мати змістовної інтерпретації. За це іноді залежну змінну називають відгуком.

Статистичні властивості оцінок коефіцієнтів регресії:

Оцінки коефіцієнтів a 0 a 1 є незміщеними;

Дисперсії оцінок a 0 a 1 зменшуються (точність оцінок збільшується) при збільшенні обсягу вибірки n;

Дисперсія оцінки кутового коефіцієнта a 1 зменшується при збільшенні і тому бажано вибирати х i так, щоб їх розкид навколо середнього значення був більшим;

При х > 0 (що становить найбільший інтерес) між a 0 і a 1 є негативний статистичний зв'язок (збільшення a 1 призводить до зменшення a 0).

Основна особливість регресійного аналізу: за його допомогою можна отримати конкретні відомості про те, яку форму та характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

    Формулювання задачі. На цьому етапі формуються попередні гіпотези щодо залежності досліджуваних явищ.

    Визначення залежних та незалежних (пояснюючих) змінних.

    Збір статистичних даних. Дані мають бути зібрані для кожної із змінних, включених до регресійної моделі.

    Формулювання гіпотези про форму зв'язку (просте або множинне, лінійне або нелінійне).

    Визначення функції регресії (полягає у розрахунку чисельних значень параметрів рівняння регресії)

    Оцінка точності регресійного аналізу.

    Інтерпретація одержаних результатів. Отримані результати регресійного аналізу порівнюються із попередніми гіпотезами. Оцінюється коректність та правдоподібність отриманих результатів.

    Пророцтво невідомих значеньзалежною змінною.

За допомогою регресійного аналізу можливе вирішення завдання прогнозування та класифікації. Прогнозні значення обчислюються шляхом підстановки рівняння регресії параметрів значень пояснюючих змінних. Розв'язання задачі класифікації здійснюється таким чином: лінія регресії ділить все безліч об'єктів на два класи, і та частина множини, де значення функції більше за нуль, належить до одного класу, а та, де воно менше нуля, - до іншого класу.

Завдання регресійного аналізу

Розглянемо основні завдання регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної

Встановлення форми залежності.

Характер і форма залежності між змінними можуть утворювати такі різновиди регресії:

    позитивна лінійна регресія(Виражається в рівномірному зростанні функції);

    позитивна рівноприскорено зростаюча регресія;

    позитивна рівногайно зростаюча регресія;

    негативна лінійна регресія (виявляється у рівномірному падінні функції);

    негативна рівноприскорено спадна регресія;

    негативна рівногайно спадна регресія.

Однак описані різновиди зазвичай зустрічаються не в чистому вигляді, а у поєднанні один з одним. У такому разі говорять про комбіновані форми регресії.

Визначення функції регресії.

Друге завдання зводиться до з'ясування впливу на залежну змінну головних факторів або причин, за незмінних інших рівних умов, та за умови виключення впливу на залежну змінну випадкових елементів. Функція регресіївизначається як математичного рівняння тієї чи іншої типу.

Оцінка невідомих значень залежною змінною.

Розв'язання цієї задачі зводиться до розв'язання задачі одного з типів:

    Оцінка значень залежної змінної усередині аналізованого інтервалу вихідних даних, тобто. пропущених значень; у своїй вирішується завдання інтерполяції.

    Оцінка майбутніх значень залежної змінної, тобто. знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується завдання екстраполяції.

Обидві завдання вирішуються шляхом підстановки рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат рішення рівняння є оцінкою значення цільової (залежної) змінної.

Розглянемо деякі припущення, куди спирається регресійний аналіз.

Припущення лінійності, тобто. передбачається, що зв'язок між аналізованими змінними є лінійним. Так, у прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж діаграмі розсіювання змінних бачимо явне відсутність лінійного зв'язку, тобто. є нелінійний зв'язок, слід використовувати нелінійні методи аналізу.

Припущення про нормальність залишків. Воно припускає, що розподіл різниці передбачених і спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.

З використанням регресійного аналізу слід враховувати його основне обмеження. Воно у тому, що регресійний аналіз дозволяє виявити лише залежності, а чи не зв'язку, що у основі цих залежностей.

Регресійний аналіз дає можливість оцінити ступінь зв'язку між змінними шляхом обчислення передбачуваного значення змінної виходячи з кількох відомих значень.

Рівняння регресії.

Рівняння регресії виглядає так: Y=a+b*X

За допомогою цього рівняння змінна Y виражається через константу a та кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу a також називають вільним членом, а кутовий коефіцієнт - коефіцієнтом регресії або B-коефіцієнтом.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень щодо регресійної прямої.

Залишок - Це відхилення окремої точки (спостереження) від лінії регресії (передбаченого значення).

Для вирішення задачі регресійного аналізу у MS Excel вибираємо в меню Сервіс"Пакет аналізу"та інструмент аналізу "Регресія". Задаємо вхідні інтервали X та Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів має бути не більше 16.

На виході процедури у вихідному діапазоні отримуємо звіт, наведений у таблиці 8.3а-8.3в.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а, – регресійну статистику.

Величина R-квадрат, називана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

У більшості випадків значення R-квадратзнаходиться між цими значеннями, які називають екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадратублизько до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість збудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

множинний R - Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний Rдорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний Rдорівнює коефіцієнту кореляції Пірсона. Справді, множинний Rу разі дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії

Коефіцієнти

Стандартна помилка

t-статистика

Y-перетин

Змінна X 1

* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається виходячи з знаків (негативний чи позитивний) коефіцієнтів регресії (коефіцієнта b).

Якщо знак при коефіцієнті регресії - позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнті регресії - негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати висновку залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки

Спостереження

Передбачене Y

Залишки

Стандартні залишки

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення залишкуу разі - 0,778, найменше - 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних та побудованою лінією регресії, представленими на Мал. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.

Слід враховувати, що приклад, що розглядається, є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.

Мал. 8.3.Вихідні дані та лінія регресії

Залишилося нерозглянутим завдання оцінки невідомих майбутніх значень залежної змінної виходячи з відомих значень незалежної змінної, тобто. Завдання прогнозування.

Маючи рівняння регресії, завдання прогнозування зводиться до вирішення рівняння Y = x * 2,305454545 +2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків уперед представлені у таблиці 8.4.

Таблиця 8.4. Результати прогнозування змінної Y

Y(прогнозується)

Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:

    збудували рівняння регресії;

    встановили форму залежності та напрямок зв'язку між змінними - позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;

    встановили напрямок зв'язку між змінними;

    оцінили якість отриманої регресійної прямої;

    змогли побачити відхилення розрахункових даних від даних вихідного набору;

    передбачили майбутні значення залежної змінної.

Якщо функція регресіївизначено, інтерпретовано і обґрунтовано, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення мають достатню надійність.

Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна очікувати.

У цій роботі ми розглянули основні характеристики описової статистикиі серед них такі поняття, як середнє значення,медіана,максимум,мінімумта інші характеристики варіації даних.

Також було коротко розглянуто поняття викидів. Розглянуті показники ставляться до так званого дослідницького аналізу даних, його висновки можуть належати не до генеральної сукупності, а лише до вибірки даних. Дослідницький аналіз даних використовується для отримання первинних висновків та формування гіпотез щодо генеральної сукупності.

Також було розглянуто основи кореляційного та регресійного аналізу, їх завдання та можливості практичного використання.

p align="justify"> Метод регресивного аналізу застосовується для визначення техніко-економічних параметрів продукції, що відноситься до конкретного параметричного ряду, з метою побудови та вирівнювання ціннісних співвідношень. Цей метод використовується для аналізу та обґрунтування рівня та співвідношень цін продукції, що характеризується наявністю одного або кількох техніко-економічних параметрів, що відображають основні споживчі властивості. Регресивний аналіз дозволяє визначити емпіричну формулу, що описує залежність ціни від техніко-економічних властивостей виробів:

P=f(X1X2,...,Xn),

де Р – значення ціни одиниці виробу, руб.; (Х1, Х2, ... Хп) – техніко-економічні параметри виробів.

Метод регресивного аналізу - найбільш досконалий з нормативно-параметричних методів, що використовуються, - ефективний при проведенні розрахунків на основі застосування сучасних інформаційних технологійта систем. Застосування його включає такі основні етапи:

  • визначення класифікаційних параметричних груп виробів;
  • відбір параметрів, що найбільше впливають на ціну виробу;
  • вибір та обґрунтування форми зв'язку зміни ціни при зміні параметрів;
  • побудова системи нормальних рівнянь та розрахунок коефіцієнтів регресії.

Основний кваліфікаційною групоювиробів, ціна яких підлягає вирівнюванню, є параметричний ряд, всередині якого вироби можуть групуватися за різним виконанням залежно від їх застосування, умов і вимог експлуатації тощо. продукції виділятиме її однорідні групи. Відбір техніко-економічних параметрів провадиться виходячи з наступних основних вимог:

  • до складу відібраних параметрів включаються параметри, зафіксовані у стандартах та технічних умов; крім технічних параметрів (потужності, вантажопідйомності, швидкості тощо) використовуються показники серійності продукції, коефіцієнти складності, уніфікації та ін;
  • сукупність відібраних параметрів повинна досить повно характеризувати конструктивні, технологічні та експлуатаційні властивості виробів, що входять до ряду, і мати досить тісний кореляційний зв'язок із ціною;
  • параметри не повинні бути взаємозалежними.

Для відбору техніко-економічних параметрів, які впливають ціну, обчислюється матриця коефіцієнтів парної кореляції. За величиною коефіцієнтів кореляції між параметрами можна будувати висновки про тісноті їх зв'язку. При цьому близька до нуля кореляція вказує на незначний вплив параметра на ціну. Остаточний відбір техніко-економічних параметрів проводиться у процесі покрокового регресивного аналізу з використанням комп'ютерної технікита відповідних стандартних програм.

У практиці ціноутворення застосовується наступний набір функцій:

лінійна

P = ao + alXl + ... + antXn,

лінійно-статечна

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) ​​(ап+1Хп) ​​+... + (ап+nХп2) (ап+nХп2)

зворотного логарифму

Р = а0 + а1: In X1 + ... + ап: In Xn,

статечна

P = a0 (X1^a1) (X2^a2).. (Xn^an)

показова

P = e^(а1+а1X1+...+аnХn)

гіперболічна

Р = ао + а1: Х1 + а2: Х2 + ... + ап: Хп,

де Р – вирівнювання ціни; X1 X2,..., Хп – значення техніко-економічних параметрів виробів ряду; a0, a1 ..., аn - обчислювані коефіцієнти рівняння регресії.

У практичній роботі з ціноутворення залежно від форми зв'язку цін та техніко-економічних параметрів можуть використовуватись інші рівняння регресії. Вид функції зв'язку між ціною та сукупністю техніко-економічних параметрів може бути заданий попередньо або обраний автоматично в процесі обробки ЕОМ. Тіснота кореляційного зв'язку між ціною та сукупністю параметрів оцінюється за величиною множинного коефіцієнтакореляції. Близькість його до одиниці говорить про тісний зв'язок. По рівнянню регресії набувають вирівняні (розрахункові) значення цін виробів даного параметричного ряду. Для оцінки результатів вирівнювання обчислюють відносні величини відхилення розрахункових значень цін від фактичних:

Цр = Росії - Рр: Р х 100

де Росії, Рр - фактична і розрахункова ціни.

Розмір Цр має перевищувати 8-10%. У разі суттєвих відхилень розрахункових значень від фактичних необхідно досліджувати:

  • правильність формування параметричного ряду, оскільки у його складі можуть бути вироби, за своїми параметрами різко від інших виробів ряду. Їх треба виключити;
  • правильність відбору техніко-економічних властивостей. Можлива сукупність параметрів, що слабо корелюється з ціною. У цьому випадку необхідно продовжити пошук та відбір параметрів.

Порядок та методика проведення регресивного аналізу, знаходження невідомих параметрів рівняння та економічна оцінка отриманих результатів здійснюються відповідно до вимог математичної статистики.



Нове на сайті

>

Найпопулярніше