У дома венците Какви са изискванията за модел на регресионен анализ. Методи на математическата статистика

Какви са изискванията за модел на регресионен анализ. Методи на математическата статистика

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Таблица 8.3a. Регресионна статистика
Регресионна статистика
множествено число R 0,998364
R-квадрат 0,99673
Нормализиран R-квадрат 0,996321
Стандартна грешка 0,42405
Наблюдения 10

Нека първо разгледаме горна частизчисления, представени в таблица 8.3а - регресионна статистика.

Стойността R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в рамките на интервала.

В повечето случаи стойността на R-квадрат попада между тези стойности, наречени екстремни стойности, т.е. между нула и едно.

Ако стойността на R-квадрат е близка до единица, това означава, че конструираният модел обяснява почти цялата променливост в съответните променливи. Обратно, стойност на R-квадрат, близка до нула, означава, че качеството на конструирания модел е лошо.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

множествено число R- коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Кратно R е равно на корен квадратенот коефициента на определяне, това количество приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множеството R е равно на корелационния коефициент на Пиърсън. Наистина, множественото R в нашия случай е равно на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия
Коефициенти Стандартна грешка t-статистика
Y-пресечка 2,694545455 0,33176878 8,121757129
Променлива X 1 2,305454545 0,04668634 49,38177965
* Предоставена е съкратена версия на изчисленията

Сега разгледайте средната част на изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и преместването по ординатната ос, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) регресионни коефициенти(коефициент b).

Ако знакът при регресионен коефициент- положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът при регресионен коефициент- отрицателна, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

В таблица 8.3c. Представени са резултатите от извеждането на остатъците. За да се появят тези резултати в отчета, трябва да поставите отметка в квадратчето „Остатъци“, когато стартирате инструмента „Регресия“.

ТЕГЛЕНЕ НА ОСТАНАЛАТА

Таблица 8.3c. Остатъци
Наблюдение Предсказаният Y Остатъци Стандартни баланси
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойност

Целта на регресионния анализ е да се измери връзката между зависима променлива и една (регресионен анализ по двойки) или повече (множество) независими променливи. Независимите променливи се наричат ​​още факторни, обяснителни, детерминантни, регресорни и предикторни променливи.

Зависимата променлива понякога се нарича определена, обяснена или променлива „отговор“. Изключително широкото използване на регресионния анализ в емпиричните изследвания се дължи не само на факта, че той е удобен инструмент за проверка на хипотези. Регресията, особено множествената регресия, е ефективен методмоделиране и прогнозиране.

Нека започнем да обясняваме принципите на работа с регресионния анализ с по-прост - метода на двойките.

Сдвоен регресионен анализ

Първите стъпки при използване на регресионен анализ ще бъдат почти идентични с тези, които направихме при изчисляването на коефициента на корелация. Три основни условия за ефективност корелационен анализспоред метода на Pearson - нормално разпределение на променливите, интервално измерване на променливите, линейна връзка между променливите - също са от значение за множествената регресия. Съответно на първия етап се изграждат диаграми на разсейване, извършва се статистически и описателен анализ на променливите и се изчислява регресионна линия. Както в рамките на корелационния анализ, регресионните линии се конструират с помощта на метода най-малки квадрати.

За да илюстрираме по-ясно разликите между двата метода за анализ на данни, нека се обърнем към вече обсъдения пример с променливите „SPS подкрепа“ и „дял на селското население“. Изходните данни са идентични. Разликата в диаграмите на разсейване ще бъде, че при регресионния анализ е правилно да се начертае зависимата променлива - в нашия случай „SPS подкрепа“ върху оста Y, докато при корелационния анализ това няма значение. След почистване на отклоненията диаграмата на разсейване изглежда така:

Основната идея на регресионния анализ е, че имайки обща тенденцияза променливи - под формата на регресионна линия - можете да предвидите стойността на зависимата променлива, като се имат предвид стойностите на независимата.

Нека си представим обичайната математика линейна функция. Всяка права линия в евклидовото пространство може да се опише с формулата:

където a е константа, която определя преместването по ординатната ос; b е коефициент, който определя ъгъла на наклона на линията.

Като знаете наклона и константата, можете да изчислите (предскажете) стойността на y за всяко x.

Това най-простата функцияи формира основата за модел на регресионен анализ с уговорката, че няма да прогнозираме точно стойността на y, но в рамките на определен доверителен интервал, т.е. приблизително.

Константата е точката на пресичане на регресионната линия и у-оста (F-пресечна точка, обикновено означавана като „прихващач“ в статистическите пакети). В нашия пример с гласуването за Съюза на десните сили закръглената му стойност ще бъде 10,55. Ъгловият коефициент b ще бъде приблизително -0,1 (както при корелационния анализ знакът показва вида на връзката - директна или обратна). Така полученият модел ще има формата SP C = -0.1 x Sel. нас. + 10.55.

ATP = -0,10 х 47 + 10,55 = 5,63.

Разликата между първоначалните и прогнозираните стойности се нарича остатък (вече сме срещали този термин, който е основен за статистиката, когато анализираме таблици за непредвидени обстоятелства). Така че за случая на „Република Адигея“ остатъкът ще бъде равен на 3,92 - 5,63 = -1,71. Колкото по-голяма е модулната стойност на остатъка, толкова по-малко успешна е прогнозираната стойност.

Ние изчисляваме прогнозираните стойности и остатъците за всички случаи:
Случва се Седна. нас. Мерси

(оригинал)

Мерси

(предвиден)

Остатъци
Република Адигея 47 3,92 5,63 -1,71 -
Република Алтай 76 5,4 2,59 2,81
Република Башкортостан 36 6,04 6,78 -0,74
Република Бурятия 41 8,36 6,25 2,11
Република Дагестан 59 1,22 4,37 -3,15
Република Ингушетия 59 0,38 4,37 3,99
и т.н.

Анализът на съотношението на първоначалните и прогнозираните стойности служи за оценка на качеството на получения модел и неговата прогностична способност. Един от основните показатели на регресионната статистика е коефициентът на множествена корелация R - коефициентът на корелация между първоначалните и прогнозираните стойности на зависимата променлива. При сдвоен регресионен анализ той е равен на обичайния коефициент на корелация на Pearson между зависимите и независимите променливи, в нашия случай - 0,63. За да се интерпретира смислено множество R, то трябва да се преобразува в коефициент на определяне. Това става по същия начин, както при корелационния анализ – чрез повдигане на квадрат. Коефициентът на детерминация R-квадрат (R 2) показва съотношението на вариация в зависимата променлива, която се обяснява от независимата променлива(и).

В нашия случай R 2 = 0,39 (0,63 2); това означава, че променливата „дял на селското население“ обяснява приблизително 40% от вариацията в променливата „подпомагане на СЕП“. Колкото по-голям е коефициентът на детерминация, толкова по-високо е качеството на модела.

Друг показател за качеството на модела е стандартната грешка на оценката. Това е мярка за това колко широко точките са „разпръснати“ около регресионната линия. Мярката за спред за интервални променливи е стандартно отклонение. Съответно, стандартната грешка на оценката е стандартното отклонение на разпределението на остатъците. Колкото по-висока е стойността му, толкова по-голямо е разсейването и толкова по-лош е моделът. В нашия случай стандартната грешка е 2,18. Именно с тази сума нашият модел ще „греши средно“, когато прогнозира стойността на променливата „SPS support“.

Регресионната статистика включва и анализ на дисперсията. С негова помощ откриваме: 1) каква част от вариацията (дисперсията) на зависимата променлива се обяснява с независимата променлива; 2) каква част от дисперсията на зависимата променлива се отчита от остатъците (необяснена част); 3) какво е отношението на тези две величини (/"-отношение). Статистиката на дисперсията е особено важна за примерни изследвания- показва колко вероятно е да има връзка между независимите и зависимите променливи в население. Въпреки това, дори и за непрекъснато изследване (както в нашия пример), изучаване на резултатите дисперсионен анализбезполезно. В този случай те проверяват дали идентифицираният статистически модел е причинен от съвпадение на случайни обстоятелства, доколко е типичен за съвкупността от условия, в които се намира изследваната популация, т.е. не се установява истинността на резултата, получен за някаква по-голяма генерална съвкупност, а степента на нейната закономерност и свобода от случайни влияния.

В нашия случай статистиката ANOVA е както следва:

СС df Г-ЦА Е значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
остатък 395,59 83,00 L,11
Обща сума 654,36

F-съотношението от 54,29 е значително на ниво 0,0000000001. Съответно, можем уверено да отхвърлим нулевата хипотеза (че връзката, която открихме, се дължи на случайност).

Критерият t изпълнява подобна функция, но по отношение на коефициентите на регресия (ъглово и F-пресичане). Използвайки критерия /, проверяваме хипотезата, че в генералната съвкупност коефициентите на регресия са равни на нула. В нашия случай отново можем уверено да отхвърлим нулевата хипотеза.

Множествен регресионен анализ

Модел множествена регресияпочти идентичен с двойния регресионен модел; единствената разлика е, че няколко независими променливи са последователно включени в линейната функция:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ако има повече от две независими променливи, ние не можем да получим визуална представа за тяхната връзка; в това отношение множествената регресия е по-малко „визуална“ от регресията по двойки. Когато имате две независими променливи, може да е полезно да покажете данните в 3D точкова диаграма. В професионалните статистически софтуерни пакети (например Statistica) има опция за завъртане на триизмерна диаграма, което ви позволява визуално да представите добре структурата на данните.

При работа с множествена регресия, за разлика от регресия по двойки, е необходимо да се определи алгоритъмът за анализ. Стандартният алгоритъм включва всички налични предиктори в крайния регресионен модел. Алгоритъм стъпка по стъпкавключва последователно включване (изключване) на независими променливи въз основа на тяхната обяснителна „тежест“. Поетапният метод е добър, когато има много независими променливи; той „изчиства“ модела от откровено слаби предиктори, правейки го по-компактен и стегнат.

Допълнително условие за коректността на множествената регресия (наред с интервала, нормалността и линейността) е липсата на мултиколинеарност - наличието на силни корелации между независими променливи.

Интерпретацията на статистическите данни за множествена регресия включва всички елементи, които разгледахме за случая на регресия по двойки. Освен това има други важни компоненти на статистиката на множествения регресионен анализ.

Ще илюстрираме работата с множествена регресия, като използваме примера за тестване на хипотези, които обясняват разликите в нивото на избирателна активност в руските региони. Специфични емпирични проучвания показват, че нивата на избирателна активност се влияят от:

Национален фактор (променлива „Руско население“; операционализирана като дял от руското население в съставните образувания на Руската федерация). Предполага се, че увеличаването на дела на руското население води до намаляване на избирателната активност;

Фактор на урбанизация (променлива " градско население"; операционализиран като дял на градското население в съставните образувания на Руската федерация; ние вече работихме с този фактор в рамките на корелационния анализ). Предполага се, че увеличаването на дела на градското население води и до намаляване на избирателната активност.

Зависимата променлива - „интензивност на избирателната активност“ („активна“) се операционализира чрез данни за средната избирателна активност по региони на федерални избори от 1995 г. до 2003 г. Първоначалната таблица с данни за две независими и една зависима променлива ще бъде както следва:

Случва се Променливи
Активи. Гор. нас. рус. нас.
Република Адигея 64,92 53 68
Република Алтай 68,60 24 60
Република Бурятия 60,75 59 70
Република Дагестан 79,92 41 9
Република Ингушетия 75,05 41 23
Република Калмикия 68,52 39 37
Карачаево-Черкеска република 66,68 44 42
Република Карелия 61,70 73 73
Република Коми 59,60 74 57
Република Марий Ел 65,19 62 47

и т.н. (след почистване на емисиите остават 83 случая от 88)

Статистика, описваща качеството на модела:

1. Множество R = 0,62; L-квадрат = 0,38. Следователно националният фактор и факторът урбанизация заедно обясняват около 38% от вариацията на променливата „избирателна активност“.

2. Средна грешкае 3,38. Точно толкова „средно грешен” е изграденият модел при прогнозиране на нивото на избирателна активност.

3. /l-съотношението на обяснена и необяснена вариация е 25,2 на ниво 0,000000003. Нулевата хипотеза за случайността на идентифицираните връзки се отхвърля.

4. Критерият / за константните и регресионните коефициенти на променливите „градско население” и „руско население” е значим на ниво 0,0000001; 0,00005 и 0,007 съответно. Нулевата хипотеза, че коефициентите са случайни, се отхвърля.

Допълнителни полезни статистически данни при анализиране на връзката между първоначалните и прогнозираните стойности на зависимата променлива са разстоянието Махаланобис и разстоянието на Кук. Първият е мярка за уникалността на случая (показва колко е комбинацията от стойности на всички независими променливи за този случайсе отклонява от средната стойност за всички независими променливи едновременно). Второто е мярка за влиянието на случая. Различните наблюдения имат различен ефект върху наклона на регресионната линия и разстоянието на Кук може да се използва за сравняването им по този показател. Това може да бъде полезно при почистване на извънредни стойности (външната стойност може да се разглежда като твърде влиятелен случай).

В нашия пример уникалните и влиятелни случаи включват Дагестан.

Случва се Оригинален

стойности

Предска

стойности

Остатъци Разстояние

Махаланобис

Разстояние
Адигея 64,92 66,33 -1,40 0,69 0,00
Република Алтай 68,60 69.91 -1,31 6,80 0,01
Република Бурятия 60,75 65,56 -4,81 0,23 0,01
Република Дагестан 79,92 71,01 8,91 10,57 0,44
Република Ингушетия 75,05 70,21 4,84 6,73 0,08
Република Калмикия 68,52 69,59 -1,07 4,20 0,00

Самият регресионен модел има следните параметри: Y-пресечна (константа) = 75.99; b (хоризонтално) = -0,1; Комерсант (руски нас.) = -0,06. Крайна формула.

Характеристики на причинно-следствените зависимости

Причинно-следствени връзки- това е връзка между явления и процеси, когато изменението на едно от тях - причината - води до изменение на другото - следствието.

Знаците според тяхното значение за изследване на връзката се разделят на два класа.

Признаци, които причиняват промени в други свързани характеристики, се наричат факториел (или фактори).

Признаци, които се променят под въздействието на факторни признаци, са ефективен.

Разграничават се следните форми на комуникация: функционална и стохастична. Функционалене връзка, при която определена стойност на факторна характеристика съответства на една и само една стойност на резултантната характеристика. Функционалната връзка се проявява във всички случаи на наблюдение и за всяка конкретна единица от изследваната съвкупност.

Функционалната връзка може да бъде представена със следното уравнение:
y i =f(x i),където: y i - резултатен знак; f(x i) - известна функция на връзката между резултатната и факторната характеристика; x i - знак за фактор.
В реалната природа няма функционални връзки. Те са само абстракции, полезни при анализиране на явления, но опростяват реалността.

Стохастичен (статистически или случаен)Връзкапредставлява връзка между величини, при която една от тях реагира на промяна в друга величина или други величини чрез промяна на закона за разпределение. С други думи, с тази връзка различни значенияедна променлива съответства на различни разпределения на друга променлива. Това се дължи на факта, че зависимата променлива, в допълнение към разглежданите независими, се влияе от редица неотчетени или неконтролирани случайни фактори, както и някои неизбежни грешки при измерването на променливите. Поради факта, че стойностите на зависимата променлива са обект на случайно разсейване, те не могат да бъдат предвидени с достатъчна точност, а могат да бъдат посочени само с определена вероятност.

Поради неяснотата на стохастичната зависимост между Y и X, особено интерес представлява осреднената по x схема на зависимост, т.е. модел в промяната на средната стойност - условното математическо очакване Mx(Y) (математическото очакване на случайна променлива Y, намерено при условие, че променливата X приема стойността x) в зависимост от x.

Специален случай на стохастична комуникация е корелационната комуникация. Корелация(от лат. корелация- корелация, връзка). Директно определение на термина корелация - стохастичен, вероятен, възможен Връзка между двама (чифт) или няколко (множество) случайни променливи.

Корелационната зависимост между две променливи се нарича още статистическа връзка между тези променливи, при която всяка стойност на една променлива съответства на определена средна стойност, т.е. условното математическо очакване е различно. Корелационната зависимост е специален случай на стохастична зависимост, при която промяната в стойностите на факторните характеристики (x 1 x 2 ..., x n) води до промяна в средната стойност на получената характеристика.



Обичайно е да се разграничават следните видове корелация:

1. Двойна корелация – връзка между две характеристики (резултатна и факторна или двуфакторна).

2. Частична корелация - зависимостта между резултатната и една факторна характеристика с фиксирана стойност на други факторни характеристики, включени в изследването.

3. Множествена корелация - зависимостта на резултатната и две или повече факторни характеристики, включени в изследването.

Цел на регресионния анализ

Аналитичната форма за представяне на причинно-следствените връзки са регресионните модели. Научната валидност и популярността на регресионния анализ го прави един от основните математически инструменти за моделиране на изследваното явление. Този метод се използва за изглаждане на експериментални данни и получаване на количествени оценки на сравнително влияние различни факторикъм променливата резултат.

Регресионен анализепри определяне на аналитичния израз на връзка, в която промяна в една стойност (зависима променлива или резултатна характеристика) се дължи на влиянието на една или повече независими величини(фактори или предиктори), а наборът от всички други фактори, които също влияят на зависимата стойност, се приема като постоянна и средна стойност.

Цели на регресионния анализ:

Оценка на функционалната зависимост на условната средна стойност на резултантната характеристика y от факторните фактори (x 1, x 2, ..., x n);

Прогнозиране на стойността на зависима променлива с помощта на независимата променлива(и).

Определяне на приноса на отделните независими променливи към вариацията на зависимата променлива.

Регресионният анализ не може да се използва, за да се определи дали има връзка между променливите, тъй като наличието на такава е предпоставка за прилагане на анализа.

При регресионния анализ предварително се приема, че съществуват причинно-следствени връзки между резултатната (U) и факторните характеристики x 1, x 2 ..., x n.

функция , опОпределящата зависимост на показателя от параметрите се нарича регресионно уравнение (функция) 1 . Уравнението на регресията показва очакваната стойност на зависимата променлива при определени стойности на независимите променливи.
В зависимост от броя на факторите, включени в модела хмоделите се делят на еднофакторни (модел на двойна регресия) и многофакторни (модел на множествена регресия). В зависимост от вида на функцията моделите се делят на линейни и нелинейни.

Сдвоен регресионен модел

Поради влиянието на неотчетени случайни фактори и причини, отделните наблюдения y ще се отклоняват в по-голяма или по-малка степен от регресионната функция f(x). В този случай уравнението за връзката между две променливи (сдвоен регресионен модел) може да бъде представено като:

Y=f(X) + ɛ,

където ɛ е случайна променлива, характеризираща отклонението от регресионната функция. Тази променлива се нарича смущение или смущение (остатъчно или грешка). Така в регресионния модел зависимата променлива Yима някаква функция f(X)до случайни смущения ɛ.

Нека разгледаме класическия линеен модел на регресия по двойки (CLMPR). Тя прилича на

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

Където y i– обяснена (резултантна, зависима, ендогенна променлива); x i– обяснителна (предикторна, факторна, екзогенна) променлива; β 0 , β 1– числени коефициенти; ɛi– случаен (стохастичен) компонент или грешка.

Основни условия (предпоставки, хипотези) на KLMPR:

1) x i– детерминистично (неслучайно) количество и се приема, че сред стойностите x i - не всички са еднакви.

2) Очаквана стойност(средна стойност) смущения ɛiе равно на нула:

М[ɛ i ]=0 (i=1,2, …, n).

3) Дисперсията на смущението е постоянна за всякакви стойности на i (условие на хомоскедастичност):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Смущенията за различни наблюдения не са корелирани:

cov[ɛ i, ɛ j]=M[ɛ i, ɛ j]=0 за i≠j,

където cov[ɛ i, ɛ j] е ковариационният коефициент (момент на корелация).

5) Смущенията са нормално разпределени случайни променливи с нулева средна стойност и дисперсия σ 2:

ɛ i ≈ N(0, σ 2).

За да се получи регресионно уравнение, първите четири предпоставки са достатъчни. Изискването за изпълнение на петата предпоставка е необходимо за оценка на точността на регресионното уравнение и неговите параметри.

коментар:Фокусът върху линейните зависимости се обяснява с ограничената вариация на променливите и факта, че в повечето случаи нелинейните форми на зависимости се преобразуват (чрез логаритъм или заместване на променливи) в линейна форма за извършване на изчисления.

Традиционен методнай-малки квадрати (LS)

Оценката на модела от извадката е уравнението

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

където ŷ i – теоретични (приблизителни) стойности на зависимата променлива, получени от регресионното уравнение; a 0 , a 1 - коефициенти (параметри) на регресионното уравнение (примерни оценки на коефициентите β 0, β 1, съответно).

Според най-малките квадрати неизвестните параметри a 0 , a 1 са избрани така, че сумата от квадратните отклонения на стойностите ŷ i от емпиричните стойности y i (остатъчна сума от квадрати) е минимална:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

където e i = y i - ŷ i – примерна оценка на смущението ɛ i, или регресионен остатък.

Проблемът се свежда до намирането на такива стойности на параметрите a 0 и a 1, за които функцията Q e приема най-малка стойност. Обърнете внимание, че функцията Q e = Q e (a 0 , a 1) е функция на две променливи a 0 и a 1, докато не намерим и след това фиксираме техните „най-добри“ (в смисъла на метода на най-малките квадрати) стойности, a x i , y i са постоянни числа, намерени експериментално.

Необходимите условияекстремуми (3) се намират чрез приравняване на частните производни на тази функция на две променливи на нула. В резултат на това получаваме система от две линейни уравнения, която се нарича система от нормални уравнения:

(4)

Коефициент a 1 е примерен регресионен коефициент на y върху x, който показва колко средно единици се променя променливата y, когато променливата x се променя с една единица от нейното измерване, т.е. промяната на y на единица промяна на x. Знак а 1показва посоката на тази промяна. Коефициент a 0 – преместване, съгласно (2) равно на стойносттаŷ i за x=0 и може да няма смислена интерпретация. Поради тази причина зависимата променлива понякога се нарича реакция.

Статистически свойства на оценките на регресионния коефициент:

Оценките на коефициента a 0 , a 1 са безпристрастни;

Дисперсиите на оценките a 0 , a 1 намаляват (точността на оценките нараства) с увеличаване на размера на извадката n;

Дисперсията на оценката на наклона a 1 намалява с нарастване и затова е препоръчително да изберете x i така, че тяхното разпространение около средната стойност да е голямо;

За x¯ > 0 (което е от най-голям интерес), има отрицателна статистическа връзка между 0 и 1 (увеличаването на 1 води до намаляване на 0).

Основната характеристика на регресионния анализ: с негова помощ можете да получите конкретна информация за това каква форма и характер има връзката между изследваните променливи.

Последователност от етапи на регресионния анализ

Нека разгледаме накратко етапите на регресионния анализ.

    Формулиране на проблема. На този етап се формират предварителни хипотези за зависимостта на изследваните явления.

    Дефиниция на зависими и независими (обяснителни) променливи.

    Събиране на статистически данни. Трябва да се съберат данни за всяка от променливите, включени в регресионния модел.

    Формулиране на хипотеза за формата на връзката (проста или множествена, линейна или нелинейна).

    Определение регресионни функции (състои се в изчисляване на числените стойности на параметрите на регресионното уравнение)

    Оценяване на точността на регресионния анализ.

    Интерпретация на получените резултати. Получените резултати от регресионния анализ се сравняват с предварителните хипотези. Оценява се коректността и достоверността на получените резултати.

    Прогноза неизвестни стойностизависима променлива.

Използвайки регресионен анализ, е възможно да се реши проблемът с прогнозирането и класификацията. Прогнозираните стойности се изчисляват чрез заместване на стойностите на обяснителните променливи в регресионното уравнение. Проблемът с класификацията се решава по следния начин: линията на регресия разделя целия набор от обекти на два класа и тази част от набора, където стойността на функцията е по-голяма от нула, принадлежи към един клас, а частта, където е по-малка от нула принадлежи към друг клас.

Проблеми на регресионния анализ

Нека разгледаме основните задачи на регресионния анализ: установяване на формата на зависимост, определяне регресионни функции, оценка на неизвестни стойности на зависимата променлива.

Установяване на формата на зависимост.

Характерът и формата на връзката между променливите могат да формират следните видове регресия:

    положителен линейна регресия(изразява се в равномерно нарастване на функцията);

    положителна равномерно нарастваща регресия;

    положителна равномерно нарастваща регресия;

    отрицателна линейна регресия (изразена като равномерен спад на функцията);

    отрицателна равномерно ускорена намаляваща регресия;

    отрицателна равномерно намаляваща регресия.

Описаните сортове обаче обикновено не се срещат в чиста форма, но в комбинация помежду си. В този случай говорим за комбинирани форми на регресия.

Дефиниция на регресионната функция.

Втората задача се свежда до идентифициране на ефекта върху зависимата променлива на основните фактори или причини, при равни други условия и при изключване на влиянието на случайни елементи върху зависимата променлива. Регресионна функциясе определя под формата на математическо уравнение от един или друг тип.

Оценка на неизвестни стойности на зависимата променлива.

Решението на този проблем се свежда до решаване на проблем от един от следните видове:

    Оценка на стойностите на зависимата променлива в разглеждания интервал от изходните данни, т.е. липсващи стойности; в този случай проблемът с интерполацията е решен.

    Оценка на бъдещите стойности на зависимата променлива, т.е. намиране на стойности извън зададения интервал на изходните данни; в този случай проблемът с екстраполацията е решен.

И двата проблема се решават чрез заместване на намерените оценки на параметрите за стойностите на независими променливи в регресионното уравнение. Резултатът от решаването на уравнението е оценка на стойността на целевата (зависима) променлива.

Нека да разгледаме някои от предположенията, на които се основава регресионният анализ.

Предположение за линейност, т.е. връзката между разглежданите променливи се приема за линейна. И така, в този пример начертахме диаграма на разсейване и успяхме да видим ясна линейна зависимост. Ако на точковата диаграма на променливите видим ясно отсъствие на линейна зависимост, т.е. Ако има нелинейна връзка, трябва да се използват нелинейни методи за анализ.

Предположение за нормалност остатъци. Предполага се, че разпределението на разликата между прогнозираните и наблюдаваните стойности е нормално. За да определите визуално естеството на разпределението, можете да използвате хистограми остатъци.

Когато се използва регресионен анализ, трябва да се има предвид основното му ограничение. Състои се във факта, че регресионният анализ ни позволява да открием само зависимости, а не връзките, които са в основата на тези зависимости.

Регресионният анализ ви позволява да оцените силата на връзката между променливите чрез изчисляване на прогнозната стойност на променлива въз основа на няколко известни стойности.

Регресионно уравнение.

Уравнението на регресията изглежда така: Y=a+b*X

Използвайки това уравнение, променливата Y се изразява чрез константа a и наклона на линията (или наклона) b, умножени по стойността на променливата X. Константата a се нарича още член на пресичането, а наклонът е коефициент на регресия или B-коефициент.

В повечето случаи (ако не винаги) има известно разсейване на наблюденията спрямо регресионната линия.

остатък е отклонението на единична точка (наблюдение) от регресионната линия (предсказана стойност).

За да решите проблема с регресионния анализ в MS Excel, изберете от менюто Обслужване"Пакет за анализ"и инструмента за регресионен анализ. Задаваме входните интервали X и Y. Входният интервал Y е диапазонът от зависими анализирани данни, той трябва да включва една колона. Входящият интервал X е диапазонът от независими данни, които трябва да бъдат анализирани. Броят на входните диапазони не трябва да надвишава 16.

На изхода на процедурата в изходния диапазон получаваме дадения отчет таблица 8.3а-8,3v.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Таблица 8.3a. Регресионна статистика

Регресионна статистика

множествено число R

R-квадрат

Нормализиран R-квадрат

Стандартна грешка

Наблюдения

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3а, - регресионна статистика.

величина R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в рамките на интервала.

В повечето случаи стойността R-квадрате между тези стойности, наречени екстремни, т.е. между нула и едно.

Ако стойността R-квадратблизо до единица, това означава, че конструираният модел обяснява почти цялата вариабилност в съответните променливи. Обратно, смисълът R-квадрат, близо до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

множествено число R - коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

множествено число Rе равен на корен квадратен от коефициента на определяне; това количество приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множествено число Rравен на корелационния коефициент на Пиърсън. Наистина ли, множествено число Rв нашия случай той е равен на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия

Коефициенти

Стандартна грешка

t-статистика

Y-пресечка

Променлива X 1

* Предоставена е съкратена версия на изчисленията

Сега разгледайте средната част от изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и преместването по ординатната ос, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) на регресионните коефициенти (коефициент b).

Ако знакът на регресионния коефициент е положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът на регресионния коефициент е отрицателен, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

IN таблица 8.3c. представени са изходните резултати остатъци. За да се появят тези резултати в отчета, трябва да поставите отметка в квадратчето „Остатъци“, когато стартирате инструмента „Регресия“.

ТЕГЛЕНЕ НА ОСТАНАЛАТА

Таблица 8.3c. Остатъци

Наблюдение

Предсказаният Y

Остатъци

Стандартни баланси

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойност остатъкв нашия случай - 0,778, най-малката - 0,043. За да интерпретираме по-добре тези данни, ще използваме графиката на оригиналните данни и построената регресионна линия, представена в ориз. 8.3. Както можете да видите, линията на регресия е доста точно „напасната“ към стойностите на оригиналните данни.

Трябва да се има предвид, че разглежданият пример е доста прост и не винаги е възможно да се изгради качествено линия на линейна регресия.

Ориз. 8.3.Изходни данни и регресионна линия

Проблемът с оценката на неизвестни бъдещи стойности на зависимата променлива въз основа на известни стойности на независимата променлива остана неразгледан, т.е. проблем с прогнозирането.

Имайки регресионно уравнение, проблемът за прогнозиране се свежда до решаване на уравнението Y= x*2.305454545+2.694545455 с известни стойности на x. Представени са резултатите от прогнозирането на зависимата променлива Y шест стъпки напред в таблица 8.4.

Таблица 8.4. Y променливи прогнозни резултати

Y (предвидено)

По този начин, в резултат на използването на регресионен анализ в Microsoft Excel, ние:

    построено регресионно уравнение;

    установена е формата на връзката и посоката на връзката между променливите - положителна линейна регресия, която се изразява в равномерно нарастване на функцията;

    установи посоката на връзката между променливите;

    оцени качеството на получената регресионна линия;

    са в състояние да видят отклонения на изчислените данни от данните на оригиналния набор;

    прогнозирани бъдещи стойности на зависимата променлива.

Ако регресионна функциядефинирани, интерпретирани и обосновани и оценката за точността на регресионния анализ отговаря на изискванията, конструираният модел и прогнозираните стойности могат да се считат за достатъчно надеждни.

Прогнозираните стойности, получени по този начин, са средните стойности, които могат да се очакват.

В тази работа разгледахме основните характеристики Описателна статистикаи сред тях такива понятия като средна стойност,Медиана,максимум,минимуми други характеристики на вариацията на данните.

Концепцията също беше обсъдена накратко емисии. Разгледаните характеристики се отнасят до така наречения проучвателен анализ на данни; неговите заключения може да не се отнасят за общата популация, а само за извадка от данни. Проучвателният анализ на данни се използва за получаване на първични заключения и формиране на хипотези за населението.

Бяха разгледани и основите на корелационния и регресионен анализ, техните задачи и възможности за практическо приложение.

Методът на регресионния анализ се използва за определяне на технико-икономическите параметри на продуктите, принадлежащи към конкретна параметрична серия, за да се изградят и изравнят ценностни връзки. Този метод се използва за анализиране и обосноваване на съотношенията на нивото и цените на продуктите, характеризиращи се с наличието на един или повече технически и икономически параметри, които отразяват основните потребителски свойства. Регресионният анализ ни позволява да намерим емпирична формула, която описва зависимостта на цената от техническите и икономически параметри на продуктите:

P=f(X1X2,...,Xn),

където P е стойността на единичната цена на продукта, rub.; (X1, X2, ... Xn) - технически и икономически параметри на продуктите.

Методът на регресионния анализ - най-модерният от използваните нормативно-параметрични методи - е ефективен при извършване на изчисления, базирани на използването на съвременни информационни технологиии системи. Приложението му включва следните основни стъпки:

  • определяне на класификационни параметрични групи на продуктите;
  • избор на параметри, които най-много влияят върху цената на продукта;
  • избор и обосновка на формата на връзка между ценовите промени при промяна на параметрите;
  • изграждане на система от нормални уравнения и изчисляване на регресионни коефициенти.

Основен квалификационна групапродуктите, чиято цена подлежи на изравняване, е параметрична серия, в рамките на която продуктите могат да бъдат групирани в различни дизайни в зависимост от тяхното приложение, експлоатационни условия и изисквания и др. При формиране на параметрични серии могат да се използват автоматични методи за класификация, които дават възможност на продуктите да идентифицират своите хомогенни групи. Изборът на технически и икономически параметри се извършва въз основа на следните основни изисквания:

  • избраните параметри включват параметрите, записани в стандартите и технически условия; в допълнение към техническите параметри (мощност, товароносимост, скорост и др.) се използват показатели за серийност на продукта, коефициенти на сложност, унификация и др.;
  • наборът от избрани параметри трябва достатъчно пълно да характеризира конструктивните, технологичните и експлоатационните свойства на продуктите, включени в серията, и да има доста тясна връзка с цената;
  • параметрите не трябва да са взаимозависими.

За да изберете технически и икономически параметри, които значително влияят на цената, се изчислява матрица от коефициенти на двойка корелация. Въз основа на големината на коефициентите на корелация между параметрите може да се съди за близостта на тяхната връзка. В същото време корелация, близка до нула, показва незначително влияние на параметъра върху цената. Окончателният избор на технически и икономически параметри се извършва в процеса на поетапен регресионен анализ с помощта на компютърно оборудванеи съответните стандартни програми.

В ценовата практика се използва следният набор от функции:

линеен

P = ao + alXl + ... + antXn,

линейна мощност

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

обратен логаритъм

P = a0 + a1: В X1 + ... + an: В Xn,

мощност

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показателен

P = e^(a1+a1X1+...+anXn)

хиперболичен

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

където P е изравняване на цените; X1 X2,..., Xn - стойността на технико-икономическите параметри на продуктите от серията; a0, a1 ..., аn - изчислени коефициенти на регресионното уравнение.

В практическата работа по ценообразуването, в зависимост от формата на връзката между цените и технико-икономическите параметри, могат да се използват други регресионни уравнения. Типът функция на връзката между цена и набор от технически и икономически параметри може да бъде предварително зададен или автоматично избран по време на компютърна обработка. По стойността се оценява тясната връзка между цената и набор от параметри множествен коефициенткорелации. Близостта му до един показва тясна връзка. С помощта на регресионното уравнение се получават изравнени (изчислени) ценови стойности за продукти от дадена параметрична серия. За да се оценят резултатите от изравняването, се изчисляват относителните стойности на отклонението на изчислените ценови стойности от действителните:

Tsr = Rf - Rr: R x 100

където Рф, Рр - действителни и калкулирани цени.

Стойността на CR не трябва да надвишава 8-10%. В случай на значителни отклонения на изчислените стойности от действителните, е необходимо да се изследват:

  • правилността на формирането на параметрична серия, тъй като тя може да съдържа продукти, които по своите параметри се различават рязко от другите продукти в серията. Те трябва да бъдат изключени;
  • правилен подбор на технически и икономически параметри. Възможен е набор от параметри, който е слабо свързан с цената. В този случай е необходимо да продължите търсенето и избора на параметри.

Процедурата и методологията за провеждане на регресионен анализ, намиране на неизвестни параметри на уравнението и икономическа оценка на получените резултати се извършват в съответствие с изискванията на математическата статистика.



Ново в сайта

>

Най - известен