У дома хигиена Как да намерите средната грешка на приближението в excel. Оценка на статистическата надеждност на резултатите от регресионното моделиране с помощта на F теста на Fisher

Как да намерите средната грешка на приближението в excel. Оценка на статистическата надеждност на резултатите от регресионното моделиране с помощта на F теста на Fisher

Нека проверим хипотезата H 0 за равенството на индивидуалните регресионни коефициенти на нула (ако алтернативата не е равна на H 1) при ниво на значимост b = 0,05.

Ако основната хипотеза се окаже невярна, приемаме алтернативната. За проверка на тази хипотеза се използва t-тестът на Student.

Стойността на t-критерия, намерена от данни от наблюдения (наричана още наблюдавана или действителна), се сравнява с табличната (критична) стойност, определена от таблиците за разпределение на Стюдънт (които обикновено се дават в края на учебниците и семинарите по статистика или иконометрия).

Таблица стойностсе определя в зависимост от нивото на значимост (b) и броя на степените на свобода, който в случай на линейна двойка регресия е равен на (n-2), n е броят на наблюденията.

Ако действителната стойност на t-теста е по-голяма от табличната стойност (по модул), тогава основната хипотеза се отхвърля и се счита, че с вероятност (1-b) параметърът или статистическата характеристика в населениезначително различен от нула.

Ако действителната стойност на t-теста е по-малка от табличната стойност (по модул), тогава няма причина да се отхвърли основната хипотеза, т.е. параметър или статистическа характеристика в популацията не се различава значително от нула на ниво на значимост b.

t crit (n-m-1;b/2) = (30;0,025) = 2,042

От 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в в такъв случайкоефициентът b може да се пренебрегне.

От 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Доверителен интервал за коефициентите на регресионното уравнение.

Нека определим доверителните интервали на регресионните коефициенти, които с надеждност от 95% ще бъдат както следва:

  • (b - t критичен S b ; b + t критичен S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Тъй като точка 0 (нула) е вътре доверителен интервал, тогава интервалната оценка на коефициента b е статистически незначима.

  • (a - t критичен S a ; a + t критичен S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

С вероятност от 95% може да се каже, че стойността на този параметър ще бъде в намерения интервал.

Тъй като точка 0 (нула) се намира вътре в доверителния интервал, интервалната оценка на коефициента a е статистически незначима.

2) F-статистика. Критерий на Фишер.

Коефициентът на определяне R2 се използва за тестване на значимостта на уравнението линейна регресияв общи линии.

Тестването на значимостта на регресионен модел се извършва с помощта на F теста на Фишер, чиято изчислена стойност се намира като съотношението на дисперсията на първоначалната серия от наблюдения на изследвания индикатор и безпристрастната оценка на дисперсията на остатъчната последователност за този модел.

Ако изчислената стойност с k 1 =(m) и k 2 =(n-m-1) степени на свобода е по-голяма от табличната стойност при дадено ниво на значимост, тогава моделът се счита за значим.

където m е броят на факторите в модела.

Статистическата значимост на сдвоената линейна регресия се оценява с помощта на следния алгоритъм:

  • 1. Изложена е нулева хипотеза, че уравнението като цяло е статистически незначимо: H 0: R 2 =0 при ниво на значимост b.
  • 2. След това определете действителната стойност на F-критерия:

където m=1 за регресия по двойки.

3. Табличната стойност се определя от таблиците за разпределение на Фишер за дадено ниво на значимост, като се има предвид, че броят на степените на свобода за общата сума на квадратите (по-голяма дисперсия) е 1, а броят на степените на свобода за остатъка е 1. сумата на квадратите (по-малка дисперсия) при линейна регресия е n-2.

F таблица е максимално възможната стойност на критерия под въздействието на случайни фактори при дадени степени на свобода и ниво на значимост b. Ниво на значимост b - вероятността за отхвърляне на правилната хипотеза, при условие че е вярна. Обикновено b се приема равно на 0,05 или 0,01.

4. Ако действителната стойност на F-теста е по-малка от стойността на таблицата, тогава те казват, че няма причина да се отхвърли нулевата хипотеза.

В противен случай нулевата хипотеза се отхвърля и с вероятност (1-b) се приема алтернативната хипотеза за статистическата значимост на уравнението като цяло.

Таблични стойности на критерия със степени на свобода k 1 =1 и k 2 =30, F таблица = 4,17

Тъй като действителната стойност на F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Връзката между F-теста на Fisher и t-статистиката на Student се изразява чрез равенството:

Индикатори за качество на регресионното уравнение.

Тестване за автокорелация на остатъци.

Важна предпоставка за конструиране на качествен регресионен модел с помощта на OLS е независимостта на стойностите на случайните отклонения от стойностите на отклоненията във всички други наблюдения. Това гарантира, че няма корелация между каквито и да било отклонения и по-специално между съседни отклонения.

Автокорелацията (серийна корелация) се определя като корелация между наблюдаваните индикатори, подредени във времето (времеви серии) или пространство (кръстосани серии). Автокорелацията на остатъците (дисперсиите) е често срещана при регресионния анализ при използване на данни от времеви редове и много рядка при използване на данни от напречно сечение.

При икономически проблеми положителната автокорелация е много по-често срещана от отрицателната автокорелация. В повечето случаи положителната автокорелация се причинява от насоченост постоянно излаганенякои фактори, които не са взети предвид в модела.

Отрицателната автокорелация по същество означава, че положителното отклонение е последвано от отрицателно и обратно. Тази ситуация може да възникне, ако една и съща връзка между търсенето на безалкохолни напитки и доходите се разглежда според сезонните данни (зима-лято).

Сред основните причини, предизвикващи автокорелация, са следните:

  • 1. Грешки в спецификацията. Неотчитането на важна обяснителна променлива в модела или неправилен избор на формата на зависимост обикновено води до системни отклонения на точките на наблюдение от регресионната линия, което може да доведе до автокорелация.
  • 2. Инерция. много икономически показатели(инфлация, безработица, БНП и т.н.) имат определена цикличност, свързана с вълнообразността на бизнес активността. Следователно промяната в показателите не се случва моментално, а има известна инерция.
  • 3. Ефект на паяжина. В много производствени и други области икономическите индикатори реагират на промените в икономическите условия със закъснение (времево забавяне).
  • 4. Изглаждане на данните. Често данните за определен дълъг период от време се получават чрез осредняване на данните за съставните му интервали. Това може да доведе до известно изглаждане на колебанията, възникнали в рамките на разглеждания период, което от своя страна може да предизвика автокорелация.

Последиците от автокорелацията са подобни на последиците от хетероскедастичността: заключенията от t- и F-статистиките, които определят значимостта на коефициента на регресия и коефициента на детерминация, вероятно ще бъдат неправилни.

5. С помощта на F-теста се установи, че полученото уравнение на двойната регресия като цяло е статистически незначимо и не описва адекватно изследвания феномен на връзката между стойността на месечната пенсия y и издръжката на живота x.

6. Създаден е иконометричен модел на множествена линейна регресия, свързващ размера на нетния доход на условна фирма y с оборота на капитала x1 и използвания капитал x2

7. Чрез изчисляване на коефициентите на еластичност се показва, че когато оборотът на капитала се промени с 1%, размерът на нетния доход на компанията се промени с 0,0008%, а когато използваният капитал се промени с 1%, размерът на нетния доход на компанията се променя с 0,56%.

8. С помощта на t-теста е оценена статистическата значимост на регресионните коефициенти.Установено е, че обяснителната променлива x 1 е статистически незначима и може да бъде изключена от регресионното уравнение, докато в същото време обяснителната променлива x 2 е статистически значим.

9. Използвайки F-теста, беше установено, че полученото сдвоено регресионно уравнение като цяло е статистически значимо и адекватно описва изследвания феномен на връзката между нетния доход на условна фирма y и оборота на капитала x 1 и използвания капитал х 2.

10. Изчислена е средната грешка на апроксимация на статистически данни с линейно уравнение множествена регресия, което възлиза на 29,8%. Показано е поради кое наблюдение в статистическата база данни големината на тази грешка надвишава допустимата стойност.

14. Изграждане на сдвоен регресионен модел без използване на EXCEL.

Използвайки статистически материалдадени в таблица 3.5 е необходимо:

2. Оценете близостта на връзката, като използвате показатели за корелация и детерминация.

3. Използвайки коефициента на еластичност, определете степента на връзка между факторната характеристика и резултантната.

4.Дефинирайте средна грешкаприближения.

5. Оценете статистическата надеждност на моделирането с помощта на F-тест на Fisher.

Таблица 3.5. Изходни данни.

Дял на паричните доходи, насочени към увеличаване на спестяванията в депозити, кредити, сертификати и за покупка на валута, в общия размер на средния паричен доход на човек от населението, %

Средна месечна начислена работна заплата, к.у.

Калужская

Костромская

Орловская

Рязан

Смоленская

За да определим неизвестните параметри b 0 , b 1 на сдвоеното уравнение на линейна регресия, използваме стандартната система от нормални уравнения, която има формата

(3.7)

За да се реши тази система, първо е необходимо да се определят стойностите на Sx 2 и Sxy. Тези стойности се определят от таблицата с изходни данни, допълвайки я със съответните колони (Таблица 3.6).

Таблица 3.6. Към изчисляване на регресионни коефициенти.

Тогава системата (3.7) приема формата

Изразявайки b 0 от първото уравнение и замествайки получения израз във второто уравнение, получаваме:

Извършвайки умножение член по член и отваряйки скобите, получаваме:

И накрая, уравнението на сдвоената линейна регресия, свързващо стойността на дела на паричните доходи на населението, насочени към увеличаване на спестяванията y, със средната месечна натрупана заплата x има формата:

Така че, тъй като уравнението на сдвоената линейна регресия е конструирано, ние определяме коефициента на линейна корелация според зависимостта:

където са стойностите на стандартните отклонения на съответните параметри.

За да изчислим коефициента на линейна корелация от зависимостта (3.9), извършваме междинни изчисления.

Замествайки стойностите на намерените параметри в израз (3.9), получаваме

.

Получената стойност на коефициента на линейна корелация показва наличието на слаба обратна статистическа зависимост между дела на паричните доходи на населението, насочени към увеличаване на спестяванията y, и размера на средномесечните начислени работни заплати x.

Коефициентът на детерминация е , което означава, че само 9,6% се обясняват чрез регресия на обяснителната променлива x върху y. Съответно стойността 1, равна на 90,4%, характеризира дела на дисперсията на променливата y, причинена от влиянието на всички други обяснителни променливи, които не са взети предвид в иконометричния модел.

Коефициентът на еластичност е

Следователно, когато средната месечна начислена заплата се промени с 1%, делът на паричните доходи на населението, насочени към увеличаване на спестяванията, също намалява с 1%, а с увеличаване на заплатите се наблюдава намаляване на дела на паричните доходи на население, насочено към увеличаване на спестяванията. Това заключение противоречи на здравия разум и може да се обясни само с некоректността на генерирания математически модел.

Нека изчислим средната грешка на приближението.

Таблица 3.7. Към изчисляването на средната грешка на приближението.

Получената стойност надвишава (12...15)%, което показва значимостта на средното отклонение на изчислените данни от действителните данни, върху които е изграден иконометричният модел.

Надеждността на статистическото моделиране ще бъде извършена въз основа на F-теста на Фишер. Теоретичната стойност на критерия на Фишер F calc се определя от съотношението на стойностите на фактора и остатъчните дисперсии, изчислени за една степен на свобода по формулата

където n е броят на наблюденията;

m е броят на обяснителните променливи (за разглеждания пример m m =1).

Критичната стойност F crit се определя от статистически таблици и за ниво на значимост a = 0,05 е равно на 10,13. Тъй като F изчислено

15. Изграждане на множествен регресионен модел без използване на EXCEL.

Използвайки статистическия материал, даден в таблица 3.8, вие трябва:

1. Изградете линейно уравнениемножествена регресия, обяснете икономическия смисъл на нейните параметри.

2. Дайте сравнителна оценка на близостта на връзката между факторите и резултантния атрибут, като използвате средни (общи) коефициенти на еластичност.

3. Оценете статистическа значимострегресионни коефициенти с помощта на t-теста и нулевата хипотеза за незначимост на уравнението с помощта на F-теста.

4. Оценете качеството на уравнението чрез определяне на средната грешка на приближението.

Таблица 3.8. Изходни данни.

Нетни приходи, милиона щатски долара

Оборот на капитала милиона щатски долара

Използван капитал, млн Щатски долари

За да определим неизвестните параметри b 0 , b 1 , b 2 на уравнението на множествената линейна регресия, използваме стандартната система от нормални уравнения, която има формата

(3.11)

За да се реши тази система, първо е необходимо да се определят стойностите на величините Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Тези стойности се определят от таблицата с изходни данни, допълвайки я със съответните колони (Таблица 3.9).

Таблица 3.9. Към изчисляване на регресионни коефициенти.

Тогава системата (3.11) приема формата

За да решим тази система, ще използваме метода на Гаус, който се състои в последователно елиминиране на неизвестни: разделете първото уравнение на системата на 10, след това умножете полученото уравнение по 370,6 и го извадете от второто уравнение на системата, след което умножете полученото уравнение с 158,20 и го извадете от третото уравнение на системата. Повтаряйки зададения алгоритъм за трансформираните второ и трето уравнения на системата, получаваме:

Þ Þ

Þ .

След трансформацията имаме:

Тогава крайната зависимост на нетния доход от оборота на капитала и използвания капитал под формата на уравнение на линейна множествена регресия има формата:

От полученото иконометрично уравнение се вижда, че с увеличаване на използвания капитал нетният доход се увеличава и, обратно, с увеличаване на оборота на капитала, нетният доход намалява. В допълнение, колкото по-голям е коефициентът на регресия, толкова по-голямо е влиянието на обяснителната променлива върху зависимата променлива. В разглеждания пример стойността на регресионния коефициент е по-голяма от стойността на коефициента, следователно използваният капитал има значително по-голямо влияние върху нетния доход от оборота на капитала. За да определим количествено това заключение, ще определим частичните коефициенти на еластичност.

Анализът на резултатите показва също, че използваният капитал има по-голямо влияние върху нетния доход. Така, по-специално, с увеличение на използвания капитал с 1%, нетният доход се увеличава с 1,17%. В същото време, при увеличение на оборота на капитала с 1%, нетният доход намалява с 0,5%.

Теоретична стойност на критерия на Fisher F изч.

Стойността на критичната стойност F crit се определя от статистически таблици и за ниво на значимост a = 0,05 е равно на 4,74. Тъй като F calc > F crit, нулевата хипотеза се отхвърля и полученото регресионно уравнение се приема за статистически значимо.

Оценяването на статистическата значимост на регресионните коефициенти и t-критерия се свежда до сравняване на числовата стойност на тези коефициенти с големината на техните случайни грешки и според връзката:

Работната формула за изчисляване на теоретичната стойност на t-статистиката е:

, (3.13)

където коефициентите на двойна корелация и коефициентът на множествена корелация се изчисляват от зависимостите:

Тогава теоретичните (изчислени) стойности на t-статистиката са съответно равни на:

Тъй като критичната стойност на t-статистиката, определена от статистическите таблици за нивото на значимост a = 0,05, равно на t crit = 2,36, е по-голяма като абсолютна стойност от = - 1,798, тогава нулевата хипотеза не се отхвърля и обяснителната променлива x 1 е статистически незначим и може да бъде изключен от регресионното уравнение. Обратно, за втория регресионен коефициент > t crit (3,3 > 2,36), а обяснителната променлива x 2 е статистически значима.

Нека изчислим средната грешка на приближението.

Таблица 3.10. Към изчисляването на средната грешка на приближението.

Тогава средната грешка на приближението е

Получената стойност не надвишава допустимата граница, равна на (12…15)%.

16. История на развитието на теорията на измерването

TI първо се развива като теория за психофизични измервания. В следвоенни публикации американският психолог С.С. Стивънс се фокусира върху измервателните скали. През втората половина на 20в. Обхватът на приложение на TI бързо се разширява. Един от томовете на "Енциклопедия на психологическите науки", публикувана в САЩ през 50-те години, се нарича "Психологически измервания". Авторите на тази публикация разшириха обхвата на ТИ от психофизиката до психологията като цяло. В статията в този сборник, „Основи на теорията на измерването“, представянето беше на абстрактно математическо ниво, без препратка към конкретна област на приложение. В него акцентът беше поставен върху „хомоморфизмите на емпирични системи с отношения към числови“ (няма нужда да навлизаме в тези математически термини тук), а математическата сложност на представянето се увеличи в сравнение с произведенията на S.S. Стивънс.

В една от първите вътрешни статии за TI (края на 60-те години) беше установено, че точките, присвоени от експертите при оценяване на обекти на изследване, като правило се измерват по порядъчна скала. Творбите, които се появяват в началото на 70-те години, доведоха до значително разширяване на обхвата на използване на TI. Прилага се в педагогическата квалиметрия (измерване на качеството на знанията на учениците), в системните изследвания и в различни теоретични проблеми експертни оценки, за агрегиране на показатели за качество на продуктите, в социологически проучвания и др.

Като два основни проблема на TI, наред с установяването на типа скала за измерване на конкретни данни, беше изтъкнато търсене на алгоритми за анализ на данни, чийто резултат не се променя при никакво допустимо преобразуване на скалата (т.е. е инвариантен по отношение на към тази трансформация).Поредните скали в географията са ветровете по скалата на Бофорт („затишие“, „слаб вятър“, „умерен вятър“ и др.), скалата за сила на земетресението. Очевидно не може да се каже, че земетресение с магнитуд 2 (лампа, люлееща се под тавана) е точно 5 пъти по-слабо от земетресение с магнитуд 10 (пълно унищожаване на всичко на повърхността на земята).

В медицината ординалните скали са скалата на стадиите на хипертония (по Мясников), скалата на степените на сърдечна недостатъчност (по Стражеско-Василенко-Ланг), скалата на тежестта на коронарната недостатъчност (по Фогелсън) и др. . Всички тези скали са изградени по следната схема: не е открито заболяване; първи стадий на заболяването; втори етап; трети стадий... Понякога се разграничават етапи 1а, 16 и т. н. Всеки етап има медицинска характеристика, уникална за него. Когато се описват групите с увреждания, числата се използват в обратен ред: най-тежката е първата група с увреждания, след това втората, най-леката е третата.

Номерата на къщите също се измерват по редова скала - те показват в какъв ред са разположени къщите по протежение на улицата. Номерата на томове в събраните произведения на писателя или номерата на делата в корпоративния архив обикновено се свързват с хронологичния ред на тяхното създаване.

При оценката на качеството на продуктите и услугите ординалните скали са популярни в така наречената квалиметрия (буквален превод - измерване на качеството). А именно, единица продукция се оценява като проходима или негодна. За по-задълбочен анализ се използва скала с три степени: има значителни дефекти - има само незначителни дефекти - няма дефекти. Понякога се използват четири степени: има критични дефекти (които правят невъзможно използването) - има значителни дефекти - има само незначителни дефекти - няма дефекти. Подобно значение има и класификацията на продуктите - премиум, първи клас, втори клас,...

Когато се оценяват въздействията върху околната среда, първата, най-обща оценка обикновено е порядъчна, например: природната среда е стабилна - природната среда е потисната (влошена). Екологично-медицинският мащаб е подобен: няма изразено въздействие върху човешкото здраве - отбелязва се отрицателно въздействие върху здравето.

Поредната скала се използва и в други области. В иконометрията това са преди всичко различни методи за експертни оценки.

Всички измервателни скали са разделени на две групи - скали на качествени характеристики и скали на количествени характеристики. Поредната скала и скалата за именуване са основните скали на качествените атрибути, така че в много специфични области резултатите от качествения анализ могат да се считат за измервания на тези скали. Скалите на количествените характеристики са скали на интервали, съотношения, разлики, абсолютни. С помощта на интервална скала се измерва големината на потенциалната енергия или координатата на точка на права линия. В тези случаи на скалата не може да се отбележи нито естественият произход, нито естествената мерна единица. Изследователят трябва сам да постави началната точка и да избере мерната единица. Приемливите трансформации в интервалната скала са линейно нарастващи трансформации, т.е. линейни функции. Температурните скали по Целзий и Фаренхайт са свързани точно с тази зависимост: °C = 5/9 (°F - 32), където °C е температурата (в градуси) по скалата на Целзий, а °F е температурата по Фаренхайт мащаб.

От количествените скали най-разпространени в науката и практиката са скалите за отношение. Те имат естествен ориентир - нула, т.е. липса на количество, но без естествена мерна единица. Повечето физически единици се измерват по скалата на съотношението: телесна маса, дължина, заряд, както и цените в икономиката. Приемливите трансформации в скалата на отношението са подобни (промяна само на скалата). С други думи, линейни нарастващи трансформации без свободен член, например преобразуване на цени от една валута в друга при фиксиран курс. Да предположим, че сравняваме икономическата ефективност на два инвестиционни проекта, използвайки цени в рубли. Нека първият проект се окаже по-добър от втория. Сега нека преминем към китайската валута - юана, като използваме фиксиран обменен курс. Очевидно първият проект отново трябва да бъде по-печеливш от втория. Алгоритмите за изчисление обаче не гарантират автоматично, че това условие е изпълнено и е необходимо да се провери дали е изпълнено. Резултатите от такъв тест за средни стойности са описани по-долу.

Скалата за разлика има естествена мерна единица, но няма естествена референтна точка. Времето се измерва по скала на разликите, ако за естествена мерна единица се приеме годината (или денят - от обяд до обяд) и по скала на интервалите в общ случай. При сегашното ниво на познание е невъзможно да се посочи естествена отправна точка. Различните автори изчисляват по различен начин датата на сътворението на света, както и момента на Рождество Христово.

Само за абсолютната скала резултатите от измерването са числа в обичайния смисъл на думата, например броят на хората в една стая. За абсолютен мащаб е разрешена само трансформация на идентичността.

В процеса на развитие на съответната област на знанието видът на мащаба може да се промени. И така, първоначално температурата се измерваше по ординална скала (по-студено - по-топло). След това - според интервала (скали по Целзий, Фаренхайт, Реомюр). И накрая, след откриването на абсолютната нула, температурата може да се счита за измерена по съотношителна скала (скала на Келвин). Трябва да се отбележи, че понякога има разногласия между специалистите относно това кои скали трябва да се използват, за да се вземат предвид определени реални измерени стойности. С други думи, процесът на измерване включва и определяне на типа скала (заедно с обосновката за избора на конкретен тип скала). В допълнение към изброените шест основни типа скали, понякога се използват и други скали.

17. Инвариантни алгоритми и средни стойности.

Нека формулираме основното изискване към алгоритмите за анализ на данни в TI: заключенията, направени въз основа на данни, измерени по скала от определен тип, не трябва да се променят, когато мащабът на измерване на тези данни е допустим. С други думи, изводите трябва да бъдат инвариантни при валидни мащабни трансформации.

По този начин една от основните цели на теорията на измерването е да се бори със субективността на изследователя, когато приписва числени стойности на реални обекти. Така разстоянията могат да се измерват в аршини, метри, микрони, мили, парсеци и други мерни единици. Маса (тегло) - в пудове, килограми, паундове и т.н. Цените на стоките и услугите могат да бъдат посочени в юани, рубли, тенге, гривни, латове, крони, марки, щатски долари и други валути (при определени обменни курсове). Нека подчертаем един много важен, макар и доста очевиден факт: изборът на мерни единици зависи от изследователя, т.е. субективен. Статистическите изводи могат да бъдат адекватни на реалността само когато не зависят от това коя мерна единица предпочита изследователят, когато са инвариантни по отношение на допустимата трансформация на скалата. От многото алгоритми за анализ на иконометрични данни само няколко отговарят на това условие. Нека покажем това, като сравним средните стойности.

Нека X 1, X 2,.., X n е извадка от обем n. Често се използва средната аритметична стойност. Използването на средната аритметична стойност е толкова често срещано, че втората дума в термина често се пропуска и хората говорят за средна заплата, среден доход и други средни стойности за конкретни икономически данни, като под „средно“ се разбира средното аритметично. Тази традиция може да доведе до погрешни заключения. Нека покажем това с помощта на примера за изчисляване на средната заплата (средния доход) на служителите на хипотетично предприятие. От 100 работещи само 5 са ​​с по-висока заплата, а на останалите 95 заплатата е значително по-ниска от средноаритметичното. Причината е очевидна - заплатата на един човек - генерален директор - надвишава заплатата на 95 работници - ниско и висококвалифицирани работници, инженери и служители. Ситуацията напомня на описаната в известната история за болница, в която има 10 пациенти, 9 от които са с температура 40°C, а един вече е пострадал, лежи в моргата с температура 0° ° С. Междувременно средната температура в болницата е 36°C - не може да бъде по-добре!

По този начин средноаритметичната стойност може да се използва само за сравнително хомогенни популации (без големи отклонения в една или друга посока). Какви средни стойности трябва да се използват за описание на заплатите? Съвсем естествено е да се използва медианата - средноаритметичната стойност на 50-ия и 51-ия служител, ако техните заплатиподредени в ненамаляващ ред. Първо идват заплатите на 40 нискоквалифицирани работници, а след това - от 41-ия до 70-ия работник - заплатите на висококвалифицираните работници. Следователно медианата се пада точно върху тях и е равна на 200. За 50 работници заплатата не надвишава 200, а за 50 - поне 200, така че медианата показва „центъра“, около който се движат по-голямата част от изследваните стойности са групирани. Друга средна стойност е режимът, най-често срещаната стойност. В разглеждания случай това са заплатите на нискоквалифицираните работници, т.е. 100. По този начин, за да опишем заплатата, имаме три средни стойности - режим (100 единици), медиана (200 единици) и средно аритметично (400 единици).

За разпределенията на доходите и заплатите, наблюдавани в реалния живот, важи същият модел: модата е по-малка от медианата, а медианата е по-малка от средноаритметичната стойност.

Защо се използват средни стойности в икономиката? Обикновено се заменя колекция от числа с едно число, за да се сравняват съвкупности с помощта на средни стойности. Нека например Y 1, Y 2,..., Y n е набор от експертни оценки, „дадени“ на един обект на експертиза (например един от вариантите за стратегическо развитие на фирма), Z 1 , Z 2,..., Z n -втората (друга версия на това развитие). Как се сравняват тези популации? Очевидно най-лесният начин е чрез средни стойности.

Как да изчислим средните стойности? Известен различни видовесредни стойности: средно аритметично, медиана, мода, средно геометрично, средно хармонично, средно квадратично. Нека ви го напомним обща концепциясредната стойност е въведена от френски математик от първата половина на 19 век. Академик О. Коши. Той е следният: средната стойност е всяка функция Ф(Х 1, Х 2,..., Х n) такава, че за всички възможни стойностиаргументи, стойността на тази функция е не по-малка от минималната от числата X 1, X 2,..., X n и не повече от максималната от тези числа. Всички видове средни стойности, изброени по-горе, са средни стойности на Коши.

При приемлива трансформация на мащаба стойността на средната стойност очевидно се променя. Но изводите за коя съвкупност средната е по-голяма и за коя по-малка не трябва да се променят (в съответствие с изискването за инвариантност на изводите, прието като основно изискване в TI). Нека формулираме съответната математическа задача за търсене на типа средни стойности, резултатът от сравнението на които е стабилен по отношение на допустимите мащабни трансформации.

Нека Ф(Х 1 Х 2 ,..., Х n) е средната стойност на Коши. Нека средната стойност за първата съвкупност е по-малка от средната за втората съвкупност: тогава, според TI, за стабилността на резултата от сравняването на средни стойности е необходимо за всяка допустима трансформация g от групата на допустимите трансформации в съответна скала е вярно, че средната стойност на трансформираните стойности от първата популация също е по-малка от средната стойност на трансформираните стойности за втория набор. Освен това формулираното условие трябва да е вярно за всеки две множества Y 1, Y 2,...,Y n и Z 1, Z 2,..., Z n и, припомнете си, всяка допустима трансформация. Средни стойности, които отговарят на формулираното условие, наричаме допустими (в съответната скала). Според TI само такива средни стойности могат да се използват при анализиране на експертни мнения и други данни, измерени по разглежданата скала.

Като се използва математическа теория, разработен през 70-те години на миналия век, успява да опише вида на приемливите средни стойности на основните скали. Ясно е, че за данни, измерени по скала от имена, само режимът е подходящ като средна стойност.

18. Средни стойности по порядъчна скала

Нека разгледаме обработката на експертни мнения, измерени по ординална скала. Следното твърдение е вярно.

Теорема1 . От всички средни стойности на Коши единствените приемливи средни стойности в порядъчната скала са термините вариационна серия(обикновена статистика).

Теорема 1 е валидна при условие, че средната Ф(Х 1 Х 2 ,..., Х n) е непрекъсната (върху множеството променливи) и симетрична функция. Последното означава, че при пренареждане на аргументите стойността на функцията Ф(Х 1 Х 2 ,..., Х n) не се променя. Това условие е съвсем естествено, защото намираме средната стойност за съвкупността (набора), а не за последователността. Множеството не се променя в зависимост от реда, в който изброяваме неговите елементи.

Съгласно теорема 1, по-специално, медианата може да се използва като средна стойност за данни, измерени по порядъчна скала (ако размерът на извадката е нечетен). Ако обемът е равен, трябва да се използва един от двата централни члена на вариационната серия - както понякога се наричат, лявата медиана или дясната медиана. Модата също може да се използва - тя винаги е член на вариационната серия. Но никога не можете да изчислите средно аритметично, средно геометрично и т.н.

Следната теорема е вярна.

Теорема 2. Нека Y 1, Y 2,...,Y m са независими еднакво разпределени случайни променливи с функцията на разпределение F(x), а Z 1, Z 2,..., Zn са независими еднакво разпределени случайни променливи с функцията разпределения H(x) и извадките Y 1, Y 2,...,Y m и Z 1, Z 2,..., Z n са независими една от друга и MY X > MZ X. За да може вероятността за събитие да клони към 1 при min(m, n) за всяка строго нарастваща непрекъсната функция g, удовлетворяваща условието |g i |>X, е необходимо и достатъчно неравенството F(x) да бъде изпълнено за всички х< Н(х), причем существовало число х 0 , для которого F(x 0)

Забележка.Условието с горната граница има чисто вътрешноматематически характер. Всъщност функцията g е произволна допустима трансформация в ординална скала.

Съгласно теорема 2 средноаритметичната стойност може да се използва и в порядъчна скала, ако се сравняват извадки от две разпределения, които отговарят на неравенството, дадено в теоремата. Просто казано, една от функциите на разпределение винаги трябва да лежи над другата. Функциите на разпределение не могат да се пресичат, разрешено им е само да се докосват. Това условие е изпълнено, например, ако функциите на разпределение се различават само в изместването:

F(x) = Н(x + ∆)

за някои ∆.

Последното условие е изпълнено, ако две стойности на определено количество се измерват с помощта на един и същ измервателен уред, при който разпределението на грешките не се променя при преминаване от измерване на една стойност на въпросното количество към измерване на друго.

Средно по Колмогоров

Обобщение на няколко от средните стойности, изброени по-горе, е средната стойност на Колмогоров. За числата X 1, X 2,..., X n средната стойност на Колмогоров се изчислява по формулата

G((F(X l) + F(X 2)+...F(X n))/n),

където F е строго монотонна функция (т.е. строго нарастваща или строго намаляваща),

G е обратната функция на F.

Сред средните стойности на Колмогоров има много известни герои. Така че, ако F(x) = x, тогава средната стойност на Колмогоров е средната аритметична, ако F(x) = lnx, тогава средната геометрична, ако F(x) = 1/x, тогава средната хармонична, ако F( x) = x 2, след това средният квадрат и т.н. Средната стойност на Колмогоров е специален случай на средната стойност на Коши. От друга страна, такива популярни средни стойности като медиана и мода не могат да бъдат представени като средни стойности на Колмогоров. В монографията са доказани следните твърдения.

Теорема3 . Ако са валидни определени вътрешноматематически условия на редовност в интервалната скала, от всички средни на Колмогоров е допустимо само средното аритметично. По този начин средната геометрична стойност или средният квадрат на температурите (в Целзий) или разстоянията са безсмислени. Средната аритметична трябва да се използва като средна стойност. Можете също да използвате медианата или режима.

Теорема 4. Ако са валидни определени вътрешноматематически условия на редовност в скалата на съотношенията, от всички средни на Колмогоров са допустими само степенни средни с F(x) = x c и средното геометрично.

Коментирайте. Средната геометрична стойност е границата на степенните средства за c > 0.

Има ли средни стойности на Колмогоров, които не могат да се използват в скалата на съотношението? Разбира се, че има. Например F(x) = e x.

По подобие на средните стойности могат да се изследват и други статистически характеристики - показатели за разсейване, свързаност, разстояние и др. Не е трудно да се покаже например, че коефициентът на корелация не се променя с никаква допустима трансформация в купа от интервали, точно както съотношението на дисперсиите, дисперсията не се променя в скалата на разликите, коефициентът на вариация в скалата на съотношенията и др.

Горните резултати за средни стойности се използват широко не само в икономиката, управлението, теорията на експертните оценки или социологията, но и в инженерството, например, за анализиране на методи за агрегиране на сензори в автоматизирани системи за управление на процеси на доменни пещи. ТИ има голямо практическо значение в проблемите на стандартизацията и управлението на качеството, по-специално в квалиметрията, където са получени интересни теоретични резултати. Така например всяка промяна в тегловните коефициенти на отделните показатели за качество на продукта води до промяна в подреждането на продуктите според среднопретегления показател (тази теорема е доказана от проф. В. В. Подиновски). Следователно горната кратка информация за TI и нейните методи съчетава в известен смисъл икономика, социология и инженерни науки и е адекватен апарат за решаване на сложни проблеми, които преди това не са били податливи на ефективен анализ, освен това, по този начин отваря се пътят към изграждане на реалистични модели и решаване на прогнозния проблем.

22. Сдвоена линейна регресия

Нека сега се обърнем към по-подробно изследване на най-простия случай на двойна линейна регресия. Линейната регресия се описва с най-простата функционална връзка под формата на уравнение с права линия и се характеризира с прозрачна интерпретация на параметрите на модела (коефициенти на уравнението). Дясната страна на уравнението ни позволява да получим теоретични (изчислени) стойности на получената (обяснена) променлива въз основа на дадените стойности на регресора (обяснителна променлива). Тези стойности понякога се наричат ​​също прогнозирани (в същия смисъл), т.е. получени от теоретични формули. Въпреки това, когато се излага хипотеза за характера на зависимостта, коефициентите на уравнението все още остават неизвестни. Най-общо казано, получаването на приблизителни стойности на тези коефициенти е възможно с помощта на различни методи.

Но най-важният и разпространен от тях е методът най-малки квадрати(MNC). Тя се основава (както вече беше обяснено) на изискването за минимизиране на сумата от квадратните отклонения на действителните стойности на получената характеристика от изчислените (теоретични). Вместо теоретични стойности (за да ги получите), заменете десните части на регресионното уравнение в сумата от квадратните отклонения и след това намерете частичните производни на тази функция (сумата от квадратните отклонения на действителните стойности на получената характеристика от теоретичните). Тези частни производни се вземат не по отношение на променливите x и y, а по отношение на параметрите a и b. Частичните производни се поставят на нула и след прости, но тромави трансформации се получава система от нормални уравнения за определяне на параметрите. Коефициентът за променливата x, т.е. b се нарича коефициент на регресия, той показва средната промяна в резултата с промяна на фактора с една единица. Параметърът a може да няма икономическа интерпретация, особено ако знакът на този коефициент е отрицателен.

Двойната линейна регресия се използва за изследване на функцията на потреблението. Коефициентът на регресия във функцията на потреблението се използва за изчисляване на множителя. Почти винаги регресионното уравнение се допълва с индикатор за близостта на връзката. За най-простия случай на линейна регресия този индикатор за близостта на връзката е линеен коефициенткорелации. Но тъй като коефициентът на линейна корелация характеризира близостта на връзката между характеристиките в линейна форма, близостта на абсолютната стойност на коефициента на линейна корелация до нула все още не служи като индикатор за липсата на връзка между характеристиките.

Именно с различен избор на спецификация на модела и, следователно, тип зависимост, действителната връзка може да се окаже доста близка до единица. Но качеството на селекцията линейна функцияопределен с помощта на квадрата на коефициента на линейна корелация - коефициентът на детерминация. Той характеризира съотношението на дисперсията на ефективния атрибут y, обяснена чрез регресия в общата дисперсия на ефективния атрибут. Стойността, която допълва коефициента на детерминация до 1, характеризира дела на дисперсията, причинена от влиянието на други фактори, които не са взети предвид в модела (остатъчна дисперсия).

Сдвоената регресия е представена от уравнение, свързващо две променливи y и x със следната форма:

където y е зависимата променлива (резултантен атрибут), а x е независимата променлива (обяснителна променлива или атрибут-фактор). Има линейна регресия и нелинейна регресия. Линейната регресия се описва с уравнение от вида:

y = a+ bx + .

Нелинейната регресия от своя страна може да бъде нелинейна по отношение на обяснителните променливи, включени в анализа, но линейна по отношение на оценените параметри. Или може би регресията е нелинейна по отношение на параметрите, които се оценяват. Примери за регресия, която е нелинейна в обяснителните променливи, но линейна в оценените параметри, включват полиномиални зависимости от различни степени (полиноми) и равностранна хипербола.

Нелинейната регресия за оценените параметри е степенна зависимост спрямо параметъра (параметърът е в експонента), експоненциална зависимост, където параметърът е в основата на експонентата, и експоненциална зависимост, когато цялата линейна зависимост е изцяло в експонента. Обърнете внимание, че във всичките тези три случая случайният компонент (случаен остатък)  е включен правилната странауравнения под формата на множител, а не под формата на събираемо, т.е. многократно! Средното отклонение на изчислените стойности на получената характеристика от действителните се характеризира със средната грешка на приближаване. Изразява се в проценти и не трябва да надвишава 7-8%. Тази средна грешка на приближението е просто средната процентна стойност на относителните величини на разликите между действителните и изчислените стойности.

Средният коефициент на еластичност, който служи като важна характеристика на много икономически явления и процеси, е важен. Изчислява се като произведение на стойността на производната на дадено функционално съотношение и отношението на средната стойност на x към средната стойност на y. Коефициентът на еластичност показва средно с какъв процент резултатът y ще се промени от средната си стойност, когато фактор x се промени с 1% от неговата (фактор x) средна стойност.

Проблемите на дисперсионния анализ са тясно свързани с регресията по двойки и множествената регресия (когато има много фактори) и остатъчната дисперсия. Дисперсионен анализизследва дисперсията на зависимата променлива. В този случай общата сума на квадратите на отклоненията се разделя на две части. Първият член е сумата от квадратните отклонения, дължащи се на регресия, или обяснени (факториални). Вторият член е остатъчната сума на квадратните отклонения, необяснени от факторната регресия.

Делът на дисперсията, обяснен с регресия в общата дисперсия на резултантната характеристика y, се характеризира с коефициента (индекс) на детерминация, който не е нищо повече от съотношението на сумата на квадратните отклонения, дължащи се на регресия, към общата сума на квадратните отклонения (първият член към цялата сума).

Когато параметрите на модела (коефициенти на неизвестни) се определят с помощта на метода на най-малките квадрати, тогава по същество се намират някои случайни променливи (в процеса на получаване на оценки). От особено значение е оценката на регресионния коефициент, който е някаква специална форма на случайна променлива. Свойствата на тази случайна променлива зависят от свойствата на остатъчния член в уравнението (в модела). За модела на сдвоена линейна регресия, разгледайте обяснителната променлива x като неслучайна екзогенна променлива. Това просто означава, че стойностите на променливата x във всички наблюдения могат да се считат за предварително определени и по никакъв начин не са свързани с изследваната зависимост. По този начин действителната стойност на обяснената променлива се състои от два компонента: неслучаен и случаен компонент (остатъчен член).

От друга страна, коефициентът на регресия, определен чрез метода на най-малките квадрати (OLS), е равен на частното от разделянето на ковариацията на променливите x и y на дисперсията на променливата x. Следователно съдържа и случаен компонент. В крайна сметка ковариацията зависи от стойностите на променливата y, където стойностите на променливата y зависят от стойностите на произволния остатъчен член . Освен това е лесно да се покаже, че ковариацията на променливите x и y е равна на произведението на изчисления регресионен коефициент бета () и дисперсията на променливата x, плюс ковариацията на променливите x и . По този начин оценката на регресионния коефициент бета е равна на самия неизвестен регресионен коефициент, добавен към частното от разделянето на ковариацията на променливите x и  на дисперсията на променливата x. Тези. оценката на коефициента на регресия b, получена от всяка извадка, се представя като сбор от два члена: постоянна стойност, равна на истинската стойност на коефициента  (бета), и случаен компонент, зависещ от ковариацията на променливите x и  .

23. Математически условия на Гаус-Марков и тяхното приложение.

За да може регресионният анализ, базиран на обикновен OLS, да даде най-добри резултати, произволният член трябва да отговаря на четирите условия на Гаус-Марков.

Математическото очакване на случайния член е равно на нула, т.е. то е безпристрастно. Ако уравнението на регресията включва постоянен член, тогава е естествено това изискване да се счита за изпълнено, тъй като това е постоянен член и трябва да вземе предвид всяка систематична тенденция в стойностите на променливата y, която, напротив, трябва да не се съдържат в обяснителните променливи на регресионното уравнение.

Дисперсията на произволния член е постоянна за всички наблюдения.

Ковариация на стойностите случайни променливи, формиращ извадката трябва да бъде равен на нула, т.е. няма систематична връзка между стойностите на произволния член във всеки две конкретни наблюдения. Случайните членове трябва да са независими един от друг.

Законът за разпределение на случайния член трябва да бъде независим от обяснителните променливи.

Освен това в много приложения обяснителните променливи не са стохастични, т.е. нямат случаен компонент. Стойността на всяка независима променлива във всяко наблюдение трябва да се счита за екзогенна, определена изцяло от външни причини, които не са взети предвид в регресионното уравнение.

Заедно с посочените условия на Гаус-Марков се приема също, че произволният член има нормално разпределение. Тя е валидна при много широки условия и се основава на така наречената централна гранична теорема (CLT). Същността на тази теорема е, че ако една случайна променлива е общ резултат от взаимодействието на голям брой други случайни променливи, нито една от които няма преобладаващо влияние върху поведението на този общ резултат, тогава получената случайна променлива ще бъде описана с приблизително нормално разпределение. Тази близост до нормална дистрибуцияви позволява да използвате нормалното разпределение за получаване на оценки и е в известен смисълнейното обобщение е разпределението на Стюдънт, което се различава значително от нормалното главно по така наречените „опашки“, т.е. за малки размери на извадката. Също така е важно, че ако случайният член е нормално разпределен, тогава регресионните коефициенти също ще бъдат нормално разпределени.

Създадената регресионна крива (регресионно уравнение) ни позволява да решим проблема с така наречената точкова прогноза. При такива изчисления определена стойност на x се взема извън изследвания интервал на наблюдение и се замества в дясната страна на регресионното уравнение (процедура на екстраполация). защото Оценките за регресионните коефициенти вече са известни, тогава е възможно да се изчисли стойността на обяснената променлива y, съответстваща на взетата стойност на x. Естествено, в съответствие със значението на прогнозата (прогнозата), изчисленията се извършват напред (в областта на бъдещите стойности).

Но тъй като коефициентите са определени с известна грешка, това не представлява интерес точкова оценка(точкова прогноза) за ефективна характеристика и познаване на границите, в които с определена вероятност ще лежат стойностите на ефективната характеристика, съответстващи на взетата стойност на фактора x.

За целта се изчислява стандартната грешка (стандартното отклонение). То може да се получи в духа на току-що казаното по следния начин. Изразяването на свободния член a от оценките чрез средните стойности се замества в уравнението на линейната регресия. Тогава се оказва, че стандартната грешка зависи от грешката на средния ефективен фактор y и адитивно от грешката на регресионния коефициент b. Просто квадрат на тази стандартна грешка равно на суматаквадратната грешка на средната стойност y и произведението на квадратната грешка на регресионния коефициент по квадратното отклонение на стойността на фактора x и неговата средна стойност. Освен това, първият член, според законите на статистиката, е равен на частното от разделянето на дисперсията на генералната съвкупност на размера (обема) на извадката.

Вместо неизвестната дисперсия, дисперсията на извадката се използва като оценка. Съответно, грешката на регресионния коефициент се определя като частното от разделянето на дисперсията на извадката на дисперсията на фактора x. Можете да получите стандартната грешка (стандартно отклонение) и други съображения, които са по-независими от модела на линейна регресия. За целта се използва концепцията за средна грешка и пределна грешка и връзката между тях.

Но дори и след получаване на стандартната грешка, остава въпросът за границите, в които ще лежи прогнозираната стойност. С други думи, относно интервала на грешка при измерване, в естественото допускане в много случаи, че средата на този интервал е дадена от изчислената (средна) стойност на ефективния фактор y. Тук на помощ идва централната гранична теорема, която точно показва с каква вероятност неизвестната величина е в този доверителен интервал.

По същество стандартната формула за грешка, независимо как и в каква форма е получена, характеризира грешката в позицията на регресионната линия. Стандартната грешка достига минимум, когато стойността на фактора x съвпада със средната стойност на фактора.

24. Статистическа проверка на хипотези и оценка на значимостта на линейната регресия с помощта на критерия на Фишер.

След като се намери уравнението на линейната регресия, се оценява значимостта както на уравнението като цяло, така и на отделните му параметри. Оценяването на значимостта на регресионното уравнение като цяло може да се направи с помощта на различни критерии. Доста често срещано и ефективно е използването на F теста на Fisher. В този случай се излага нулевата хипотеза, че коефициентът на регресия е равен на нула, т.е. b=0 и следователно факторът x няма ефект върху резултата y. Непосредственото изчисляване на F-теста се предхожда от дисперсионен анализ. Централно място в него заема разлагането на общата сума на квадратите на отклоненията на променливата y от средната стойност y на две части - „обяснени” и „необясними”:

Общата сума на квадратните отклонения на отделните стойности на получената характеристика y от средната стойност y се дължи на влиянието на много фактори.

Нека условно разделим целия набор от причини на две групи: изследвания фактор x и други фактори. Ако факторът не влияе на резултата, тогава регресионната линия на графиката е успоредна на оста OX и y=y. Тогава цялата дисперсия на получената характеристика се дължи на влиянието на други фактори и общата сума на квадратите на отклоненията ще съвпадне с остатъка. Ако други фактори не влияят на резултата, тогава y е функционално свързано с x и остатъчната сума на квадратите е нула. В този случай сумата от квадратните отклонения, обяснена от регресията, съвпада с обща сумаквадрати. Тъй като не всички точки от корелационното поле лежат на линията на регресия, тяхното разсейване винаги възниква поради влиянието на фактора x, т.е. регресия на y върху x и причинена от други причини (необяснима вариация). Пригодността на една регресионна линия за прогнозиране зависи от това каква част от общата вариация в признака y се дължи на обяснената вариация.

Очевидно е, че ако сумата от квадратните отклонения, дължащи се на регресия, е по-голяма от остатъчната сума на квадратите, тогава уравнението на регресията е статистически значимо и факторът x оказва значително влияние върху резултата. Това е еквивалентно на факта, че коефициентът на детерминация ще се доближи до единица. Всеки сбор от квадратни отклонения е свързан с броя на степените на свобода, т.е. броят на свободата на независима вариация на характеристика. Броят на степените на свобода се свързва с броя на единиците от съвкупността или с броя на константите, определени от него. Във връзка с разглеждания проблем, броят на степените на свобода трябва да покаже колко независими отклонения от n възможни [(y 1 -y), (y 2 -y),...(y n -y)] са необходими за образуване на даден сбор от квадрати. По този начин, за общата сума на квадратите ∑(y-y sr) 2, (n-1) са необходими независими отклонения, тъй като в популация от n единици, след изчисляване на средното ниво, само (n-1) брой отклонения варират свободно. При изчисляване на обяснената или факторна сума на квадратите ∑(y-y avg) 2 се използват теоретичните (изчислени) стойности на резултантната характеристика y*, намираща се по линията на регресия: y(x)=a+bx.

Нека сега се върнем към разширяването на общата сума на квадратите на отклоненията на ефективния фактор от средната стойност на тази стойност. Тази сума съдържа две части, които вече са дефинирани по-горе: сумата на квадратните отклонения, обяснени чрез регресия, и друга сума, наречена остатъчна сума на квадратните отклонения. С тази декомпозиция е свързан дисперсионният анализ, който директно отговаря на основния въпрос: как да се оцени значимостта на регресионното уравнение като цяло и неговите отделни параметри? Това до голяма степен определя и смисъла на този въпрос. За да се оцени значимостта на регресионното уравнение като цяло, се използва критерият на Фишер (F-тест). Според подхода, предложен от Фишер, се излага нулева хипотеза: коефициентът на регресия е равен на нула, т.е. стойност b=0. Това означава, че фактор X няма ефект върху резултата Y.

Нека си припомним, че почти винаги точките, получени в резултат на статистическо изследване, не лежат точно на линията на регресия. Те са разпръснати, като са повече или по-малко далеч от регресионната линия. Такава дисперсия се дължи на влиянието на други фактори, различни от обяснителния фактор X, които не са взети предвид в регресионното уравнение. При изчисляване на обяснената или факторна сума на квадратните отклонения се използват теоретичните стойности на получената характеристика, намерена от регресионната линия.

За даден набор от стойности на променливите Y и X, изчислената стойност на средната стойност Y е в линейна регресия функция само на един параметър - коефициента на регресия. В съответствие с това факторната сума на квадратните отклонения има брой степени на свобода, равен на 1. А броят на степените на свобода на остатъчната сума на квадратните отклонения при линейна регресия е n-2.

Следователно, разделяйки всяка сума от квадратни отклонения в първоначалното разширение на неговия брой степени на свобода, получаваме средните квадратни отклонения (дисперсия за една степен на свобода). След това, разделяйки дисперсията на фактора с една степен на свобода на остатъчната дисперсия с една степен на свобода, получаваме критерий за проверка на нулевата хипотеза, така нареченото F-отношение или едноименния критерий. А именно, ако нулевата хипотеза е вярна, факторът и остатъчните дисперсии са просто равни една на друга.

Да се ​​отхвърли нулевата хипотеза, т.е. приемайки обратната хипотеза, която изразява факта на значимостта (наличието) на изследваната връзка, а не просто случайно съвпадение на фактори, симулиращи връзка, която всъщност не съществува, е необходимо да се използват таблици с критични стойности на посочената връзка. С помощта на таблиците се определя критичната (прагова) стойност на критерия на Фишер. Нарича се още теоретичен. След това се проверява, като се сравнява със съответната емпирична (действителна) стойност на критерия, изчислена от данни от наблюдения, дали действителната стойност на съотношението надвишава критичната стойност от таблиците.

Това се прави по-подробно така. Изберете дадено ниво на вероятност за наличие на нулевата хипотеза и намерете от таблиците критичната стойност на F-критерия, при която все още може да възникне случайна дивергенция на дисперсиите с 1 степен на свобода, т.е. максималната такава стойност. Тогава изчислената стойност на F-отношението се счита за надеждна (т.е. изразяваща разликата между действителните и остатъчните дисперсии), ако това съотношение е по-голямо от табличното. Тогава нулевата хипотеза се отхвърля (не е вярно, че няма признаци за връзка) и напротив, стигаме до извода, че връзка има и тя е значима (тя е неслучайна, значима).

Ако стойността на връзката се окаже по-малка от табличната, тогава вероятността за нулевата хипотеза се оказва по-висока от определеното ниво (което е първоначално избрано) и нулевата хипотеза не може да бъде отхвърлена без забележима опасност от получаване на неправилно заключение за наличието на връзка. Съответно регресионното уравнение се счита за незначимо.

Стойността на самия F-критерий е свързана с коефициента на детерминация. В допълнение към оценката на значимостта на регресионното уравнение като цяло се оценява и значимостта на отделните параметри на регресионното уравнение. В този случай стандартната грешка на регресионния коефициент се определя с помощта на емпиричното действително стандартно отклонение и емпиричната дисперсия за степен на свобода. След това разпределението на Стюдънт се използва за тестване на значимостта на регресионния коефициент за изчисляване на неговите доверителни интервали.

Оценяването на значимостта на коефициентите на регресия и корелация с помощта на t-теста на Student се извършва чрез сравняване на стойностите на тези количества и стандартната грешка. Големината на грешката на параметрите на линейната регресия и коефициента на корелация се определя по следните формули:

където S е средно квадратично остатъчно отклонение на пробата,

r xy – коефициент на корелация.

Съответно, стойността на стандартната грешка, предвидена от регресионната линия, се дава по формулата:

Съответните съотношения на стойностите на коефициентите на регресия и корелация към тяхната стандартна грешка образуват така наречената t-статистика, а сравнението на съответната таблична (критична) стойност и нейната действителна стойност позволява да се приеме или отхвърли нулата хипотеза. Но след това, за да се изчисли доверителният интервал, максималната грешка за всеки индикатор се намира като произведение на табличната стойност на t статистиката със средната случайна грешка на съответния индикатор. Всъщност ние го записахме малко по-различно малко по-горе. След това се получават границите на доверителните интервали: долната граница е чрез изваждане на съответната пределна грешка от съответните коефициенти (всъщност средната), а горната граница е чрез събиране (събиране).

При линейна регресия ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. Това е лесно да се провери, като се направи справка с формулата за линейния корелационен коефициент: r 2 xy = b 2 *σ 2 x /σ 2 y

където σ 2 y е общата дисперсия на признака y;

σ 2 x - дисперсия на характеристиката y поради фактора x. Съответно сумата на квадратите на отклоненията, дължащи се на линейна регресия, ще бъде:

∑(y x -y ср.) 2 =b 2 ∑(x-x ср.) 2 .

Тъй като за даден обем от наблюдения в x и y факторната сума на квадратите при линейна регресия зависи само от една константа на регресионния коефициент b, тогава тази сума на квадратите има една степен на свобода. Нека разгледаме съдържателната страна на изчислената стойност на атрибута y, т.е. y x. Стойността y x се определя от уравнението на линейната регресия: y x ​​​​= a + bx.

Параметърът a може да се дефинира като a=y-bx. Замествайки израза за параметър a в линейния модел, получаваме: y x ​​​​=y-bx+bx avg =y-b(x-x avg).

За даден набор от променливи y и x, изчислената стойност на y x при линейна регресия е функция само на един параметър - регресионния коефициент. Съответно факторната сума на квадратните отклонения има брой степени на свобода, равен на 1.

Има равенство между броя на степените на свобода на общата, факторната и остатъчната сума на квадратите. Броят на степените на свобода на остатъчната сума от квадрати при линейна регресия е (n-2). Броят на степените на свобода за общата сума на квадратите се определя от броя на единиците и тъй като използваме средната стойност, изчислена от примерните данни, губим една степен на свобода, т.е. (n-1). И така, имаме две равенства: за суми и за брой степени на свобода. И това от своя страна ни връща към сравними вариации за степен на свобода, чието съотношение дава критерия на Фишър.

25. Оценка на значимостта на отделни параметри на регресионното уравнение и коефициенти с помощта на теста на Стюдънт.

27. Линейна и нелинейна регресия и методи за тяхното изследване.

Линейната регресия и методите за нейното изследване и оценка не биха били толкова важни, ако в допълнение към този много важен, но все пак най-прост случай, не получихме с тяхна помощ инструмент за анализ на по-сложни нелинейни зависимости. Нелинейните регресии могат да бъдат разделени на два значително различни класа. Първият и по-прост е класът на нелинейните зависимости, в които има нелинейност по отношение на обясняващите променливи, но които остават линейни в параметрите, включени в тях и подлежащи на оценка. Това включва полиноми от различни степени и равностранна хипербола.

Такава нелинейна регресия за променливите, включени в обяснението чрез просто трансформиране (заместване) на променливите, може лесно да се сведе до обикновена линейна регресия за нови променливи. Следователно, оценката на параметрите в този случай се извършва просто чрез най-малки квадрати, тъй като зависимостите са линейни в параметрите. По този начин важна роля в икономиката играе нелинейната зависимост, описана от равностранна хипербола:

Неговите параметри са добре оценени с помощта на метода на най-малките квадрати, а самата тази зависимост характеризира връзката между специфичните разходи за суровини, гориво, материали с обема на продукцията, времето на обръщение на стоките и всички тези фактори с обема на търговията оборот. Например кривата на Филипс характеризира нелинейната връзка между нивото на безработица и процента на нарастване на заплатите.

Съвсем различна е ситуацията с регресия, която е нелинейна по отношение на оценяваните параметри, например представена чрез степенна функция, в която самата степен (нейният показател) е параметър или зависи от параметъра. Може да бъде и експоненциална функция, където основата на степента е параметър и експоненциална функция, в която отново индикаторът съдържа параметър или комбинация от параметри. Този клас от своя страна е разделен на два подкласа: единият включва външно нелинейни, но по същество вътрешно линейни. В този случай можете да приведете модела в линейна форма с помощта на трансформации. Въпреки това, ако моделът е вътрешно нелинеен, тогава той не може да бъде редуциран до линейна функция.

По този начин само модели, които са вътрешно нелинейни в регресионния анализ, се считат за наистина нелинейни. Всички останали, които могат да бъдат сведени до линейни чрез трансформации, не се разглеждат като такива и именно те се разглеждат най-често в иконометричните изследвания. В същото време това не означава, че е невъзможно да се изследват по същество нелинейни зависимости в иконометрията. Ако моделът е вътрешно нелинеен по своите параметри, тогава се използват итеративни процедури за оценка на параметрите, чийто успех зависи от вида на уравнението за характеристиките на използвания итеративен метод.

Да се ​​върнем към зависимостите, сведени до линейни. Ако те са нелинейни както по параметри, така и по променливи, например във формата y = a, умножено по степента на X, степента на която е параметърът -  (бета):

Очевидно такава връзка може лесно да се преобразува в линейно уравнение чрез обикновен логаритъм.

След въвеждане на нови променливи, означаващи логаритми, се получава линейно уравнение. След това процедурата за оценка на регресията се състои от изчисляване на нови променливи за всяко наблюдение чрез вземане на логаритми на първоначалните стойности. След това се оценява регресионната зависимост на новите променливи. За да отидете до оригиналните променливи, трябва да вземете антилогаритъм, тоест всъщност да се върнете към самите степени вместо към техните експоненти (в края на краищата логаритъма е експонента). Случаят на експоненциални или експоненциални функции може да се разглежда по подобен начин.

За значително нелинейна регресия не е възможно да се приложи обичайната процедура за оценка на регресията, тъй като съответната връзка не може да бъде преобразувана в линейна. Общата схема на действие е следната:

1. Приемат се някои правдоподобни първоначални стойности на параметрите;

2. Прогнозираните стойности на Y се изчисляват от действителните стойности на X, като се използват тези стойности на параметрите;

3. Изчисляват се остатъците за всички наблюдения в извадката и след това сумата от квадратите на остатъците;

4. Направени са малки промени в една или повече оценки на параметри;

5. Изчисляват се нови прогнозирани стойности на Y, остатъците и сумата от квадратите на остатъците;

6. Ако сумата от квадратите на остатъците е по-малка от предишната, тогава новите оценки на параметрите са по-добри от предишните и трябва да се използват като нова отправна точка;

7. Стъпки 4, 5 и 6 се повтарят отново, докато стане невъзможно да се направят такива промени в оценките на параметрите, които биха довели до промяна в сумата на остатъците на квадратите;

8. Заключението е, че сумата от квадратите на остатъците е сведена до минимум и крайните оценки на параметрите са оценки на най-малките квадрати.

Сред нелинейните функции, които могат да бъдат сведени до линейна форма, степенната функция се използва широко в иконометрията. Параметърът b в него има ясна интерпретация, като е коефициент на еластичност. В модели, които са нелинейни по отношение на оценените параметри, но могат да бъдат редуцирани до линейна форма, към трансформираните уравнения се прилага методът на най-малките квадрати. Практическото използване на логаритми и съответно експоненти е възможно, когато полученият знак няма отрицателни стойности. Когато се изучават връзките между функциите, използвайки логаритъма на резултантния атрибут, в иконометрията преобладават зависимостите от степенния закон (криви на търсенето и предлагането, производствени функции, криви на усвояване за характеризиране на връзката между трудоемкостта на продуктите, мащаба на производството, зависимостта на БНД върху нивото на заетост, криви на Engel).

28. Обратен модел и неговото използване

Понякога се използва така нареченият обратен модел, който е вътрешно нелинеен, но в него, за разлика от равностранната хипербола, не е обяснителната променлива, която е обект на трансформация, а полученият атрибут Y. Следователно обратният модел се оказва да бъде вътрешно нелинеен и изискването на OLS не е изпълнено за действителните стойности на резултантния атрибут Y и за техните обратни стойности. Изследването на корелацията за нелинейна регресия заслужава специално внимание. В общия случай парабола от втора степен, подобно на полиноми от по-висок порядък, когато се линеаризира, приема формата на уравнение на множествена регресия. Ако, когато е линеаризирано, регресионно уравнение, което е нелинейно по отношение на обяснената променлива, приеме формата на линейно сдвоено регресионно уравнение, тогава може да се използва линеен корелационен коефициент за оценка на близостта на връзката.

Ако трансформациите на регресионното уравнение в линейна форма са свързани със зависимата променлива (резултантна характеристика), тогава коефициентът на линейна корелация, базиран на трансформираните стойности на характеристиките, дава само приблизителна оценка на връзката и не съвпада числено с корелационен индекс. Трябва да се има предвид, че при изчисляване на индекса на корелация се използват сумите на квадратите на отклоненията на получената характеристика Y, а не техните логаритми. Оценяването на значимостта на индекса на корелация се извършва по същия начин, както оценката на надеждността (значимостта) на коефициента на корелация. Самият индекс на корелация, подобно на индекса на определяне, се използва за тестване на общата значимост на уравнението на нелинейната регресия, като се използва тестът на Fisher F.

Имайте предвид, че възможността за конструиране на нелинейни модели, както чрез редуцирането им до линейна форма, така и чрез използване на нелинейна регресия, от една страна, увеличава универсалността на регресионния анализ. От друга страна, това значително усложнява задачите на изследователя. Ако се ограничим до сдвоен регресионен анализ, можем да начертаем наблюденията Y и X като диаграма на разсейване. Често няколко различни нелинейни функции приближават наблюденията, ако лежат на някаква крива. Но в случай на множествен регресионен анализ, такава графика не може да бъде конструирана.

Когато се разглеждат алтернативни модели със същата дефиниция на зависимата променлива, процедурата за избор е относително проста. Човек може да оцени регресия въз основа на всички правдоподобни функции, които могат да бъдат представени, и да избере функцията, която най-добре обяснява промяната в зависимата променлива. Ясно е, че когато линейна функция обяснява приблизително 64% ​​от дисперсията в y, а хиперболична функция обяснява 99,9%, очевидно трябва да се избере последната. Но когато различни моделиизползват различни функционални форми, проблемът с избора на модел става значително по-сложен.

29. Използване на теста на Бокс-Кокс.

По-общо, когато се разглеждат алтернативни модели със същата дефиниция на зависимата променлива, изборът е прост. Най-разумно е регресията да се оцени въз основа на всички правдоподобни функции, като се фокусира върху функцията, която най-добре обяснява промяната в зависимата променлива. Ако коефициентът на определяне измерва, в единия случай, съотношението на дисперсията, обяснена с регресия, а в другия, пропорцията на дисперсията в логаритъма на тази зависима променлива, обяснена с регресия, тогава изборът се прави без затруднения. Друг е въпросът, когато тези стойности за два модела са много близки и проблемът с избора става значително по-сложен.

След това трябва да се приложи стандартната процедура под формата на теста на Box-Cox. Ако просто трябва да сравните модели, използвайки ефективния фактор и неговия логаритъм под формата на вариант на зависимата променлива, тогава се използва версия на теста на Zarembka. Той предлага трансформация на скалата за наблюдение Y, която позволява директно сравнение на средната квадратична грешка (MSE) в линейни и логаритмични модели. Съответната процедура включва следните стъпки:

    Изчислява се средната геометрична стойност на Y стойностите в извадката, която съвпада с показателя на средната аритметична стойност на логаритъма на Y;

    Наблюденията Y се преизчисляват по такъв начин, че се разделят на стойността, получена в първата стъпка;

    Регресията се оценява за линеен модел, използвайки мащабираните стойности на Y вместо оригиналните стойности на Y, и за логаритмичен модел, използвайки логаритъма на мащабираните стойности на Y. Стойностите на RMSE за двете регресии вече са сравними и следователно моделът с по-малка сума от квадратни отклонения осигурява по-добро съответствие с истинската връзка на наблюдаваните стойности;

    За да се провери дали един от моделите не осигурява значително по-добро прилягане, може да се използва произведението на половината от броя наблюдения и логаритъма на съотношението на стойностите на стандартното отклонение в преизчислените регресии и след това да се вземе абсолютна стойност на тази стойност.

30. Концепции за взаимовръзка и мултиколинеарност на факторите.

34. Основи на MNC и валидността на приложението му.

Нека сега се обърнем към основите на OLS, валидността на неговото приложение (включително проблеми с множествена регресия) и най-важните свойства на оценките, получени с помощта на OLS. Нека започнем с факта, че наред с аналитичната зависимост от дясната страна на уравнението на регресията, случайният член също играе важна роля. Този случаен компонент е ненаблюдаема величина. Сами статистически тестоверегресионните параметри и корелационните мерки се основават на неподлежащи на проверка предположения за разпределението на този случаен компонент на множествената регресия. Тези предположения са само предварителни. Едва след построяването на регресионното уравнение се проверява дали оценките на случайните остатъци (емпирични аналози на случайния компонент) имат свойства, приети a priori. По същество, когато се оценяват параметрите на модела, разликите между теоретичните и действителните стойности на резултантния атрибут се изчисляват, за да се оцени по този начин самият случаен компонент. Важно е да имате предвид, че това е само примерна реализация на неизвестния остатък от дадено уравнение.

Коефициентите на регресия, получени от система от нормални уравнения, са примерни оценки на силата на връзката. Ясно е, че те имат практическо значение само когато са непредубедени. Нека припомним, че в този случай средната стойност на остатъците е равна на нула или, което е същото, средната стойност на оценката е равна на самия оценен параметър. Тогава остатъците няма да се натрупват върху голям брой извадкови оценки и самият намерен регресионен параметър може да се разглежда като средна стойност на голям брой безпристрастни оценки.

Освен това оценките трябва да имат най-малката вариация, т.е. да бъдат ефективни и тогава става възможно да се премине от практически неизползваеми точкови оценки към интервална оценка. И накрая, доверителните интервали са полезни, когато вероятността за получаване на оценка на дадено разстояние от истинската (неизвестна) стойност на параметъра е близка до единица. Такива оценки се наричат ​​последователни и свойството последователност се характеризира с увеличаване на тяхната точност с увеличаване на размера на извадката.

Условието за съгласуваност обаче не се изпълнява автоматично и значително зависи от изпълнението на следните две важни изисквания. Първо, самите остатъци трябва да са стохастични с най-силно изразена произволност, т.е. всички ясно функционални зависимости трябва да бъдат включени конкретно в аналитичния компонент на множествената регресия и в допълнение стойностите на остатъците трябва да бъдат разпределени независимо една от друга за различни проби (без автокорелация на остатъците). Второто, не по-малко важно изискване е дисперсията на всяко отклонение (остатъчно) да бъде идентична за всички стойности на променливите X (хомоскедастичност). Тези. хомоскедастичността се изразява чрез постоянството на дисперсията за всички наблюдения:

Напротив, хетероскедастичността е нарушение на такова постоянство на дисперсията за различни наблюдения. В този случай априорната (преди наблюдения) вероятност за получаване на силно отклонени стойности с различни теоретични разпределения на произволния термин за различни наблюдения в извадката ще бъде относително висока.

Автокорелацията на остатъците или наличието на корелация между остатъците от текущите и предишните (последващи) наблюдения се определя от стойността на обичайния линеен коефициент на корелация. Ако се различава значително от нула, тогава остатъците са автокорелирани и следователно функцията на плътност на вероятността (разпределението на остатъците) зависи от точката на наблюдение и от разпределението на остатъчните стойности в други точки на наблюдение. Удобно е да се определи автокорелацията на остатъците, като се използва наличната статистическа информация, ако има подреждане на наблюденията по фактор X. Липсата на автокорелация на остатъците гарантира последователността и ефективността на оценките на регресионните коефициенти.

35. Хомоскедастичност и хетероскедастичност, автокорелация на остатъците, обобщени най-малки квадрати (GLM).

Еднаквостта на дисперсиите на остатъците за всички стойности на променливите X или хомоскедастичността също е абсолютно необходима, за да се получат последователни оценки на регресионните параметри с помощта на OLS. Неспазването на условието за хомоскедастичност води до така наречената хетероскедастичност. Това може да доведе до пристрастни оценки на регресионните коефициенти. Хетероскедастичността ще повлияе главно на намаляването на ефективността на оценките на коефициента на регресия. В този случай става особено трудно да се използва формулата за стандартната грешка на коефициента на регресия, чието използване предполага равномерно разпръскване на остатъците за всякакви стойности на фактора. Що се отнася до безпристрастността на оценките на регресионните коефициенти, тя зависи преди всичко от независимостта на остатъците и стойностите на самите фактори.

Доста ясен, макар и нестрог и изискващ умения начин за тестване на хомоскедастичността е графичното изследване на естеството на зависимостта на остатъците от средния изчислен (теоретичен) резултантен атрибут или съответните корелационни полета. Аналитичните методи за изследване и оценка на хетероскедастичността са по-строги. Ако има значително присъствие на хетероскедастичност, препоръчително е да се използва генерализиран OLS (GLM) вместо OLS.

В допълнение към изискванията за множествена регресия, произтичащи от използването на OLS, е необходимо също така да се спазват условията за променливите, включени в модела. Това, на първо място, включва изисквания относно броя на моделните фактори за даден обем от наблюдения (1 до 7). В противен случай регресионните параметри ще бъдат статистически незначими. От гледна точка на ефективността на прилагането на съответните числени методи при прилагане на LSM е необходимо броят на наблюденията да надвишава броя на оценените параметри (в система от уравнения броят на уравненията е по-голям от броя на търсените променливи).

Най-значимото постижение на иконометрията е значителното развитие на методите за оценка на неизвестни параметри и подобряването на критериите за идентифициране на статичната значимост на разглежданите ефекти. В тази връзка невъзможността или нецелесъобразността за използване на традиционните OLS поради хетероскедастичност, проявяваща се в различна степен, доведе до развитието на генерализиран OLS (GLM). Всъщност това включва коригиране на модела, промяна на неговата спецификация и трансформиране на оригиналните данни, за да се осигурят безпристрастни, ефективни и последователни оценки на регресионните коефициенти.

Приема се, че средната стойност на остатъците е нула, но тяхната дисперсия вече не е постоянна, а е пропорционална на стойностите на K i, където тези стойности са коефициенти на пропорционалност, които са различни за различните стойности на фактор х. Следователно тези коефициенти (стойности на K i) характеризират хетерогенността на дисперсията. Естествено се смята, че самото количество дисперсия, което е общ фактор за тези коефициенти на пропорционалност, е неизвестно.

Оригиналният модел, след въвеждането на тези коефициенти в уравнението на множествената регресия, продължава да остава хетероскедастичен (по-точно, това са остатъчните стойности на модела). Нека тези остатъци (остатъци) не са автокорелирани. Нека въведем нови променливи, получени чрез разделяне на променливите на първоначалния модел, записани в резултат на i-тото наблюдение, на корен квадратен от коефициентите на пропорционалност K i . Тогава получаваме ново уравнение в трансформирани променливи, в което остатъците ще бъдат хомоскедастични. Самите нови променливи са претеглени стари (оригинални) променливи.

Следователно, оценката на параметрите на полученото по този начин ново уравнение с хомоскедастични остатъци ще бъде сведена до метода на претеглените най-малки квадрати (по същество това е методът OLS). Когато се използват вместо самите регресионни променливи, техните отклонения от средните стойности, изразите за регресионните коефициенти приемат проста и стандартизирана (унифицирана) форма, леко различна за OLS и OLS чрез корекционния коефициент 1/K в числителя и знаменателя от фракцията, даваща коефициента на регресия.

Трябва да се има предвид, че параметрите на трансформирания (коригиран) модел значително зависят от това каква концепция се използва като основа за коефициентите на пропорционалност K i. Често се приема, че остатъците са просто пропорционални на стойностите на факторите. Моделът приема най-простата си форма, когато се приеме хипотезата, че грешките са пропорционални на стойностите на последния фактор в реда. След това OLS дава възможност да се увеличи теглото на наблюденията с по-малки стойности на трансформирани променливи при определяне на регресионни параметри в сравнение с работата на стандартни OLS с оригиналните променливи източник. Но тези нови променливи вече получават различно икономическо съдържание.

Хипотезата за пропорционалността на остатъците към размера на фактора може да има реална основа. Нека се обработва определен недостатъчно хомогенен набор от данни, например, включващ едновременно големи и малки предприятия. Тогава големите обемни стойности на фактора могат да съответстват както на голяма дисперсия на получената характеристика, така и на голяма дисперсия на остатъчните стойности. Освен това, използването на OLS и съответния преход към относителни стойности не само намалява вариацията на фактора, но също така намалява вариацията на грешката. По този начин най-простият случай на отчитане и коригиране на хетероскедастичността в регресионните модели се реализира чрез използването на OLS.

Горният подход за прилагане на OLS под формата на претеглени OLS е доста практичен - той се прилага просто и има прозрачна икономическа интерпретация. Разбира се, това не е най-общият подход и в контекста на математическата статистика, която служи като теоретична основа на иконометрията, ни се предлага много по-строг метод, който прилага OLS в самата му общ изглед. В него трябва да знаете ковариационната матрица на вектора на грешката (остатъчна колона). И това обикновено е несправедливо в практически ситуации и може да бъде невъзможно да се намери тази матрица като такава. Следователно, най-общо казано, е необходимо по някакъв начин да се оцени необходимата матрица, за да се използва такава оценка в съответните формули вместо самата матрица. Така описаната версия на внедряването на OMNC представлява една от тези оценки. Понякога се нарича достъпни обобщени най-малки квадрати.

Трябва също така да се има предвид, че коефициентът на определяне не може да служи като задоволителна мярка за качеството на прилягане при използване на OLS. Връщайки се към използването на OLS, отбелязваме също, че методът за използване на стандартни отклонения (стандартни грешки) във форма на Уайт (така наречените последователни стандартни грешки при наличие на хетероскедастичност) има достатъчна общост. Този метод е приложим при условие, че ковариационната матрица на вектора на грешката е диагонална. Ако има автокорелация на остатъци (грешки), когато има ненулеви елементи (коефициенти) в ковариационната матрица и извън главния диагонал, тогава трябва да се използва по-общ метод на стандартна грешка във формата на Neve West. Има значително ограничение: ненулеви елементи, в допълнение към главния диагонал, се намират само на съседни диагонали, отдалечени от главния диагонал на не повече от определено количество.

От горното става ясно, че е необходимо да могат да се проверяват данните за хетероскедастичност. Тестовете по-долу служат за тази цел. Те тестват основната хипотеза за равенството на дисперсиите на остатъците спрямо алтернативната хипотеза (за неравенството на тези хипотези). Освен това съществуват априорни структурни ограничения върху природата на хетероскедастичността. Тестът на Goldfeld-Quandt обикновено използва предположението, че дисперсията на грешката (остатъчна) е пряко зависима от стойността на някаква независима променлива. Схемата за използване на този тест е следната. Първо, данните се подреждат в низходящ ред на независимата променлива, за която се подозира хетероскедастичност. След това този подреден набор от данни елиминира средните няколко наблюдения, където думата „няколко“ означава около една четвърт (25%) от общ бройвсички наблюдения. След това се провеждат две независими регресии на първото от останалите (след елиминиране) средни наблюдения и последните две от тези оставащи средни наблюдения. След това се конструират два съответни остатъка. Накрая се компилира F-статистиката на Fisher и ако изследваната хипотеза е вярна, тогава F наистина е разпределението на Fisher с подходящите степени на свобода. Тогава голяма стойност на тази статистика означава, че хипотезата, която се тества, трябва да бъде отхвърлена. Без стъпката на елиминиране мощността на този тест се намалява.

Тестът на Breusch-Pagan се използва в случаите, когато априори се приема, че дисперсиите зависят от някои допълнителни променливи. Първо се извършва обикновена (стандартна) регресия и се получава вектор на остатъците. След това се конструира оценка на дисперсията. След това се извършва регресия на квадратния вектор на остатъците, разделен на емпиричната дисперсия (оценка на дисперсията). За нея (регресия) се намира обяснената част от вариацията. И за тази обяснена част от вариацията, разделена наполовина, се изгражда статистика. Ако нулевата хипотеза е вярна (не е вярна хетероскедастичността), тогава тази стойност има разпределение хей-квадрат. Ако тестът, напротив, разкрие хетероскедастичност, тогава оригиналният модел се трансформира чрез разделяне на компонентите на вектора на остатъците на съответните компоненти на вектора на наблюдаваните независими променливи.

36. Метод на стандартното отклонение във форма на Уайт.

Могат да се направят следните изводи. Използването на OLS при наличие на хетероскедастичност се свежда до минимизиране на сумата от претеглените квадратни отклонения. Използването на налични OLS е свързано с необходимостта от голям брой наблюдения, надхвърлящи броя на оценените параметри. Най-благоприятният случай за използване на OLS е случаят, когато грешката (остатъците) е пропорционална на една от независимите променливи и получените оценки са последователни. Ако все пак в модел с хетероскедастичност е необходимо да се използва не OLS, а стандартен OLS, тогава за да се получат последователни оценки, могат да се използват оценки на грешката във формата на White или Nevje-West.

Когато се анализират времевите редове, често е необходимо да се вземе предвид статистическата зависимост на наблюденията в различни моменти от времето. В този случай предположението за некорелирани грешки не е изпълнено. Нека помислим прост модел, при който грешките образуват авторегресивен процес от първи ред. В този случай грешките отговарят на проста рекурентна връзка, от дясната страна на която един от членовете е последователност от независими нормално разпределени случайни променливи с нулева средна стойност и постоянна дисперсия. Вторият член е произведението на параметъра (коефициент на авторегресия) и стойностите на остатъците в предишния момент от време. Самата последователност от стойности на грешки (остатъци) образува стационарен случаен процес. Стационарният случаен процес се характеризира с постоянството на неговите характеристики във времето, по-специално средната стойност и дисперсията. В този случай ковариационната матрица (нейните условия), която ни интересува, може лесно да бъде написана с помощта на мощности на параметъра.

Оценката на авторегресивен модел за известен параметър се извършва с помощта на OLS. В този случай е достатъчно просто да намалите оригиналния модел чрез проста трансформация до модел, чиито грешки отговарят на условията на стандартен регресионен модел. Много рядко, но все пак има ситуация, при която параметърът на авторегресията е известен. Следователно, обикновено е необходимо да се извърши оценка с неизвестен авторегресивен параметър. Има три най-често използвани процедури за такава оценка. Метод на Cochrane-Orcutt, процедура на Hildreth-Lu и метод на Durbin.

Като цяло следните изводи са верни. Анализът на времевите редове изисква корекция на конвенционалните OLS, тъй като грешките в този случай обикновено са корелирани. Често тези грешки образуват стационарен авторегресивен процес от първи ред. OLS оценките за авторегресия от първи ред са безпристрастни, последователни, но неефективни. С известен коефициент на авторегресия, OLS се свежда до прости трансформации (корекции) на оригиналната система и след това до прилагане на стандартен OLS. Ако, както по-често се случва, коефициентът на авторегресия е неизвестен, тогава има няколко налични процедури за OLS, които се състоят в оценяване на неизвестния параметър (коефициент), след което се прилагат същите трансформации, както в предишния случай на известния параметър.

37. Концепция на теста на Бройш-Пейган, теста на Голдфелд-Кванд

Апроксимационната грешка е един от най-често възникващите проблеми при прилагането на определени методи за апроксимация на изходни данни. Има различни видове грешки на приближението:

Грешки, свързани с грешки в изходните данни;

Грешки, свързани с несъответствието между апроксимиращия модел и структурата на апроксимираните данни.

Excel има добре разработена линейна функция за обработка на данни и приближения, която използва сложна математика. За да имате представа за това, нека се обърнем (чрез F1) към описателната част на тази разработка, която представяме със съкращения и някои промени в нотацията.

Изчислява статистически данни за серия, използвайки най-малките квадрати, за да изчисли правата линия, която най-добре отговаря на наличните данни. Функцията връща масив, който описва получения ред. Тъй като се връща масив от стойности, функцията трябва да бъде посочена като формула за масив.

Уравнението за права линия е:

y=a+b1*x1+b2*x2+...bn*xn

Синтаксис:

LINEST(y;x;const;статистика)

Масив y - известни стойностиг.

Масив x - известни стойности на x. Масивът x може да съдържа един или повече набора от променливи.

Const е булева стойност, което указва дали фиктивният член a трябва да бъде равен на 0.

Ако аргументът const е TRUE, 1 или е пропуснат, тогава a се оценява както обикновено. Ако аргументът const е FALSE или 0, тогава a е зададено на 0.

Статистиката е булева стойност, която показва дали трябва да се върнат допълнителни регресионни статистики. Ако статистическият аргумент е TRUE или 1, тогава LINEST връща допълнителни регресионни статистики. Ако статистиката е FALSE, 0 или е пропусната, тогава LINEST връща само коефициентите и пресечната точка.

Допълнителна регресионна статистика:

se1,se2,...,sen - стандартни стойности на грешки за коефициенти b1,b2,...,bn.

sea ​​​​- стандартна стойност на грешка за константа a (sea = #N/A, ако const е FALSE).

r2 е коефициентът на детерминизъм. Сравняват се действителните стойности на y и стойностите, получени от уравнението на линията; Въз основа на резултатите от сравнението се изчислява коефициентът на детерминизъм, нормализиран от 0 до 1. Ако е равен на 1, тогава има пълна корелация с модела, т.е. няма разлика между действителните и прогнозните стойности на y. В обратния случай, ако коефициентът на определяне е 0, тогава регресионното уравнение е неуспешно при прогнозиране на стойностите на y. За информация как се изчислява r2 вижте „Бележки“ в края на този раздел.

sey е стандартната грешка за оценка на y.

F-статистика или F-наблюдавана стойност. F-статистиката се използва, за да се определи дали наблюдаваната връзка между зависимите и независимите променливи се дължи на случайност или не.

df - степени на свобода. Степените на свобода са полезни за намиране на F-критични стойности в статистическа таблица. За да определите нивото на достоверност на модела, сравнявате стойностите в таблицата с F-статистиката, върната от функцията LINEST.

ssreg е регресионната сума на квадратите.

ssresid е остатъчната сума на квадратите.

Фигурата по-долу показва реда, в който се връщат допълнителни регресионни статистики.

Бележки

Избрана информация от функцията може да бъде получена чрез функцията ИНДЕКС, например:

Y-отсечка (свободен термин):

INDEX(LINEST(y,x),2)

Точността на приближението с помощта на правата линия, изчислена от функцията LINEST, зависи от степента на разсейване на данните. Колкото по-близо до права линия са данните, толкова по-точен е моделът, използван от функцията LINEST. Функцията LINEST използва най-малките квадрати, за да определи най-доброто съответствие с данните.

Чрез извършване на регресионен анализ, Microsoft Excelизчислява за всяка точка квадрата на разликата между предвидената стойност на y и действителната стойност на y. Сумата от тези квадратни разлики се нарича остатъчна сума от квадрати. След това Microsoft Excel изчислява сумата от квадрати на разликите между действителните стойности на y и средната стойност на y, която се нарича обща сума от квадрати (регресионна сума от квадрати + остатъчна сума от квадрати). Колкото по-малка е остатъчната сума на квадратите в сравнение с общата сума на квадратите, толкова по-голяма е стойността на коефициента на определяне r2, който показва колко добро е уравнението, получено с регресионен анализ, обяснява връзките между променливите.

Обърнете внимание, че стойностите на y, предвидени от уравнението на регресия, може да не са правилни, ако попадат извън обхвата на стойностите на y, които са били използвани за дефиниране на уравнението.

Пример 1 Наклон и Y-пресечна точка

LINEST((1;9;5;7);(0;4;2;3)) е равно на (2;1), наклон = 2 и y-отсечка = 1.

Използване на F и R2 статистика

Можете да използвате F статистиката, за да определите дали резултат с висока стойност на r2 се дължи на случайност. Ако F-наблюдаваното е по-голямо от F-критичното, тогава има връзка между променливите. F-критичните могат да бъдат получени от таблицата на F-критичните стойности във всеки справочник по математическа статистика. За да намерите тази стойност с помощта на едностранен тест, задайте стойността на Alpha (стойността на Alpha се използва, за да посочи вероятността от погрешно заключение, че има силна връзка) равна на 0,05 и за броя на степените на свобода ( обикновено означавани v1 и v2), нека поставим v1 = k = 4 и v2 = n - (k + 1) = 11 - (4 + 1) = 6, където k е броят на променливите, а n е броят на точките с данни . От референтната таблица F-критичният е 4,53. Наблюдаваната F-стойност е 459,753674 (тази стойност е получена в примера, който пропуснахме), което е значително по-голямо от F-критична стойност 4.53. Следователно получената регресионно уравнениеполезно за прогнозиране на желания резултат.

За обща оценка на качеството на изградената иконометрия, такива характеристики като коефициент на детерминация, индекс на корелация, средна относителна грешкаприближение и също така проверява значимостта на регресионното уравнение с помощта на Е- Критерий на Фишер. Изброените характеристики са доста универсални и могат да се използват както за линейни, така и за нелинейни модели, както и за модели с две или повече факторни променливи. Редица остатъци играят решаваща роля при изчисляването на всички изброени качествени характеристики ε i, което се изчислява чрез изваждане от действителните (получени от наблюдения) стойности на изследваната характеристика y iстойности, изчислени с помощта на уравнението на модела y рi.

Коефициент на определяне

показва каква част от промяната в изследваната характеристика е взета предвид в модела. С други думи, коефициентът на детерминация показва каква част от промяната в изследваната променлива може да бъде изчислена въз основа на промените във факторните променливи, включени в модела, като се използва избраният тип функция, свързваща факторните променливи и характеристиката, която се изследва в моделно уравнение.

Коефициент на определяне R 2може да приема стойности от 0 до 1. Колкото по-близо е коефициентът на детерминация R 2до един, на по-добро качествомодели.

Индекс на корелация може лесно да се изчисли, като се знае коефициентът на детерминация:

Индекс на корелация Рхарактеризира близостта на избрания тип връзка при конструирането на модела между факторите, взети предвид в модела, и изследваната променлива. В случай на линейна регресия на двойка, неговата абсолютна стойност съвпада с коефициента на корелация на двойката r(x, y), което разгледахме по-рано, и характеризира близостта на линейната връзка между хИ г. Стойностите на индекса на корелация, очевидно, също са в диапазона от 0 до 1. Колкото по-близо е стойността Рдо единство, колкото по-тясно избраният тип функция свързва факторните променливи и изследваната характеристика, толкова по-добро е качеството на модела.

(2.11)

изразява се в проценти и характеризира точността на модела. Приемливата точност на модела при решаване на практически проблеми може да се определи въз основа на съображения за икономическа осъществимост, като се вземе предвид конкретната ситуация. Широко използван критерий е, че точността се счита за задоволителна, ако средната относителна грешка е по-малка от 15%. Ако E отн.ср.по-малко от 5%, тогава се казва, че моделът има висока точност. Не се препоръчва използването на модели с незадоволителна точност за анализ и прогнозиране, т.е. E отн.ср.повече от 15%.

F тест на Фишер използвани за оценка на значимостта на регресионно уравнение. Изчислената стойност на F-критерия се определя от връзката:

. (2.12)

Критична стойност Е-критерият се определя от таблици при дадено ниво на значимост α и степени на свобода (можете да използвате функцията FRIST в Excel). Тук, както преди, м– брой фактори, взети предвид в модела, н– брой наблюдения. Ако изчислената стойност е по-голяма от критичната стойност, тогава уравнението на модела се счита за значимо. Колкото по-висока е изчислената стойност Е-критерии, толкова по-добро е качеството на модела.

Нека определим качествените характеристики на линейния модел, за който сме конструирали Пример 1. Нека използваме данните от таблица 2. Коефициент на определяне:

Следователно, в рамките на линейния модел, промяна в обема на продажбите от 90,1% се обяснява с промените в температурата на въздуха.

Индекс на корелация

.

Стойността на индекса на корелация в случай на сдвоен линеен модел, както виждаме, наистина е равна по абсолютна стойност на коефициента на корелация между съответните променливи (обем на продажби и температура). Тъй като получената стойност е доста близка до единица, можем да заключим, че има тясна линейна връзка между изследваната променлива (обем на продажби) и факторната променлива (температура).

F тест на Фишер

Критична стойност F крпри α = 0,1; ν 1 =1; ν 2 =7-1-1=5 е 4,06. Изчислена стойност Е-критерият е по-голям от табличния, следователно уравнението на модела е значимо.

Средна относителна грешка на приближението

Конструираният линеен сдвоен регресионен модел е с незадоволителна точност (>15%) и не се препоръчва за използване за анализ и прогнозиране.

В резултат на това, въпреки факта, че повечето статистически характеристики отговарят на критериите за тях, линейният регресионен модел по двойки е неподходящ за прогнозиране на обема на продажбите в зависимост от температурата на въздуха. Нелинейният характер на връзката между тези променливи според данните от наблюденията е доста ясно видим на фиг. 1. Анализът потвърди това.


Ще определим емпиричните коефициенти на регресия b 0 , b 1 с помощта на инструмента „Регресия“ на добавката „Анализ на данни“ на процесора за електронни таблици MS Excel.

Алгоритъмът за определяне на коефициентите е както следва.

1. Въведете първоначалните данни в табличния процесор на MS Excel.

2. Извикайте добавката Data Analysis (Фигура 2).

3. Изберете инструмента за анализ Regression (Фигура 3).

4. Попълнете съответните позиции на прозореца Regression (Фигура 4).

5. Щракнете върху бутона OK в прозореца Regression и вземете протокол за решаване на проблема (Фигура 5)


Фигура 3 – Избор на инструмента за регресия




Фигура 4 – Регресионен прозорец

Фигура 5 – Протокол за решаване на проблема

От фигура 5 се вижда, че емпиричните регресионни коефициенти са съответно равни на

b 0 = 223,

b1 = 0,0088.

Тогава уравнението на сдвоената линейна регресия, свързващо стойността на месечната пенсия y със стойността на екзистенц минимума, има вида

.(3.2)

След това, в съответствие със задачата, е необходимо да се оцени близостта на статистическата връзка между стойността на издръжката на живота x и стойността на месечната пенсия y. Тази оценка може да се направи с помощта на коефициента на корелация. Стойността на този коефициент на фигура 5 е обозначена като множествено R и съответно е равна на 0,038. Тъй като теоретично стойността на този коефициент е в диапазона от –1 до +1, можем да заключим, че статистическата връзка между стойността на издръжката на живота x и стойността на месечната пенсия y не е значима.

Параметърът “R – квадрат”, представен на фигура 5, е квадратът на корелационния коефициент и се нарича коефициент на детерминация. Стойността на този коефициент характеризира дела на дисперсията на зависимата променлива y, обяснена чрез регресия (обяснителната променлива x). Съответно, стойността 1- характеризира дела на дисперсията в променливата y, причинена от влиянието на всички други обяснителни променливи, които не са взети предвид в иконометричния модел. От фигура 5 може да се види, че делът на всички обяснителни променливи, които не са взети предвид в получения иконометричен модел, е приблизително 1 - 0,00145 = 0,998 или 99,8%.



На следващия етап, в съответствие със задачата, е необходимо да се определи степента на връзка между обяснителната променлива x и зависимата променлива y, като се използва коефициентът на еластичност. Коефициентът на еластичност за сдвоен линеен регресионен модел се определя като:

Следователно, ако издръжката на живота се промени с 1%, месечната пенсия се променя с 0,000758%.

. (3.4)

За да направите това, допълваме оригиналната таблица 1 с две колони, в които определяме стойностите, изчислени с помощта на зависимост (3.2) и стойността на разликата.

Таблица 3.2. Изчисляване на средната апроксимационна грешка.

Тогава средната грешка на приближението е

.

От практиката е известно, че стойността на средната апроксимационна грешка не трябва да надвишава (12...15)%

На последния етап ще оценим статистическата надеждност на моделирането с помощта на F теста на Fisher. За да направим това, ще тестваме нулевата хипотеза H 0 за статистическата незначимост на полученото регресионно уравнение според условието:

ако при дадено ниво на значимост a = 0,05 теоретичната (изчислена) стойност на F-критерия е по-голяма от неговата критична стойност F crit (табулирана), тогава нулевата хипотеза се отхвърля и полученото регресионно уравнение се приема за значимо.

От фигура 5 следва, че F изчислено = 0,0058. Критичната стойност на F-критерия се определя с помощта на статистическата функция FASTER (Фигура 6). Входните параметри на функцията са нивото на значимост (вероятност) и броя на степените на свобода 1 и 2. За сдвоения регресионен модел броят на степените на свобода е съответно 1 (една обяснителна променлива) и n-2 = 6 -2=4.



Фигура 6 – Прозорец на статистическата функция FASTER

От фигура 6 може да се види, че критичната стойност на F-теста е 7,71.

Тъй като F изчислено< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Изграждане на множествен регресионен модел с помощта на EXCEL.

В съответствие с опцията за задание е необходимо използването на статистически материал.

1. Постройте уравнение на линейна множествена регресия и обяснете икономическия смисъл на неговите параметри.

2. Дайте сравнителна оценка на близостта на връзката между факторите и резултантния атрибут, като използвате средни (общи) коефициенти на еластичност.

3. Оценете статистическата значимост на регресионните коефициенти, като използвате t-теста на Стюдънт и нулевата хипотеза за значимостта на уравнението, като използвате F-теста.

4. Оценете качеството на уравнението чрез определяне на средната грешка на приближението.

Изходните данни за конструиране на сдвоен регресионен модел са дадени в таблица 3.3.

Таблица 3.3. Изходни данни.

Нетни приходи, милиона щатски долара Оборот на капитала, ml. щатски долари, х 1 Използван капитал, мл. Щатски долара х 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Технологията за конструиране на регресионно уравнение е подобна на алгоритъма, описан в параграф 3.1. Протоколът за конструиране на регресионното уравнение е показан на фигура 7.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ
Регресионна статистика
множествено число R 0,901759207
R-квадрат 0,813169667
Нормализиран R-квадрат 0,759789572
Стандартна грешка 0,789962026
Наблюдения
Дисперсионен анализ
df Г-ЦА Е
Регресия 9,50635999 15,23357468
остатък 0,624040003
Обща сума
Коефициенти t-статистика
Y-пресечка 1,113140304 2,270238114
Променлива X 1 -0,000592199 -0,061275574
Променлива X 2 0,063902851 5,496523193

Фигура 7. Заключение.



Ново в сайта

>

Най - известен