У дома Миризма от устата Оценяване на значимостта на регресионното уравнение спрямо коефициента на детерминация. Регресия в Excel: уравнение, примери

Оценяване на значимостта на регресионното уравнение спрямо коефициента на детерминация. Регресия в Excel: уравнение, примери

За да се тества значимостта, се анализира съотношението на регресионния коефициент и неговото стандартно отклонение. Това съотношение е разпределение на Стюдънт, тоест за определяне на значимостта използваме t-теста:

- RMSот остатъчна дисперсия;

- сума на отклоненията от средната стойност

Ако t ras. >t раздел. , тогава коефициентът b i е значим.

Доверителният интервал се определя по формулата:

РЕД ЗА ИЗПЪЛНЕНИЕ НА РАБОТАТА

    Вземете първоначалните данни според варианта на работа (по номера на студента в дневника). Посочен е обект за статичен контрол с два входа х 1 , х 2 и един изход Y. В съоръжението беше проведен пасивен експеримент и беше получена извадка от 30 точки, съдържаща стойностите х 1 , Х 2 И Yза всеки експеримент.

    Отворете нов файл в Excel 2007. Въведете първоначалната информация в колоните на оригиналната таблица - стойностите на входните променливи х 1 , Х 2 и изходна променлива Y.

    Подгответе две допълнителни колони за въвеждане на изчислени стойности Yи остатъци.

    Обадете се на програмата „Регресия“: Данни / Анализ на данни / Регресия.

Ориз. 1. Диалогов прозорец за анализ на данни.

    Въведете адресите на изходните данни в диалоговия прозорец „Регресия“:

    входен интервал Y, входен интервал X (2 колони),

    задайте нивото на надеждност на 95%,

    в опцията „Изходен интервал“ посочете горната лява клетка на мястото, където се извеждат данните от регресионния анализ (първата клетка на 2-ра страница на работния лист),

    активирайте опциите „Остатъци“ и „Оставаща графика“,

    Щракнете върху OK, за да започнете регресионния анализ.

Ориз. 2. Диалогов прозорец за регресия.

    Excel ще покаже 4 таблици и 2 графики на зависимостта на остатъците от променливите X1И X2.

    Форматирайте таблицата „Извеждане на суми“ - разширете колоната с имената на изходните данни, направете 3 значещи цифри след десетичната запетая във втората колона.

    Форматиране на таблица " Дисперсионен анализ» - направете количеството лесно за четене и разбиране важни фигурислед запетаи съкратете имената на променливите и коригирайте ширината на колоните.

    Форматирайте таблицата с коефициенти на уравнението - съкратете имената на променливите и коригирайте ширината на колоните, ако е необходимо, направете броя на значещите цифри по-лесен за четене и разбиране, премахнете последните 2 колони (стойности и оформление на таблицата).

    Прехвърлете данните от таблицата „Остатъчен изход“ в подготвените колони на изходната таблица, след което изтрийте таблицата „Остатъчен изход“ (опцията „вмъкване на специален“).

    Въведете получените оценки на коефициента в изходната таблица.

    Издърпайте таблиците с резултати в горната част на страницата.

    Изграждане на диаграми под таблици Yексп, Yизчислениеи прогнозни грешки (остатъчни).

    Форматиране на остатъчни диаграми. Използвайки получените графики, оценете коректността на модела въз основа на входните данни X1, X2.

    Отпечатайте резултатите от регресионния анализ.

    Разберете резултатите от регресионния анализ.

    Подгответе отчет за работата.

ПРИМЕР ЗА ИЗПЪЛНЕНИЕ НА ТРУДА

Методът за извършване на регресионен анализ в EXCEL е представен на фигури 3-5.

Ориз. 3. Пример за регресионен анализ в пакет EXCEL.


Фиг.4. Променливи остатъчни графики X1, X2

Ориз. 5. Графики Yексп,Yизчислениеи прогнозни грешки (остатъчни).

Според регресионния анализ можем да кажем:

1. Регресионното уравнение, получено с помощта на Excel, има формата:

    Коефициент на определяне:

Вариацията на резултата с 46,5% се обяснява с вариацията на факторите.

    Общият F тест тества хипотезата за статистическата значимост на регресионно уравнение. Анализът се извършва чрез сравняване на действителните и табличните стойности на теста на Fisher F.

Тъй като действителната стойност надвишава таблицата
, тогава заключаваме, че полученото регресионно уравнение е статистически значимо.

    Коефициент множествена корелация:

    b 0 :

t раздел. (29, 0,975) = 2,05

b 0 :

Доверителен интервал:

    Ние определяме доверителен интервалза коеф b 1 :

Проверка на значимостта на коеф b 1 :

t dis. >t раздел. , коефициентът b 1 е значим

Доверителен интервал:

    Определете доверителния интервал за коефициента b 2 :

Тест за значимост за коеф b 2 :

Определете доверителния интервал:

ВАРИАНТИ ЗА ЗАДАЧИ

Таблица 2. Опции на задачите

Опция №

Ефективен знак Y аз

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

Фактор № х аз

Фактор № х аз

Продължение на таблица 1

Опция №

Ефективен знак Y аз

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Фактор № х аз

Фактор № х аз

Таблица 3. Изходни данни

Y 1

Y 2

Y 3

х 1

х 2

х 3

х 4

х 5

ВЪПРОСИ ЗА САМОКОНТРОЛ

    Проблеми на регресионния анализ.

    Предпоставки за регресионен анализ.

    Основно уравнение за дисперсионен анализ.

    Какво показва F-съотношението на Фишър?

    Как се определя табличната стойност на критерия на Фишер?

    Какво показва коефициентът на детерминация?

    Как да определим значимостта на регресионните коефициенти?

    Как да определим доверителния интервал на регресионните коефициенти?

    Как да определим изчислената стойност на t-теста?

    Как да определим табличната стойност на t-теста?

    Формулирайте основната идея на дисперсионния анализ; за решаването на какви проблеми е най-ефективен?

    Какви са основните теоретични предпоставки на дисперсионния анализ?

    Разложете общата сума на квадратните отклонения на компоненти в ANOVA.

    Как да се получат оценки на дисперсията от суми на квадратни отклонения?

    Как се получават необходимия брой степени на свобода?

    Как се определя стандартната грешка?

    Обяснете дизайна на двуфакторния дисперсионен анализ.

    Как кръстосаната класификация е различна от йерархичната?

    Каква е разликата между балансирани данни?

Докладът е изготвен в текстов редактор Word на хартия A4 GOST 6656-76 (210x297 mm) и съдържа:

    Име на лабораторната работа.

    Цел на работата.

  1. Резултати от изчисленията.

РАЗРЕШЕНО ВРЕМЕ ЗА ЗАВЪРШВАНЕ

ЛАБОРАТОРНА РАБОТА

Подготовка за работа – 0,5 уч. часа.

Ръководство на работа – 0,5 акад. часа.

Компютърни изчисления – 0,5 акад. часа.

Оформяне на работата – 0,5 акад. часа.

Литература

    Идентификация на обектите на управление. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачев. Урок. - Пенза: PSU, 2003. - 211 с.

    Основи на статистическия анализ. Семинар по статистически методи и оперативни изследвания с помощта на STATISTIC и EXCEL пакети. / Вуколов Е.А. Урок. - М.: ФОРУМ, 2008. - 464 с.

    Основи на теорията за идентификация на обектите на управление. / А.А. Игнатиев, С.А. Игнатиев. Урок. - Саратов: SSTU, 2008. - 44 с.

    Теория на вероятностите и математическа статистикав примери и задачи с помощта на EXCEL. / Г.В. Горелова, И.А. Кацко. - Ростов н/д: Феникс, 2006.- 475 с.

    Цел 2

    Основни понятия 2

    Работна поръчка 6

    Пример за работа 9

    Въпроси за самоконтрол 13

    Време, определено за завършване на работата 14

    След оценка на индивида статистическа значимостЗа всеки от регресионните коефициенти обикновено се анализира общата значимост на коефициентите, т.е. цялото уравнение като цяло. Този анализ се извършва на базата на тестване на хипотезата за общата значимост на хипотезата за едновременното равенство на нула на всички коефициенти на регресия за обяснителните променливи:

    H 0: b 1 = b 2 = ... = b m = 0.

    Ако тази хипотеза не бъде отхвърлена, тогава се заключава, че общото влияние на всичките m обяснителни променливи X 1, X 2, ..., X m на модела върху зависимата променлива Y може да се счита за статистически незначимо и общото качество на регресионното уравнение може да се счита за ниско.

    Тази хипотеза се тества на базата на анализ на дисперсията, сравняващ обяснената и остатъчната дисперсия.

    H 0: (обяснена дисперсия) = (остатъчна дисперсия),

    H 1: (обяснена дисперсия) > (остатъчна дисперсия).

    Конструират се F-статистики:

    Където – дисперсия, обяснена с регресия;

    – остатъчна дисперсия (сума от квадратите на отклоненията, разделена на броя на степените на свобода n-m-1). Когато са изпълнени допусканията на OLS, конструираната F-статистика има разпределение на Фишер със степени на свобода n1 = m, n2 = n–m–1. Следователно, ако при необходимото ниво на значимост a F наблюдавано > F a ; m; n - m -1 = F a (където F a ; m ; n - m -1 е критичната точка на разпределението на Фишер), тогава H 0 се отхвърля в полза на H 1 . Това означава, че дисперсията, обяснена с регресията, е значително по-голяма от остатъчната дисперсия и следователно уравнението на регресията доста качествено отразява динамиката на промяната в зависимата променлива Y. Ако се наблюдава F< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    На практика обаче вместо тази хипотеза по-често се тества тясно свързана хипотеза за статистическата значимост на коефициента на детерминация R2:



    H 0: R 2 > 0.

    За да се провери тази хипотеза, се използва следната F-статистика:

    . (8.20)

    Стойността на F, ако са изпълнени предположенията на OLS и ако H 0 е вярно, има разпределение на Фишер, подобно на разпределението на F-статистиката (8.19). Наистина, разделяйки числителя и знаменателя на дробта в (8.19) на обща сумаквадратни отклонения и знаейки, че се разпада на сумата от квадратните отклонения, обяснени от регресията, и остатъчната сума от квадратните отклонения (това е следствие, както ще бъде показано по-късно, от системата от нормални уравнения)

    ,

    получаваме формула (8.20):

    От (8.20) е очевидно, че показателите F и R 2 са равни или не равни на нула едновременно. Ако F = 0, тогава R 2 = 0 и регресионната линия Y = е най-добрата според най-малките квадрати и следователно стойността на Y не зависи линейно от X 1, X 2, ..., X m . За да се провери нулевата хипотеза H 0: F = 0 при дадено ниво на значимост a, критичната стойност F cr = F a се намира от таблиците на критичните точки на разпределението на Фишер; m; n - m -1 . Нулевата хипотеза се отхвърля, ако F > F cr. Това е еквивалентно на факта, че R 2 > 0, т.е. R 2 е статистически значим.

    Анализът на F статистиката ни позволява да заключим, че за да приемем хипотезата, че всички коефициенти на линейна регресия са едновременно равни на нула, коефициентът на детерминация R2 не трябва да се различава значително от нула. Неговата критична стойност намалява с увеличаване на броя на наблюденията и може да стане произволно малка.

    Нека, например, когато се оценява регресия с две обяснителни променливи X 1 i, X 2 i за 30 наблюдения, R 2 = 0,65. Тогава

    Fob = =25.07.

    Използвайки таблиците на критичните точки на разпределението на Фишер, намираме F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Тъй като наблюдаваното F = 25,07 > F cr както при 5%, така и при 1% ниво на значимост, нулевата хипотеза се отхвърля и в двата случая.

    Ако в същата ситуация R 2 = 0,4, тогава

    F obs = = 9.

    Тук също се отхвърля предположението, че връзката е незначителна.

    Имайте предвид, че в случай на регресия по двойки, тестването на нулевата хипотеза за F-статистиката е еквивалентно на тестване на нулевата хипотеза за t-статистиката

    коефициент на корелация. В този случай F-статистиката е равна на t-статистиката на квадрат. Коефициентът R2 придобива самостоятелно значение в случай на множествена линейна регресия.

    8.6. Анализ на дисперсията за разлагане на общата сума на квадратните отклонения. Степени на свобода за съответните суми от квадратни отклонения

    Нека приложим теорията, очертана по-горе, за линейна регресия по двойки.

    След като се намери уравнението на линейната регресия, се оценява значимостта както на уравнението като цяло, така и на отделните му параметри.

    Значимостта на регресионното уравнение като цяло се оценява с помощта на теста на Fisher F. В този случай се излага нулевата хипотеза, че коефициентът на регресия е равен на нула, т.е. b = 0 и следователно факторът x няма ефект върху резултата y.

    Директното изчисляване на F-теста се предшества от дисперсионен анализ. Централно място в него заема разлагането на общата сума на квадратите на отклоненията на променливата y от средната стойност на две части - „обяснени” и „необясними”:

    Уравнение (8.21) е следствие от системата от нормални уравнения, получена в една от предходните теми.

    Доказателство за израз (8.21).

    Остава да докажем, че последният член е равен на нула.

    Ако добавите всички уравнения от 1 до n

    y i = a+b×x i +e i , (8.22)

    тогава получаваме åy i = a×å1+b×åx i +åe i . Тъй като åe i =0 и å1 =n, получаваме

    Тогава .

    Ако извадим уравнение (8.23) от израз (8.22), получаваме

    В резултат на това получаваме

    Последните суми са равни на нула поради системата от две нормални уравнения.

    Общата сума на квадратните отклонения на отделните стойности на ефективната характеристика y от средната стойност се дължи на влиянието на много причини. Нека условно разделим целия набор от причини на две групи: изследвания фактор x и други фактори. Ако факторът няма никакво влияние върху резултата, тогава регресионната линия е успоредна на OX и оста. Тогава цялата дисперсия на получената характеристика се дължи на влиянието на други фактори и общата сума на квадратите на отклоненията ще съвпадне с остатъка. Ако други фактори не влияят на резултата, тогава y е функционално свързано с x и остатъчната сума на квадратите е нула. В този случай сумата на квадратите на отклоненията, обяснени от регресията, съвпада с общата сума на квадратите.

    Тъй като не всички точки от корелационното поле лежат на линията на регресия, тяхното разсейване винаги възниква поради влиянието на фактора x, т.е. регресия на y върху x и причинена от други причини (необяснима вариация). Пригодността на една регресионна линия за прогнозиране зависи от това каква част от общата вариация в признака y се дължи на обяснената вариация. Очевидно, ако сумата от квадратните отклонения, дължащи се на регресия, е по-голяма от остатъчната сума на квадратите, тогава уравнението на регресията е статистически значимо и факторът x оказва значително влияние върху характеристиката y. Това е еквивалентно на факта, че коефициентът на детерминация ще се доближи до единица.

    Всяка сума от квадрати се свързва с броя на степените на свобода (df – степени на свобода), с броя на свободата на независимо изменение на дадена характеристика. Броят на степените на свобода е свързан с броя на единиците от съвкупността n и броя на константите, определени от него. Във връзка с разглеждания проблем, броят на степените на свобода трябва да покаже колко независими отклонения от n възможни са необходими, за да се образува дадена сума от квадрати. Така за общата сума на квадратите са необходими (n-1) независими отклонения, тъй като в набор от n единици, след изчисляване на средната стойност, само (n-1) брой отклонения варират свободно. Например, имаме поредица от y стойности: 1,2,3,4,5. Средната от тях е 3 и тогава n отклонения от средната ще бъдат: -2, -1, 0, 1, 2. Тъй като , тогава само четири отклонения варират свободно и петото отклонение може да се определи, ако предходните четири са известен.

    При изчисляване на обяснената или факторна сума на квадратите използват се теоретични (изчислени) стойности на получената характеристика

    Тогава сумата от квадратите на отклоненията, дължащи се на линейна регресия, е равна на

    Тъй като за даден обем от наблюдения в x и y факторната сума на квадратите при линейна регресия зависи само от регресионната константа b, тогава тази сума на квадратите има само една степен на свобода.

    Има равенство между броя на степените на свобода на общата, факторната и остатъчната сума на квадратите на отклоненията. Броят на степените на свобода на остатъчната сума на квадратите при линейна регресия е n-2. Броят на степените на свобода на общата сума на квадратите се определя от броя на единиците променливи характеристики и тъй като използваме средната стойност, изчислена от примерните данни, губим една степен на свобода, т.е. df общо = n–1.

    И така, имаме две равенства:

    Разделяйки всяка сума от квадрати на съответния брой степени на свобода, получаваме средния квадрат на отклоненията или, което е същото, дисперсията за една степен на свобода D.

    ;

    ;

    .

    Дефинирането на дисперсията с една степен на свобода привежда дисперсиите в сравнима форма. Сравнявайки фактора и остатъчните дисперсии за степен на свобода, получаваме стойността на теста на Fisher F

    където F-критерий за проверка на нулевата хипотеза H 0: D факт = D почивка.

    Ако нулевата хипотеза е вярна, тогава факторът и остатъчните дисперсии не се различават една от друга. За H 0 е необходимо опровержение, така че факторната дисперсия да надвишава остатъчната дисперсия няколко пъти. Английският статистик Snedecor разработи таблици на критичните стойности на F-съотношенията при различни нива на значимост на нулевата хипотеза и различни числастепени на свобода. Таблица стойност F-тестът е максималната стойност на съотношението на дисперсиите, която може да възникне, ако се различават случайно за дадено ниво на вероятност на нулевата хипотеза. Изчислената стойност на F-отношението се счита за надеждна, ако е по-голяма от табличната стойност. Ако F факт > F таблица, тогава нулевата хипотеза H 0: D факт = D остатък за липсата на връзка между характеристиките се отхвърля и се прави заключение за значимостта на тази връзка.

    Ако F е факт< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    В този пример от глава 3:

    = 131200 -7*144002 = 30400 – общ сбор на квадратите;

    1057.878*(135.43-7*(3.92571) 2) = 28979.8 – фактор сума на квадратите;

    =30400-28979.8 = 1420.197 – остатъчна сума на квадратите;

    D факт = 28979.8;

    D остатък = 1420.197/(n-2) = 284.0394;

    F факт =28979.8/284.0394 = 102.0274;

    Fa =0,05; 2; 5 =6,61; Fa =0,01; 2; 5 = 16,26.

    Тъй като F факт > F таблица както при 1%, така и при 5% нива на значимост, можем да заключим, че регресионното уравнение е значимо (връзката е доказана).

    Стойността на F теста е свързана с коефициента на детерминация. Факторната сума на квадратните отклонения може да бъде представена като

    ,

    и остатъчната сума на квадратите като

    .

    Тогава стойността на F-теста може да се изрази като

    .

    Оценката на регресионната значимост обикновено се дава под формата на дисперсионна таблица за анализ

    , неговата стойност се сравнява с табличната стойност при определено ниво на значимост α и броя на степените на свобода (n-2).
    Източници на вариация Брой степени на свобода Сума на квадратите на отклоненията Дисперсия по степен на свобода F-съотношение
    действителен Таблично при a=0,05
    Общ
    Обяснено 28979,8 28979,8 102,0274 6,61
    Остатъчен 1420,197 284,0394

    100 рублибонус за първа поръчка

    Изберете тип работа Дипломна работа Курсова работаЕсе Магистърска дисертацияДоклад от практиката Статия Доклад Преглед ТестМонография Бизнес план за решаване на проблеми Отговори на въпроси Творческа работаЕсе Рисуване Работи Превод Презентации Въвеждане Друго Повишаване на уникалността на текста Магистърска теза Лабораторна работаОнлайн помощ

    Разберете цената

    След като уравнението на линейната регресия е намерено, оценка на значимостта като уравнениеобщо и индивидуално параметри. Проверете значимостта на регресионното уравнение- означава да се определи дали съответства математически модел, изразяваща връзката между променливи, експериментални данни и дали обяснителните променливи, включени в уравнението (една или повече), са достатъчни за описание на зависимата променлива. За да имате обща преценка за качеството на даден модел от относителни отклоненияза всяко наблюдение определете средна апроксимационна грешка: Средна грешкаприближението не трябва да надвишава 8–10%.

    Значимостта на регресионното уравнение като цяло се оценява въз основа на Е- Критерий на Фишер, което се предхожда от дисперсионен анализ. Според основната идея на дисперсионния анализ, общата сума на квадратните отклонения на променлива гот средното гсе разлага на две части – „обяснено” и „необяснимо”: където е общата сума на квадратите на отклоненията; – сбор от квадратни отклонения, обяснени с регресия (или факторна сума от квадратни отклонения); – остатъчната сума на квадратите на отклоненията, характеризиращи влиянието на фактори, които не са взети предвид в модела. Дефинирането на дисперсията с една степен на свобода привежда дисперсиите в сравнима форма. Сравнявайки фактора и остатъчната дисперсия за една степен на свобода, получаваме стойността Е-Критерий на Фишер: Истинска стойност Е-Критерият на Фишер се сравнява с

    таблична стойност Етаблица(a; к 1; к 2) при ниво на значимост а и степени на свобода к 1 = мИ к 2= н-м-1.В този случай, ако действителната стойност Е- критерият е по-голям от табличния, тогава се признава статистическата значимост на уравнението като цяло.

    За сдвоена линейна регресия м=1, следователно

    величина Е-критерият е свързан с коефициента на детерминация R2; може да се изчисли по следната формула:

    При сдвоената линейна регресия значението не само на уравнението като цяло, но и на неговите отделни параметри. За целта за всеки параметър се определя неговата стандартна грешка: m bИ m a. Стандартната грешка на регресионния коефициент се определя по формулата: , Където

    Стойността на стандартната грешка заедно с T–Разпределение на студентите при н-2 степени на свобода се използват за тестване на значимостта на регресионния коефициент и за изчисляване на неговия доверителен интервал. За да се оцени значимостта на даден регресионен коефициент, неговата стойност се сравнява с неговата стандартна грешка, т.е. определена действителна стойност T-Тест на Стюдънт: който след това се сравнява със стойността на таблицата при определено ниво на значимост a и броя на степените на свобода (n-2). Доверителният интервал за регресионния коефициент се определя като b± Tмаса × мб. Тъй като знакът на коефициента на регресия показва увеличение на ефективната характеристика гс нарастване на фактор-знака х(b>0), намаляване на ефективната характеристика с увеличаване на знака на фактора ( b<0) или его независимость от независимой переменной (b=0), тогава границите на доверителния интервал за регресионния коефициент не трябва да съдържат противоречиви резултати, например -1,5 £ b£0,8. Този вид нотация показва, че истинската стойност на коефициента на регресия съдържа едновременно положителни и отрицателни стойности и дори нула, което не може да бъде така.

    Стандартна грешка параметър а определя се по формулата: Процедурата за оценка на значимостта на този параметър не се различава от тази, разгледана по-горе за коефициента на регресия. Изчислено T-критерий: , стойността му се сравнява с табличната стойност при н- 2 степени на свобода.


    Сдвоена регресияпредставлява регресия между две променливи

    -y и x, т.е.тип модел + E

    Където при- резултатен знак, т.е. зависима променлива; х- знак-фактор.

    Линейна регресиясвежда до намиране на уравнение от вида или

    Уравнение на формата позволява, като се имат предвид стойностите на фактора x, да се получат теоретични стойности на резултантната характеристика чрез заместване на действителните стойности на фактора x в него.

    Конструкцията на линейната регресия се свежда до оценка на нейните параметри a и b.

    Оценките на параметрите на линейната регресия могат да бъдат намерени с помощта на различни методи.

    1.

    2.

    Параметър bНаречен регресионен коефициент. Стойността му показва

    средната промяна в резултата с факторна промяна от една единица.

    Формално А- значение припри х = 0. Ако знак-факторът

    няма и не може да има нулева стойност, тогава горното

    тълкуване на свободния член, Аняма смисъл. Параметър, АМоже би

    нямат икономическо съдържание. Опитите за икономичен

    тълкувам параметъра, Аможе да доведе до абсурд, особено когато А < 0.

    Може да се интерпретира само знакът на параметъра А.Ако А > 0,

    тогава относителната промяна в резултата е по-бавна от промяната

    проверка на качеството на намерените параметри и на целия модел като цяло:

    -Оценка на значимостта на коефициента на регресия (b) и коефициента на корелация

    -Оценка на значимостта на цялото регресионно уравнение. Коефициент на определяне

    Регресионното уравнение винаги се допълва с индикатор за близостта на връзката. При

    използвайки линейна регресия, такъв индикатор е

    коефициент на линейна корелация r xy . Има различни

    модификации на формулата за коефициента на линейна корелация.

    Коефициентът на линейна корелация е в границите: -1≤ .r xy

    ≤ 1. Освен това, колкото по-близо rдо 0, толкова по-слаба е корелацията и обратното

    Колкото по-близо е r до 1 или -1, толкова по-силна е корелацията, т.е. зависимостта x и y е близка до

    линеен. Ако rточно =1 или -1 всички точки лежат на една и съща права линия.

    Ако коефициентът регресия b>0 след това 0 ≤. r xy≤ 1 и

    обратното за b<0 -1≤.r xy≤0. Коеф.

    корелацията отразява степени линейна зависимостм/г количества, ако са налични

    изразена зависимост от друг тип.

    За да се оцени качеството на напасване на линейна функция, квадратът на линейната

    коефициент на корелация

    Наречен коефициент на детерминация.Коефициент на определяне

    характеризира пропорцията на дисперсията на резултантния атрибут y, обяснен

    регресия. Съответна стойност

    характеризира дела на дисперсията y,причинени от влиянието на други неотчетени

    във факторния модел.

    MNC позволяваполучаване на такива оценки на параметрите АИ б,който

    сума от квадратните отклонения на действителните стойности на получената характеристика

    (y)от изчислено (теоретично)

    минимум:

    С други думи, от

    от целия набор от линии, регресионната линия на графиката е избрана така, че сумата

    квадрати на вертикалните разстояния между точките и тази права ще бъдат

    минимален.

    Решаване на система от нормални уравнения

    ОЦЕНКА НА ЗНАЧИМОСТТА НА ПАРАМЕТРИТЕ НА ЛИНЕЙНАТА РЕГРЕСИЯ.

    Оценката на значимостта на регресионното уравнение като цяло се дава с помощта на F-теста

    Фишър. В този случай се излага нулевата хипотеза, че регресионният коефициент е равен на

    нула, т.е. b = 0 и следователно факторът хне предоставя

    влияние върху резултата u.

    Непосредственото изчисляване на F-теста се предхожда от дисперсионен анализ.

    Централно място в него заема разширението на общата сума на квадратите на отклоненията

    променлива приот средната стойност прина две части -

    "обяснено" и "необяснено":

    Обща сума на квадратите на отклоненията

    Сбор на квадрати

    отклонения, обяснени с регресия

    Остатъчна сума на квадратите на отклоненията.

    Всеки сбор от квадратни отклонения е свързан с броя на степените на свобода , T.

    т.е. с броя на свободата на независимо изменение на характеристика. Броят на степените на свобода е свързан с броя на единиците от съвкупността n и броя на константите, определени от него. Във връзка с разглеждания проблем броят на степените на свобода трябва да покаже колко независими отклонения от Пвъзможно изисква за

    образуване на даден сбор от квадрати.

    Дисперсия по степен на свобода Д.

    F-съотношения (F-тест):

    Ако нулевата хипотеза е вярна, тогава факторът и остатъчните дисперсии не са

    се различават един от друг. За H 0 е необходимо опровержение

    факторната дисперсия превишава остатъчната дисперсия няколко пъти. Английски

    Статистикът Snedekor разработи таблици с критични стойности на F-съотношенията

    при различни нива на значимост на нулевата хипотеза и различен брой степени

    свобода. Табличната стойност на F-теста е максималната стойност на съотношението

    дисперсии, които могат да възникнат, когато те се разминават произволно за дадено

    ниво на вероятност на нулевата хипотеза. Изчислена стойност на F-съотношението

    се счита за надежден, ако o е по-голямо от таблицата. В този случай нула

    отхвърля се хипотезата за липса на връзка между знаците и се прави извод за

    значението на тази връзка: F факт > F таблица N 0

    отхвърлени.

    Ако стойността се окаже по-малка от таблицата F факт ‹, F маса

    Тогава вероятността за нулевата хипотеза е по-висока от дадено ниво и не може да бъде

    отхвърлени без сериозен риск да се направи неправилно заключение за наличието на връзка. IN

    В този случай регресионното уравнение се счита за статистически незначимо. Но

    не се отклонява.


    Свързана информация.


    След оценка на параметрите аИ b, получихме регресионно уравнение, чрез което можем да оценим стойностите гспоред зададени стойности х. Естествено е да се вярва, че изчислените стойности на зависимата променлива няма да съвпадат с действителните стойности, тъй като регресионната линия описва връзката само средно, като цяло. Около него са разпръснати отделни значения. По този начин надеждността на изчислените стойности, получени от регресионното уравнение, до голяма степен се определя от разсейването на наблюдаваните стойности около регресионната линия. На практика, като правило, дисперсията на грешката е неизвестна и се оценява от наблюдения едновременно с параметрите на регресията аИ b. Съвсем логично е да се предположи, че оценката е свързана със сумата от квадратите на регресионните остатъци. Количеството е примерна оценка на дисперсията на смущенията, съдържащи се в теоретичен модел . Може да се покаже, че за сдвоения регресионен модел

    където е отклонението на действителната стойност на зависимата променлива от нейната изчислена стойност.

    Ако , тогава за всички наблюдения действителните стойности на зависимата променлива съвпадат с изчислените (теоретични) стойности . Графично това означава, че теоретичната регресионна линия (линия, построена с помощта на функцията) минава през всички точки на корелационното поле, което е възможно само при строго функционална връзка. Следователно ефективният знак присе дължи изцяло на влиянието на фактора Х.

    Обикновено на практика има известно разсейване на точките на корелационното поле спрямо теоретичната регресионна линия, т.е. отклонения на емпиричните данни от теоретичните. Това разсейване се дължи както на влиянието на фактора х, т.е. регресия гот х, (такава вариация се нарича обяснена, тъй като се обяснява с уравнението на регресията), и от действието на други причини (необяснима вариация, случайна). Големината на тези отклонения е основата за изчисляване на качествените показатели на уравнението.

    Съгласно основния принцип на дисперсионния анализ общата сума на квадратите на отклоненията на зависимата променлива гот средната стойност може да се разложи на два компонента: обяснен с регресионното уравнение и необяснен:

    ,

    къде са стойностите г, изчислено по уравнението.

    Нека намерим съотношението на сбора на квадратите на отклоненията, обяснени от регресионното уравнение, към общия сбор на квадратите:

    , където

    . (7.6)

    Съотношението на частта от дисперсията, обяснена от уравнението на регресията, към общата дисперсия на получената характеристика се нарича коефициент на детерминация. Стойността не може да надвишава единица и тази максимална стойност ще бъде постигната само при , т.е. когато всяко отклонение е нула и следователно всички точки на диаграмата на разсейване лежат точно на права линия.

    Коефициентът на детерминация характеризира дела на дисперсията, обяснена с регресия в общата дисперсия на зависимата променлива . Съответно, стойността характеризира дела на вариация (дисперсия) y,необяснени от уравнението на регресията и следователно причинени от влиянието на други фактори, които не са взети предвид в модела. Колкото по-близо до единството, толкова по-високо е качеството на модела.



    При сдвоена линейна регресия коефициентът на детерминация равно на квадратдвойки линеен коефициенткорелации: .

    Коренът на този коефициент на определяне е коефициентът на множествена корелация (индекс) или теоретично съотношение на корелация.

    За да разберете дали стойността на коефициента на детерминация, получена при оценяване на регресията, наистина отразява истинската връзка между гИ хпроверете значимостта на построеното уравнение като цяло и отделни параметри. Тестването на значимостта на регресионно уравнение ви позволява да разберете дали регресионното уравнение е подходящо за практическа употреба, като например прогнозиране, или не.

    В същото време се излага основната хипотеза за незначимостта на уравнението като цяло, което формално се свежда до хипотезата, че параметрите на регресията са равни на нула или, което е същото, че коефициентът на детерминация е равен до нула: . Алтернативна хипотеза за значимостта на уравнението е хипотезата, че регресионните параметри не са равни на нула или че коефициентът на детерминация не е равен на нула: .

    За да тествате значимостта на регресионния модел, използвайте Ф-Критерият на Фишер, изчислен като съотношението на сумата от квадрати (за една независима променлива) към остатъчната сума от квадрати (за една степен на свобода):

    , (7.7)

    Където к– брой независими променливи.

    След разделяне на числителя и знаменателя на връзката (7.7) на общата сума на квадратите на отклоненията на зависимата променлива, Ф-критерият може да бъде еквивалентно изразен въз основа на коефициента:

    .

    Ако нулевата хипотеза е вярна, тогава дисперсията, обяснена от уравнението на регресията, и необяснимата (остатъчна) дисперсия не се различават една от друга.

    Прогнозна стойност Ф-критерият се сравнява с критичната стойност, която зависи от броя на независимите променливи к, и от броя на степените на свобода (n-k-1). Таблица (критична) стойност Ф-критерият е максималната стойност на съотношението на дисперсии, която може да възникне, ако те се разминават произволно за дадено ниво на вероятност на нулевата хипотеза. Ако изчислената стойност Ф-критерий е по-голям от табличния при дадено ниво на значимост, тогава се отхвърля нулевата хипотеза за липса на връзка и се прави извод за значимостта на тази връзка, т.е. моделът се счита за значим.

    За сдвоен регресионен модел

    .

    При линейната регресия обикновено се оценява значимостта не само на уравнението като цяло, но и на неговите отделни коефициенти. За да направите това, се определя стандартната грешка на всеки параметър. Стандартните грешки на регресионните коефициенти на параметрите се определят по формулите:

    , (7.8)

    (7.9)

    Стандартните грешки на регресионните коефициенти или стандартните отклонения, изчислени с помощта на формули (7.8,7.9), като правило, са дадени в резултатите от изчисляването на регресионния модел в статистически пакети.

    Въз основа на средните квадратични грешки на регресионните коефициенти, значимостта на тези коефициенти се проверява с помощта на обичайната схема за тестване на статистически хипотези.

    Основната хипотеза е, че „истинският” регресионен коефициент се различава незначително от нула. Алтернативна хипотеза в този случай е противоположната хипотеза, т.е. че „истинският“ регресионен параметър не е равен на нула. Тази хипотеза се тества с помощта на T-статистика, която има T-Разпределение на студентите:

    След това изчислените стойности T-статистиката се сравнява с критични стойности T-статистически данни, определени от таблиците за разпределение на Student. Критична стойностсе определя в зависимост от нивото на значимост α и броя на степените на свобода, който е равен на (n-k-1), n ​​​​-брой наблюдения, к- брой независими променливи. В случай на линейна регресия по двойки, броят на степените на свобода е (П- 2). Критичната стойност може да се изчисли и на компютър с помощта на вградената функция STUDARCOVER в пакета Excel.

    Ако изчислената стойност T-статистиката е повече от критична, тогава основната хипотеза се отхвърля и се смята, че с вероятност (1-α)„истинският” регресионен коефициент е значително различен от нула, което е статистическо потвърждение за съществуването на линейна зависимост на съответните променливи.

    Ако изчислената стойност T-статистиката е по-малко от критична, тогава няма причина да се отхвърли основната хипотеза, т.е. „истинският“ коефициент на регресия не се различава значително от нула на ниво на значимост α . В този случай факторът, съответстващ на този коефициент, трябва да бъде изключен от модела.

    Значимостта на регресионния коефициент може да се установи чрез конструиране на доверителен интервал. Доверителен интервал за регресионните параметри аИ bопределени, както следва:

    ,

    ,

    където се определя от таблицата за разпределение на Student за нивото на значимост α и брой степени на свобода (П- 2) за сдвоена регресия.

    Тъй като регресионните коефициенти в иконометричните изследвания имат ясна икономическа интерпретация, доверителните интервали не трябва да съдържат нула. Истинската стойност на коефициента на регресия не може да съдържа едновременно положителни и отрицателни стойности, включително нула, в противен случай получаваме противоречиви резултати при икономическо тълкуване на коефициентите, което не може да бъде така. Следователно коефициентът е значим, ако полученият доверителен интервал не покрива нула.

    Пример 7.4.Според пример 7.1:

    а) Изградете сдвоен линеен регресионен модел на зависимостта на печалбата от продажбите продажна ценаизползване на софтуер за обработка на данни.

    б) Оценете значимостта на регресионното уравнение като цяло, като използвате Ф-Критерий на Фишер при а=0,05.

    в) Оценете значимостта на използването на коефициентите на регресионния модел T-Тест на студента при а=0,05И а=0,1.

    За извършване на регресионен анализ използваме стандартен офис софтуер. програма EXCEL. Ще изградим регресионен модел с помощта на инструмента REGRESSION на настройките на ANALYSIS PACKAGE (фиг. 7.5), който се стартира, както следва:

    ServiceData AnalysisREGRESSIONOK.

    Фиг.7.5. Използване на инструмента REGRESSION

    В диалоговия прозорец РЕГРЕСИЯ, в полето Интервал на въвеждане Y, трябва да въведете адреса на диапазона от клетки, съдържащи зависимата променлива. В полето Интервал на въвеждане X трябва да въведете адресите на един или повече диапазони, съдържащи стойностите на независими променливи.Квадратчето за отметка Етикети в първия ред е активирано, ако са избрани и заглавките на колоните. На фиг. 7.6. показва екранната форма за изчисляване на регресионен модел с помощта на инструмента REGRESSION.

    Ориз. 7.6. Изграждане на регресионен модел по двойки с помощта на

    Инструмент за РЕГРЕСИЯ

    В резултат на инструмента REGRESSION се генерира следният протокол за регресионен анализ (фиг. 7.7).

    Ориз. 7.7. Протокол за регресионен анализ

    Уравнението за зависимостта на печалбата от продажбите от продажната цена има формата:

    Ще оценим значението на регресионното уравнение, използвайки Ф-Тест на Фишер. Значение Ф-Ще вземем критерия на Fisher от таблицата “Analysis of Variance” в протокола EXCEL (фиг. 7.7.). Прогнозна стойност Ф-критерии 53.372. Таблица стойност Ф-критерий на ниво на значимост а=0,05и брой степени на свобода е 4,964. защото , тогава уравнението се счита за значимо.

    Изчислени стойности T t-тестовете на Стюдънт за коефициентите на регресионното уравнение са показани в таблицата с резултатите (фиг. 7.7). Таблица стойност T-Тест на ученика на ниво на значимост а=0,05и 10 степени на свобода е 2,228. За коефициента на регресия а, следователно коефициентът анезначителен. За коефициента на регресия b, следователно, коефициентът bзначително



Ново в сайта

>

Най - известен