Dom Zapach z ust Ocena znaczenia równania regresji dla współczynnika determinacji. Regresja w Excelu: równanie, przykłady

Ocena znaczenia równania regresji dla współczynnika determinacji. Regresja w Excelu: równanie, przykłady

Aby przetestować istotność, analizuje się stosunek współczynnika regresji i jego odchylenia standardowego. Stosunek ten jest rozkładem Studenta, czyli do określenia istotności używamy testu t:

- RMS z dyspersji resztkowej;

- suma odchyleń od wartości średniej

Jeśli tak. >t zakładka. , wówczas współczynnik b i jest znaczący.

Przedział ufności wyznacza się ze wzoru:

PROCEDURA WYKONANIA PRACY

    Weź dane początkowe zgodnie z opcją pracy (według numeru studenta w dzienniku). Określono statyczny obiekt sterujący z dwoma wejściami X 1 , X 2 i jedno wyjście Y. Na obiekcie przeprowadzono eksperyment pasywny i uzyskano próbkę 30 punktów zawierającą wartości X 1 , X 2 I Y dla każdego eksperymentu.

    Otwórz nowy plik w programie Excel 2007. Wprowadź informacje początkowe do kolumn oryginalnej tabeli - wartości zmiennych wejściowych X 1 , X 2 i zmienna wyjściowa Y.

    Przygotuj dwie dodatkowe kolumny do wprowadzenia obliczonych wartości Y i resztki.

    Wywołaj program „Regresja”: Dane / Analiza danych / Regresja.

Ryż. 1. Okno dialogowe Analiza danych.

    Wprowadź adresy danych źródłowych w oknie dialogowym „Regresja”:

    przedział wejściowy Y, przedział wejściowy X (2 kolumny),

    ustaw poziom niezawodności na 95%,

    w opcji „Przedział wyjściowy” należy wskazać lewą górną komórkę miejsca wyprowadzenia danych analizy regresji (pierwsza komórka na 2. stronie arkusza),

    włączyć opcje „Pozostałe” i „Wykres pozostały”,

    Kliknij OK, aby rozpocząć analizę regresji.

Ryż. 2. Okno dialogowe Regresja.

    Excel wyświetli 4 tabele i 2 wykresy zależności reszt od zmiennych X1 I X2.

    Sformatuj tabelę „Wyjście sum” - rozwiń kolumnę z nazwami danych wyjściowych, w drugiej kolumnie wstaw 3 cyfry znaczące po przecinku.

    Formatuj tabelę " Analiza wariancji» - spraw, aby ilość była łatwa do odczytania i zrozumienia znaczące liczby po przecinkach skróć nazwy zmiennych i dostosuj szerokość kolumn.

    Sformatuj tabelę współczynników równania - skróć nazwy zmiennych i w razie potrzeby dostosuj szerokość kolumn, upewnij się, że liczba cyfr znaczących będzie łatwiejsza do odczytania i zrozumienia, usuń 2 ostatnie kolumny (wartości i układ tabeli).

    Przenieś dane z tabeli „Pozostałe dane wyjściowe” do przygotowanych kolumn tabeli źródłowej, a następnie usuń tabelę „Pozostałe dane wyjściowe” (opcja „wstaw specjalne”).

    Uzyskane szacunki współczynników wprowadź do tabeli źródłowej.

    Przeciągnij tabele wyników na górę strony.

    Twórz wykresy pod tabelami Ydo potęgi, Yobliczenie i błędów prognoz (resztowych).

    Formatuj wykresy resztowe. Korzystając z otrzymanych wykresów, na podstawie danych wejściowych oceń poprawność modelu X1, X2.

    Wydrukuj wyniki analizy regresji.

    Zrozumienie wyników analizy regresji.

    Przygotuj raport z pracy.

PRZYKŁAD WYKONANIA PRACY

Sposób przeprowadzenia analizy regresji w programie EXCEL przedstawiono na rysunkach 3-5.

Ryż. 3. Przykład analizy regresji w pakiecie EXCEL.


Ryc.4. Zmienne działki rezydualne X1, X2

Ryż. 5. Wykresy Ydo potęgi,Yobliczenie i błędów prognoz (resztowych).

Według analizy regresji możemy powiedzieć:

1. Równanie regresji otrzymane w programie Excel ma postać:

    Współczynnik determinacji:

Zmienność wyniku o 46,5% tłumaczy się zmiennością czynników.

    Ogólny test F sprawdza hipotezę o istotności statystycznej równania regresji. Analizę przeprowadza się poprzez porównanie rzeczywistych i tabelarycznych wartości testu Fishera F.

Ponieważ rzeczywista wartość przekracza tabelę
, wówczas dochodzimy do wniosku, że otrzymane równanie regresji jest statystycznie istotne.

    Współczynnik korelacja wielokrotna:

    B 0 :

zakładka t. (29, 0,975) = 2,05

B 0 :

Przedział ufności:

    Definiujemy przedział ufności dla współczynnika B 1 :

Sprawdzenie znaczenia współczynnika B 1 :

t dis. >t zakładka. , współczynnik b 1 jest znaczący

Przedział ufności:

    Wyznacz przedział ufności dla współczynnika B 2 :

Test istotności dla współczynnika B 2 :

Wyznacz przedział ufności:

OPCJE ZADANIA

Tabela 2. Opcje zadań

Opcja nr.

Efektowny znak Y I

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

Czynnik nr. X I

Czynnik nr. X I

Kontynuacja tabeli 1

Opcja nr.

Efektowny znak Y I

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Czynnik nr. X I

Czynnik nr. X I

Tabela 3. Dane wyjściowe

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

PYTANIA DO SAMOKONTROLI

    Problemy analizy regresji.

    Warunki wstępne analizy regresji.

    Podstawowe równanie analizy wariancji.

    Co pokazuje współczynnik F Fishera?

    Jak wyznacza się wartość tabelaryczną kryterium Fishera?

    Co pokazuje współczynnik determinacji?

    Jak określić istotność współczynników regresji?

    Jak wyznaczyć przedział ufności współczynników regresji?

    Jak wyznaczyć obliczoną wartość testu t?

    Jak wyznaczyć wartość tabelaryczną testu t?

    Sformułuj główną ideę analizy wariancji; w rozwiązywaniu jakich problemów jest ona najbardziej skuteczna?

    Jakie są podstawowe przesłanki teoretyczne analizy wariancji?

    Rozłóż całkowitą sumę kwadratów odchyleń na składniki w ANOVA.

    Jak uzyskać szacunki wariancji z sumy kwadratów odchyleń?

    W jaki sposób uzyskuje się wymaganą liczbę stopni swobody?

    Jak określa się błąd standardowy?

    Wyjaśnij konstrukcję dwuczynnikowej analizy wariancji.

    Czym różni się klasyfikacja krzyżowa od klasyfikacji hierarchicznej?

    Jaka jest różnica między danymi zrównoważonymi?

Raport przygotowywany jest w Edytor tekstu Słowo na papierze A4 GOST 6656-76 (210x297 mm) i zawiera:

    Nazwa pracy laboratoryjnej.

    Cel pracy.

  1. Wyniki obliczeń.

CZAS DOZWOLONY NA REALIZACJĘ

PRACA LABORATORYJNA

Przygotowanie do pracy – 0,5 akademickie. godziny.

Ukończenie pracy – 0,5 akademickiego. godziny.

Obliczenia komputerowe – 0,5 akademickie. godziny.

Projekt pracy – 0,5 akademicki. godziny.

Literatura

    Identyfikacja obiektów kontrolnych. / A. D. Semenow, D. V. Artamonow, A. V. Bryukhachev. Instruktaż. - Penza: PSU, 2003. - 211 s.

    Podstawy analizy statystycznej. Warsztaty z metod statystycznych i badań operacyjnych z wykorzystaniem pakietów STATISTIC i EXCEL. / Vukolov E.A. Instruktaż. - M.: FORUM, 2008. - 464 s.

    Podstawy teorii identyfikacji obiektów kontrolnych. / AA Ignatiew, SA Ignatiew. Instruktaż. - Saratów: SSTU, 2008. - 44 s.

    Teoria prawdopodobieństwa i statystyka matematyczna w przykładach i zadaniach z wykorzystaniem programu EXCEL. / G.V. Gorelova, I.A. Katsko. - Rostów n/d: Phoenix, 2006.- 475 s.

    Cel 2

    Podstawowe pojęcia 2

    Polecenie pracy 6

    Przykład pracy 9

    Pytania do samokontroli 13

    Czas przeznaczony na wykonanie pracy 14

    Po ocenie indywidualnej znaczenie statystyczne Dla każdego ze współczynników regresji zazwyczaj analizuje się ogólną istotność współczynników, tj. całe równanie jako całość. Analizę tę przeprowadza się na podstawie sprawdzenia hipotezy o ogólnej istotności hipotezy o równoczesnej równości do zera wszystkich współczynników regresji dla zmiennych objaśniających:

    H 0: b 1 = b 2 = ... = b m = 0.

    Jeżeli hipoteza ta nie zostanie odrzucona, wówczas stwierdza się, że łączny wpływ wszystkich m zmiennych objaśniających X 1, X 2, ..., X m modelu na zmienną zależną Y można uznać za nieistotny statystycznie, a jakość ogólną równania regresji można uznać za niską.

    Hipotezę tę sprawdza się na podstawie analizy wariancji porównującej wariancję wyjaśnioną i wariancję resztową.

    H 0: (wyjaśniona wariancja) = (wariancja resztowa),

    H 1: (wyjaśniona wariancja) > (wariancja resztowa).

    Statystyki F są konstruowane:

    Gdzie – wariancja wyjaśniona regresją;

    – dyspersja resztkowa (suma kwadratów odchyleń podzielona przez liczbę stopni swobody n-m-1). Gdy spełnione są założenia OLS, skonstruowana statystyka F ma rozkład Fishera o stopniach swobody n1 = m, n2 = n–m–1. Zatem, jeśli na wymaganym poziomie istotności zaobserwowano F > Fa ; M; n - m -1 = Fa (gdzie Fa ; m ; n - m -1 jest punktem krytycznym rozkładu Fishera), wówczas H 0 jest odrzucane na rzecz H 1 . Oznacza to, że wariancja wyjaśniona regresją jest znacznie większa niż wariancja resztowa, dlatego równanie regresji dość jakościowo odzwierciedla dynamikę zmian zmiennej zależnej Y. Jeśli zaobserwuje się F< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    Jednak w praktyce zamiast tej hipotezy częściej testuje się ściśle powiązaną hipotezę o statystycznej istotności współczynnika determinacji R2:



    H0: R2 > 0.

    Aby przetestować tę hipotezę, stosuje się następującą statystykę F:

    . (8.20)

    Wartość F, jeśli spełnione są założenia OLS i jeśli H 0 jest prawdziwe, ma rozkład Fishera podobny do rozkładu statystyki F (8.19). Rzeczywiście, dzieląc licznik i mianownik ułamka w (8.19) przez całkowita kwota kwadratowe odchylenia i wiedząc, że rozkłada się to na sumę kwadratów odchyleń wyjaśnionych regresją i resztę sumy kwadratów odchyleń (jest to konsekwencja, jak zostanie pokazane później, układu równań normalnych)

    ,

    otrzymujemy wzór (8.20):

    Z (8.20) wynika, że ​​wykładniki F i R 2 są jednocześnie równe zeru lub nie. Jeśli F = 0, to R 2 = 0, a linia regresji Y = jest najlepsza według najmniejszych kwadratów, a zatem wartość Y nie zależy liniowo od X 1, X 2, ..., X m . Aby przetestować hipotezę zerową H 0: F = 0 na danym poziomie istotności a, wartość krytyczną F cr = Fa wyznacza się z tablic punktów krytycznych rozkładu Fishera; M; n - m -1 . Hipotezę zerową odrzuca się, jeśli F > F cr. Jest to równoważne faktowi, że R2 > 0, tj. R2 jest statystycznie istotny.

    Analiza statystyki F pozwala stwierdzić, że aby przyjąć hipotezę, że wszystkie współczynniki regresji liniowej są jednocześnie równe zero, współczynnik determinacji R2 nie powinien różnić się istotnie od zera. Jego wartość krytyczna maleje wraz ze wzrostem liczby obserwacji i może stać się dowolnie mała.

    Niech np. estymując regresję z dwiema zmiennymi objaśniającymi X 1 i, X 2 i dla 30 obserwacji, R 2 = 0,65. Następnie

    Fob = = 25,07.

    Korzystając z tablic punktów krytycznych rozkładu Fishera, znajdujemy F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Ponieważ zaobserwowano F = 25,07 > F cr zarówno na poziomie istotności 5%, jak i na poziomie istotności 1%, hipoteza zerowa w obu przypadkach zostaje odrzucona.

    Jeśli w tej samej sytuacji R 2 = 0,4, to

    F obs = = 9.

    Założenie o nieistotności związku również w tym przypadku zostaje odrzucone.

    Należy zauważyć, że w przypadku regresji parami testowanie hipotezy zerowej dla statystyki F jest równoznaczne z testowaniem hipotezy zerowej dla statystyki t

    Współczynnik korelacji. W tym przypadku statystyka F jest równa kwadratowi statystyki t. Współczynnik R2 nabiera niezależnego znaczenia w przypadku wielokrotnej regresji liniowej.

    8.6. Analiza wariancji w celu rozłożenia całkowitej sumy kwadratów odchyleń. Stopnie swobody dla odpowiednich sum kwadratów odchyleń

    Zastosujmy teorię przedstawioną powyżej do regresji liniowej parami.

    Po znalezieniu równania regresji liniowej ocenia się znaczenie zarówno równania jako całości, jak i jego poszczególnych parametrów.

    Znaczenie równania regresji jako całości ocenia się za pomocą testu F Fishera. W tym przypadku stawia się hipotezę zerową, że współczynnik regresji jest równy zeru, tj. b = 0, a zatem współczynnik x nie ma wpływu na wynik y.

    Bezpośrednie obliczenie testu F poprzedzone jest analizą wariancji. Centralne miejsce w nim zajmuje rozkład całkowitej sumy kwadratów odchyleń zmiennej y od wartości średniej na dwie części – „wyjaśnioną” i „niewyjaśnioną”:

    Równanie (8.21) jest konsekwencją układu równań normalnych wyprowadzonego w jednym z poprzednich tematów.

    Dowód wyrażenia (8.21).

    Pozostaje udowodnić, że ostatni wyraz jest równy zero.

    Jeśli dodasz wszystkie równania od 1 do n

    y ja = a+b×x i +e ja , (8.22)

    wtedy otrzymujemy åy i = a×å1+b×åx i +åe i . Ponieważ åe i =0 i å1 =n, otrzymujemy

    Następnie .

    Jeśli odejmiemy równanie (8.23) od wyrażenia (8.22), otrzymamy

    W rezultacie otrzymujemy

    Ostatnie sumy są równe zeru ze względu na układ dwóch równań normalnych.

    Całkowita suma kwadratów odchyleń poszczególnych wartości efektywnej charakterystyki y od wartości średniej wynika z wpływu wielu przyczyn. Podzielmy warunkowo cały zbiór przyczyn na dwie grupy: badany czynnik x i inne czynniki. Jeśli współczynnik nie ma żadnego wpływu na wynik, wówczas linia regresji jest równoległa do OX i osi. Wtedy cała wariancja wynikowej charakterystyki wynika z wpływu innych czynników, a całkowita suma kwadratów odchyleń będzie pokrywać się z resztą. Jeśli inne czynniki nie wpływają na wynik, wówczas y jest funkcjonalnie powiązane z x, a suma kwadratów reszt wynosi zero. W tym przypadku suma kwadratów odchyleń wyjaśnionych regresją pokrywa się z całkowitą sumą kwadratów.

    Ponieważ nie wszystkie punkty pola korelacji leżą na linii regresji, ich rozproszenie zawsze następuje pod wpływem czynnika x, tj. regresja y na x i spowodowana innymi przyczynami (niewyjaśniona zmienność). Przydatność linii regresji do przewidywania zależy od tego, jaka część całkowitej zmienności cechy y jest wyjaśniona. Oczywiście, jeśli suma kwadratów odchyleń wynikających z regresji jest większa niż resztowa suma kwadratów, to równanie regresji jest istotne statystycznie i współczynnik x ma istotny wpływ na charakterystykę y. Jest to równoznaczne z faktem, że współczynnik determinacji będzie zbliżał się do jedności.

    Dowolna suma kwadratów jest powiązana z liczbą stopni swobody (df – stopni swobody), z liczbą swobody niezależnej zmienności cechy. Liczba stopni swobody jest powiązana z liczbą jednostek populacji n i liczbą wyznaczonych z niej stałych. W odniesieniu do badanego problemu liczba stopni swobody powinna wskazywać, ile niezależnych odchyleń z n możliwych potrzeba, aby utworzyć daną sumę kwadratów. Zatem dla całkowitej sumy kwadratów wymagane są (n-1) niezależne odchylenia, ponieważ w zbiorze n jednostek po obliczeniu średniej tylko (n-1) liczba odchyleń zmienia się swobodnie. Na przykład mamy serię wartości y: 1,2,3,4,5. Średnia z nich wynosi 3, a następnie n odchyleń od średniej będzie wynosić: -2, -1, 0, 1, 2. Ponieważ , wówczas tylko cztery odchylenia różnią się swobodnie, a piąte odchylenie można wyznaczyć, jeśli poprzednie cztery są znany.

    Przy obliczaniu wyjaśnionej lub współczynnikowej sumy kwadratów stosuje się teoretyczne (obliczone) wartości wynikowej charakterystyki

    Wtedy suma kwadratów odchyleń spowodowanych regresją liniową jest równa

    Ponieważ dla danej objętości obserwacji w x i y suma współczynników kwadratów w regresji liniowej zależy tylko od stałej regresji b, to ta suma kwadratów ma tylko jeden stopień swobody.

    Istnieje równość między liczbą stopni swobody całkowitej, współczynnikowej i rezydualnej sumy kwadratów odchyleń. Liczba stopni swobody resztowej sumy kwadratów w regresji liniowej wynosi n-2. Liczbę stopni swobody całkowitej sumy kwadratów wyznaczamy poprzez liczbę jednostek o zmiennych charakterystykach, a ponieważ korzystamy ze średniej obliczonej z przykładowych danych, tracimy jeden stopień swobody, tj. df razem = n–1.

    Mamy więc dwie równości:

    Dzieląc każdą sumę kwadratów przez odpowiednią liczbę stopni swobody, otrzymujemy średni kwadrat odchyleń, czyli rozrzut na jeden stopień swobody D.

    ;

    ;

    .

    Zdefiniowanie wariancji o jeden stopień swobody sprowadza wariancje do porównywalnej postaci. Porównując współczynnik i wariancję reszt na stopień swobody, otrzymujemy wartość testu F Fishera

    gdzie Kryterium F do testowania hipotezy zerowej H 0: D fakt = D reszta.

    Jeśli hipoteza zerowa jest prawdziwa, to wariancja czynnikowa i resztowa nie różnią się od siebie. W przypadku H 0 konieczne jest obalenie, aby dyspersja współczynników kilkakrotnie przekraczała dyspersję resztkową. Angielski statystyk Snedecor opracował tabele wartości krytycznych współczynników F na różnych poziomach istotności hipotezy zerowej i różne liczby stopnie swobody. Wartość tabeli Test F to maksymalna wartość stosunku wariancji, jaka może wystąpić, jeśli różnią się one przypadkowo dla danego poziomu prawdopodobieństwa hipotezy zerowej. Obliczoną wartość współczynnika F uważa się za wiarygodną, ​​jeśli jest większa niż wartość w tabeli. Jeżeli F fakt > F tabela, to hipoteza zerowa H 0: D fakt = D reszta o braku związku między cechami zostaje odrzucona i na tej podstawie wyciąga się wniosek o znaczeniu tego związku.

    Jeśli F jest faktem< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    W tym przykładzie z rozdziału 3:

    = 131200 -7*144002 = 30400 – całkowita suma kwadratów;

    1057,878*(135,43-7*(3,92571) 2) = 28979,8 – współczynnik sumy kwadratów;

    =30400-28979,8 = 1420,197 – resztowa suma kwadratów;

    D fakt = 28979,8;

    D reszta = 1420,197/(n-2) = 284,0394;

    F fakt =28979,8/284,0394 = 102,0274;

    Fa = 0,05; 2; 5 = 6,61; Fa = 0,01; 2; 5 = 16,26.

    Ponieważ fakt F > tabela F zarówno na poziomie istotności 1%, jak i 5%, możemy stwierdzić, że równanie regresji jest istotne (zależność została udowodniona).

    Wartość testu F jest powiązana ze współczynnikiem determinacji. Sumę współczynników kwadratów odchyleń można przedstawić jako

    ,

    a pozostała suma kwadratów jako

    .

    Następnie wartość testu F można wyrazić jako

    .

    Ocena istotności regresji jest zwykle podawana w formie analizy tabeli wariancji

    , jego wartość porównuje się z wartością tabelaryczną na pewnym poziomie istotności α i liczbie stopni swobody (n-2).
    Źródła zmienności Liczba stopni swobody Suma kwadratów odchyleń Dyspersja na stopień swobody Współczynnik F
    rzeczywisty Tabelarycznie przy a=0,05
    Ogólny
    Wyjaśnione 28979,8 28979,8 102,0274 6,61
    Pozostały 1420,197 284,0394

    100 RUR bonus za pierwsze zamówienie

    Wybierz typ pracy Praca dyplomowa Praca na kursie Praca pisemna Praca magisterska Raport z praktyki Artykuł Raport Recenzja Test Monografia Rozwiązywanie problemów Biznesplan Odpowiedzi na pytania Kreatywna praca Esej Rysunek Prace Tłumaczenie Prezentacje Pisanie na maszynie Inne Zwiększenie niepowtarzalności tekstu pracy magisterskiej Praca laboratoryjna Pomoc online

    Poznaj cenę

    Po znalezieniu równania regresji liniowej ocena istotności w formie równania w ogóle i indywidualnie parametry. Sprawdź znaczenie równania regresji- oznacza ustalenie, czy odpowiada model matematyczny, wyrażające związek między zmiennymi, danymi eksperymentalnymi oraz czy zmienne objaśniające zawarte w równaniu (jedna lub więcej) są wystarczające do opisania zmiennej zależnej. Aby mieć ogólną ocenę jakości modelu odchylenia względne dla każdej obserwacji określ średni błąd przybliżenia: Przeciętny błąd przybliżenie nie powinno przekraczać 8–10%.

    Znaczenie równania regresji jako całości ocenia się na podstawie F-Kryterium Fishera, co jest poprzedzone analizą wariancji. Zgodnie z podstawową ideą analizy wariancji, całkowita suma kwadratów odchyleń zmiennej y od średniej y jest rozkładany na dwie części – „wyjaśnione” i „niewyjaśnione”: gdzie jest całkowitą sumą kwadratów odchyleń; – suma kwadratów odchyleń wyjaśniona regresją (lub suma współczynników kwadratów odchyleń); – resztowa suma kwadratów odchyleń, charakteryzująca wpływ czynników nieuwzględnionych w modelu. Zdefiniowanie wariancji o jeden stopień swobody sprowadza wariancje do porównywalnej postaci. Porównując współczynnik i dyspersję resztkową na jeden stopień swobody, otrzymujemy wartość F-Kryterium Fishera: Aktualna wartość F- Kryterium Fishera porównuje się z

    wartość tabeli F stół(a; k 1; k 2) na poziomie istotności a i stopniach swobody k 1 = M I k 2= N-M-1.W tym przypadku, jeśli wartość rzeczywista F- kryterium jest większe od tabelarycznego, wówczas uznaje się istotność statystyczną równania jako całości.

    Dla sparowanej regresji liniowej M=1, zatem

    Ogrom F-kryterium powiązane jest ze współczynnikiem determinacji R2 i można je obliczyć korzystając ze wzoru:

    W sparowanej regresji liniowej znaczenie nie tylko równania jako całości, ale także jego jednostki parametry. W tym celu dla każdego parametru wyznaczany jest jego błąd standardowy: m b I ja. Błąd standardowy współczynnika regresji określa się ze wzoru: , Gdzie

    Standardowa wartość błędu wraz z T– Dystrybucja dla uczniów w godz N Do sprawdzenia istotności współczynnika regresji i obliczenia jego przedziału ufności wykorzystuje się -2 stopnie swobody. Aby ocenić istotność współczynnika regresji, porównuje się jego wartość z błędem standardowym, tj. ustalona wartość rzeczywista T-Test t-Studenta: który następnie porównuje się z wartością z tabeli na pewnym poziomie istotności a i liczbie stopni swobody (n-2). Przedział ufności dla współczynnika regresji definiuje się jako B± T tabela × mb. Ponieważ znak współczynnika regresji wskazuje na wzrost efektywnej charakterystyki y wraz ze wzrostem znaku czynnika X(B>0), spadek efektywnej charakterystyki wraz ze wzrostem znaku czynnika ( B<0) или его независимость от независимой переменной (B=0), to granice przedziału ufności dla współczynnika regresji nie powinny zawierać sprzecznych wyników, np. -1,5 £ B 0,8 GBP. Tego rodzaju zapis wskazuje, że prawdziwa wartość współczynnika regresji zawiera jednocześnie wartości dodatnie i ujemne, a nawet zero, co nie może mieć miejsca.

    Standardowy błąd parametr A określone wzorem: Procedura oceny istotności tego parametru nie różni się od opisanej powyżej dla współczynnika regresji. Obliczony T-kryterium: , jego wartość jest porównywana z wartością z tabeli pod adresem N- 2 stopnie swobody.


    Regresja sparowana reprezentuje regresję między dwiema zmiennymi

    -y i x, tj. typ modelu + E

    Gdzie Na- znak wypadkowy, czyli zmienna zależna; X- współczynnik znaku.

    Regresja liniowa sprowadza się do znalezienia równania postaci lub

    Równanie postaci pozwala, biorąc pod uwagę wartości współczynnika x, uzyskać teoretyczne wartości wynikowej cechy poprzez podstawienie do niego rzeczywistych wartości współczynnika x.

    Konstrukcja regresji liniowej sprowadza się do oszacowania jej parametrów a i b.

    Oszacowania parametrów regresji liniowej można znaleźć różnymi metodami.

    1.

    2.

    Parametr B zwany współczynnik regresji. Pokazuje jego wartość

    średnia zmiana wyniku przy zmianie współczynnika o jedną jednostkę.

    Formalnie A- oznaczający Na przy x = 0. Jeśli współczynnik znaku

    nie ma i nie może mieć wartości zerowej, wówczas powyższe

    interpretacja członka wolnego, A nie ma sensu. Parametr, A Może

    nie mają treści ekonomicznej. Próbuje ekonomicznie

    zinterpretować parametr, A może prowadzić do absurdu, zwłaszcza gdy A < 0.

    Można interpretować tylko znak parametru A. Jeśli A > 0,

    wówczas względna zmiana wyniku jest wolniejsza niż zmiana

    sprawdzenie jakości znalezionych parametrów i całego modelu jako całości:

    -Ocena znaczenia współczynnika regresji (b) i współczynnika korelacji

    -Ocena znaczenia całego równania regresji. Współczynnik determinacji

    Równanie regresji jest zawsze uzupełniane wskaźnikiem bliskości połączenia. Na

    stosując regresję liniową, takim wskaźnikiem jest

    współczynnik korelacji liniowej r xy . Są różne

    modyfikacje wzoru na współczynnik korelacji liniowej.

    Współczynnik korelacji liniowej mieści się w granicach: -1≤ .r xy

    ≤ 1. Co więcej, im bliżej R do 0, tym słabsza korelacja i odwrotnie, tym

    Im r jest bliższe 1 lub -1, tym silniejsza korelacja, tj. zależność x i y jest bliska

    liniowy. Jeśli R dokładnie =1 lub -1 wszystkie punkty leżą na tej samej linii prostej.

    Jeżeli współczynnik regresja b>0, następnie 0 ≤. r xy≤ 1 i

    odwrotnie dla b<0 -1≤.r xy≤0. Współczynnik.

    korelacja odzwierciedla stopnie zależność liniowa ilości m/rok, jeśli są dostępne

    wyraźna zależność innego typu.

    Aby ocenić jakość dopasowania funkcji liniowej, kwadrat funkcji liniowej

    Współczynnik korelacji

    Zwany współczynnik determinacji. Współczynnik determinacji

    charakteryzuje proporcję wariancji wynikowego atrybutu y wyjaśnionego

    regresja. Odpowiednia wartość

    charakteryzuje udział wariancji y, spowodowane wpływem innych, nieuwzględnionych

    w modelu czynnikowym.

    MNC pozwala uzyskać takie oszacowania parametrów A I B, Który

    suma kwadratów odchyleń rzeczywistych wartości wynikowej charakterystyki

    (y) z obliczonego (teoretycznego)

    minimum:

    Inaczej mówiąc, od

    z całego zestawu linii linia regresji na wykresie jest wybierana w taki sposób, aby uzyskać sumę

    wynosiłyby kwadraty odległości w pionie między punktami a tą linią

    minimalny.

    Rozwiązywanie układu równań normalnych

    OCENA ZNACZENIA PARAMETRÓW REGRESJI LINIOWEJ.

    Ocenę istotności równania regresji jako całości dokonuje się za pomocą testu F

    Rybak. W tym przypadku stawia się hipotezę zerową, że współczynnik regresji jest równy

    zero, tj. b = 0, a zatem współczynnik X nie zapewnia

    wpływ na wynik ty

    Natychmiastowe obliczenie testu F poprzedzone jest analizą wariancji.

    Centralne miejsce w nim zajmuje rozwinięcie całkowitej sumy kwadratów odchyleń

    zmienny Na od wartości średniej Na na dwie części -

    „wyjaśnione” i „niewyjaśnione”:

    Całkowita suma kwadratów odchyleń

    Suma kwadratów

    odchylenia wyjaśnione przez regresję

    Resztkowa suma kwadratów odchyleń.

    Dowolna suma kwadratów odchyleń jest powiązana z liczbą stopni swobody , T.

    tj. z liczbą swobody niezależnych zmian cechy. Liczba stopni swobody jest powiązana z liczbą jednostek populacji n i liczbą wyznaczonych z niej stałych. W odniesieniu do badanego problemu liczba stopni swobody powinna wskazywać, od ilu niezależnych odchyleń P możliwe wymagane dla

    utworzenie danej sumy kwadratów.

    Dyspersja na stopień swobody D.

    Współczynniki F (test F):

    Jeśli hipoteza zerowa jest prawdziwa, wówczas wariancje czynnikowe i resztowe nie są

    różnią się od siebie. Dla H 0 konieczne jest obalenie

    dyspersja czynnikowa kilkakrotnie przekraczała dyspersję rezydualną. język angielski

    Statystyk Snedekor opracował tabele wartości krytycznych współczynników F

    przy różnych poziomach istotności hipotezy zerowej i różnej liczbie stopni

    wolność. Tabelaryczna wartość testu F jest maksymalną wartością współczynnika

    dyspersje, które mogą wystąpić, gdy rozchodzą się losowo dla danego

    poziom prawdopodobieństwa hipotezy zerowej. Obliczona wartość współczynnika F

    uważa się za wiarygodne, jeśli o jest większe niż w tabeli. W tym przypadku zero

    hipoteza o braku związku między znakami zostaje odrzucona i wysunięta zostaje konkluzja

    znaczenie tego związku: F fakt > F tabela N 0

    odrzucony.

    Jeśli wartość okaże się mniejsza niż w tabeli F fakt ‹, Stół F

    Wtedy prawdopodobieństwo hipotezy zerowej jest wyższe od zadanego poziomu i nie może być

    odrzucone bez poważnego ryzyka wyciągnięcia błędnych wniosków na temat istnienia związku. W

    W tym przypadku równanie regresji uważa się za nieistotne statystycznie. Ale

    nie odbiega.


    Powiązana informacja.


    Po ocenie parametrów A I B, otrzymaliśmy równanie regresji, za pomocą którego możemy oszacować wartości y według podanych wartości X. Naturalne jest przekonanie, że obliczone wartości zmiennej zależnej nie będą pokrywać się z wartościami rzeczywistymi, ponieważ linia regresji opisuje zależność ogólnie tylko średnio. Wokół niego rozsiane są indywidualne znaczenia. Zatem wiarygodność obliczonych wartości uzyskanych z równania regresji jest w dużej mierze zdeterminowana przez rozproszenie obserwowanych wartości wokół linii regresji. W praktyce z reguły wariancja błędu jest nieznana i jest szacowana na podstawie obserwacji jednocześnie z parametrami regresji A I B. Całkiem logiczne jest założenie, że oszacowanie odnosi się do sumy kwadratów reszt regresji. Ilość ta jest próbnym oszacowaniem rozproszenia zaburzeń zawartych w Model teoretyczny . Można to wykazać dla modelu regresji sparowanej

    gdzie jest odchyleniem rzeczywistej wartości zmiennej zależnej od jej wartości obliczonej.

    Jeśli , wówczas dla wszystkich obserwacji rzeczywiste wartości zmiennej zależnej pokrywają się z obliczonymi (teoretycznymi) wartościami . Graficznie oznacza to, że teoretyczna linia regresji (linia zbudowana za pomocą funkcji) przechodzi przez wszystkie punkty pola korelacji, co jest możliwe tylko przy powiązaniu ściśle funkcjonalnym. Dlatego skuteczny znak Na jest całkowicie spowodowane wpływem czynnika X.

    Zwykle w praktyce występuje pewne rozproszenie punktów pola korelacji względem teoretycznej linii regresji, czyli odchylenia danych empirycznych od teoretycznych. Rozrzut ten wynika zarówno z wpływu czynnika X, tj. regresja y Przez X, (taką wariancję nazywamy wyjaśnioną, ponieważ wyjaśnia ją równanie regresji) oraz działaniem innych przyczyn (niewyjaśniona zmienność, losowa). Wielkość tych odchyleń jest podstawą do obliczenia wskaźników jakości równania.

    Zgodnie z podstawową zasadą analizy wariancji, całkowita suma kwadratów odchyleń zmiennej zależnej y z wartości średniej można rozłożyć na dwie składowe: wyjaśnioną równaniem regresji i niewyjaśnioną:

    ,

    gdzie są wartości y, obliczone zgodnie z równaniem.

    Znajdźmy stosunek sumy kwadratów odchyleń wyjaśnionych równaniem regresji do całkowitej sumy kwadratów:

    , Gdzie

    . (7.6)

    Stosunek części wariancji wyjaśnionej równaniem regresji do całkowitej wariancji wynikowej cechy nazywany jest współczynnikiem determinacji. Wartość nie może przekraczać jedności i ta maksymalna wartość zostanie osiągnięta dopiero przy , tj. gdy każde odchylenie wynosi zero i dlatego wszystkie punkty na wykresie rozrzutu leżą dokładnie na linii prostej.

    Współczynnik determinacji charakteryzuje udział wariancji wyjaśnionej regresją w całkowitej wariancji zmiennej zależnej . Odpowiednio wartość charakteryzuje udział zmienności (rozproszenia) y, niewyjaśnione równaniem regresji, a zatem spowodowane wpływem innych czynników, nieuwzględnionych w modelu. Im bliżej jedności, tym wyższa jakość modelu.



    W sparowanej regresji liniowej współczynnik determinacji równy kwadratowi debel współczynnik liniowy korelacje: .

    Podstawą tego współczynnika determinacji jest współczynnik korelacji wielokrotnej (indeks) lub teoretyczny współczynnik korelacji.

    Aby dowiedzieć się, czy wartość współczynnika determinacji uzyskana przy estymacji regresji rzeczywiście odzwierciedla rzeczywistą zależność pomiędzy y I X sprawdzić znaczenie skonstruowanego równania jako całości i poszczególnych parametrów. Testowanie znaczenia równania regresji pozwala dowiedzieć się, czy równanie regresji nadaje się do praktycznego zastosowania, takiego jak prognozowanie, czy nie.

    Jednocześnie stawiana jest hipoteza główna o nieistotności równania jako całości, co formalnie sprowadza się do hipotezy, że parametry regresji są równe zeru, czyli co za tym idzie, że współczynnik determinacji jest równy do zera: . Alternatywną hipotezą dotyczącą istotności równania jest hipoteza, że ​​parametry regresji nie są równe zeru lub że współczynnik determinacji nie jest równy zero: .

    Aby przetestować istotność modelu regresji, użyj F- Kryterium Fishera, obliczone jako stosunek sumy kwadratów (na jedną zmienną niezależną) do resztowej sumy kwadratów (na jeden stopień swobody):

    , (7.7)

    Gdzie k– liczba zmiennych niezależnych.

    Po podzieleniu licznika i mianownika zależności (7.7) przez całkowitą sumę kwadratów odchyleń zmiennej zależnej, F- kryterium można równoważnie wyrazić w oparciu o współczynnik:

    .

    Jeżeli hipoteza zerowa jest prawdziwa, to wariancja wyjaśniona równaniem regresji i wariancja niewyjaśniona (resztkowa) nie różnią się od siebie.

    Przewidywana wartość F- kryterium porównuje się z wartością krytyczną, która zależy od liczby zmiennych niezależnych k, oraz od liczby stopni swobody (n-k-1). Wartość tabelaryczna (krytyczna). F- kryterium to maksymalna wartość stosunku wariancji, jaka może wystąpić, jeżeli rozchodzą się one losowo dla danego poziomu prawdopodobieństwa hipotezy zerowej. Jeżeli obliczona wartość F- kryterium jest większe od tabelarycznego na danym poziomie istotności, wówczas hipotezę zerową o braku związku odrzuca się i wyciąga się wniosek o istotności tej zależności, tj. model uznaje się za znaczący.

    Dla modelu regresji sparowanej

    .

    W regresji liniowej ocenia się zwykle znaczenie nie tylko równania jako całości, ale także jego poszczególnych współczynników. W tym celu określa się błąd standardowy każdego parametru. Błędy standardowe współczynników regresji parametrów określa się za pomocą wzorów:

    , (7.8)

    (7.9)

    Błędy standardowe współczynników regresji lub odchylenia standardowe obliczone za pomocą wzorów (7.8,7.9) podawane są z reguły w wynikach obliczeń modelu regresji w pakietach statystycznych.

    W oparciu o pierwiastek średniokwadratowy współczynników regresji istotność tych współczynników sprawdzana jest przy użyciu zwykłego schematu testowania hipotez statystycznych.

    Główna hipoteza zakłada, że ​​„prawdziwy” współczynnik regresji różni się nieznacznie od zera. Hipotezą alternatywną w tym przypadku jest hipoteza przeciwna, tj. mówiąca, że ​​„prawdziwy” parametr regresji nie jest równy zero. Hipotezę tę sprawdza się za pomocą T- statystyki, które mają T-Dystrybucja dla studentów:

    Następnie obliczone wartości T- statystyki porównuje się z wartościami krytycznymi T- statystyki określone na podstawie tablic rozkładu Studenta. Krytyczna wartość określa się w zależności od poziomu istotności α oraz liczbę stopni swobody, która jest równa (n-k-1), n ​​- liczba obserwacji, k- liczba zmiennych niezależnych. W przypadku liniowej regresji parami liczba stopni swobody wynosi (P- 2). Wartość krytyczną można również obliczyć na komputerze korzystając z wbudowanej funkcji STUDARCOVER w pakiecie Excel.

    Jeżeli obliczona wartość T- statystyka jest więcej niż krytyczna, wówczas główna hipoteza zostaje odrzucona i uważa się, że z prawdopodobieństwem (1-α)„prawdziwy” współczynnik regresji jest istotnie różny od zera, co jest statystycznym potwierdzeniem istnienia liniowej zależności odpowiednich zmiennych.

    Jeżeli obliczona wartość T- statystyka jest mniej niż krytyczna, to nie ma podstaw do odrzucenia hipotezy głównej, tj. „prawdziwy” współczynnik regresji nie różni się istotnie od zera na poziomie istotności α . W takim przypadku z modelu należy wyłączyć współczynnik odpowiadający temu współczynnikowi.

    Znaczenie współczynnika regresji można ustalić, konstruując przedział ufności. Przedział ufności dla parametrów regresji A I B zdefiniowany w następujący sposób:

    ,

    ,

    gdzie wyznacza się z tabeli rozkładu Studenta dla poziomu istotności α i liczbę stopni swobody (P- 2) dla regresji w parach.

    Ponieważ współczynniki regresji w badaniach ekonometrycznych mają jasną interpretację ekonomiczną, przedziały ufności nie powinny zawierać zera. Prawdziwa wartość współczynnika regresji nie może jednocześnie zawierać wartości dodatnich i ujemnych, w tym zera, gdyż w przeciwnym razie przy ekonomicznej interpretacji współczynników otrzymamy sprzeczne wyniki, co nie może mieć miejsca. Zatem współczynnik jest istotny, jeśli otrzymany przedział ufności nie pokrywa się z zerem.

    Przykład 7.4. Zgodnie z przykładem 7.1:

    a) Zbuduj sparowany model regresji liniowej zależności zysku od sprzedaży Cena sprzedaży za pomocą oprogramowania do przetwarzania danych.

    b) Ocenić znaczenie równania regresji jako całości za pomocą F- Kryterium Fishera przy α=0,05.

    c) Ocenić znaczenie współczynników modelu regresji wykorzystując T-Test studencki o godz α=0,05 I α=0,1.

    Do przeprowadzenia analizy regresji wykorzystujemy standardowe oprogramowanie biurowe. programu EXCEL. Model regresji zbudujemy za pomocą narzędzia REGRESJA z ustawień PAKIETU ANALYSIS (Rys. 7.5), które uruchamiamy w następujący sposób:

    Analiza danych usługiREGRESSIONOK.

    Ryc.7.5. Korzystanie z narzędzia REGRESJA

    W oknie dialogowym REGRESJA w polu Przedział wejściowy Y należy wpisać adres zakresu komórek zawierających zmienną zależną. W polu Przedział wejściowy X należy wpisać adresy jednego lub większej liczby zakresów zawierających wartości zmiennych niezależnych. Pole wyboru Etykiety w pierwszej linii jest aktywne, jeśli zaznaczone są także nagłówki kolumn. Na ryc. 7.6. pokazuje ekran służący do obliczania modelu regresji za pomocą narzędzia REGRESJA.

    Ryż. 7.6. Budowanie modelu regresji parami za pomocą

    Narzędzie REGRESJA

    W wyniku działania narzędzia REGRESSION generowany jest następujący protokół analizy regresji (rys. 7.7).

    Ryż. 7.7. Protokół analizy regresji

    Równanie zależności zysku ze sprzedaży od ceny sprzedaży ma postać:

    Znaczenie równania regresji ocenimy za pomocą F- Próba Fishera. Oznaczający F- Kryterium Fishera weźmiemy z tabeli „Analiza wariancji” w protokole EXCEL (ryc. 7.7.). Przewidywana wartość F- kryteria 53.372. Wartość tabeli F- kryterium na poziomie istotności α=0,05 i liczbę stopni swobody wynosi 4,964. Ponieważ , wówczas równanie uważa się za znaczące.

    Obliczone wartości T Testy t-Studenta dla współczynników równania regresji przedstawiono w tabeli wyników (rys. 7.7). Wartość tabeli T-Test t-Studenta na poziomie istotności α=0,05 a 10 stopni swobody wynosi 2,228. Dla współczynnika regresji A, stąd współczynnik A nieistotne. Dla współczynnika regresji B zatem współczynnik B istotne



Nowość na stronie

>

Najbardziej popularny