Dom Higiena Estymacja parametrów równania regresji. Estymacja parametrów regresji liniowej

Estymacja parametrów równania regresji. Estymacja parametrów regresji liniowej

Równanie regresji jest zawsze uzupełniane wskaźnikiem bliskości połączenia. Za pomocą regresja liniowa takim wskaźnikiem jest współczynnik korelacji liniowej r yt. Istnieją różne modyfikacje formuły współczynnik liniowy korelacje.

Należy pamiętać, że wartość współczynnika korelacji liniowej ocenia stopień powiązania rozpatrywanych cech w postaci liniowej. Dlatego bliskość całkowita wartość współczynnik korelacji liniowej wynoszący zero nie oznacza, że ​​pomiędzy cechami nie ma związku.

Aby ocenić jakość selekcji funkcja liniowa oblicza się kwadrat współczynnika korelacji liniowej r yt 2, zwanego współczynnikiem determinacji. Współczynnik determinacji charakteryzuje proporcję wariancji efektywnej charakterystyki w t wyjaśnioną przez regresję w całkowitej wariancji efektywnej charakterystyki.

Równanie regresji nieliniowej, jak w zależność liniowa, uzupełnia wskaźnik korelacji, czyli wskaźnik korelacji R.

Parabola drugiego rzędu, jak wielomian więcej wysoki porządek, po linearyzacji, przyjmuje postać równania regresja wielokrotna. Jeśli jest nieliniowy w stosunku do wyjaśnionego równanie zmienne regresja podczas linearyzacji przyjmuje postać liniowego równania regresji sparowanej, wówczas do oceny bliskości zależności można zastosować współczynnik korelacji liniowej, którego wartość w tym przypadku będzie pokrywać się ze wskaźnikiem korelacji.

Inaczej wygląda sytuacja, gdy w przekształceniach równania do postaci liniowej występuje zmienna zależna. W tym przypadku współczynnik korelacji liniowej oparty na przekształconych wartościach cech daje jedynie przybliżone oszacowanie bliskości zależności i nie pokrywa się liczbowo ze wskaźnikiem korelacji. Tak dla funkcja zasilania

po przejściu do równania logarytmicznie liniowego

lny = lna + blnx

współczynnik korelacji liniowej można znaleźć nie dla rzeczywistych wartości zmiennych x i y, ale dla ich logarytmów, czyli r lnylnx. Odpowiednio kwadrat jego wartości będzie charakteryzował stosunek sumy współczynników kwadratów odchyleń do sumy, ale nie dla y, ale dla jego logarytmów:

Tymczasem przy obliczaniu wskaźnika korelacji stosuje się sumy kwadratów odchyleń cechy y, a nie ich logarytmy. W tym celu wyznacza się teoretyczne wartości uzyskanej charakterystyki, to znaczy jako antylogarytm wartości obliczonej z równania i resztkową sumę kwadratów jako.

Mianownik obliczenia R 2 yx obejmuje całkowitą sumę kwadratów odchyleń rzeczywistych wartości y od ich wartości średniej, a mianownik r 2 lnxlny uczestniczy w obliczeniach. Liczniki i mianowniki rozważanych wskaźników różnią się odpowiednio:

  • - we wskaźniku korelacji i
  • - we współczynniku korelacji.

Ze względu na podobieństwo wyników i prostotę obliczeń przy użyciu programów komputerowych, współczynnik korelacji liniowej jest powszechnie stosowany do charakteryzowania bliskości związku dla funkcji nieliniowych.

Pomimo bliskości wartości R i r lub R i r w funkcjach nieliniowych z transformacją wartości cechy y, należy pamiętać, że jeśli przy liniowej zależności cech ten sam współczynnik korelacji charakteryzuje regresji, należy pamiętać, że jeśli przy liniowej zależności cech regresję charakteryzuje jeden i ten sam współczynnik korelacji, a ponieważ, to przy zależności krzywoliniowej dla funkcji y=j(x) nie jest równy dla regresji x =f(y).

Ponieważ do obliczenia wskaźnika korelacji wykorzystuje się stosunek współczynnika i całkowita kwota kwadratu odchyleń, ma wówczas takie samo znaczenie jak współczynnik determinacji. W badaniach specjalnych wartość zależności nieliniowych nazywa się wskaźnikiem determinacji.

Ocenę istotności wskaźnika korelacji przeprowadza się w taki sam sposób, jak ocenę wiarygodności współczynnika korelacji.

Wskaźnik korelacji służy do testowania istotności ogólnego równania regresji nieliniowej za pomocą testu F Fishera.

Wartość m charakteryzuje liczbę stopni swobody dla sumy kwadratów, a (n - m - 1) - liczbę stopni swobody dla resztowej sumy kwadratów.

Dla funkcji potęgowej m = 1 i wzór na kryterium F ma taką samą postać jak dla zależności liniowej:

Dla paraboli drugiego stopnia

y = za 0 + za 1 x + za 2 x 2 +em = 2

Kryterium F można również obliczyć w tabeli analiza wariancji wyniki regresji, jak pokazano dla funkcji liniowej.

Wskaźnik determinacji można porównać ze współczynnikiem determinacji, aby uzasadnić możliwość zastosowania funkcji liniowej. Im większa krzywizna linii regresji, tym mniejszy współczynnik determinacji jest wskaźnikiem determinacji. Podobieństwo tych wskaźników powoduje, że nie ma potrzeby komplikowania postaci równania regresji i można zastosować funkcję liniową.

W praktyce, jeżeli różnica pomiędzy wskaźnikiem determinacji a współczynnikiem determinacji nie przekracza 0,1, wówczas założenie liniowej postaci zależności uznaje się za uzasadnione.

Jeżeli t fakt > t tabela, to różnice pomiędzy rozpatrywanymi wskaźnikami korelacji są znaczne i zastąpienie regresji nieliniowej równaniem funkcji liniowej jest niemożliwe. Praktycznie, jeśli wartość t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Analiza korelacji.

Równanie regresji sparowanej.

Stosowanie metody graficznej.

Metoda ta służy wizualnemu zobrazowaniu formy powiązania pomiędzy badanymi wskaźnikami ekonomicznymi. W tym celu rysuje się wykres w prostokątnym układzie współrzędnych, na osi rzędnych nanosi się poszczególne wartości cechy wypadkowej Y, a na osi odciętych poszczególne wartości cechy współczynnika X.

Zbiór punktów charakterystyki wypadkowej i czynnikowej nazywa się pole korelacyjne.

Na podstawie pola korelacji można postawić hipotezę (np populacja), że związek pomiędzy wszystkimi możliwymi wartościami X i Y jest liniowy.

Równanie regresji liniowej to y = bx + a + ε

Tutaj ε jest błędem losowym (odchylenie, zakłócenie).

Przyczyny istnienia błędu losowego:

1. Brak uwzględnienia w modelu regresji istotnych zmiennych objaśniających;

2. Agregacja zmiennych. Próbą jest na przykład funkcja całkowitego zużycia wyrażenie ogólne suma indywidualnych decyzji dotyczących wydatków. Jest to jedynie przybliżenie poszczególnych relacji, które mają różne parametry.

3. Błędny opis struktury modelu;

4. Nieprawidłowa specyfikacja funkcjonalna;

5. Błędy pomiarowe.

Ponieważ odchylenia ε i dla każdej konkretnej obserwacji i są losowe, a ich wartości w próbie są nieznane, to:

1) z obserwacji x i oraz y i można uzyskać jedynie oszacowania parametrów α i β

2) Oszacowania parametrów α i β Model regresji są odpowiednio wartościami a i b, które mają charakter losowy, ponieważ odpowiadają próbie losowej;

Wówczas estymujące równanie regresji (zbudowane z przykładowych danych) będzie miało postać y = bx + a + ε, gdzie e i są zaobserwowanymi wartościami (oszacowaniami) błędów ε i , a a i b są odpowiednio oszacowaniami parametry α i β modelu regresji, które należy znaleźć.

Do estymacji parametrów α i β stosuje się metodę najmniejszych kwadratów (metoda najmniejszych kwadratów). metoda najmniejszych kwadratów daje najlepsze (spójne, efektywne i bezstronne) oszacowania parametrów równania regresji.

Ale tylko wtedy, gdy zostaną spełnione pewne przesłanki dotyczące składnika losowego (ε) i zmiennej niezależnej (x).

Formalnie kryterium OLS można zapisać następująco:

S = ∑(y i - y * i) 2 → min

Układ równań normalnych.

za n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Dla naszych danych układ równań ma postać

15a + 186,4 b = 17,01

186,4 a + 2360,9 b = 208,25

Z pierwszego równania wyrażamy A i podstawiamy do drugiego równania:

Otrzymujemy empiryczne współczynniki regresji: b = -0,07024, a = 2,0069

Równanie regresji (empiryczne równanie regresji):

y = -0,07024 x + 2,0069

Empiryczne współczynniki regresji A I B są jedynie estymatorami teoretycznych współczynników β i, a samo równanie odzwierciedla jedynie ogólną tendencję w zachowaniu rozpatrywanych zmiennych.

Aby obliczyć parametry regresji, zbudujemy tabelę obliczeniową (Tabela 1)

1. Parametry równania regresji.

Przykładowe środki.

Przykładowe odchylenia:

Odchylenie standardowe

1.1. Współczynnik korelacji

Kowariancja.

Obliczamy wskaźnik bliskości połączenia. Wskaźnikiem tym jest przykładowy współczynnik korelacji liniowej, który oblicza się ze wzoru:

Współczynnik korelacji liniowej przyjmuje wartości od –1 do +1.

Powiązania między cechami mogą być słabe i mocne (bliskie). Ich kryteria oceniane są w skali Chaddocka:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

W naszym przykładzie związek między cechą Y a czynnikiem X jest wysoki i odwrotny.

Dodatkowo współczynnik korelacji par liniowych można wyznaczyć poprzez współczynnik regresji b:

1.2. Równanie regresji(oszacowanie równania regresji).

Równanie regresji liniowej to y = -0,0702 x + 2,01

Współczynnikom równania regresji liniowej można nadać znaczenie ekonomiczne.

Współczynnik regresji b = -0,0702 pokazuje średnią zmianę efektywnego wskaźnika (w jednostkach miary y) wraz ze wzrostem lub spadkiem wartości współczynnika x na jednostkę jego miary. W tym przykładzie, przy wzroście o 1 jednostkę, y zmniejsza się średnio o -0,0702.

Współczynnik a = 2,01 formalnie pokazuje przewidywany poziom y, ale tylko wtedy, gdy x = 0 jest bliskie wartościom z próby.

Ale jeśli x=0 jest dalekie od przykładowych wartości x, wówczas dosłowna interpretacja może prowadzić do błędnych wyników i nawet jeśli linia regresji opisuje dość dokładnie obserwowane wartości próbek, nie ma gwarancji, że to również ma to miejsce w przypadku ekstrapolacji w lewo lub w prawo.

Podstawiając odpowiednie wartości x do równania regresji, możemy wyznaczyć wyrównane (przewidywane) wartości wskaźnika wydajności y(x) dla każdej obserwacji.

Zależność pomiędzy y i x wyznacza znak współczynnika regresji b (jeśli > 0 – zależność bezpośrednia, w przeciwnym wypadku – odwrotność). W naszym przykładzie połączenie jest odwrotne.

1.3. Współczynnik elastyczności.

Nie zaleca się stosowania współczynników regresji (w przykładzie b) do bezpośredniej oceny wpływu czynników na charakterystykę wypadkową, jeżeli występuje różnica w jednostkach miary wskaźnika wypadkowego y i charakterystyki czynnikowej x.

W tym celu obliczane są współczynniki elastyczności i współczynniki beta.

Średni współczynnik elastyczności E pokazuje, o jaki procent średnio zmieni się wynik w agregacie Na od wartości średniej w przypadku zmiany współczynnika X o 1% swojej średniej wartości.

Współczynnik elastyczności oblicza się ze wzoru:

Współczynnik elastyczności jest mniejszy niż 1. Zatem jeśli X zmieni się o 1%, Y zmieni się o mniej niż 1%. Innymi słowy, wpływ X na Y nie jest znaczący.

Współczynnik beta

Współczynnik beta pokazuje, o jaką część wartości jej odchylenia standardowego zmieni się wartość średnia wynikowej charakterystyki, gdy charakterystyka czynnikowa zmieni się o wartość jej odchylenia standardowego przy wartości pozostałych zmiennych niezależnych ustalonych na stałym poziomie:

Te. zwiększenie x o odchylenie standardowe S x spowoduje zmniejszenie średniej wartości Y o 0,82 odchylenia standardowego S y .

1.4. Błąd przybliżenia.

Oceńmy jakość równania regresji wykorzystując błąd przybliżenia bezwzględnego. Średni błąd aproksymacji - średnie odchylenie obliczonych wartości od rzeczywistych:

Błąd aproksymacji w granicach 5%-7% wskazuje na dobre dopasowanie równania regresji do danych oryginalnych.

Ponieważ błąd jest mniejszy niż 7%, równanie to można zastosować jako regresję.

Regresja liniowa sprowadza się do znalezienia równania postaci

Pierwsze wyrażenie uwzględnia podane wartości współczynników X obliczyć teoretyczne wartości wynikowej cechy, zastępując do niej rzeczywiste wartości współczynnika X. Na wykresie wartości teoretyczne leżą na linii prostej, która reprezentuje linię regresji.

Konstrukcja regresji liniowej sprowadza się do oszacowania jej parametrów - A I B. Klasyczne podejście do szacowania parametrów regresji liniowej opiera się na metoda najmniejszych kwadratów (LSM).

Aby znaleźć minimum, należy obliczyć pochodne cząstkowe sumy (4) dla każdego z parametrów - A I B- i przyrównać je do zera.

(5)

Przekształćmy się, otrzymamy układ równań normalnych:

(6)

W tym systemie N- wielkości próbki, kwoty można łatwo obliczyć na podstawie oryginalnych danych. Rozwiązujemy układ względem A I B, otrzymujemy:

(7)

. (8)

Wyrażenie (7) można zapisać w innej formie:

(9)

Gdzie kowariancja cech, dyspersja czynników X.

Parametr B zwany współczynnik regresji. Jego wartość pokazuje średnią zmianę wyniku przy zmianie współczynnika o jedną jednostkę. Stworzyła możliwość jasnej interpretacji ekonomicznej współczynnika regresji równanie liniowe regresja jest dość powszechna w badaniach ekonometrycznych.

Formalnie A- oznaczający y Na x=0. Jeśli X nie ma i nie może mieć wartości zerowej, to taka interpretacja wolnego terminu A nie ma sensu. Parametr A mogą nie mieć treści ekonomicznej. Próby interpretacji ekonomicznej mogą prowadzić do absurdu, zwłaszcza gdy A< 0. Интерпретировать можно лишь знак при параметре A. Jeśli A> 0, to względna zmiana wyniku następuje wolniej niż zmiana współczynnika. Porównajmy te względne zmiany:

< при > 0, > 0

Czasami równanie regresji liniowej parami jest zapisywane dla odchyleń od średniej:

Gdzie , . W tym przypadku wolny termin jest równy zero, co znajduje odzwierciedlenie w wyrażeniu (10). Fakt ten wynika z rozważań geometrycznych: ta sama prosta (3) odpowiada równaniu regresji, jednak przy szacowaniu regresji w odchyłkach początek współrzędnych przesuwa się do punktu o współrzędnych . W tym przypadku w wyrażeniu (8) obie sumy będą równe zero, co pociągnie za sobą równość wyrazu wolnego do zera.

Rozważmy jako przykład dla grupy przedsiębiorstw wytwarzających jeden rodzaj produktu funkcję kosztu



Tabela 1.

Wydajność produktu w tysiącach jednostek() Koszty produkcji, miliony rubli()
31,1
67,9
141,6
104,7
178,4
104,7
141,6
Razem: 22 770,0

Układ równań normalnych będzie wyglądał następująco:

Rozwiązując to, otrzymujemy a= -5,79, b=36,84.

Równanie regresji to:

Podstawienie wartości do równania X, znajdźmy wartości teoretyczne y(ostatnia kolumna tabeli).

Ogrom A nie ma sensu ekonomicznego. Jeśli zmienne X I y wyrażona w postaci odchyleń od poziomów średnich, wówczas linia regresji na wykresie przejdzie przez początek współrzędnych. Oszacowanie współczynnika regresji nie ulegnie zmianie:

, Gdzie , .

Jako inny przykład rozważmy funkcję konsumpcji w postaci:

,

gdzie C to zużycie, y-dochód, K, L- opcje. To równanie regresji liniowej jest zwykle używane w połączeniu z równaniem bilansowym:

,

Gdzie I– wielkość inwestycji, R- oszczędności.

Dla uproszczenia załóżmy, że dochody przeznaczane są na konsumpcję i inwestycje. W ten sposób rozważa się układ równań:

Występowanie równości bilansowej nakłada ograniczenia na wartość współczynnika regresji, który nie może być większy od jedności, tj. .

Załóżmy, że funkcja konsumpcji to:

.

Współczynnik regresji charakteryzuje skłonność do konsumpcji. Pokazuje, że na każdy tysiąc rubli dochodu na konsumpcję przeznacza się średnio 650 rubli, a 350 rubli. zainwestowany. Jeśli obliczymy regresję wielkości inwestycji na dochodach, tj. , wówczas równanie regresji będzie miało postać . Równania tego nie trzeba definiować, gdyż wyprowadzono je z funkcji konsumpcji. Współczynniki regresji tych dwóch równań są powiązane równością:

Jeżeli współczynnik regresji okaże się większy od jedności, wówczas na konsumpcję przeznaczane są nie tylko dochody, ale i oszczędności.



Do obliczenia mnożnika wykorzystuje się współczynnik regresji w funkcji zużycia:

Tutaj M≈2,86, więc dodatkowa inwestycja wynosi 1 tysiąc rubli. NA długoterminowy doprowadzi, przy pozostałych czynnikach, do dodatkowego dochodu w wysokości 2,86 tys. Rubli.

W regresji liniowej współczynnik korelacji liniowej działa jako wskaźnik bliskości połączenia R:

Jego wartości mieszczą się w granicach: . Jeśli B> 0, to kiedy B< 0 . W przykładzie oznacza to bardzo ścisłą zależność kosztów produkcji od wielkości produkcji.

Aby ocenić jakość dopasowania funkcji liniowej, wykonaj obliczenia współczynnik determinacji jako kwadrat współczynnika korelacji liniowej r 2. Charakteryzuje udział wariancji wynikowej cechy y wyjaśnione przez regresję całkowitej wariancji wynikowej cechy:

Wartość charakteryzuje udział wariancji y, spowodowane wpływem innych czynników, nieuwzględnionych w modelu.

W przykładzie. Równanie regresji wyjaśnia 98,2% wariancji, a inne czynniki odpowiadają za 1,8%, jest to wariancja resztowa.

Warunki wstępne OLS (warunki Gaussa-Markowa)

Jak wspomniano powyżej, połączenie między y I X w regresji parami nie jest funkcjonalna, ale korelacyjna. Dlatego szacunki parametrów A I B Czy zmienne losowe, którego właściwości w istotny sposób zależą od właściwości składnika losowego ε. Aby uzyskać najlepsze wyniki metodą najmniejszych kwadratów, muszą zostać spełnione następujące warunki wstępne dotyczące odchylenia losowego (warunki Gaussa – Markowa):

1 0 . Wartość oczekiwana odchylenie losowe wynosi zero dla wszystkich obserwacji: .

20 . Wariancja odchyleń losowych jest stała: .

Wykonalność tego warunku nazywa się homoskedastyczność(stałość wariancji odchylenia). Niemożność tego założenia nazywa się heteroskedastyczność(niestałość wariancji odchylenia)

trzydzieści . Losowe odchylenia εi I ε j są od siebie niezależne dla:

Możliwość spełnienia tego warunku nazywa się brak autokorelacji.

4 0 . Wariancja losowa musi być niezależna od zmiennych objaśniających.

Zazwyczaj warunek ten jest spełniony automatycznie, jeśli zmienne objaśniające w danym modelu nie są losowe. Ponadto wykonalność tego warunku wstępnego dla modeli ekonometrycznych nie jest tak krytyczna w porównaniu z pierwszymi trzema.

Jeśli zostaną spełnione określone warunki wstępne, to Twierdzenie Gaussa-Markowa: Oszacowania (7) i (8) uzyskane za pomocą OLS mają najmniejszą wariancję w klasie wszystkich liniowych nieobciążonych szacunków .

Tym samym, jeżeli spełnione są warunki Gaussa-Markowa, estymatory (7) i (8) są nie tylko bezstronnymi estymatorami współczynników regresji, ale także najbardziej efektywnymi, tj. mają najmniejsze rozproszenie w porównaniu z innymi szacunkami tych parametrów, które są liniowe w odniesieniu do wartości tak, ja.

To właśnie zrozumienie znaczenia warunków Gaussa-Markowa odróżnia kompetentnego badacza stosującego analizę regresji od niekompetentnego. Jeżeli te warunki nie są spełnione, badacz musi być tego świadomy. Jeżeli możliwe jest podjęcie działań naprawczych, analityk powinien być w stanie je podjąć. Jeżeli sytuacji nie da się naprawić, badacz musi być w stanie ocenić, jak poważny może to mieć wpływ na wyniki.

Aby przewidzieć za pomocą równania regresji, należy obliczyć współczynniki i równania regresji. I tu pojawia się kolejny problem wpływający na trafność prognozowania. Rzecz w tym, że zwykle nie wszyscy możliwa wartość zmienne X i Y, tj. ogólna populacja wspólnego rozkładu problemów prognostycznych nie jest znana, znana jest jedynie próbka z tej populacji ogólnej. W rezultacie przy prognozowaniu, oprócz składnika losowego, pojawia się kolejne źródło błędów - błędy spowodowane niepełną zgodnością próby z populacją ogólną i wynikającymi z tego błędami w wyznaczaniu współczynników równania regresji.

Innymi słowy, ze względu na fakt, że populacja jest nieznana, dokładne wartości nie można wyznaczyć współczynników i równań regresji. Korzystając z próby tej nieznanej populacji, można jedynie uzyskać szacunki prawdziwych współczynników i.

Aby błędy przewidywań w wyniku takiej zamiany były minimalne, ocenę należy przeprowadzić metodą gwarantującą otrzymane wartości bezstronne i efektywne. Metoda zapewnia obiektywne szacunki, jeśli po kilkukrotnym powtórzeniu z nowymi próbami z tej samej populacji warunek i jest spełniony. Metoda zapewnia efektywne oszacowania, jeśli po kilkukrotnym powtórzeniu na nowych próbach z tej samej populacji zapewnione zostanie minimalne rozproszenie współczynników a i b, tj. warunki i są spełnione.

W teorii prawdopodobieństwa udowodniono twierdzenie, zgodnie z którym skuteczność i bezstronne oszacowanie współczynników równania regresji liniowej na podstawie przykładowych danych zapewnia zastosowanie metody najmniejszych kwadratów.

Istota metody najmniejszych kwadratów jest następująca. Dla każdego punktu próbki zapisywane jest równanie postaci . Następnie zostaje znaleziony błąd pomiędzy wartościami obliczonymi i rzeczywistymi. Rozwiązanie problemu optymalizacyjnego znalezienia takich wartości, które zapewniają minimalną sumę kwadratów błędów dla wszystkich n punktów, tj. rozwiązanie problemu wyszukiwania , daje bezstronne i efektywne oszacowania współczynników i . Dla przypadku sparowanej regresji liniowej rozwiązanie to ma postać:

Należy zauważyć, że bezstronne i efektywne oszacowanie prawdziwych wartości współczynników regresji dla populacji ogólnej uzyskanych w ten sposób z próby wcale nie gwarantuje uniknięcia błędów przy jednorazowym zastosowaniu. Gwarancją jest to, że w wyniku wielokrotnego powtarzania tej operacji z innymi próbami z tej samej populacji, gwarantowana jest mniejsza ilość błędów w porównaniu z jakąkolwiek inną metodą, a rozrzut tych błędów będzie minimalny.

Otrzymane współczynniki równania regresji wyznaczają położenie linii regresji, będącej główną osią chmury utworzonej przez punkty pierwotnej próbki. Obydwa współczynniki mają bardzo określone znaczenie. Współczynnik pokazuje wartość przy , ale w wielu przypadkach nie ma to sensu, w dodatku często też nie ma sensu, dlatego należy zachować ostrożność przy podanej interpretacji współczynnika. Bardziej uniwersalna interpretacja znaczenia jest następująca. Jeżeli , to względna zmiana zmiennej niezależnej (zmiana procentowa) jest zawsze mniejsza niż względna zmiana zmiennej zależnej.

Współczynnik pokazuje, o ile jednostek zmieni się zmienna zależna, gdy zmienna niezależna zmieni się o jedną jednostkę. Współczynnik ten często nazywany jest współczynnikiem regresji, podkreślając, że jest on ważniejszy od . W szczególności, jeśli zamiast wartości zmiennych zależnych i niezależnych weźmiemy ich odchylenia od ich wartości średnich, wówczas równanie regresji zostanie przekształcone do postaci . Innymi słowy, w przekształconym układzie współrzędnych dowolna linia regresji przechodzi przez początek współrzędnych (rys. 13) i nie ma współczynnika.

Rysunek 13. Położenie zależności regresyjnej w przekształconym układzie współrzędnych.

Parametry równania regresji mówią nam, jak zmienne zależne i niezależne są ze sobą powiązane, ale nie mówią nic o stopniu bliskości związku, tj. pokazuje położenie głównej osi chmury danych, ale nie mówi nic o stopniu szczelności połączenia (jak wąska lub szeroka jest chmura).

Dla terytoriów regionu podawane są dane za 200X.

Numer regionu Średnia płaca wystarczająca na życie na mieszkańca na dzień jednej osoby pełnosprawnej, rub., x Średnia dzienna płaca, rub., r
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Ćwiczenia:

1. Konstruować pole korelacyjne i formułować hipotezę dotyczącą formy związku.

2. Oblicz parametry równania regresji liniowej

4. Korzystając ze średniego (ogólnego) współczynnika elastyczności, dokonaj porównawczej oceny siły związku czynnika z wynikiem.

7. Oblicz przewidywaną wartość wyniku, jeśli przewidywana wartość współczynnika wzrośnie o 10% od jego średniego poziomu. Wyznacz przedział ufności prognozy dla poziomu istotności.

Rozwiązanie:

Zdecydujmy to zadanie za pomocą Excela.

1. Porównując dostępne dane x i y, np. uszeregowując je w kolejności rosnącej według czynnika x, można zaobserwować istnienie bezpośredniego związku pomiędzy cechami, gdy wzrost przeciętnego poziomu utrzymania na mieszkańca zwiększa przeciętną dzienną płaca. Na tej podstawie można założyć, że zależność pomiędzy cechami jest bezpośrednia i można ją opisać równaniem liniowym. Ten sam wniosek potwierdza analiza graficzna.

Aby zbudować pole korelacji, możesz użyć programu Excel PPP. Wprowadź dane początkowe w kolejności: najpierw x, potem y.

Wybierz obszar komórek zawierający dane.

Następnie wybierz: Wstaw / Wykres punktowy / Rozrzuć ze znacznikami jak pokazano na rysunku 1.

Rysunek 1. Konstrukcja pola korelacyjnego

Analiza pola korelacji wskazuje na obecność zależności zbliżonej do prostoliniowej, gdyż punkty leżą niemal w linii prostej.

2. Obliczanie parametrów równania regresji liniowej
Skorzystajmy z wbudowanej funkcji statystycznej REGLINP.

Dla tego:

1) Otwórz istniejący plik zawierający analizowane dane;
2) Wybierz obszar 5x2 pustych komórek (5 wierszy, 2 kolumny), aby wyświetlić wyniki statystyk regresji.
3) Aktywuj Kreator funkcji: w menu głównym wybierz Formuły / Funkcja wstawiania.
4) W oknie Kategoria bierzesz Statystyczny, w oknie funkcji - REGLINP. Naciśnij przycisk OK jak pokazano na rysunku 2;

Rysunek 2 Okno dialogowe Kreatora funkcji

5) Wypełnij argumenty funkcji:

Znane wartości dla

Znane wartości x

Stały - wartość logiczna, co wskazuje na obecność lub brak wolnego terminu w równaniu; jeśli Stała = 1, to wolny wyraz jest obliczany w zwykły sposób, jeśli Stała = 0, to wolny wyraz wynosi 0;

Statystyka- wartość logiczna wskazująca, czy wyświetlić dodatkowe informacje dotyczące analizy regresji, czy nie. Jeśli Statystyka = 1, to Dodatkowe informacje jest wyświetlane, jeżeli Statystyka = 0, wówczas wyświetlane są tylko szacunki parametrów równania.

Naciśnij przycisk OK;

Rysunek 3. Okno dialogowe Argumenty funkcji REGLINP

6) Pierwszy element stołu finałowego pojawi się w lewej górnej komórce wybranego obszaru. Aby otworzyć całą tabelę, naciśnij klawisz , a następnie do kombinacji klawiszy ++ .

Dodatkowe statystyki regresji zostaną wygenerowane w kolejności pokazanej na poniższym diagramie:

Wartość współczynnika b Współczynnik wartość
Błąd standardowy B Błąd standardowy A
Błąd standardowy y
Statystyka F
Regresyjna suma kwadratów

Rysunek 4 Wynik obliczenia funkcji REGLINP

Otrzymaliśmy poziom regresji:

Wnioskujemy: Wraz ze wzrostem średniego poziomu utrzymania na mieszkańca o 1 rubel. średnia dzienna płaca wzrasta średnio o 0,92 rubla.

Oznacza zmienność 52%. wynagrodzenie(y) tłumaczy się zmiennością współczynnika x – przeciętnego poziomu utrzymania na mieszkańca, a 48% – działaniem innych czynników nieuwzględnionych w modelu.

Korzystając z obliczonego współczynnika determinacji, można obliczyć współczynnik korelacji: .

Połączenie oceniane jest jako bliskie.

4. Wykorzystując średni (ogólny) współczynnik elastyczności określamy siłę wpływu czynnika na wynik.

Dla równania linii prostej średni (całkowity) współczynnik sprężystości wyznaczamy ze wzoru:

Wartości średnie znajdziemy zaznaczając obszar komórek z wartościami x i zaznaczając Formuły / Autosumowanie / Średnia, i zrobimy to samo z wartościami y.

Rysunek 5 Obliczanie średnich wartości funkcji i argumentu

Zatem jeśli przeciętny koszt utrzymania na mieszkańca zmieni się o 1% od wartości średniej, przeciętne dzienne wynagrodzenie zmieni się średnio o 0,51%.

Korzystanie z narzędzia do analizy danych Regresja dostępny:
- wyniki statystyk regresji,
- wyniki analizy wariancji,
- wyniki przedziały ufności,
- wykresy dopasowania reszt i linii regresji,
- reszty i prawdopodobieństwo normalne.

Procedura jest następująca:

1) sprawdź dostęp do Pakiet analityczny. W menu głównym wybierz: Plik/Opcje/Dodatki.

2) Na liście rozwijanej Kontrola Wybierz przedmiot Dodatki do Excela i naciśnij przycisk Iść.

3) W oknie Dodatki Sprawdź pudełko Pakiet analityczny a następnie kliknij przycisk OK.

Jeśli Pakiet analityczny nie na liście pól Dostępne dodatki, naciśnij przycisk Recenzja aby przeprowadzić wyszukiwanie.

Jeśli pojawi się komunikat informujący, że pakiet analityczny nie jest zainstalowany na Twoim komputerze, kliknij Tak aby go zainstalować.

4) W menu głównym wybierz: Dane / Analiza danych / Narzędzia analityczne / Regresja a następnie kliknij przycisk OK.

5) Wypełnij okno dialogowe parametrów wejściowych i wyjściowych danych:

Interwał wejściowy Y- zakres zawierający dane wynikowego atrybutu;

Interwał wejściowy X- zakres zawierający dane charakterystyki czynnikowej;

Tagi- flaga wskazująca, czy pierwsza linia zawiera nazwy kolumn, czy nie;

Stała - zero- flaga wskazująca obecność lub brak wolnego terminu w równaniu;

Interwał wyjściowy- wystarczy wskazać lewą górną komórkę przyszłego zakresu;

6) Nowy arkusz - możesz nadać dowolną nazwę nowemu arkuszowi.

Następnie kliknij przycisk OK.

Rysunek 6 Okno dialogowe służące do wprowadzania parametrów narzędzia Regresja

Wyniki analizy regresji dla danych problemowych przedstawiono na rysunku 7.

Rysunek 7 Wynik użycia narzędzia regresji

5. Oceńmy użycie średni błąd jakość aproksymacji równań. Skorzystajmy z wyników analizy regresji przedstawionych na rysunku 8.

Rysunek 8 Wynik zastosowania narzędzia regresyjnego „Wycofanie reszty”

Utwórzmy nową tabelę, jak pokazano na rysunku 9. W kolumnie C wykonujemy obliczenia względny błąd przybliżenie według wzoru:

Rysunek 9 Obliczanie średniego błędu aproksymacji

Średni błąd aproksymacji oblicza się ze wzoru:

Jakość skonstruowanego modelu ocenia się jako dobrą, gdyż nie przekracza 8 – 10%.

6. Z tabeli c statystyki regresji(Rysunek 4) zapisujemy rzeczywistą wartość testu F Fishera:

Ponieważ przy poziomie istotności 5% można stwierdzić, że równanie regresji jest istotne (zależność została udowodniona).

8. Ocena znaczenie statystyczne Parametry regresji przeprowadzimy wykorzystując statystykę t-Studenta i obliczając przedział ufności każdego wskaźnika.

Stawiamy hipotezę H 0 o nieistotnej statystycznie różnicy między wskaźnikami a zerem:

.

dla liczby stopni swobody

Rysunek 7 przedstawia rzeczywiste wartości statystyki t:

Test t dla współczynnika korelacji można obliczyć na dwa sposoby:

Metoda I:

Gdzie - błąd losowy współczynnika korelacji.

Dane do obliczeń weźmiemy z tabeli na rysunku 7.

Metoda II:

Rzeczywiste wartości statystyki t przekraczają wartości z tabeli:

W związku z tym odrzuca się hipotezę H 0, co oznacza, że ​​parametry regresji i współczynnik korelacji nie różnią się od zera przypadkowo, ale są istotne statystycznie.

Przedział ufności dla parametru a definiuje się jako

Dla parametru a limity 95%, jak pokazano na rysunku 7, wynosiły:

Przedział ufności dla współczynnika regresji definiuje się jako

Dla współczynnika regresji b limity 95%, jak pokazano na rysunku 7, wynosiły:

Analiza górnej i dolnej granicy przedziałów ufności prowadzi do wniosku, że z prawdopodobieństwem parametry a i b, mieszczące się w określonych granicach, nie przyjmują wartości zerowych, tj. nie są nieistotne statystycznie i istotnie różnią się od zera.

7. Uzyskane oszacowania równania regresji pozwalają na wykorzystanie go do prognozowania. Jeżeli przewidywane koszty utrzymania wynoszą:

Wtedy przewidywana wartość kosztów utrzymania będzie wynosić:

Błąd prognozy obliczamy korzystając ze wzoru:

Gdzie

Wariancję obliczymy również za pomocą programu Excel PPP. Dla tego:

1) Aktywuj Kreator funkcji: w menu głównym wybierz Formuły / Funkcja wstawiania.

3) Wypełnij zakres zawierający dane liczbowe charakterystyki współczynnikowej. Kliknij OK.

Rysunek 10 Obliczanie wariancji

Otrzymaliśmy wartość wariancji

Aby obliczyć wariancję resztową na stopień swobody, wykorzystamy wyniki analizy wariancji, jak pokazano na rysunku 7.

Przedziały ufności do przewidywania poszczególnych wartości y z prawdopodobieństwem 0,95 są określone przez wyrażenie:

Przedział ten jest dość szeroki, przede wszystkim ze względu na małą liczbę obserwacji. Generalnie prognoza przeciętnego miesięcznego wynagrodzenia okazała się wiarygodna.

Stan zadania zaczerpnięto z: Warsztaty z ekonometrii: Proc. zasiłek / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i inni; wyd. I.I. Eliseewa. - M.: Finanse i Statystyka, 2003. - 192 s.: il.



Nowość na stronie

>

Najbardziej popularny