Dom Higiena Jak znaleźć średni błąd przybliżenia w programie Excel. Ocena wiarygodności statystycznej wyników modelowania regresji za pomocą testu F Fishera

Jak znaleźć średni błąd przybliżenia w programie Excel. Ocena wiarygodności statystycznej wyników modelowania regresji za pomocą testu F Fishera

Sprawdźmy hipotezę H 0 o równości poszczególnych współczynników regresji do zera (jeśli alternatywa nie jest równa H 1) na poziomie istotności b = 0,05.

Jeżeli hipoteza główna okaże się błędna, przyjmujemy hipotezę alternatywną. Aby sprawdzić tę hipotezę, stosuje się test t-Studenta.

Wartość kryterium t znaleziona na podstawie danych obserwacyjnych (zwanych także obserwowanymi lub rzeczywistymi) jest porównywana z wartością tabelaryczną (krytyczną) określoną na podstawie tablic rozkładu Studenta (które są zwykle podawane na końcu podręczników i warsztatów ze statystyki lub ekonometrii).

Wartość tabeli wyznacza się w zależności od poziomu istotności (b) i liczby stopni swobody, która w przypadku liniowej regresji parami wynosi (n-2), n jest liczbą obserwacji.

Jeżeli rzeczywista wartość testu t jest większa niż wartość z tabeli (modulo), wówczas hipoteza główna zostaje odrzucona i uznaje się, że z prawdopodobieństwem (1-b) parametr lub cecha statystyczna w populacja znacznie różni się od zera.

Jeżeli rzeczywista wartość testu t jest mniejsza niż wartość z tabeli (modulo), to nie ma powodu odrzucać hipotezy głównej, tj. parametr lub cecha statystyczna w populacji nie różni się istotnie od zera na poziomie istotności b.

t kryty (n-m-1;b/2) = (30;0,025) = 2,042

Od 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в w tym przypadku współczynnik b można pominąć.

Od 0,56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Przedział ufności dla współczynników równania regresji.

Wyznaczmy przedziały ufności współczynników regresji, które przy wiarygodności 95% będą wyglądały następująco:

  • (b - t krytyczny S b ; b + t krytyczny S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Ponieważ punkt 0 (zero) leży wewnątrz przedział ufności, to estymacja przedziałowa współczynnika b jest nieistotna statystycznie.

  • (a - t krytyczny S a ; a + t krytyczny S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Z prawdopodobieństwem 95% można stwierdzić, że wartość tego parametru będzie mieścić się w znalezionym przedziale.

Ponieważ punkt 0 (zero) leży w przedziale ufności, oszacowanie przedziału współczynnika a jest nieistotne statystycznie.

2) Statystyka F. Kryterium Fishera.

Do sprawdzenia istotności równania stosuje się współczynnik determinacji R2 regresja liniowa ogólnie.

Badanie istotności modelu regresji odbywa się za pomocą testu F Fishera, którego obliczoną wartość wyznacza się jako stosunek wariancji pierwotnej serii obserwacji badanego wskaźnika do bezstronnego oszacowania wariancji ciągu resztowego dla tego modelu.

Jeżeli obliczona wartość przy k 1 =(m) i k 2 =(n-m-1) stopniach swobody jest większa od wartości tabelarycznej na danym poziomie istotności, wówczas model uznaje się za istotny.

gdzie m jest liczbą czynników w modelu.

Istotność statystyczną sparowanej regresji liniowej ocenia się za pomocą następującego algorytmu:

  • 1. Postawiono hipotezę zerową, że równanie jako całość jest nieistotne statystycznie: H 0: R 2 = 0 na poziomie istotności b.
  • 2. Następnie określ rzeczywistą wartość kryterium F:

gdzie m=1 dla regresji parami.

3. Wartość tabelaryczną wyznacza się z tablic rozkładu Fishera dla danego poziomu istotności, biorąc pod uwagę, że liczba stopni swobody dla całkowitej sumy kwadratów (większa wariancja) wynosi 1, a liczba stopni swobody dla reszty suma kwadratów (mniejsza wariancja) w regresji liniowej wynosi n-2.

Tabela F to maksymalna możliwa wartość kryterium pod wpływem czynników losowych przy danych stopniach swobody i poziomie istotności b. Poziom istotności b – prawdopodobieństwo odrzucenia prawidłowej hipotezy, pod warunkiem, że jest ona prawdziwa. Zwykle b przyjmuje się jako równe 0,05 lub 0,01.

4. Jeśli rzeczywista wartość testu F jest mniejsza niż wartość z tabeli, wówczas mówią, że nie ma powodu do odrzucania hipotezy zerowej.

W przeciwnym wypadku hipoteza zerowa zostaje odrzucona i z prawdopodobieństwem (1-b) zostaje przyjęta hipoteza alternatywna dotycząca statystycznej istotności równania jako całości.

Tabela wartości kryterium o stopniach swobody k 1 =1 i k 2 =30, tablica F = 4,17

Ponieważ rzeczywista wartość F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Związek między testem F Fishera a statystyką t-Studenta wyraża się równością:

Wskaźniki jakości równań regresji.

Testowanie autokorelacji reszt.

Istotnym warunkiem konstrukcji jakościowego modelu regresji z wykorzystaniem OLS jest niezależność wartości odchyleń losowych od wartości odchyleń we wszystkich pozostałych obserwacjach. Zapewnia to brak korelacji pomiędzy odchyleniami, a w szczególności odchyleniami sąsiednimi.

Autokorelację (korelację szeregową) definiuje się jako korelację pomiędzy zaobserwowanymi wskaźnikami uporządkowanymi w czasie (szereg czasowy) lub przestrzennym (szereg krzyżowy). Autokorelacja reszt (wariancji) jest powszechna w analizie regresji, gdy wykorzystuje się dane szeregów czasowych, i bardzo rzadko, gdy wykorzystuje się dane przekrojowe.

W problemach ekonomicznych dodatnia autokorelacja jest znacznie częstsza niż ujemna autokorelacja. W większości przypadków dodatnia autokorelacja jest spowodowana kierunkiem stała ekspozycja niektóre czynniki nieuwzględnione w modelu.

Ujemna autokorelacja zasadniczo oznacza, że ​​po dodatnim odchyleniu następuje ujemne i odwrotnie. Taka sytuacja może mieć miejsce, jeśli uwzględnić tę samą zależność pomiędzy popytem na napoje bezalkoholowe a dochodami w oparciu o dane sezonowe (zima-lato).

Do głównych przyczyn powodujących autokorelację można zaliczyć:

  • 1. Błędy specyfikacji. Nieuwzględnienie w modelu istotnej zmiennej objaśniającej lub błędny wybór formy zależności prowadzi zwykle do systemowych odchyleń punktów obserwacyjnych od linii regresji, co może prowadzić do autokorelacji.
  • 2. Bezwładność. Wiele wskaźniki ekonomiczne(inflacja, bezrobocie, PNB itp.) mają pewną cykliczność związaną z falowaniem działalności gospodarczej. Dlatego zmiana wskaźników nie następuje natychmiast, ale ma pewną bezwładność.
  • 3. Efekt pajęczej sieci. W wielu obszarach produkcyjnych i innych wskaźniki ekonomiczne reagują na zmiany warunków ekonomicznych z opóźnieniem (opóźnieniem).
  • 4. Wygładzanie danych. Często dane za pewien długi okres czasu uzyskuje się poprzez uśrednienie danych w przedziałach składowych. Może to prowadzić do pewnego wygładzenia wahań występujących w rozpatrywanym okresie, co z kolei może powodować autokorelację.

Konsekwencje autokorelacji są podobne do konsekwencji heteroskedastyczności: wnioski ze statystyk t i F, które określają istotność współczynnika regresji i współczynnika determinacji, prawdopodobnie będą błędne.

5. Za pomocą testu F ustalono, że otrzymane równanie regresji parowej jako całość jest nieistotne statystycznie i nie opisuje w sposób adekwatny badanego zjawiska zależności pomiędzy wysokością miesięcznej emerytury y a kosztami utrzymania x.

6. Wygenerowano ekonometryczny model wielokrotnej regresji liniowej, łączący wysokość dochodu netto firmy warunkowej y z obrotem kapitałowym x1 i wykorzystanym kapitałem x2

7. Obliczając współczynniki elastyczności pokazuje się, że przy zmianie obrotu kapitałowego o 1% wysokość dochodu netto przedsiębiorstwa zmienia się o 0,0008%, a przy zmianie wykorzystanego kapitału o 1% wysokość dochodu netto przedsiębiorstwa zmienił się o 0,56%.

8. Za pomocą testu t oceniono istotność statystyczną współczynników regresji. Stwierdzono, że zmienna objaśniająca x 1 jest nieistotna statystycznie i można ją wykluczyć z równania regresji, natomiast zmienna objaśniająca x 2 jest nieistotna statystycznie. statystycznie istotne.

9. Za pomocą testu F ustalono, że otrzymane równanie regresji parowej jako całość jest istotne statystycznie i adekwatnie opisuje badane zjawisko zależności pomiędzy wartością dochodu netto firmy warunkowej y a obrotem kapitałowym x 1 i wykorzystany kapitał x 2.

10. Obliczono średni błąd aproksymacji danych statystycznych równaniem liniowym regresja wielokrotna, co wyniosło 29,8%. Pokazano, w wyniku której obserwacja w bazie statystycznej wielkość tego błędu przekracza wartość dopuszczalną.

14. Budowa modelu regresji sparowanej bez użycia programu EXCEL.

Używanie materiał statystyczny podane w tabeli 3.5 konieczne jest:

2. Ocenić bliskość powiązania za pomocą wskaźników korelacji i determinacji.

3.Wykorzystując współczynnik sprężystości określić stopień powiązania charakterystyki czynnikowej z wypadkową.

4. Zdefiniuj średni błąd przybliżenia.

5.Ocenić wiarygodność statystyczną modelowania za pomocą testu F Fishera.

Tabela 3.5. Dane początkowe.

Udział dochodów gotówkowych przeznaczonych na zwiększenie oszczędności w lokatach, kredytach, certyfikatach oraz na zakup walut obcych w ogólnej kwocie przeciętnego dochodu gotówkowego na mieszkańca, %

Przeciętne miesięczne naliczone wynagrodzenie, j.m.

Kałużska

Kostromska

Orłowska

Ryazan

Smoleńska

Aby wyznaczyć nieznane parametry b 0 , b 1 sparowanego równania regresji liniowej, używamy standardowego układu równań normalnych, który ma postać

(3.7)

Aby rozwiązać ten układ, należy najpierw określić wartości Sx 2 i Sxy. Wartości te wyznaczane są z tabeli danych źródłowych, uzupełniając ją odpowiednimi kolumnami (tabela 3.6).

Tabela 3.6. W kierunku obliczania współczynników regresji.

Następnie układ (3.7) przyjmuje postać

Wyrażając b 0 z pierwszego równania i podstawiając otrzymane wyrażenie do drugiego równania, otrzymujemy:

Wykonując mnożenie wyraz po wyrazie i otwierając nawiasy, otrzymujemy:

Wreszcie sparowane równanie regresji liniowej łączące wartość udziału dochodów pieniężnych ludności mających na celu zwiększenie oszczędności y ze średnim miesięcznym naliczonym wynagrodzeniem x ma postać:

Zatem konstruując równanie regresji liniowej w parach, wyznaczamy współczynnik korelacji liniowej zgodnie z zależnością:

gdzie są wartościami odchyleń standardowych odpowiednich parametrów.

Aby obliczyć współczynnik korelacji liniowej z zależności (3.9), wykonujemy obliczenia pośrednie.

Podstawiając wartości znalezionych parametrów do wyrażenia (3.9) otrzymujemy

.

Uzyskana wartość współczynnika korelacji liniowej wskazuje na obecność słabej odwrotnej zależności statystycznej pomiędzy udziałem dochodów pieniężnych ludności nastawionych na zwiększenie oszczędności y a wysokością przeciętnie miesięcznych naliczonych wynagrodzeń x.

Współczynnik determinacji wynosi , co oznacza, że ​​tylko 9,6% można wyjaśnić poprzez regresję zmiennej objaśniającej x na y. Zatem wartość 1 równa 90,4% charakteryzuje udział wariancji zmiennej y spowodowanej wpływem wszystkich pozostałych zmiennych objaśniających nieuwzględnionych w modelu ekonometrycznym.

Współczynnik elastyczności wynosi

W konsekwencji, gdy przeciętne miesięczne wynagrodzenie zmienia się o 1%, udział dochodów pieniężnych ludności mających na celu zwiększenie oszczędności również maleje o 1%, a wraz ze wzrostem wynagrodzeń zmniejsza się udział dochodów pieniężnych ludności populacji dążącej do zwiększenia oszczędności. Wniosek ten jest sprzeczny ze zdrowym rozsądkiem i można go wytłumaczyć jedynie błędnością wygenerowanego modelu matematycznego.

Obliczmy średni błąd aproksymacji.

Tabela 3.7. W kierunku obliczenia średniego błędu aproksymacji.

Uzyskana wartość przekracza (12...15)%, co wskazuje na istotność średniego odchylenia obliczonych danych od danych rzeczywistych, na których zbudowano model ekonometryczny.

Wiarygodność modelowania statystycznego zostanie przeprowadzona w oparciu o test F Fishera. Teoretyczną wartość kryterium Fishera F calc wyznacza się ze stosunku wartości współczynnika i dyspersji resztkowych obliczonych dla jednego stopnia swobody według wzoru

gdzie n jest liczbą obserwacji;

m jest liczbą zmiennych objaśniających (dla rozważanego przykładu m m =1).

Wartość krytyczną Fcrit wyznacza się z tablic statystycznych i dla poziomu istotności a = 0,05 równa się 10,13. Ponieważ obliczono F

15. Budowa modelu regresji wielokrotnej bez użycia programu EXCEL.

Korzystając z materiału statystycznego podanego w tabeli 3.8 należy:

1. Zbuduj równanie liniowe regresji wielokrotnej, wyjaśnij znaczenie ekonomiczne jej parametrów.

2. Dokonać oceny porównawczej bliskości związku między czynnikami i powstałą cechą, stosując średnie (ogólne) współczynniki elastyczności.

3. Oceń znaczenie statystyczne współczynniki regresji za pomocą testu t oraz hipotezę zerową o nieistotności równania za pomocą testu F.

4. Ocenić jakość równania wyznaczając średni błąd aproksymacji.

Tabela 3.8. Dane początkowe.

Dochód netto, miliony dolarów amerykańskich

Obrót kapitałowy w milionach dolarów amerykańskich

Wykorzystany kapitał, milion dolarów amerykańskich

Do wyznaczenia nieznanych parametrów b 0 , b 1 , b 2 równania regresji liniowej wielorakiej używamy standardowego układu równań normalnych, który ma postać

(3.11)

Aby rozwiązać ten układ, należy najpierw określić wartości Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Wartości te wyznaczane są z tabeli danych źródłowych, uzupełniając ją odpowiednimi kolumnami (tabela 3.9).

Tabela 3.9. W kierunku obliczania współczynników regresji.

Następnie system (3.11) przyjmuje postać

Do rozwiązania tego układu posłużymy się metodą Gaussa, która polega na sekwencyjnym eliminowaniu niewiadomych: podziel pierwsze równanie układu przez 10, następnie wynikowe równanie pomnóż przez 370,6 i odejmij od drugiego równania układu, następnie pomnóż przez 370,6 powstałe równanie przez 158,20 i odejmij je od trzeciego równania układu. Powtarzając podany algorytm dla przekształconych drugiego i trzeciego równania układu, otrzymujemy:

Þ Þ

Þ .

Po transformacji mamy:

Wówczas ostateczna zależność dochodu netto od obrotu kapitałowego i wykorzystanego kapitału w postaci liniowego równania regresji wielokrotnej ma postać:

Z otrzymanego równania ekonometrycznego widać, że wraz ze wzrostem wykorzystanego kapitału dochód netto rośnie i odwrotnie, wraz ze wzrostem obrotu kapitałowego dochód netto maleje. Ponadto im większy współczynnik regresji, tym większy wpływ zmiennej objaśniającej na zmienną zależną. W rozpatrywanym przykładzie wartość współczynnika regresji jest większa od wartości współczynnika, dlatego też wykorzystany kapitał ma znacznie większy wpływ na dochód netto niż obrót kapitałowy. Aby określić ilościowo ten wniosek, wyznaczamy częściowe współczynniki sprężystości.

Analiza wyników pokazuje również, że większy wpływ na dochód netto ma zastosowany kapitał. Zatem w szczególności przy wzroście wykorzystanego kapitału o 1% zysk netto wzrasta o 1,17%. Jednocześnie wraz ze wzrostem obrotów kapitałowych o 1% zysk netto spada o 0,5%.

Teoretyczna wartość kryterium Fishera F oblicz.

Wartość wartości krytycznej Fcrit wyznaczana jest z tablic statystycznych i dla poziomu istotności a = 0,05 wynosi 4,74. Ponieważ F obliczone > Fkryt, hipoteza zerowa zostaje odrzucona, a powstałe równanie regresji zostaje przyjęte jako statystycznie istotne.

Ocena istotności statystycznej współczynników regresji i kryterium t sprowadza się do porównania wartości liczbowej tych współczynników z wielkością ich błędów losowych i według zależności:

Roboczy wzór na obliczenie teoretycznej wartości statystyki t to:

, (3.13)

gdzie współczynniki korelacji par i współczynnik korelacji wielokrotnej oblicza się z zależności:

Następnie teoretyczne (obliczone) wartości statystyki t są odpowiednio równe:

Ponieważ wartość krytyczna t-statystyka wyznaczona z tablic statystycznych dla poziomu istotności a=0,05 równego t crit =2,36 jest większa w wartości bezwzględnej niż = - 1,798, wówczas hipoteza zerowa nie jest odrzucana, a zmienna objaśniająca x 1 jest nieistotna statystycznie i można ją wykluczyć z równań regresji. I odwrotnie, dla drugiego współczynnika regresji > t crit (3,3 > 2,36) i zmienna objaśniająca x 2 jest istotna statystycznie.

Obliczmy średni błąd aproksymacji.

Tabela 3.10. W kierunku obliczenia średniego błędu aproksymacji.

Wtedy średni błąd aproksymacji wynosi

Uzyskana wartość nie przekracza dopuszczalnej granicy równej (12…15)%.

16. Historia rozwoju teorii pomiaru

TI rozwinęła się najpierw jako teoria pomiarów psychofizycznych. W publikacjach powojennych amerykański psycholog S.S. Stevens skupił się na skalach pomiarowych. W drugiej połowie XX wieku. Zakres zastosowania TI szybko się rozszerza. Jeden z tomów „Encyklopedii nauk psychologicznych” wydanej w USA w latach 50. nosił tytuł „Pomiary psychologiczne”. Autorzy tej publikacji rozszerzyli zakres TI z psychofizyki na psychologię w ogóle. W artykule z tego zbioru zatytułowanym „Podstawy teorii pomiaru” prezentacja odbyła się na abstrakcyjnym poziomie matematycznym, bez odniesienia do żadnego konkretnego obszaru zastosowań. Położono w nim nacisk na „homomorfizmy układów empirycznych z relacjami na numeryczne” (nie ma tu potrzeby wchodzenia w te matematyczne terminy), a matematyczna złożoność przedstawienia wzrosła w porównaniu z pracami S.S. Stevensa.

W jednym z pierwszych krajowych artykułów na temat TI (koniec lat 60.) ustalono, że punkty przyznawane przez ekspertów przy ocenie obiektów badań mierzone są z reguły w skali porządkowej. Prace, które pojawiły się na początku lat 70. XX w., doprowadziły do ​​znacznego poszerzenia zakresu stosowania TI. Znalazło zastosowanie w jakościologii pedagogicznej (mierzącej jakość wiedzy uczniów), w badaniach systemowych oraz w różnych problemach teoretycznych oceny ekspertów, do agregowania wskaźników jakości produktu, w badaniach socjologicznych itp.

Jako dwa główne problemy TI, wraz z ustaleniem rodzaju skali do pomiaru określonych danych, zaproponowano poszukiwanie algorytmów analizy danych, których wynik nie zmienia się przy żadnej dopuszczalnej transformacji skali (tj. jest niezmienniczy względem do tej transformacji). Skalami porządkowymi w geografii są wiatry w skali Beauforta („spokojny”, „lekki wiatr”, „umiarkowany wiatr” itp.), skala siły trzęsienia ziemi. Oczywiście nie można powiedzieć, że trzęsienie ziemi o sile 2 stopni (lampa kołysała się pod sufitem) jest dokładnie 5 razy słabsze niż trzęsienie ziemi o sile 10 stopni (całkowite zniszczenie wszystkiego na powierzchni ziemi).

W medycynie skale porządkowe to skala etapów nadciśnienia (według Myasnikova), skala stopnia niewydolności serca (według Strazhesko-Vasilenko-Langa), skala ciężkości niewydolności wieńcowej (według Fogelsona) itp. . Wszystkie te skale zbudowane są według następującego schematu: nie wykryto choroby; pierwszy etap choroby; drugi etap; trzeci etap... Czasami wyróżnia się etapy 1a, 16 itd. Każdy etap ma unikalne cechy medyczne. Przy opisie grup niepełnosprawności stosuje się liczby w odwrotnej kolejności: najcięższa jest pierwsza grupa niepełnosprawności, potem druga, najlżejsza trzecia.

Numery domów mierzone są także w skali porządkowej – pokazują, w jakiej kolejności domy są usytuowane wzdłuż ulicy. Numery tomów w dziełach zebranych pisarza lub numery spraw w archiwum zakładowym kojarzone są zazwyczaj z chronologicznym porządkiem ich powstania.

Przy ocenie jakości produktów i usług popularne są skale porządkowe w tzw. qualimetrii (w dosłownym tłumaczeniu – pomiar jakości). Mianowicie jednostka produkcyjna jest oceniana jako zadowalająca lub nienadająca się. Do dokładniejszej analizy stosuje się skalę z trzema stopniami: występują wady istotne – są tylko drobne wady – nie ma wad. Czasami stosuje się cztery gradacje: występują wady krytyczne (uniemożliwiające użytkowanie) - występują wady istotne - występują tylko wady drobne - nie ma wad. Klasyfikacja produktów ma podobne znaczenie - premium, pierwsza klasa, druga klasa,...

Przy ocenie oddziaływania na środowisko pierwsza, najbardziej ogólna ocena ma zazwyczaj charakter porządkowy, np.: środowisko naturalne jest stabilne – środowisko naturalne jest uciskane (zdegradowane). Skala środowiskowo-medyczna jest podobna: nie ma wyraźnego wpływu na zdrowie człowieka - odnotowuje się negatywny wpływ na zdrowie.

Skala porządkowa jest używana również w innych obszarach. W ekonometrii są to przede wszystkim różne metody ocen eksperckich.

Wszystkie skale pomiarowe dzielą się na dwie grupy - skale cech jakościowych i skale cech ilościowych. Skala porządkowa i skala nazewnictwa są głównymi skalami atrybutów jakościowych, zatem w wielu specyficznych obszarach wyniki analizy jakościowej można uznać za pomiary w tych skalach. Skale cech ilościowych są skalami przedziałowymi, ilorazowymi, różnicowymi, bezwzględnymi. Za pomocą skali interwałowej mierzy się wielkość energii potencjalnej lub współrzędną punktu na linii prostej. W takich przypadkach na skali nie można zaznaczyć ani naturalnego pochodzenia, ani naturalnej jednostki miary. Badacz musi wyznaczyć punkt wyjścia i sam wybrać jednostkę miary. Dopuszczalne przekształcenia w skali przedziałowej to przekształcenia liniowo rosnące, tj. funkcje liniowe. Skale temperatur Celsjusza i Fahrenheita są połączone dokładnie tą zależnością: °C = 5/9 (°F - 32), gdzie °C to temperatura (w stopniach) w skali Celsjusza, a °F to temperatura w stopniach Fahrenheita skala.

Spośród skal ilościowych najczęściej spotykane w nauce i praktyce są skale ilorazowe. Mają naturalny punkt odniesienia - zero, tj. brak ilości, ale brak naturalnej jednostki miary. Większość jednostek fizycznych mierzona jest na skali ilorazowej: masa ciała, długość, ładunek, a także ceny w gospodarce. Dopuszczalne przekształcenia skali ilorazowej są podobne (zmiana jedynie skali). Innymi słowy, liniowe przekształcenia rosnące bez wolnego terminu, na przykład przeliczanie cen z jednej waluty na drugą po stałym kursie. Załóżmy, że porównujemy efektywność ekonomiczną dwóch projektów inwestycyjnych, stosując ceny w rublach. Niech pierwszy projekt okaże się lepszy od drugiego. Przejdźmy teraz na chińską walutę – juana, stosując stały kurs przeliczeniowy. Oczywiście pierwszy projekt znów powinien być bardziej opłacalny niż drugi. Algorytmy obliczeniowe nie zapewniają jednak automatycznie spełnienia tego warunku i należy sprawdzić, czy jest on spełniony. Wyniki takiego testu dla wartości średnich opisano poniżej.

Skala różnic ma naturalną jednostkę miary, ale nie ma naturalnego punktu odniesienia. Czas mierzy się w skali różnic, jeżeli za naturalną jednostkę miary przyjmuje się rok (lub dzień od południa do południa), oraz w skali przedziałów w przypadek ogólny. Na obecnym poziomie wiedzy nie da się wskazać naturalnego punktu wyjścia. Różni autorzy na różne sposoby obliczają datę stworzenia świata, a także moment Narodzenia Chrystusa.

Tylko dla skali absolutnej wynikami pomiarów są liczby w zwykłym znaczeniu tego słowa, na przykład liczba osób w pomieszczeniu. W skali absolutnej dozwolona jest jedynie transformacja tożsamości.

W procesie rozwoju odpowiedniej dziedziny wiedzy rodzaj skali może się zmieniać. Tak więc początkowo temperaturę mierzono w skali porządkowej (zimniej - cieplej). Następnie - według przedziału (skale Celsjusza, Fahrenheita, Reaumur'a). Wreszcie, po odkryciu zera absolutnego, temperaturę można uznać za mierzoną w skali ilorazowej (skala Kelvina). Należy zauważyć, że czasami wśród specjalistów nie ma zgody co do tego, jakich skal należy użyć, aby uwzględnić pewne mierzone wartości rzeczywiste. Innymi słowy, proces pomiarowy obejmuje również określenie rodzaju skali (wraz z uzasadnieniem wyboru konkretnego rodzaju skali). Oprócz sześciu głównych typów skal wymienionych na liście, czasami stosuje się inne skale.

17. Algorytmy niezmiennicze i wartości średnie.

Sformułujmy główne wymaganie wobec algorytmów analizy danych w TI: wnioski wyciągane na podstawie danych zmierzonych w skali określonego typu nie powinny się zmieniać, gdy dopuszczalna jest skala pomiaru tych danych. Innymi słowy, wnioski muszą być niezmienne w przypadku prawidłowych transformacji skali.

Zatem jednym z głównych celów teorii pomiaru jest zwalczanie subiektywizmu badacza przy przypisywaniu wartości liczbowych rzeczywistym obiektom. W ten sposób odległości można mierzyć w arszinach, metrach, mikronach, milach, parsekach i innych jednostkach miary. Masa (waga) - w pudach, kilogramach, funtach itp. Ceny towarów i usług mogą być podawane w juanach, rublach, tenge, hrywienach, łatach, koronach, markach, dolarach amerykańskich i innych walutach (z zastrzeżeniem określonych kursów przeliczeniowych). Podkreślmy bardzo ważny, choć dość oczywisty fakt: wybór jednostek miary zależy od badacza, tj. subiektywny. Wnioski statystyczne mogą być adekwatne do rzeczywistości tylko wtedy, gdy nie zależą od preferowanej przez badacza jednostki miary, gdy są niezmienne względem dopuszczalnego przekształcenia skali. Spośród wielu algorytmów analizy danych ekonometrycznych tylko kilka spełnia ten warunek. Pokażmy to porównując wartości średnie.

Niech X 1, X 2,.., X n będzie próbką o objętości n. Często używa się średniej arytmetycznej. Stosowanie średniej arytmetycznej jest tak powszechne, że często pomija się drugie słowo tego terminu i mówi się o przeciętnym wynagrodzeniu, średnim dochodzie i innych średnich dla określonych danych ekonomicznych, czyli przez „średnią” rozumie się średnią arytmetyczną. Tradycja ta może prowadzić do błędnych wniosków. Pokażmy to na przykładzie obliczenia przeciętnego wynagrodzenia (przeciętnego dochodu) pracowników hipotetycznego przedsiębiorstwa. Na 100 pracowników tylko 5 ma wyższe wynagrodzenie, a pozostałych 95 jest znacznie niższe od średniej arytmetycznej. Powód jest oczywisty – pensja jednej osoby – dyrektora generalnego – przewyższa pensję 95 pracowników – pracowników nisko i wysoko wykwalifikowanych, inżynierów i pracowników biurowych. Sytuacja przypomina tę opisaną w znanej historii o szpitalu, w którym przebywa 10 pacjentów, z czego 9 ma temperaturę 40°C, a jeden już cierpiał, leżąc w kostnicy z temperaturą 0°C C. Tymczasem średnia temperatura w szpitalu wynosi 36°C – lepiej nie mogło być!

Zatem średnią arytmetyczną można stosować tylko w przypadku dość jednorodnych populacji (bez dużych wartości odstających w tym czy innym kierunku). Jakich średnich należy używać do opisu wynagrodzeń? Całkiem naturalne jest użycie mediany – średniej arytmetycznej 50. i 51. pracowników, jeśli ich pensje ułożone w kolejności nie malejącej. Najpierw są pensje 40 pracowników o niskich kwalifikacjach, a następnie – od 41. do 70. pracownika – pensje pracowników wysoko wykwalifikowanych. W konsekwencji mediana przypada konkretnie na nich i wynosi 200. Dla 50 pracowników wynagrodzenie nie przekracza 200, a dla 50 - co najmniej 200, więc mediana pokazuje „centrum”, wokół którego znajduje się większość badanych wartości ​są pogrupowane. Kolejną wartością średnią jest mod, wartość najczęściej występująca. W rozpatrywanym przypadku są to wynagrodzenia pracowników o niskich kwalifikacjach, tj. 100. Zatem do opisu wynagrodzenia mamy trzy średnie wartości - modę (100 jednostek), medianę (200 jednostek) i średnią arytmetyczną (400 jednostek).

W przypadku rozkładów dochodów i płac obserwowanych w prawdziwym życiu ten sam wzór jest prawdziwy: moda jest mniejsza niż mediana, a mediana jest mniejsza niż średnia arytmetyczna.

Dlaczego w ekonomii używa się średnich? Zwykle zastępuje zbiór liczb pojedynczą liczbą w celu porównania populacji przy użyciu średnich. Niech np. Y 1, Y 2,..., Y n będzie zbiorem ocen eksperckich „przypisanych” jednemu przedmiotowi ekspertyzy (np. jednej z opcji strategicznego rozwoju przedsiębiorstwa), Z 1 , Z 2,..., Z n -drugi (inna wersja tego opracowania). Jak te populacje wypadają w porównaniu? Oczywiście najłatwiej jest to zrobić na podstawie wartości średnich.

Jak obliczyć średnie? Znany różne typy wartości średnie: średnia arytmetyczna, mediana, moda, średnia geometryczna, średnia harmoniczna, średnia kwadratowa. Przypomnijmy Ci to ogólna koncepcja Wartość średnią wprowadził francuski matematyk z pierwszej połowy XIX wieku. Akademik O. Cauchy. Jest to następująco: wartością średnią jest dowolna funkcja Ф(Х 1, Х 2,..., Х n) taka, że ​​dla wszystkich możliwe wartości argumentów wartość tej funkcji jest nie mniejsza niż minimum liczb X 1, X 2,..., X n i nie większa niż maksimum tych liczb. Wszystkie typy średnich wymienione powyżej są średnimi Cauchy'ego.

Przy akceptowalnej transformacji skali wartość średniej ulega oczywiście zmianie. Natomiast wnioski o tym, dla której populacji średnia jest większa, a dla której mniejsza, nie powinny się zmieniać (zgodnie z wymogiem niezmienności wniosków, przyjętym jako główny wymóg w TI). Sformułujmy odpowiedni problem matematyczny poszukiwania rodzaju wartości średnich, których wynik porównania jest stabilny ze względu na dopuszczalne przekształcenia skali.

Niech Ф(Х 1 Х 2 ,..., Х n) będzie średnią Cauchy'ego. Niech średnia dla pierwszej populacji będzie mniejsza od średniej dla drugiej populacji: wówczas według TI dla stabilności wyniku porównywania średnich konieczne jest, aby dla dowolnej dopuszczalnej transformacji g z grupy dopuszczalnych transformacji w odpowiedniej skali prawdą jest, że średnia wartości przekształconych z pierwszej populacji jest również mniejsza niż średnia wartości przekształconych dla drugiego zbioru. Ponadto sformułowany warunek musi być prawdziwy dla dowolnych dwóch zbiorów Y 1, Y 2,..., Y n i Z 1, Z 2,..., Z n oraz, przypomnijmy, dowolnej dopuszczalnej transformacji. Wartości średnie, które spełniają sformułowany warunek, nazywamy dopuszczalnymi (w odpowiedniej skali). Zdaniem TI, przy analizie opinii ekspertów i innych danych mierzonych w rozpatrywanej skali można się posługiwać jedynie takimi średnimi.

Używając teoria matematyczna opracowanej w latach 70. XX w. udaje się opisać rodzaj akceptowalnych średnich w podstawowych skalach. Oczywiste jest, że w przypadku danych mierzonych w skali nazw tylko tryb jest odpowiedni jako średnia.

18. Wartości średnie w skali porządkowej

Rozważmy przetwarzanie opinii biegłych mierzonych w skali porządkowej. Poniższe stwierdzenie jest prawdziwe.

Twierdzenie1 . Ze wszystkich średnich Cauchy'ego jedynymi akceptowalnymi średnimi w skali porządkowej są wyrazy seria odmian(statystyka porządkowa).

Twierdzenie 1 jest ważne pod warunkiem, że średnia Ф(Х 1 Х 2 ,..., Х n) jest funkcją ciągłą (po zbiorze zmiennych) i symetryczną. To drugie oznacza, że ​​przy zmianie kolejności argumentów wartość funkcji Ф(Х 1 Х 2 ,..., Х n) nie ulega zmianie. Warunek ten jest całkiem naturalny, ponieważ średnią wartość znajdujemy dla całości (zbioru), a nie dla ciągu. Zbiór nie zmienia się w zależności od kolejności, w jakiej wymienimy jego elementy.

W szczególności zgodnie z Twierdzeniem 1 medianę można wykorzystać jako średnią dla danych mierzonych na skali porządkowej (jeśli wielkość próby jest nieparzysta). Jeżeli objętość jest parzysta, należy zastosować jeden z dwóch środkowych elementów szeregu wariacyjnego – jak się je czasami nazywa, lewą lub prawą medianę. Moda może być również wykorzystana - zawsze należy do serii wariacji. Ale nigdy nie można obliczyć średniej arytmetycznej, średniej geometrycznej itp.

Poniższe twierdzenie jest prawdziwe.

Twierdzenie 2. Niech Y 1, Y 2,..., Y m będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie z funkcją rozkładu F(x), a Z 1, Z 2,..., Zn niezależnymi zmiennymi losowymi o jednakowym rozkładzie z rozkładami funkcji H(x), a próbki Y 1, Y 2,..., Y m oraz Z 1, Z 2,..., Z n są od siebie niezależne i MY X > MZ X. Aby prawdopodobieństwo zdarzenia dążyło do 1 przy min(m, n) dla dowolnej ściśle rosnącej funkcji ciągłej g spełniającej warunek |g i |>X konieczne i wystarczające jest, aby nierówność F(x) była spełniona dla wszystkich X< Н(х), причем существовало число х 0 , для которого F(x 0)

Notatka. Warunek z górną granicą ma charakter czysto matematyczny. W rzeczywistości funkcja g jest dowolną dopuszczalną transformacją na skali porządkowej.

Zgodnie z Twierdzeniem 2, średnią arytmetyczną można zastosować także w skali porządkowej, jeśli porównamy próbki z dwóch rozkładów, które spełniają nierówność podaną w twierdzeniu. Mówiąc najprościej, jedna z funkcji dystrybucji musi zawsze leżeć nad drugą. Funkcje rozkładu nie mogą się przecinać, mogą się jedynie stykać. Warunek ten jest spełniony np. jeżeli funkcje rozkładu różnią się jedynie przesunięciem:

F(x) = Н(x + ∆)

dla pewnego ∆.

Ostatni warunek jest spełniony, jeżeli za pomocą tego samego przyrządu pomiarowego mierzone są dwie wartości pewnej wielkości, w którym rozkład błędów nie zmienia się przy przejściu od pomiaru jednej wartości danej wielkości do pomiaru drugiej.

Średnia według Kołmogorowa

Uogólnieniem kilku średnich wymienionych powyżej jest średnia Kołmogorowa. Dla liczb X 1, X 2,..., X n średnią Kołmogorowa oblicza się za pomocą wzoru

G((F(X l) + F(X 2)+...F(X n))/n),

gdzie F jest funkcją ściśle monotoniczną (tj. ściśle rosnącą lub ściśle malejącą),

G jest funkcją odwrotną F.

Wśród średnich Kołmogorowa jest wiele znanych postaci. Zatem jeśli F(x) = x, to średnia Kołmogorowa jest średnią arytmetyczną, jeśli F(x) = lnx, to średnia geometryczna, jeśli F(x) = 1/x, to średnia harmoniczna, jeśli F( x) = x 2, następnie średni kwadrat itd. Średnia Kołmogorowa jest szczególnym przypadkiem średniej Cauchy’ego. Z drugiej strony tak popularnych średnich, jak mediana i moda, nie można przedstawić jako średnich Kołmogorowa. W monografii udowodniono następujące twierdzenia.

Twierdzenie3 . Jeżeli obowiązują pewne wewnątrzmatematyczne warunki regularności na skali przedziałowej, ze wszystkich średnich Kołmogorowa dopuszczalna jest tylko średnia arytmetyczna. Zatem średnia geometryczna lub średni kwadrat temperatur (w stopniach Celsjusza) lub odległości są bez znaczenia. Jako średnią należy przyjąć średnią arytmetyczną. Można także użyć mediany lub trybu.

Twierdzenie 4. Jeżeli obowiązują pewne wewnątrzmatematyczne warunki regularności skali stosunków, ze wszystkich średnich Kołmogorowa dopuszczalne są jedynie średnie mocy z F(x) = x c oraz średnia geometryczna.

Komentarz. Średnia geometryczna jest granicą średnich mocy dla c > 0.

Czy istnieją średnie Kołmogorowa, których nie można zastosować w skali ilorazowej? Oczywiście, że istnieje. Na przykład F(x) = mi x.

Podobnie jak w przypadku wartości średnich, można badać inne cechy statystyczne - wskaźniki rozproszenia, połączenia, odległości itp. Nietrudno wykazać np., że współczynnik korelacji nie zmienia się przy żadnej dopuszczalnej transformacji w misce przedziałów, podobnie jak stosunek rozproszeń, rozproszenie nie zmienia się w skali różnic, współczynnik zmienności w skala wskaźników itp.

Powyższe wyniki wartości średnich znajdują szerokie zastosowanie nie tylko w ekonomii, zarządzaniu, teorii ocen eksperckich czy socjologii, ale także w inżynierii, na przykład do analizy metod agregacji czujników w zautomatyzowanych systemach sterowania procesami wielkich pieców. TI ma duże znaczenie praktyczne w problematyce normalizacji i zarządzania jakością, w szczególności w jakościometrii, gdzie uzyskano ciekawe wyniki teoretyczne. Na przykład jakakolwiek zmiana współczynników wagowych poszczególnych wskaźników jakości produktu prowadzi do zmiany kolejności produktów według wskaźnika średniej ważonej (twierdzenie to udowodnił prof. V.V. Podinovsky). W konsekwencji powyższe krótkie informacje o TI i jej metodach łączą w pewnym sensie ekonomię, socjologię i nauki inżynieryjne i stanowią adekwatny aparat do rozwiązywania złożonych problemów, które wcześniej nie podlegały skutecznej analizie, a ponadto otwiera się droga do budowy realistycznych modeli i rozwiązania problemu prognostycznego.

22. Sparowana regresja liniowa

Przejdźmy teraz do bardziej szczegółowego badania najprostszego przypadku regresji liniowej parami. Regresja liniowa opisana jest najprostszą zależnością funkcyjną w postaci równania liniowego i charakteryzuje się przejrzystą interpretacją parametrów modelu (współczynników równania). Prawa strona równania pozwala nam otrzymać teoretyczne (obliczone) wartości wynikowej (objaśnionej) zmiennej w oparciu o podane wartości regresora (zmiennej objaśniającej). Wartości te czasami nazywane są także przewidywanymi (w tym samym sensie), tj. otrzymane ze wzorów teoretycznych. Jednak stawiając hipotezę o naturze zależności, współczynniki równania nadal pozostają nieznane. Generalnie uzyskanie przybliżonych wartości tych współczynników możliwe jest różnymi metodami.

Ale najważniejszą i najbardziej rozpowszechnioną z nich jest metoda najmniejszych kwadratów(MNC). Opiera się (jak już wyjaśniono) na wymogu minimalizacji sumy kwadratów odchyleń rzeczywistych wartości wynikowej charakterystyki od obliczonych (teoretycznych). Zamiast wartości teoretycznych (aby je otrzymać) podstawiamy prawe strony równania regresji na sumę kwadratów odchyleń, a następnie znajdujemy pochodne cząstkowe tej funkcji (suma kwadratów odchyleń wartości rzeczywistych uzyskanej charakterystyki od charakterystyki teoretycznej). Te pochodne cząstkowe nie są brane w odniesieniu do zmiennych x i y, ale w odniesieniu do parametrów a i b. Pochodne cząstkowe ustawia się na zero i po prostych, ale uciążliwych przekształceniach otrzymuje się układ równań normalnych do wyznaczania parametrów. Współczynnik dla zmiennej x, tj. b nazywa się współczynnikiem regresji, pokazuje średnią zmianę wyniku przy zmianie współczynnika o jedną jednostkę. Parametr a może nie mieć interpretacji ekonomicznej, szczególnie jeśli znak tego współczynnika jest ujemny.

Do badania funkcji konsumpcji stosuje się regresję liniową parami. Do obliczenia mnożnika wykorzystuje się współczynnik regresji w funkcji zużycia. Prawie zawsze równanie regresji jest uzupełniane wskaźnikiem bliskości połączenia. W najprostszym przypadku regresji liniowej tym wskaźnikiem bliskości połączenia jest współczynnik liniowy korelacje. Ponieważ jednak współczynnik korelacji liniowej charakteryzuje bliskość związku między cechami w postaci liniowej, bliskość wartości bezwzględnej współczynnika korelacji liniowej do zera nie służy jeszcze jako wskaźnik braku związku między cechami.

To przy innym wyborze specyfikacji modelu, a co za tym idzie rodzaju zależności, rzeczywista zależność może okazać się całkiem bliska jedności. Ale jakość wyboru funkcja liniowa wyznaczany za pomocą kwadratu współczynnika korelacji liniowej – współczynnika determinacji. Charakteryzuje proporcję wariancji efektywnej cechy y wyjaśnionej regresją w całkowitej wariancji efektywnej cechy. Wartość dopełniająca współczynnik determinacji do 1 charakteryzuje udział wariancji spowodowanej wpływem innych czynników nieuwzględnionych w modelu (wariancja resztowa).

Regresję sparowaną reprezentuje równanie odnoszące się do dwóch zmiennych y i x w następującej postaci:

gdzie y jest zmienną zależną (atrybutem wynikowym), a x jest zmienną niezależną (zmienną objaśniającą lub współczynnikiem atrybutu). Wyróżnia się regresję liniową i regresję nieliniową. Regresję liniową opisuje równanie postaci:

y = a+ bx + .

Regresja nieliniowa z kolei może być nieliniowa w odniesieniu do zmiennych objaśniających uwzględnionych w analizie, ale liniowa w odniesieniu do estymowanych parametrów. A może regresja jest nieliniowa pod względem szacowanych parametrów. Przykładami regresji nieliniowej w zmiennych objaśniających, ale liniowej w estymowanych parametrach są zależności wielomianowe różnego stopnia (wielomiany) oraz hiperbola równoboczna.

Regresja nieliniowa dla estymowanych parametrów to zależność potęgowa względem parametru (parametr jest w wykładniku), zależność wykładnicza, gdy parametr znajduje się u podstawy wykładnika, oraz zależność wykładnicza, gdy cała zależność liniowa jest całkowicie w wykładniku. Należy zauważyć, że we wszystkich tych trzech przypadkach składnik losowy (reszta losowa)  jest uwzględniony prawa strona równania w postaci czynnika, a nie sumy, tj. multiplikatywnie! Średnie odchylenie obliczonych wartości wynikowej charakterystyki od rzeczywistych charakteryzuje się średnim błędem aproksymacji. Wyraża się go w procentach i nie powinien przekraczać 7-8%. Ten średni błąd przybliżenia jest po prostu średnią względnych wielkości różnic między wartościami rzeczywistymi i obliczonymi, wyrażoną w procentach.

Istotny jest średni współczynnik elastyczności, który jest ważną cechą wielu zjawisk i procesów gospodarczych. Oblicza się go jako iloczyn wartości pochodnej danej zależności funkcjonalnej i stosunku średniej wartości x do średniej wartości y. Współczynnik elastyczności pokazuje, o jaki procent średnio wynik y zmieni się w stosunku do swojej wartości średniej, gdy współczynnik x zmieni się o 1% w stosunku do swojej średniej wartości (współczynnik x).

Zagadnienia analizy wariancji są ściśle powiązane z regresją parami i regresją wielokrotną (gdy występuje wiele czynników) oraz wariancją resztową. Analiza wariancji bada wariancję zmiennej zależnej. W tym przypadku całkowitą sumę kwadratów odchyleń dzieli się na dwie części. Pierwszy człon to suma kwadratów odchyleń spowodowanych regresją lub wyjaśnionych (silnia). Drugi człon to suma rezydualna kwadratów odchyleń niewyjaśnionych regresją czynnikową.

Udział wariancji wyjaśnionej regresją w całkowitej wariancji wynikowej cechy y charakteryzuje się współczynnikiem (indeksem) determinacji, który jest niczym innym jak stosunkiem sumy kwadratów odchyleń wynikających z regresji do całkowitej sumy kwadratów odchyleń (pierwszy człon całej sumy).

Wyznaczanie parametrów modelu (współczynników niewiadomych) metodą najmniejszych kwadratów oznacza, że ​​w zasadzie (w procesie uzyskiwania szacunków) znajdują się pewne zmienne losowe. Szczególnie ważne jest oszacowanie współczynnika regresji, który jest specjalną formą zmiennej losowej. Właściwości tej zmiennej losowej zależą od właściwości składnika resztowego w równaniu (w modelu). W przypadku modelu regresji liniowej w parach należy rozważyć zmienną objaśniającą x jako nielosową zmienną egzogeniczną. Oznacza to po prostu, że wartości zmiennej x we ​​wszystkich obserwacjach można uznać za z góry określone i w żaden sposób powiązane z badaną zależnością. Zatem rzeczywista wartość zmiennej objaśnianej składa się z dwóch składników: składnika nielosowego i składnika losowego (resztowego).

Natomiast współczynnik regresji wyznaczony metodą najmniejszych kwadratów (OLS) jest równy ilorazowi dzielenia kowariancji zmiennych x i y przez wariancję zmiennej x. Dlatego zawiera również składnik losowy. Przecież kowariancja zależy od wartości zmiennej y, gdzie wartości zmiennej y zależą od wartości losowego składnika resztkowego . Ponadto łatwo jest wykazać, że kowariancja zmiennych x i y jest równa iloczynowi oszacowanego współczynnika regresji beta () i wariancji zmiennej x dodanej do kowariancji zmiennych x i . Zatem oszacowanie współczynnika regresji beta jest równe samemu nieznanemu współczynnikowi regresji, dodanemu do ilorazu dzielenia kowariancji zmiennych x i  przez wariancję zmiennej x. Te. estymację współczynnika regresji b uzyskaną z dowolnej próby przedstawia się jako sumę dwóch składników: wartości stałej równej prawdziwej wartości współczynnika  (beta) oraz składnika losowego zależnego od kowariancji zmiennych x i  .

23. Matematyczne warunki Gaussa-Markowa i ich zastosowanie.

Aby analiza regresji oparta na zwykłym OLS dała najlepsze wyniki, składnik losowy musi spełniać cztery warunki Gaussa-Markowa.

Oczekiwanie matematyczne terminu losowego jest równe zeru, tj. to jest bezstronne. Jeżeli równanie regresji zawiera człon stały, wówczas naturalne jest uznanie tego wymogu za spełniony, ponieważ jest to człon stały i musi uwzględniać każdy systematyczny trend wartości zmiennej y, który wręcz przeciwnie , nie powinny być zawarte w zmiennych objaśniających równania regresji.

Wariancja składnika losowego jest stała dla wszystkich obserwacji.

Kowariancja wartości zmienne losowe, tworząca próbkę musi być równa zeru, tj. nie ma systematycznego związku między wartościami składnika losowego w dowolnych dwóch konkretnych obserwacjach. Losowi członkowie muszą być od siebie niezależni.

Prawo dystrybucji składnika losowego musi być niezależne od zmiennych objaśniających.

Ponadto w wielu zastosowaniach zmienne objaśniające nie mają charakteru stochastycznego, tj. nie mają elementu losowego. Wartość dowolnej zmiennej niezależnej w każdej obserwacji należy uznać za egzogeniczną, zdeterminowaną całkowicie przyczynami zewnętrznymi, nieuwzględnionymi w równaniu regresji.

Wraz z określonymi warunkami Gaussa-Markowa zakłada się również, że składnik losowy ma rozkład normalny. Jest ono ważne w bardzo szerokich warunkach i opiera się na tzw. centralnym twierdzeniu granicznym (CLT). Istota tego twierdzenia polega na tym, że jeśli zmienna losowa jest ogólnym wynikiem oddziaływania dużej liczby innych zmiennych losowych, z których żadna nie ma dominującego wpływu na zachowanie tego ogólnego wyniku, to otrzymana zmienna losowa zostanie opisana według rozkładu w przybliżeniu normalnego. Ta bliskość rozkład normalny pozwala na użycie rozkładu normalnego do uzyskania szacunków i jest w pewnym sensie jego uogólnieniem jest rozkład Studenta, który zauważalnie różni się od normalnego głównie tzw. „ogonami”, tj. dla małych próbek. Ważne jest również, że jeśli składnik losowy ma rozkład normalny, to współczynniki regresji również będą miały rozkład normalny.

Ustalona krzywa regresji (równanie regresji) pozwala rozwiązać problem tzw. prognozy punktowej. W obliczeniach takich przyjmuje się pewną wartość x spoza badanego przedziału obserwacji i podstawia się ją w prawą stronę równania regresji (procedura ekstrapolacji). Ponieważ Znane są już szacunki współczynników regresji, wówczas można obliczyć wartość zmiennej objaśnianej y odpowiadającą przyjętej wartości x. Naturalnie, zgodnie ze znaczeniem przewidywania (prognozy), obliczenia prowadzone są w przód (w obszar przyszłych wartości).

Ponieważ jednak współczynniki zostały określone z pewnym błędem, nie jest to interesujące ocena punktowa(prognoza punktowa) dla charakterystyki efektywnej oraz znajomość granic, w których z pewnym prawdopodobieństwem będą znajdować się wartości charakterystyki efektywnej, odpowiadające przyjętej wartości współczynnika x.

W tym celu obliczany jest błąd standardowy (odchylenie standardowe). Można go uzyskać w duchu tego, co właśnie zostało powiedziane w następujący sposób. Wyrażenie wolnego terminu a z szacunków poprzez wartości średnie jest podstawiane do równania regresji liniowej. Następnie okazuje się, że błąd standardowy zależy od błędu średniego efektywnego współczynnika y i addytywnie od błędu współczynnika regresji b. Po prostu kwadrat tego błędu standardowego równa sumie kwadratowy błąd średniej wartości y i iloczyn kwadratowego błędu współczynnika regresji przez kwadratowe odchylenie wartości współczynnika x i jego średniej. Ponadto pierwszy termin, zgodnie z prawami statystyki, jest równy ilorazowi podzielenia wariancji populacji ogólnej przez wielkość (objętość) próby.

Zamiast nieznanej wariancji jako oszacowanie wykorzystuje się wariancję z próbki. Odpowiednio błąd współczynnika regresji definiuje się jako iloraz podzielenia wariancji próbki przez wariancję współczynnika x. Można uzyskać błąd standardowy (odchylenie standardowe) i inne rozważania, które są bardziej niezależne od modelu regresji liniowej. W tym celu wykorzystuje się pojęcie błędu średniego i błędu krańcowego oraz relację między nimi.

Ale nawet po uzyskaniu błędu standardowego pozostaje pytanie, w jakich granicach będzie się znajdować przewidywana wartość. Innymi słowy, o przedziale błędu pomiaru, przy naturalnym założeniu w wielu przypadkach, że środek tego przedziału podaje wyliczona (średnia) wartość efektywnego współczynnika y. Tutaj z pomocą przychodzi centralne twierdzenie graniczne, które precyzyjnie wskazuje, z jakim prawdopodobieństwem nieznana wielkość mieści się w tym przedziale ufności.

Zasadniczo wzór na błąd standardowy, niezależnie od tego, w jaki sposób i w jakiej formie został uzyskany, charakteryzuje błąd w położeniu prostej regresji. Błąd standardowy osiąga minimum, gdy wartość współczynnika x pokrywa się ze średnią wartością współczynnika.

24. Statystyczne weryfikacja hipotez i ocena istotności regresji liniowej z wykorzystaniem kryterium Fishera.

Po znalezieniu równania regresji liniowej ocenia się znaczenie zarówno równania jako całości, jak i jego poszczególnych parametrów. Oceny znaczenia równania regresji jako całości można dokonać przy użyciu różnych kryteriów. Dość powszechne i skuteczne jest stosowanie testu F Fishera. W tym przypadku stawia się hipotezę zerową, że współczynnik regresji jest równy zeru, tj. b=0, zatem współczynnik x nie ma wpływu na wynik y. Natychmiastowe obliczenie testu F poprzedzone jest analizą wariancji. Centralne miejsce zajmuje w nim rozkład całkowitej sumy kwadratów odchyleń zmiennej y od wartości średniej y na dwie części – „wyjaśnioną” i „niewyjaśnioną”:

Całkowita suma kwadratów odchyleń poszczególnych wartości wynikowej charakterystyki y od wartości średniej y jest spowodowana wpływem wielu czynników.

Podzielmy warunkowo cały zbiór przyczyn na dwie grupy: badany czynnik x i inne czynniki. Jeżeli czynnik nie ma wpływu na wynik, to linia regresji na wykresie jest równoległa do osi OX i y=y. Wtedy cała wariancja wynikowej charakterystyki wynika z wpływu innych czynników, a całkowita suma kwadratów odchyleń będzie pokrywać się z resztą. Jeśli inne czynniki nie wpływają na wynik, wówczas y jest funkcjonalnie powiązane z x, a suma kwadratów reszt wynosi zero. W tym przypadku suma kwadratów odchyleń wyjaśnionych regresją pokrywa się z całkowita kwota kwadraty. Ponieważ nie wszystkie punkty pola korelacji leżą na linii regresji, ich rozproszenie zawsze następuje pod wpływem czynnika x, tj. regresja y na x i spowodowana innymi przyczynami (niewyjaśniona zmienność). Przydatność linii regresji do przewidywania zależy od tego, jaka część całkowitej zmienności cechy y jest wyjaśniona.

Oczywiście, jeśli suma kwadratów odchyleń wynikających z regresji jest większa niż suma kwadratów reszt, to równanie regresji jest istotne statystycznie, a współczynnik x ma istotny wpływ na wynik. Jest to równoznaczne z faktem, że współczynnik determinacji będzie zbliżał się do jedności. Dowolna suma kwadratów odchyleń jest powiązana z liczbą stopni swobody, tj. liczba swobody niezależnych zmian cechy. Liczba stopni swobody jest powiązana z liczbą jednostek populacji lub z liczbą wyznaczonych z niej stałych. W odniesieniu do badanego problemu liczba stopni swobody powinna wskazywać, ile niezależnych odchyleń z n możliwych [(y 1 -y), (y 2 -y),...(y n -y)] potrzeba aby utworzyć daną sumę kwadratów. Zatem dla całkowitej sumy kwadratów ∑(y-y sr) 2, (n-1) wymagane są niezależne odchylenia, ponieważ w populacji n jednostek, po obliczeniu poziomu średniego, swobodnie zmienia się tylko (n-1) liczba odchyleń. Przy obliczaniu wyjaśnionej lub współczynnikowej sumy kwadratów ∑(y-y avg) 2 wykorzystuje się teoretyczne (obliczone) wartości wynikowej cechy y*, znalezione wzdłuż linii regresji: y(x)=a+bx.

Wróćmy teraz do rozwinięcia całkowitej sumy kwadratów odchyleń współczynnika efektywnego od średniej tej wartości. Suma ta składa się z dwóch części zdefiniowanych powyżej: sumy kwadratów odchyleń wyjaśnionych metodą regresji oraz drugiej sumy zwanej sumą rezydualną kwadratów odchyleń. Z tą dekompozycją wiąże się analiza wariancji, która bezpośrednio odpowiada na zasadnicze pytanie: jak ocenić znaczenie równania regresji jako całości i poszczególnych jego parametrów? To także w dużej mierze determinuje znaczenie tego pytania. Aby ocenić znaczenie równania regresji jako całości, stosuje się kryterium Fishera (test F). Zgodnie z podejściem zaproponowanym przez Fishera stawia się hipotezę zerową: współczynnik regresji jest równy zeru, tj. wartośćb=0. Oznacza to, że czynnik X nie ma wpływu na wynik Y.

Pamiętajmy, że prawie zawsze punkty uzyskane w wyniku badania statystycznego nie leżą dokładnie na linii regresji. Są rozproszone, mniej więcej oddalone od linii regresji. Rozproszenie takie wynika z wpływu innych czynników, innych niż czynnik objaśniający X, które nie są brane pod uwagę w równaniu regresji. Przy obliczaniu wyjaśnionej lub sumy współczynników kwadratów odchyleń stosuje się teoretyczne wartości wynikowej cechy znalezione na podstawie linii regresji.

Dla danego zbioru wartości zmiennych Y i X obliczona wartość średniej wartości Y jest w regresji liniowej funkcją tylko jednego parametru – współczynnika regresji. Zgodnie z tym suma kwadratów odchyleń ma liczbę stopni swobody równą 1. Natomiast liczba stopni swobody sumy resztowej kwadratów odchyleń w regresji liniowej wynosi n-2.

W rezultacie, dzieląc każdą sumę kwadratów odchyleń w pierwotnym rozwinięciu przez liczbę stopni swobody, otrzymujemy średnie kwadraty odchyleń (wariancja na jeden stopień swobody). Następnie dzieląc wariancję czynnikową przez jeden stopień swobody przez wariancję resztową przez jeden stopień swobody, otrzymujemy kryterium testowania hipotezy zerowej, tzw. współczynnik F, lub kryterium o tej samej nazwie. Mianowicie, jeśli hipoteza zerowa jest prawdziwa, wariancje czynnikowe i resztowe są po prostu sobie równe.

Odrzucić hipotezę zerową, tj. przyjmując hipotezę przeciwną, która wyraża fakt istotności (obecności) badanej zależności, a nie tylko przypadkową zbieżność czynników symulujących zależność, która w rzeczywistości nie istnieje, konieczne jest skorzystanie z tablic wartości krytycznych określony związek. Korzystając z tablic, wyznacza się wartość krytyczną (progową) kryterium Fishera. Nazywa się to również teoretycznym. Następnie sprawdzają, porównując go z odpowiednią wartością empiryczną (rzeczywistą) kryterium obliczoną z danych obserwacyjnych, czy rzeczywista wartość wskaźnika nie przekracza wartości krytycznej z tablic.

Odbywa się to bardziej szczegółowo w ten sposób. Wybierz dany poziom prawdopodobieństwa istnienia hipotezy zerowej i znajdź z tabel wartość krytyczną kryterium F, przy której może jeszcze wystąpić losowa rozbieżność wariancji o 1 stopień swobody, tj. maksymalna taka wartość. Następnie obliczoną wartość współczynnika F uważa się za wiarygodną (tj. wyrażającą różnicę między wariancją rzeczywistą i rezydualną), jeśli stosunek ten jest większy niż w tabeli. Odrzuca się wówczas hipotezę zerową (nie jest prawdą, że nie ma śladów związku) i wręcz przeciwnie, dochodzimy do wniosku, że związek istnieje i jest znaczący (jest nieprzypadkowy, znaczący).

Jeżeli wartość zależności okaże się mniejsza od tabelarycznej, to prawdopodobieństwo hipotezy zerowej okaże się wyższe od określonego poziomu (który został pierwotnie wybrany) i hipotezy zerowej nie można odrzucić bez zauważalnego niebezpieczeństwa uzyskanie błędnego wniosku o istnieniu związku. W związku z tym równanie regresji uważa się za nieistotne.

Wartość samego kryterium F jest powiązana ze współczynnikiem determinacji. Oprócz oceny znaczenia równania regresji jako całości ocenia się także znaczenie poszczególnych parametrów równania regresji. W tym przypadku błąd standardowy współczynnika regresji wyznacza się za pomocą empirycznego rzeczywistego odchylenia standardowego i empirycznego rozproszenia na stopień swobody. Rozkład Studenta jest następnie używany do testowania istotności współczynnika regresji w celu obliczenia jego przedziałów ufności.

Ocena istotności współczynników regresji i korelacji za pomocą testu t-Studenta odbywa się poprzez porównanie wartości tych wielkości z błędem standardowym. Wielkość błędu parametrów regresji liniowej i współczynnika korelacji określa się za pomocą następujących wzorów:

gdzie S jest pierwiastkiem średniokwadratowym odchylenia próbki resztkowej,

r xy – współczynnik korelacji.

Odpowiednio wartość błędu standardowego przewidywanego przez linię regresji wyraża się wzorem:

Odpowiednie stosunki wartości współczynników regresji i korelacji do ich błędu standardowego tworzą tzw. statystykę t, a porównanie odpowiedniej wartości tabelarycznej (krytycznej) z jej rzeczywistą wartością pozwala przyjąć lub odrzucić wartość zerową hipoteza. Następnie jednak, aby obliczyć przedział ufności, maksymalny błąd dla każdego wskaźnika wyznacza się jako iloczyn tabeli wartości statystyki t i średniego błędu losowego odpowiedniego wskaźnika. Właściwie napisaliśmy to trochę inaczej tuż powyżej. Następnie wyznaczane są granice przedziałów ufności: dolna granica polega na odjęciu odpowiedniego błędu krańcowego od odpowiednich współczynników (właściwie średniej), a górna granica polega na dodaniu (dodaniu).

W regresji liniowej ∑(y x -y śr.) 2 =b 2 ∑(x-x śr.) 2. Łatwo to sprawdzić, odwołując się do wzoru na współczynnik korelacji liniowej: r 2 xy = b 2 *σ 2 x /σ 2 y

gdzie σ 2 y jest całkowitą wariancją cechy y;

σ 2 x - rozproszenie charakterystyki y ze względu na współczynnik x. Odpowiednio suma kwadratów odchyleń spowodowanych regresją liniową będzie wynosić:

∑(y x -y śr.) 2 =b 2 ∑(x-x śr.) 2 .

Ponieważ dla danej objętości obserwacji w x i y suma kwadratów w regresji liniowej zależy tylko od jednej stałej współczynnika regresji b, to ta suma kwadratów ma jeden stopień swobody. Rozważmy stronę treściową obliczonej wartości atrybutu y, tj. y x. Wartość y x wyznacza się równaniem regresji liniowej: y x ​​= a + bx.

Parametr a można zdefiniować jako a=y-bx. Podstawiając wyrażenie na parametr a do modelu liniowego otrzymujemy: y x ​​=y-bx+bx avg =y-b(x-x avg).

Dla danego zbioru zmiennych y i x obliczona wartość y x jest w regresji liniowej funkcją tylko jednego parametru – współczynnika regresji. W związku z tym suma współczynników kwadratów odchyleń ma liczbę stopni swobody równą 1.

Istnieje równość między liczbą stopni swobody sumy całkowitej, współczynnikowej i resztowej kwadratów. Liczba stopni swobody resztowej sumy kwadratów w regresji liniowej wynosi (n-2). O liczbie stopni swobody całkowitej sumy kwadratów decyduje liczba jedności, a ponieważ korzystamy ze średniej obliczonej z danych próbnych, tracimy jeden stopień swobody, tj. (n-1). Mamy więc dwie równości: dla sum i dla liczby stopni swobody. A to z kolei prowadzi nas z powrotem do porównywalnych wariancji na stopień swobody, których stosunek daje kryterium Fishera.

25. Ocena istotności poszczególnych parametrów równania regresji i współczynników za pomocą testu Studenta.

27. Regresja liniowa i nieliniowa oraz metody ich badania.

Regresja liniowa oraz metody jej badania i oceny nie byłyby tak istotne, gdybyśmy oprócz tego bardzo ważnego, choć wciąż najprostszego przypadku, nie uzyskali za ich pomocą narzędzia do analizy bardziej złożonych zależności nieliniowych. Regresje nieliniowe można podzielić na dwie znacząco różne klasy. Pierwsza i prostsza to klasa zależności nieliniowych, w których występuje nieliniowość względem zmiennych objaśniających, ale które pozostają liniowe w zawartych w nich parametrach i podlegają ocenie. Obejmuje to wielomiany różne stopnie i hiperbola równoboczna.

Taką regresję nieliniową dla zmiennych objętych objaśnieniem poprzez proste przekształcenie (zastąpienie) zmiennych można łatwo sprowadzić do zwykłej regresji liniowej dla nowych zmiennych. Dlatego estymację parametrów w tym przypadku przeprowadza się po prostu metodą najmniejszych kwadratów, ponieważ zależności w parametrach są liniowe. Zatem ważną rolę w ekonomii odgrywa nieliniowa zależność opisana hiperbolą równoboczną:

Jego parametry są dobrze szacowane metodą najmniejszych kwadratów, a sama zależność charakteryzuje związek kosztów jednostkowych surowców, paliw, materiałów z wielkością produkcji, czasem obrotu towarów i wszystkich tych czynników z wielkością obrotu obrót. Na przykład krzywa Phillipsa charakteryzuje nieliniową zależność między stopą bezrobocia a procentem wzrostu płac.

Zupełnie inaczej wygląda sytuacja w przypadku regresji, która jest nieliniowa w szacowanych parametrach, np. reprezentowana przez funkcję potęgową, w której sam stopień (jego wykładnik) jest parametrem lub zależy od parametru. Może to być również funkcja wykładnicza, w której podstawą stopnia jest parametr, oraz funkcja wykładnicza, w której ponownie wskaźnik zawiera parametr lub kombinację parametrów. Klasa ta z kolei dzieli się na dwie podklasy: jedna obejmuje zewnętrznie nieliniowe, ale zasadniczo wewnętrznie liniowe. W takim przypadku można doprowadzić model do postaci liniowej za pomocą przekształceń. Jeśli jednak model jest wewnętrznie nieliniowy, to nie można go sprowadzić do funkcji liniowej.

Zatem tylko modele, które w analizie regresji są z natury nieliniowe, są uważane za prawdziwie nieliniowe. Wszystkie inne, które poprzez przekształcenia można sprowadzić do liniowości, nie są za takie rozpatrywane i to właśnie one są najczęściej uwzględniane w badaniach ekonometrycznych. Nie oznacza to jednak, że w ekonometrii nie można badać zależności zasadniczo nieliniowych. Jeżeli model jest wewnętrznie nieliniowy w swoich parametrach, wówczas do estymacji parametrów stosuje się procedury iteracyjne, których powodzenie zależy od rodzaju równania na cechy użytej metody iteracyjnej.

Wróćmy do zależności zredukowanych do liniowych. Jeżeli są one nieliniowe zarówno w parametrach, jak i w zmiennych, np. postaci y = a pomnożonej przez potęgę X, której wykładnikiem jest parametr –  (beta):

Oczywiście taką zależność można łatwo przekształcić w równanie liniowe za pomocą prostego logarytmu.

Po wprowadzeniu nowych zmiennych oznaczających logarytmy otrzymuje się równanie liniowe. Procedura estymacji regresji polega następnie na obliczeniu nowych zmiennych dla każdej obserwacji poprzez logarytmy pierwotnych wartości. Następnie szacuje się zależność regresyjną nowych zmiennych. Aby przejść do oryginalnych zmiennych, należy skorzystać z antylogarytmu, czyli właściwie wrócić do samych potęg, a nie do ich wykładników (w końcu logarytm jest wykładnikiem). Podobnie można rozpatrywać przypadek funkcji wykładniczych lub wykładniczych.

W przypadku regresji znacząco nieliniowej nie jest możliwe zastosowanie zwykłej procedury estymacji regresji, ponieważ odpowiedniej zależności nie można przekształcić na liniową. Ogólny schemat działań jest następujący:

1. Akceptowane są pewne wiarygodne wartości parametrów początkowych;

2. Przewidywane wartości Y są obliczane na podstawie rzeczywistych wartości X przy użyciu tych wartości parametrów;

3. Dla wszystkich obserwacji w próbie oblicza się reszty, a następnie sumę kwadratów reszt;

4. Wprowadzono niewielkie zmiany w oszacowaniach jednego lub większej liczby parametrów;

5. Obliczane są nowe przewidywane wartości Y, reszty i suma kwadratów reszt;

6. Jeżeli suma kwadratów reszt jest mniejsza niż poprzednio, to nowe oszacowania parametrów są lepsze niż poprzednie i należy je przyjąć jako nowy punkt wyjścia;

7. Kroki 4, 5 i 6 powtarza się ponownie do momentu, gdy niemożliwe stanie się dokonanie takich zmian w ocenach parametrów, które prowadziłyby do zmiany sumy reszt kwadratów;

8. Stwierdzono, że suma kwadratów reszt jest minimalizowana, a końcowe estymatory parametrów są estymatorami metodą najmniejszych kwadratów.

Wśród funkcji nieliniowych, które można zredukować do forma liniowa, funkcja potęgowa jest szeroko stosowana w ekonometrii. Parametr b ma jasną interpretację, będąc współczynnikiem elastyczności. W modelach, które są nieliniowe w estymowanych parametrach, ale można je sprowadzić do postaci liniowej, do przekształconych równań stosuje się metodę najmniejszych kwadratów. Praktyczne zastosowanie logarytmów i odpowiednio wykładników jest możliwe, gdy wynikowy znak nie ma wartości ujemnych. Badając zależności między funkcjami za pomocą logarytmu wynikowego atrybutu, w ekonometrii dominują zależności potęgowe (krzywe popytu i podaży, funkcje produkcji, krzywe absorpcji charakteryzujące związek między pracochłonnością produktów, skalą produkcji, zależnością DNB na poziomie zatrudnienia, krzywe Engela).

28. Model odwrotny i jego zastosowanie

Czasami stosuje się tzw. model odwrotny, który jest wewnętrznie nieliniowy, ale w nim, w przeciwieństwie do hiperboli równobocznej, transformacji nie podlega zmienna objaśniająca, ale wynikowy atrybut Y. Zatem model odwrotny okazuje się być wewnętrznie nieliniowe i wymóg OLS nie jest spełniony dla rzeczywistych wartości wynikowego atrybutu Y i dla ich wartości odwrotnych. Na szczególną uwagę zasługuje badanie korelacji dla regresji nieliniowej. W ogólnym przypadku parabola drugiego stopnia, podobnie jak wielomiany wyższego rzędu, po linearyzacji przyjmuje postać równania regresji wielokrotnej. Jeżeli po linearyzacji równanie regresji, które jest nieliniowe w odniesieniu do wyjaśnianej zmiennej, przybierze postać liniowego równania regresji w parach, wówczas do oceny bliskości związku można zastosować współczynnik korelacji liniowej.

Jeżeli przekształcenia równania regresji do postaci liniowej są powiązane ze zmienną zależną (charakterystyką wynikową), to współczynnik korelacji liniowej oparty na przekształconych wartościach cech daje jedynie przybliżoną ocenę zależności i nie pokrywa się liczbowo z wskaźnik korelacji. Należy pamiętać, że przy obliczaniu wskaźnika korelacji stosuje się sumę kwadratów odchyleń wynikowej cechy Y, a nie ich logarytmy. Ocena istotności wskaźnika korelacji odbywa się w taki sam sposób, jak ocena wiarygodności (istotności) współczynnika korelacji. Sam wskaźnik korelacji, podobnie jak wskaźnik determinacji, służy do testowania ogólnej istotności równania regresji nieliniowej za pomocą testu F Fishera.

Należy zauważyć, że możliwość konstruowania modeli nieliniowych, zarówno poprzez sprowadzenie ich do postaci liniowej, jak i zastosowanie regresji nieliniowej, z jednej strony, zwiększa uniwersalność analizy regresji. Z drugiej strony znacznie komplikuje to zadania badacza. Jeśli ograniczymy się do analizy regresji w parach, możemy wykreślić obserwacje Y i X w postaci wykresu punktowego. Często kilka różnych funkcji nieliniowych przybliża obserwacje, jeśli leżą na jakiejś krzywej. Jednak w przypadku analizy regresji wielokrotnej nie można skonstruować takiego wykresu.

Rozważając alternatywne modele z tą samą definicją zmiennej zależnej, procedura wyboru jest stosunkowo prosta. Regresję można oszacować na podstawie wszystkich możliwych do wyobrażenia funkcji i wybrać tę, która najlepiej wyjaśnia zmianę zmiennej zależnej. Oczywiste jest, że gdy funkcja liniowa wyjaśnia około 64% wariancji y, a funkcja hiperboliczna wyjaśnia 99,9%, należy oczywiście wybrać tę drugą. Ale kiedy różne modele stosować różne formy funkcjonalne, problem wyboru modelu staje się znacznie bardziej skomplikowany.

29. Zastosowanie testu Boxa-Coxa.

Mówiąc bardziej ogólnie, rozważając alternatywne modele z tą samą definicją zmiennej zależnej, wybór jest prosty. Najrozsądniej jest oszacować regresję na podstawie wszystkich prawdopodobnych funkcji, koncentrując się na funkcji, która najlepiej wyjaśnia zmianę zmiennej zależnej. Jeśli współczynnik determinacji mierzy w jednym przypadku proporcję wariancji wyjaśnioną regresją, a w drugim proporcję wariancji logarytmu tej zmiennej zależnej wyjaśnionej regresją, to wyboru dokonuje się bez trudności. Inna sprawa, gdy wartości te dla dwóch modeli są bardzo zbliżone i problem wyboru staje się znacznie bardziej skomplikowany.

Należy wtedy zastosować standardową procedurę w postaci testu Boxa-Coxa. Jeśli wystarczy porównać modele za pomocą współczynnika efektywnego i jego logarytmu w postaci wariantu zmiennej zależnej, wówczas stosuje się wersję testu Zarembki. Proponuje transformację skali obserwacji Y, która pozwala na bezpośrednie porównanie pierwiastka błędu średniokwadratowego (MSE) w modelach liniowych i logarytmicznych. Odpowiednia procedura obejmuje następujące kroki:

    Obliczana jest średnia geometryczna wartości Y w próbce, która pokrywa się z wykładnikiem średniej arytmetycznej logarytmu Y;

    Obserwacje Y przelicza się w ten sposób, że dzieli się je przez wartość uzyskaną w pierwszym kroku;

    Regresję szacuje się dla modelu liniowego przy użyciu przeskalowanych wartości Y zamiast oryginalnych wartości Y, a dla modelu logarytmicznego przy użyciu logarytmu przeskalowanych wartości Y. Wartości RMSE dla obu regresji są teraz porównywalne i dlatego model z mniejszą sumą kwadratów odchyleń zapewnia lepsze dopasowanie do prawdziwej zależności obserwowanych wartości;

    Aby sprawdzić, czy któryś z modeli nie zapewnia znacząco lepszego dopasowania, można posłużyć się iloczynem połowy liczby obserwacji razy logarytm stosunku wartości RMSE w przeliczonych regresjach, a następnie przyjąć wartość bezwzględna ta wartość.

30. Pojęcia współkorelacji i wielowspółliniowości czynników.

34. Podstawy MNC i zasadność jego stosowania.

Przejdźmy teraz do podstaw OLS, zasadności jego stosowania (w tym problemów regresji wielokrotnej) i najważniejszych właściwości szacunków uzyskanych za pomocą OLS. Zacznijmy od tego, że oprócz zależności analitycznej po prawej stronie równania regresji, ważną rolę odgrywa także składnik losowy. Ten składnik losowy jest wielkością nieobserwowalną. Sami testy statystyczne parametry regresji i miary korelacji opierają się na nietestowalnych założeniach dotyczących rozkładu tego składnika losowego regresji wielokrotnej. Założenia te mają jedynie charakter wstępny. Dopiero po skonstruowaniu równania regresji sprawdza się, czy oszacowania reszt losowych (empirycznych analogów składowej losowej) mają założone a priori właściwości. Zasadniczo podczas szacowania parametrów modelu obliczane są różnice między teoretycznymi i rzeczywistymi wartościami wynikowego atrybutu, aby w ten sposób oszacować sam składnik losowy. Należy pamiętać, że jest to tylko przykładowa implementacja nieznanej reszty z danego równania.

Współczynniki regresji uzyskane z układu równań normalnych są przykładowymi szacunkami siły zależności. Jest oczywiste, że mają one praktyczne znaczenie tylko wtedy, gdy są bezstronne. Przypomnijmy, że w tym przypadku średnia reszt jest równa zeru, czyli, co jest to samo, średnia estymacji jest równa samemu estymowanemu parametrowi. Wtedy reszty nie będą kumulować się na dużej liczbie estymatorów próby, a sam znaleziony parametr regresji można uznać za średnią z dużej liczby bezstronnych estymatorów.

Ponadto szacunki powinny charakteryzować się najmniejszą wariancją, tj. być skuteczne i wtedy możliwe staje się przejście od praktycznie nieodpowiednich estymacji punktowych do estymacji przedziałowych. Wreszcie przedziały ufności są przydatne, gdy prawdopodobieństwo uzyskania oszacowania w danej odległości od prawdziwej (nieznanej) wartości parametru jest bliskie jedności. Takie szacunki nazywane są spójnymi, a właściwość spójności charakteryzuje się wzrostem ich dokładności wraz ze wzrostem liczebności próby.

Warunek spójności nie jest jednak spełniony automatycznie i w istotny sposób zależy od spełnienia dwóch kolejnych ważnych wymagań. Po pierwsze, same reszty muszą być stochastyczne z najbardziej wyraźną losowością, tj. wszystkie wyraźnie funkcjonalne zależności muszą zostać uwzględnione konkretnie w elemencie analitycznym regresji wielokrotnej, a dodatkowo wartości reszt muszą być rozłożone niezależnie od siebie dla różnych próbek (brak autokorelacji reszt). Drugim, nie mniej ważnym wymaganiem jest to, aby wariancja każdego odchylenia (resztowego) była identyczna dla wszystkich wartości zmiennych X (homoscedastyczność). Te. homoskedastyczność wyraża się stałością wariancji dla wszystkich obserwacji:

Wręcz przeciwnie, heteroskedastyczność jest naruszeniem takiej stałości wariancji dla różnych obserwacji. W takim przypadku prawdopodobieństwo aprioryczne (przed obserwacjami) uzyskania wartości silnie odbiegających od teoretycznych o różnych rozkładach teoretycznych składnika losowego dla różnych obserwacji w próbie będzie stosunkowo wysokie.

Autokorelację reszt, czyli obecność korelacji pomiędzy resztami bieżących i poprzednich (kolejnych) obserwacji, określa się na podstawie wartości zwykłego współczynnika korelacji liniowej. Jeżeli różni się znacząco od zera, wówczas reszty są autokorelowane i dlatego funkcja gęstości prawdopodobieństwa (rozkład reszt) zależy od punktu obserwacyjnego i od rozkładu wartości reszt w innych punktach obserwacyjnych. Wyznaczenie autokorelacji reszt przy użyciu dostępnych informacji statystycznych jest wygodne, jeśli istnieje uporządkowanie obserwacji według czynnika X. Brak autokorelacji reszt zapewnia spójność i efektywność oszacowań współczynników regresji.

35. Homoscedastyczność i heteroskedastyczność, autokorelacja reszt, uogólniona metoda najmniejszych kwadratów (GLM).

Równość wariancji reszt dla wszystkich wartości zmiennych X, czyli homoskedastyczność, jest również bezwzględnie konieczna do uzyskania spójnych estymatorów parametrów regresji za pomocą OLS. Niespełnienie warunku homoskedastyczności prowadzi do tzw. heteroskedastyczności. Może to prowadzić do stronniczych szacunków współczynników regresji. Heteroscedastyczność będzie miała głównie wpływ na zmniejszenie efektywności estymatorów współczynników regresji. W tym przypadku szczególnie trudne staje się zastosowanie wzoru na błąd standardowy współczynnika regresji, którego zastosowanie zakłada równomierne rozproszenie reszt dla dowolnych wartości współczynnika. Jeśli chodzi o bezstronność oszacowań współczynników regresji, zależy to przede wszystkim od niezależności reszt i wartości samych czynników.

Dość jasnym, aczkolwiek nie rygorystycznym i wymagającym umiejętności sposobem testowania homoskedastyczności jest graficzne badanie natury zależności reszt od średnio obliczonego (teoretycznego) atrybutu wynikowego lub odpowiednich pól korelacji. Analityczne metody badania i oceny heteroskedastyczności są bardziej rygorystyczne. Jeżeli występuje znacząca obecność heteroskedastyczności, zaleca się stosowanie uogólnionego OLS (GLM) zamiast OLS.

Oprócz wymagań dotyczących regresji wielokrotnej wynikających ze stosowania OLS, konieczne jest również spełnienie warunków dotyczących zmiennych zawartych w modelu. Należą do nich przede wszystkim wymagania dotyczące liczby czynników modelu dla danego wolumenu obserwacji (od 1 do 7). W przeciwnym razie parametry regresji będą nieistotne statystycznie. Z punktu widzenia efektywności stosowania odpowiednich metod numerycznych przy wdrażaniu LSM konieczne jest, aby liczba obserwacji przekraczała liczbę szacowanych parametrów (w układzie równań liczba równań jest większa niż liczba poszukiwanych zmienne).

Najważniejszym osiągnięciem ekonometrii jest znaczący rozwój metod szacowania nieznanych parametrów i doskonalenie kryteriów identyfikacji statycznej istotności rozpatrywanych efektów. W związku z tym niemożność lub niecelowość stosowania tradycyjnego OLS ze względu na heteroskedastyczność objawiającą się w takim czy innym stopniu doprowadziła do rozwoju uogólnionego OLS (GLM). W rzeczywistości wiąże się to z dostosowaniem modelu, zmianą jego specyfikacji i przekształceniem oryginalnych danych, aby zapewnić bezstronne, wydajne i spójne oszacowania współczynników regresji.

Zakłada się, że średnia reszt wynosi zero, jednak ich rozproszenie nie jest już stałe, lecz proporcjonalne do wartości K i, gdzie wartości te są współczynnikami proporcjonalności, które są różne dla różnych wartości czynnik x. Zatem to właśnie te współczynniki (wartości K i) charakteryzują niejednorodność dyspersji. Naturalnie uważa się, że sama wielkość dyspersji, która jest wspólnym czynnikiem dla tych współczynników proporcjonalności, jest nieznana.

Oryginalny model po wprowadzeniu tych współczynników do równania regresji wielokrotnej pozostaje w dalszym ciągu heteroskedastyczny (dokładniej są to wartości resztowe modelu). Niech te reszty (reszty) nie będą autokorelowane. Wprowadźmy nowe zmienne otrzymane poprzez podzielenie wyjściowych zmiennych modelu zarejestrowanych w wyniku i-tej obserwacji przez pierwiastek kwadratowy współczynników proporcjonalności K i . Otrzymujemy wówczas nowe równanie w zmiennych przekształconych, w którym reszty będą homoskedastyczne. Nowe zmienne same w sobie są ważonymi starymi (oryginalnymi) zmiennymi.

Zatem estymacja parametrów otrzymanego w ten sposób nowego równania z resztami homoskedastycznymi zostanie sprowadzona do metody ważonych najmniejszych kwadratów (w istocie jest to metoda OLS). W przypadku użycia zamiast samych zmiennych regresji ich odchyleń od średnich, wyrażenia na współczynniki regresji przyjmują prostą i znormalizowaną (jednolitą) postać, która różni się nieco dla OLS i OLS współczynnikiem korygującym 1/K w liczniku i mianownik ułamka dającego współczynnik regresji.

Należy mieć na uwadze, że parametry przekształconego (dopasowanego) modelu w istotny sposób zależą od tego, na jakiej koncepcji oparto współczynniki proporcjonalności K i. Często zakłada się, że reszty są po prostu proporcjonalne do wartości czynników. Model przyjmuje najprostszą postać, gdy przyjmie się hipotezę, że błędy są proporcjonalne do wartości ostatniego czynnika w kolejności. Wówczas OLS umożliwia zwiększenie wagi obserwacji o mniejszych wartościach transformowanych zmiennych przy wyznaczaniu parametrów regresji w porównaniu do działania standardowego OLS z pierwotnymi zmiennymi źródłowymi. Ale te nowe zmienne mają już inną treść ekonomiczną.

Hipoteza o proporcjonalności reszt do wielkości czynnika może mieć realne podstawy. Niech przetwarzany będzie pewien, niewystarczająco jednorodny zbiór danych, obejmujący np. duże i małe przedsiębiorstwa jednocześnie. Wtedy duże wartości objętościowe współczynnika mogą odpowiadać zarówno dużemu rozproszeniu uzyskanej charakterystyki, jak i dużemu rozproszeniu wartości resztkowych. Co więcej, zastosowanie OLS i odpowiednie przejście do wartości względnych nie tylko zmniejsza zmienność współczynnika, ale także zmniejsza wariancję błędu. Zatem najprostszy przypadek uwzględnienia i skorygowania heteroskedastyczności w modelach regresji realizowany jest poprzez zastosowanie OLS.

Powyższe podejście do wdrożenia OLS w postaci ważonego OLS jest dość praktyczne - jest po prostu wdrożone i ma przejrzystą interpretację ekonomiczną. Nie jest to oczywiście podejście najogólniejsze i w kontekście statystyki matematycznej, która stanowi teoretyczną podstawę ekonometrii, proponuje się znacznie bardziej rygorystyczną metodę, która w swej istocie realizuje OLS widok ogólny. W nim musisz znać macierz kowariancji wektora błędu (kolumna resztowa). Jest to zwykle niesprawiedliwe w praktycznych sytuacjach i znalezienie tej macierzy jako takiej może być niemożliwe. Dlatego też, ogólnie rzecz biorąc, konieczne jest w jakiś sposób oszacowanie wymaganej macierzy, aby zamiast samej macierzy zastosować takie oszacowanie w odpowiednich wzorach. Zatem opisana wersja realizacji OMNC stanowi jeden z takich szacunków. Czasami nazywa się to dostępnymi uogólnionymi metodami najmniejszych kwadratów.

Należy również wziąć pod uwagę, że współczynnik determinacji nie może służyć jako zadowalająca miara jakości dopasowania przy zastosowaniu OLS. Wracając do stosowania OLS, zauważamy również, że metoda stosowania odchyleń standardowych (błędów standardowych) w postaci White'a (tzw. spójne błędy standardowe w obecności heteroskedastyczności) ma wystarczającą ogólność. Metodę tę można zastosować pod warunkiem, że macierz kowariancji wektora błędu jest diagonalna. Jeżeli występuje autokorelacja reszt (błędów), gdy w macierzy kowariancji i poza główną przekątną występują niezerowe elementy (współczynniki), wówczas należy zastosować bardziej ogólną metodę błędu standardowego w postaci Neve Westa. Istnieje istotne ograniczenie: elementy niezerowe, oprócz głównej przekątnej, znajdują się tylko na sąsiednich przekątnych, oddalonych od głównej przekątnej o nie więcej niż określoną odległość.

Z powyższego jasno wynika, że ​​konieczna jest możliwość sprawdzenia danych pod kątem heteroskedastyczności. Temu celowi służą poniższe testy. Testują hipotezę główną o równości wariancji reszt z hipotezą alternatywną (o nierówności tych hipotez). Ponadto istnieją a priori ograniczenia strukturalne dotyczące natury heteroskedastyczności. W teście Goldfelda-Quandta zwykle przyjmuje się założenie, że wariancja błędu (resztowa) jest bezpośrednio zależna od wartości jakiejś zmiennej niezależnej. Schemat stosowania tego testu jest następujący. Po pierwsze, dane są uporządkowane w porządku malejącym według zmiennej niezależnej, dla której podejrzewa się heteroskedastyczność. Ten uporządkowany zbiór danych eliminuje następnie średnio kilka obserwacji, gdzie słowo „kilka” oznacza około jednej czwartej (25%) całkowita liczba wszystkie obserwacje. Następnie przeprowadza się dwie niezależne regresje na pierwszej z pozostałych (po eliminacji) obserwacji średnich i dwóch ostatnich z pozostałych obserwacji średnich. Następnie konstruowane są dwie odpowiednie reszty. Na koniec zestawiana jest statystyka F Fishera i jeśli badana hipoteza jest prawdziwa, to F rzeczywiście jest rozkładem Fishera z odpowiednimi stopniami swobody. Wówczas duża wartość tej statystyki oznacza, że ​​testowaną hipotezę należy odrzucić. Bez etapu eliminacji moc tego testu jest zmniejszona.

Test Breuscha-Pagana stosuje się w przypadkach, gdy a priori zakłada się, że wariancje zależą od dodatkowych zmiennych. Najpierw przeprowadza się regresję zwykłą (standardową) i otrzymuje wektor reszt. Następnie konstruowana jest estymacja wariancji. Następnie przeprowadzana jest regresja kwadratu wektora reszt podzielonego przez wariancję empiryczną (oszacowanie wariancji). Dla niej (regresja) zostaje znaleziona wyjaśniona część zmienności. I dla tej wyjaśnionej części odmiany, podzielonej na pół, budowane są statystyki. Jeżeli hipoteza zerowa jest prawdziwa (żadna heteroskedastyczność nie jest prawdziwa), wówczas wartość ta ma rozkład hej-kwadrat. Jeżeli natomiast test wykaże heteroskedastyczność, wówczas pierwotny model przekształca się dzieląc składowe wektora reszt przez odpowiadające im składowe wektora obserwowanych zmiennych niezależnych.

36. Metoda odchylenia standardowego w postaci White'a.

Można wyciągnąć następujące wnioski. Zastosowanie OLS w obecności heteroskedastyczności sprowadza się do minimalizacji sumy ważonych kwadratów odchyleń. Stosowanie dostępnych OLS wiąże się z koniecznością posiadania dużej liczby obserwacji przekraczającej liczbę oszacowanych parametrów. Najkorzystniejszy przypadek zastosowania OLS ma miejsce, gdy błąd (reszty) jest proporcjonalny do jednej ze zmiennych niezależnych, a otrzymane oszacowania są spójne. Jeżeli jednak w modelu z heteroskedastycznością konieczne jest zastosowanie nie OLS, a standardowego OLS, to w celu uzyskania spójnych estymatorów można posłużyć się estymatorami błędów w postaci White'a lub Neviera-Westa.

Analizując szeregi czasowe często konieczne jest uwzględnienie zależności statystycznej obserwacji w różnych momentach. W tym przypadku założenie o błędach nieskorelowanych nie jest spełnione. Rozważmy prosty model, w którym błędy tworzą proces autoregresyjny pierwszego rzędu. W tym przypadku błędy spełniają prostą relację powtarzalności, po prawej stronie której jednym z wyrazów jest ciąg niezależnych zmiennych losowych o rozkładzie normalnym, o średniej zerowej i stałej wariancji. Drugi człon jest iloczynem parametru (współczynnika autoregresji) i wartości reszt w poprzednim momencie. Sama sekwencja wartości błędów (reszt) tworzy stacjonarny proces losowy. Stacjonarny proces losowy charakteryzuje się stałością swoich cech w czasie, w szczególności średniej i wariancji. W tym przypadku interesującą nas macierz kowariancji (jej wyrazy) można łatwo zapisać wykorzystując potęgi parametru.

Estymacja modelu autoregresyjnego dla znanego parametru odbywa się za pomocą OLS. W tym przypadku wystarczy po prostu zredukować pierwotny model poprzez prostą transformację do modelu, którego błędy spełniają warunki standardowego modelu regresji. Jest to bardzo rzadkie, ale wciąż zdarza się, że znany jest parametr autoregresji. Dlatego też na ogół konieczne jest przeprowadzenie estymacji z nieznanym parametrem autoregresyjnym. Istnieją trzy najczęściej stosowane procedury takiej oceny. Metoda Cochrane’a-Orcutta, procedura Hildretha-Lu i metoda Durbina.

Ogólnie rzecz biorąc, następujące wnioski są prawdziwe. Analiza szeregów czasowych wymaga korekty konwencjonalnego OLS, ponieważ błędy w tym przypadku są zwykle skorelowane. Często błędy te tworzą stacjonarny proces autoregresyjny pierwszego rzędu. Estymatory OLS dla autoregresji pierwszego rzędu są bezstronne, spójne, ale nieskuteczne. Przy znanym współczynniku autoregresji OLS sprowadza się do prostych przekształceń (poprawek) układu pierwotnego, a następnie do zastosowania standardowego OLS. Jeżeli, co zdarza się częściej, współczynnik autoregresji nie jest znany, wówczas dla OLS dostępnych jest kilka procedur, które polegają na oszacowaniu nieznanego parametru (współczynnika), po czym stosuje się te same przekształcenia, co w poprzednim przypadku znanego parametr.

37. Koncepcja testu Breuscha-Pagana, testu Goldfeldta-Quandta

Błąd aproksymacji jest jednym z najczęściej pojawiających się problemów przy stosowaniu niektórych metod aproksymacji danych źródłowych. Istnieją różne rodzaje błędów aproksymacji:

Błędy związane z błędami danych źródłowych;

Błędy związane z rozbieżnością modelu aproksymowanego ze strukturą aproksymowanych danych.

Excel ma dobrze rozwiniętą funkcję liniową do przetwarzania danych i przybliżeń, która wykorzystuje wyrafinowaną matematykę. Aby mieć o tym pojęcie, przejdźmy (przez F1) do części opisowej tego rozwinięcia, którą prezentujemy ze skrótami i pewnymi zmianami w notacji.

Oblicza statystyki dla serii przy użyciu metody najmniejszych kwadratów w celu obliczenia linii prostej, która najlepiej pasuje do dostępnych danych. Funkcja zwraca tablicę opisującą wynikową linię. Ponieważ zwraca tablicę wartości, funkcja musi być określona jako formuła tablicowa.

Równanie prostej wygląda następująco:

y=a+b1*x1+b2*x2+...bn*xn

Składnia:

REGLINP(y;x;stała;statystyka)

Tablica y - znane wartości y.

Tablica x - znane wartości x. Tablica x może zawierać jeden lub więcej zestawów zmiennych.

Konst jest wartość logiczna, który określa, czy termin fikcyjny a musi być równy 0.

Jeśli argument const ma wartość PRAWDA, 1 lub został pominięty, wówczas a jest oceniane w zwykły sposób. Jeśli argument const ma wartość FALSE lub 0, wówczas a jest ustawiane na 0.

Statystyka to wartość logiczna wskazująca, czy powinny zostać zwrócone dodatkowe statystyki regresji. Jeśli argumentem statystycznym jest PRAWDA lub 1, funkcja REGLINP zwraca dodatkowe statystyki regresji. Jeśli statystyka ma wartość FAŁSZ, 0 lub została pominięta, funkcja REGLINP zwraca tylko współczynniki i wyraz wolny.

Dodatkowe statystyki regresji:

se1,se2,...,sen - standardowe wartości błędów dla współczynników b1,b2,...,bn.

morze - standardowa wartość błędu dla stałej a (sea = #N/A jeśli const ma wartość FALSE).

r2 jest współczynnikiem determinizmu. Porównuje się rzeczywiste wartości y i wartości uzyskane z równania linii; Na podstawie wyników porównania obliczany jest współczynnik determinizmu, normalizowany od 0 do 1. Jeżeli jest równy 1, to mamy do czynienia z pełną korelacją z modelem, tj. nie ma różnicy między rzeczywistymi i szacunkowymi wartościami y. W przeciwnym przypadku, jeśli współczynnik determinacji wynosi 0, wówczas równanie regresji nie jest w stanie przewidzieć wartości y. Informacje na temat sposobu obliczania r2 znajdują się w „Uwagach” na końcu tej sekcji.

sey to błąd standardowy oszacowania y.

Statystyka F lub wartość obserwowana F. Statystyka F służy do określenia, czy zaobserwowana zależność między zmiennymi zależnymi i niezależnymi jest dziełem przypadku, czy też nie.

df - stopnie swobody. Stopnie swobody są przydatne do znajdowania wartości krytycznych F w tabeli statystycznej. Aby określić poziom ufności modelu, porównujesz wartości w tabeli ze statystyką F zwróconą przez funkcję REGLINP.

ssreg to suma kwadratów regresji.

ssresid to pozostała suma kwadratów.

Poniższy rysunek przedstawia kolejność zwracanych dodatkowych statystyk regresji.

Notatki

Wybrane informacje z funkcji można uzyskać poprzez funkcję INDEKS, np.:

Przecięcie Y (termin dowolny):

INDEKS(REGLINP(y,x),2)

Dokładność aproksymacji linią prostą obliczoną funkcją REGLINP zależy od stopnia rozproszenia danych. Im dane są bliżej linii prostej, tym dokładniejszy jest model używany przez funkcję REGLINP. Funkcja REGLINP wykorzystuje metodę najmniejszych kwadratów w celu określenia najlepszego dopasowania do danych.

Wykonując analizę regresji, Microsoft Excel oblicza dla każdego punktu kwadrat różnicy między przewidywaną wartością y a rzeczywistą wartością y. Suma tych kwadratów różnic nazywana jest sumą resztową kwadratów. Następnie Microsoft Excel oblicza sumę kwadratów różnic pomiędzy rzeczywistymi wartościami y a średnią wartością y, co nazywa się całkowitą sumą kwadratów (suma regresji kwadratów + suma reszt kwadratów). Im mniejsza suma kwadratów reszt w porównaniu do całkowitej sumy kwadratów, tym większy współczynnik determinacji r2, który mierzy, jak dobrze równanie regresji wyjaśnia zależności między zmiennymi.

Należy pamiętać, że wartości y przewidywane przez równanie regresji mogą nie być prawidłowe, jeśli wykraczają poza zakres wartości y, które zostały użyte do zdefiniowania równania.

Przykład 1 Nachylenie i punkt przecięcia Y

REGLINP((1;9;5;7);(0;4;2;3)) równa się (2;1), nachylenie = 2 i punkt przecięcia z osią y = 1.

Korzystanie ze statystyk F i R2

Możesz użyć statystyki F, aby określić, czy wynik o wysokiej wartości r2 jest wynikiem przypadku. Jeśli zaobserwowane F jest większe niż F-krytyczne, wówczas istnieje związek między zmiennymi. Krytyczny F można uzyskać z tabeli wartości krytycznych F w dowolnej książce referencyjnej statystyka matematyczna. Aby znaleźć tę wartość za pomocą testu jednostronnego, należy ustawić wartość Alfa (wartość Alfa służy do wskazania prawdopodobieństwa błędnego wniosku, że istnieje silna zależność) na 0,05 oraz na liczbę stopni swobody ( zwykle oznaczane v1 i v2), załóżmy v1 = k = 4 i v2 = n - (k + 1) = 11 - (4 + 1) = 6, gdzie k to liczba zmiennych, a n to liczba punktów danych . Z tabeli referencyjnej wartość F-krytyczna wynosi 4,53. Zaobserwowana wartość F wynosi 459,753674 (wartość tę uzyskano w pominiętym przez nas przykładzie), która jest zauważalnie większa niż wartość krytyczna F wynosząca 4,53. Dlatego wynikowy równanie regresji przydatne do przewidywania pożądanego rezultatu.

Do ogólnej oceny jakości skonstruowanej ekonometrii wykorzystuje się takie cechy jak współczynnik determinacji, wskaźnik korelacji, średnia błąd względny przybliżenia, a także sprawdza znaczenie równania regresji za pomocą F-Kryterium Fishera. Wymienione charakterystyki są dość uniwersalne i można je stosować zarówno w przypadku modeli liniowych, jak i nieliniowych, a także modeli z dwiema lub większą liczbą zmiennych czynnikowych. Szereg pozostałości odgrywa decydującą rolę w obliczaniu wszystkich wymienionych cech jakościowych ε ja, który oblicza się odejmując od rzeczywistych (uzyskanych z obserwacji) wartości badanej cechy tak, ja wartości obliczone za pomocą równania modelu y ri.

Współczynnik determinacji

pokazuje, jaka część zmiany badanej cechy jest uwzględniana w modelu. Inaczej mówiąc, współczynnik determinacji pokazuje, jaką część zmiany badanej zmiennej można obliczyć na podstawie zmian zmiennych czynnikowych uwzględnionych w modelu przy wykorzystaniu wybranego typu funkcji łączącej zmienne czynnikowe z badaną cechą równanie modelu.

Współczynnik determinacji R2 może przyjmować wartości od 0 do 1. Im bliższy jest współczynnik determinacji R2 do jednego, lepsza jakość modele.

Indeks korelacji można łatwo obliczyć, znając współczynnik determinacji:

Indeks korelacji R charakteryzuje bliskość rodzaju powiązania wybranego przy budowie modelu pomiędzy czynnikami uwzględnianymi w modelu a badaną zmienną. W przypadku liniowej regresji par jej wartość bezwzględna pokrywa się ze współczynnikiem korelacji par R(x, y), który sprawdziliśmy wcześniej i charakteryzuje bliskość liniowej zależności pomiędzy X I y. Wartości wskaźnika korelacji oczywiście również mieszczą się w przedziale od 0 do 1. Im bliżej wartości R do jedności, im ściślej wybrany typ funkcji łączy zmienne czynnikowe i badaną cechę, tym lepsza jest jakość modelu.

(2.11)

wyrażona w procentach i charakteryzuje dokładność modelu. Dopuszczalną dokładność modelu przy rozwiązywaniu problemów praktycznych można określić na podstawie rozważań o wykonalności ekonomicznej, biorąc pod uwagę konkretną sytuację. Powszechnie stosowanym kryterium jest to, że dokładność uważa się za zadowalającą, jeśli średni błąd względny jest mniejszy niż 15%. Jeśli E śr.rel. mniej niż 5%, wówczas mówi się, że model ma wysoką dokładność. Nie zaleca się stosowania modeli o niezadowalającej dokładności do analiz i prognozowania, czyli kiedy E śr.rel. ponad 15%.

Test F Fishera służy do oceny znaczenia równania regresji. Obliczoną wartość kryterium F wyznacza się z zależności:

. (2.12)

Wartość krytyczna F-kryterium wyznaczane jest z tablic na danym poziomie istotności α i stopniach swobody (można skorzystać z funkcji FRIST w Excelu). Tutaj, jak poprzednio, M– liczba czynników uwzględnionych w modelu, N– liczba obserwacji. Jeżeli obliczona wartość jest większa od wartości krytycznej, wówczas równanie modelu uważa się za istotne. Im wyższa obliczona wartość F-kryteria, tym lepsza jakość modelu.

Określmy cechy jakościowe modelu liniowego, dla którego skonstruowaliśmy Przykład 1. Skorzystajmy z danych z tabeli 2. Współczynnik determinacji:

Zatem w modelu liniowym zmianę wolumenu sprzedaży o 90,1% tłumaczy się zmianami temperatury powietrza.

Indeks korelacji

.

Wartość wskaźnika korelacji w przypadku sparowanego modelu liniowego, jak widzimy, jest w istocie równa w wartości bezwzględnej współczynnikowi korelacji pomiędzy odpowiednimi zmiennymi (wielkość sprzedaży i temperatura). Ponieważ otrzymana wartość jest dość bliska jedności, można stwierdzić, że pomiędzy badaną zmienną (wielkość sprzedaży) a zmienną czynnikową (temperatura) istnieje ścisła liniowa zależność.

Test F Fishera

Wartość krytyczna F kr przy α = 0,1; v 1 =1; ν 2 =7-1-1=5 wynosi 4,06. Obliczona wartość F-kryteria są większe od tabelarycznych, dlatego istotne jest równanie modelu.

Średni względny błąd przybliżenia

Skonstruowany model liniowej regresji parami ma niezadowalającą dokładność (>15%) i nie jest zalecany do stosowania do analiz i prognozowania.

W rezultacie, mimo że większość charakterystyk statystycznych spełnia dla nich kryteria, model liniowej regresji parami nie nadaje się do przewidywania wielkości sprzedaży w zależności od temperatury powietrza. Nieliniowy charakter zależności pomiędzy tymi zmiennymi według danych obserwacyjnych dość wyraźnie widać na rys. 1. Analiza to potwierdziła.


Empiryczne współczynniki regresji b 0 , b 1 wyznaczymy za pomocą narzędzia „Regresja” dodatku „Data Analysis” procesora arkusza kalkulacyjnego MS Excel.

Algorytm wyznaczania współczynników jest następujący.

1. Wprowadź dane początkowe do edytora arkuszy MS Excel.

2. Wywołaj dodatek Data Analysis (Rysunek 2).

3. Wybierz narzędzie analityczne Regresja (Rysunek 3).

4. Wypełnij odpowiednie pozycje okna Regresji (Rysunek 4).

5. Kliknij przycisk OK w oknie Regresja i uzyskaj protokół rozwiązania problemu (Rysunek 5)


Rysunek 3 – Wybieranie narzędzia Regresja




Rysunek 4 – Okno regresji

Rysunek 5 – Protokół rozwiązania problemu

Z rysunku 5 widać, że empiryczne współczynniki regresji są odpowiednio równe

b 0 = 223,

b1 = 0,0088.

Wówczas równanie sparowanej regresji liniowej łączącej wartość miesięcznej emerytury y z wartością minimum egzystencji ma postać

.(3.2)

Następnie zgodnie z zadaniem należy ocenić bliskość zależności statystycznej pomiędzy wartością kosztów utrzymania x a wartością miesięcznej emerytury y. Oszacowania tego można dokonać za pomocą współczynnika korelacji. Wartość tego współczynnika na rysunku 5 oznaczono jako wielokrotność R i odpowiednio wynosi 0,038. Ponieważ teoretycznie wartość tego współczynnika mieści się w przedziale od –1 do +1, można stwierdzić, że związek statystyczny pomiędzy wartością kosztów utrzymania x a wysokością miesięcznej emerytury y nie jest istotny.

Parametr „R – kwadrat”, przedstawiony na rysunku 5, jest kwadratem współczynnika korelacji i nazywany jest współczynnikiem determinacji. Wartość tego współczynnika charakteryzuje udział wariancji zmiennej zależnej y wyjaśnianej regresją (zmienna objaśniająca x). Zatem wartość 1- charakteryzuje udział wariancji zmiennej y spowodowanej wpływem wszystkich pozostałych zmiennych objaśniających nieuwzględnionych w modelu ekonometrycznym. Z rysunku 5 widać, że udział wszystkich zmiennych objaśniających nieuwzględnionych w otrzymanym modelu ekonometrycznym wynosi w przybliżeniu 1 – 0,00145 = 0,998 czyli 99,8%.



W kolejnym etapie, zgodnie z zadaniem, należy określić stopień powiązania zmiennej objaśniającej x ze zmienną zależną y, wykorzystując współczynnik sprężystości. Współczynnik elastyczności dla sparowanego modelu regresji liniowej definiuje się jako:

Zatem jeśli koszty utrzymania zmienią się o 1%, miesięczna emerytura zmieni się o 0,000758%.

. (3.4)

W tym celu uzupełniamy oryginalną tabelę 1 o dwie kolumny, w których wyznaczamy wartości obliczone z zależności (3.2) oraz wartość różnicy.

Tabela 3.2. Obliczanie średniego błędu aproksymacji.

Wtedy średni błąd aproksymacji wynosi

.

Z praktyki wiadomo, że wartość średniego błędu aproksymacji nie powinna przekraczać (12...15)%

W ostatnim etapie ocenimy wiarygodność statystyczną modelowania za pomocą testu F Fishera. W tym celu przetestujmy hipotezę zerową H 0 o nieistotności statystycznej otrzymanego równania regresji zgodnie z warunkiem:

jeżeli na danym poziomie istotności a = 0,05 teoretyczna (obliczona) wartość kryterium F jest większa niż jego wartość krytyczna Fcrit (tabelaryczna), to hipotezę zerową odrzuca się, a otrzymane równanie regresji przyjmuje się jako istotne.

Z rysunku 5 wynika, że ​​obliczone F = 0,0058. Wartość krytyczną kryterium F wyznacza się za pomocą funkcji statystycznej FASTER (Rysunek 6). Parametrami wejściowymi funkcji są poziom istotności (prawdopodobieństwo) oraz liczba stopni swobody 1 i 2. Dla modelu regresji sparowanej liczba stopni swobody wynosi odpowiednio 1 (jedna zmienna objaśniająca) i n-2 = 6 -2=4.



Rysunek 6 – Okno funkcji statystycznej SZYBCIEJ

Z rysunku 6 widać, że wartość krytyczna testu F wynosi 7,71.

Ponieważ obliczono F< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Budowa modelu regresji wielokrotnej w programie EXCEL.

Zgodnie z opcją przypisania konieczne jest wykorzystanie materiału statystycznego.

1. Konstruować liniowe równanie regresji wielokrotnej i wyjaśniać znaczenie ekonomiczne jego parametrów.

2. Dokonać oceny porównawczej bliskości związku między czynnikami i powstałą cechą, stosując średnie (ogólne) współczynniki elastyczności.

3. Ocenić istotność statystyczną współczynników regresji za pomocą testu t-Studenta i hipotezy zerowej o istotności równania za pomocą testu F.

4. Ocenić jakość równania wyznaczając średni błąd aproksymacji.

Dane wyjściowe do konstrukcji modelu regresji sparowanej przedstawiono w tabeli 3.3.

Tabela 3.3. Dane początkowe.

Dochód netto, miliony dolarów amerykańskich Obrót kapitałowy, ml. Dolary amerykańskie, x 1 Wykorzystany kapitał, ml. Dolary amerykańskie x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Technologia konstruowania równania regresji jest podobna do algorytmu opisanego w paragrafie 3.1. Protokół konstruowania równania regresji pokazano na rysunku 7.

PODSUMOWANIE WYNIKÓW
Statystyka regresji
Liczba mnoga R 0,901759207
Kwadrat R 0,813169667
Znormalizowany R-kwadrat 0,759789572
Standardowy błąd 0,789962026
Obserwacje
Analiza wariancji
zm SM F
Regresja 9,50635999 15,23357468
Reszta 0,624040003
Całkowity
Szanse statystyka t
Przecięcie Y 1,113140304 2,270238114
Zmienna X 1 -0,000592199 -0,061275574
Zmienna X 2 0,063902851 5,496523193

Rysunek 7. Wniosek.



Nowość na stronie

>

Najpopularniejsze