Dom Higijena Procjena parametara jednadžbe regresije. Procjena parametara linearne regresije

Procjena parametara jednadžbe regresije. Procjena parametara linearne regresije

Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. Koristeći linearna regresija takav indikator je koeficijent linearne korelacije r yt. Postoje različite modifikacije formule linearni koeficijent korelacije.

Treba imati na umu da vrijednost koeficijenta linearne korelacije procjenjuje bliskost veze između karakteristika koje se razmatraju u njenom linearnom obliku. Dakle, blizina apsolutne vrijednosti koeficijenta linearne korelacije nuli ne znači da ne postoji veza između karakteristika.

Za procjenu kvaliteta selekcije linearna funkcija izračunava se kvadrat koeficijenta linearne korelacije r yt 2, nazvan koeficijent determinacije. Koeficijent determinacije karakteriše proporciju varijanse efektivne karakteristike pri t objašnjene regresijom u ukupnoj varijansi efektivne karakteristike.

Jednačina nelinearne regresije, kao u linearna zavisnost, dopunjen je indikatorom korelacije, odnosno indeksom korelacije R.

Parabola drugog reda, kao polinom od više high order, kada se linearizira, poprima oblik jednačine višestruka regresija. Ako je nelinearna u odnosu na objašnjeno promenljiva jednačina regresija tokom linearizacije poprima oblik linearne jednadžbe uparene regresije, a zatim se za procjenu bliskosti veze može koristiti linearni koeficijent korelacije čija će se vrijednost u ovom slučaju poklapati sa indeksom korelacije.

Situacija je drugačija kada transformacije jednačine u linearni oblik uključuju zavisnu varijablu. U ovom slučaju, linearni koeficijent korelacije zasnovan na transformiranim vrijednostima karakteristika daje samo približnu procjenu bliskosti veze i ne poklapa se numerički s indeksom korelacije. Da, za funkcija snage

nakon prelaska na logaritamsku linearnu jednačinu

lny = lna + blnx

linearni koeficijent korelacije može se naći ne za stvarne vrijednosti varijabli x i y, već za njihove logaritme, odnosno r lnylnx. U skladu s tim, kvadrat njegove vrijednosti će karakterizirati omjer zbroja faktora kvadrata odstupanja prema ukupnom, ali ne za y, već za njegove logaritme:

U međuvremenu, pri izračunavanju indeksa korelacije koriste se zbroji kvadrata odstupanja karakteristike y, a ne njihovi logaritmi. U tu svrhu određuju se teorijske vrijednosti rezultirajuće karakteristike, odnosno kao antilogaritam vrijednosti izračunate jednadžbom i rezidualnog zbroja kvadrata as.

Nazivnik proračuna R 2 yx uključuje ukupan zbir kvadrata odstupanja stvarnih vrijednosti y od njihove prosječne vrijednosti, a imenilac r 2 lnxlny učestvuje u proračunu. Brojnici i imenioci indikatora koji se razmatraju razlikuju se u skladu s tim:

  • - u indeksu korelacije i
  • - u koeficijentu korelacije.

Zbog sličnosti rezultata i jednostavnosti proračuna pomoću kompjuterskih programa, koeficijent linearne korelacije se široko koristi za karakterizaciju bliskosti veze za nelinearne funkcije.

Unatoč bliskosti vrijednosti R i r ili R i r u nelinearnim funkcijama s transformacijom vrijednosti karakteristike y, treba imati na umu da ako, uz linearnu ovisnost karakteristika, isti koeficijent korelacije karakterizira regresije, treba imati na umu da ako, uz linearnu zavisnost karakteristika, jedan te isti koeficijent korelacije karakteriše regresiju i, i, pošto, onda sa krivolinijskom zavisnošću za funkciju y=j(x) nije jednak za regresiju x =f(y).

Budući da se za izračunavanje indeksa korelacije koristi omjer faktora i ukupan iznos kvadrata odstupanja, tada ima isto značenje kao i koeficijent determinacije. U posebnim studijama, vrijednost za nelinearne odnose naziva se indeks determinacije.

Procjena značajnosti indeksa korelacije vrši se na isti način kao i procjena pouzdanosti koeficijenta korelacije.

Indeks korelacije se koristi za testiranje značajnosti ukupne nelinearne regresione jednačine koristeći Fisher F test.

Vrijednost m karakterizira broj stupnjeva slobode za faktor zbir kvadrata, a (n - m - 1) - broj stupnjeva slobode za preostali zbir kvadrata.

Za funkciju snage m = 1 i formula F-kriterijuma ima isti oblik kao i za linearnu ovisnost:

Za parabolu drugog stepena

y = a 0 + a 1 x + a 2 x 2 +em = 2

F-kriterijum se takođe može izračunati u tabeli analiza varijanse rezultati regresije, kao što je prikazano za linearnu funkciju.

Indeks determinacije se može uporediti sa koeficijentom determinacije kako bi se opravdala mogućnost korištenja linearne funkcije. Što je veća zakrivljenost linije regresije, manji je koeficijent determinacije indeks determinacije. Sličnost ovih indikatora znači da nema potrebe da se komplikuje oblik regresione jednadžbe i da se može koristiti linearna funkcija.

U praksi, ako razlika između indeksa determinacije i koeficijenta determinacije ne prelazi 0,1, onda se pretpostavka o linearnom obliku odnosa smatra opravdanom.

Ako je tabela t činjenica >t, onda su razlike između razmatranih pokazatelja korelacije značajne i zamjena nelinearne regresije s linearnom funkcionalnom jednadžbom je nemoguća. Praktično, ako je vrijednost t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Korelaciona analiza.

Uparena regresijska jednadžba.

Korišćenjem grafičke metode.

Ova metoda se koristi za vizuelni prikaz oblika povezanosti proučavanih ekonomskih pokazatelja. Da biste to učinili, crta se graf u pravokutnom koordinatnom sistemu, pojedinačne vrijednosti rezultujuće karakteristike Y iscrtavaju se duž ordinatne ose, a pojedinačne vrijednosti faktorske karakteristike X crtaju se duž ose apscise.

Skup tačaka rezultantnih i faktorskih karakteristika se naziva korelaciono polje.

Na osnovu korelacionog polja može se postaviti hipoteza (za stanovništva) da je odnos između svih mogućih vrijednosti X i Y linearan.

Jednačina linearne regresije je y = bx + a + ε

Ovdje je ε slučajna greška (odstupanje, poremećaj).

Razlozi za postojanje slučajne greške:

1. Neuključivanje značajnih objašnjavajućih varijabli u regresijski model;

2. Agregacija varijabli. Na primjer, funkcija ukupne potrošnje je pokušaj opšti izraz zbir pojedinačnih odluka o potrošnji. Ovo je samo aproksimacija pojedinačnih odnosa koji imaju različite parametre.

3. Netačan opis strukture modela;

4. Neispravna funkcionalna specifikacija;

5. Greške u mjerenju.

Budući da su odstupanja ε i za svako specifično opažanje i slučajna i njihove vrijednosti u uzorku su nepoznate, tada:

1) iz opažanja x i i y i mogu se dobiti samo procjene parametara α i β

2) Procjene parametara α i β regresijski model su vrijednosti a i b, koje su po prirodi nasumične, jer odgovaraju slučajnom uzorku;

Tada će jednadžba regresije procjene (konstruirana iz podataka uzorka) imati oblik y = bx + a + ε, gdje su e i uočene vrijednosti (procjene) grešaka ε i , a a i b su procjene parametri α i β regresionog modela koji treba pronaći.

Za procjenu parametara α i β koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata). Metoda najmanjih kvadrata daje najbolje (dosljedne, efikasne i nepristrasne) procjene parametara regresione jednačine.

Ali samo ako su ispunjene određene premise u pogledu slučajnog člana (ε) i nezavisne varijable (x).

Formalno, OLS kriterijum se može napisati na sledeći način:

S = ∑(y i - y * i) 2 → min

Sistem normalnih jednačina.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Za naše podatke sistem jednačina ima oblik

15a + 186,4 b = 17,01

186,4 a + 2360,9 b = 208,25

Iz prve jednačine koju izražavamo A i zamijeni u drugu jednačinu:

Dobijamo koeficijente empirijske regresije: b = -0,07024, a = 2,0069

Regresijska jednačina (empirijska regresijska jednačina):

y = -0,07024 x + 2,0069

Empirijski regresijski koeficijenti a I b su samo procjene teorijskih koeficijenata β i, a sama jednadžba odražava samo opći trend ponašanja varijabli koje se razmatraju.

Da bismo izračunali parametre regresije, napravićemo proračunsku tabelu (Tabela 1)

1. Parametri regresijske jednadžbe.

Uzorak znači.

Uzorci varijacija:

Standardna devijacija

1.1. Koeficijent korelacije

Kovarijansa.

Izračunavamo indikator bliskosti veze. Ovaj indikator je koeficijent linearne korelacije uzorka, koji se izračunava po formuli:

Koeficijent linearne korelacije uzima vrijednosti od –1 do +1.

Veze između karakteristika mogu biti slabe i jake (bliske). Njihovi kriterijumi se ocjenjuju na Chaddock skali:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

U našem primjeru, odnos između osobine Y i faktora X je visok i inverzan.

Osim toga, koeficijent korelacije linearnog para može se odrediti preko koeficijenta regresije b:

1.2. Jednačina regresije(procjena jednadžbe regresije).

Jednačina linearne regresije je y = -0,0702 x + 2,01

Koeficijenti jednačine linearne regresije mogu dobiti ekonomsko značenje.

Koeficijent regresije b = -0,0702 pokazuje prosječnu promjenu efektivnog indikatora (u mjernim jedinicama y) sa povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se smanjuje u prosjeku za -0,0702.

Koeficijent a = 2,01 formalno pokazuje predviđeni nivo y, ali samo ako je x = 0 blizu vrijednosti uzorka.

Ali ako je x=0 daleko od vrijednosti uzorka za x, onda doslovno tumačenje može dovesti do pogrešnih rezultata, pa čak i ako linija regresije prilično precizno opisuje promatrane vrijednosti uzorka, nema garancije da će i to biti slučaj kada se ekstrapolira lijevo ili desno.

Zamjenom odgovarajućih vrijednosti x u jednadžbu regresije, možemo odrediti usklađene (predviđene) vrijednosti indikatora učinka y(x) za svako opažanje.

Odnos između y i x određuje predznak koeficijenta regresije b (ako je > 0 - direktna veza, inače - inverzna). U našem primjeru, veza je obrnuta.

1.3. Koeficijent elastičnosti.

Nije preporučljivo koristiti koeficijente regresije (u primjeru b) za direktnu procjenu utjecaja faktora na rezultantnu karakteristiku ako postoji razlika u mjernim jedinicama rezultantnog indikatora y i faktorske karakteristike x.

Za ove svrhe izračunavaju se koeficijenti elastičnosti i beta koeficijenti.

Prosječni koeficijent elastičnosti E pokazuje za koji će se postotak u prosjeku rezultat promijeniti u agregatu at od njegove prosječne vrijednosti kada se faktor promijeni x za 1% njegove prosječne vrijednosti.

Koeficijent elastičnosti se nalazi po formuli:

Koeficijent elastičnosti je manji od 1. Dakle, ako se X promijeni za 1%, Y će se promijeniti za manje od 1%. Drugim riječima, utjecaj X na Y nije značajan.

Beta koeficijent

Beta koeficijent pokazuje za koji dio vrijednosti njegove standardne devijacije će se promijeniti prosječna vrijednost rezultirajuće karakteristike kada se faktorska karakteristika promijeni za vrijednost svoje standardne devijacije s vrijednošću preostalih nezavisnih varijabli fiksiranih na konstantnom nivou:

One. povećanje x za standardnu ​​devijaciju S x će dovesti do smanjenja prosječne vrijednosti Y za 0,82 standardne devijacije S y .

1.4. Greška aproksimacije.

Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije. Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:

Greška aproksimacije unutar 5%-7% ukazuje na dobro uklapanje regresione jednačine originalnim podacima.

Pošto je greška manja od 7%, ova jednačina se može koristiti kao regresija.

Linearna regresija se svodi na pronalaženje jednačine oblika

Prvi izraz dozvoljava date vrijednosti faktora x izračunajte teorijske vrijednosti rezultirajuće karakteristike zamjenom stvarnih vrijednosti faktora u nju x. Na grafikonu, teorijske vrijednosti leže na pravoj liniji, koja predstavlja liniju regresije.

Konstrukcija linearne regresije svodi se na procjenu njenih parametara - A I b. Klasičan pristup procjeni parametara linearne regresije temelji se na metoda najmanjih kvadrata (LSM).

Za pronalaženje minimuma potrebno je izračunati parcijalne derivate zbira (4) za svaki od parametara - A I b- i izjednačiti ih sa nulom.

(5)

Hajde da se transformišemo, dobijamo sistem normalnih jednačina:

(6)

U ovom sistemu n- veličine uzorka, iznosi se lako izračunavaju iz originalnih podataka. Rešavamo sistem u odnosu na A I b, dobijamo:

(7)

. (8)

Izraz (7) se može napisati u drugom obliku:

(9)

Gdje kovarijansa osobina, disperzija faktora x.

Parametar b pozvao koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu. Učinjena je mogućnost jasne ekonomske interpretacije koeficijenta regresije linearna jednačina regresija je prilično česta u ekonometrijskim studijama.

Formalno a- značenje y at x=0. Ako x nema i ne može imati nultu vrijednost, onda ovo tumačenje slobodnog pojma a nema smisla. Parametar a možda nemaju ekonomski sadržaj. Pokušaji da se to ekonomski protumači mogu dovesti do apsurda, posebno kada a< 0. Интерпретировать можно лишь знак при параметре a. Ako a> 0, tada se relativna promjena u rezultatu događa sporije od promjene faktora. Uporedimo ove relativne promjene:

< при > 0, > 0

Ponekad se jednadžba linearne parne regresije piše za odstupanja od srednje vrijednosti:

Gdje, . U ovom slučaju, slobodni član je jednak nuli, što se odražava u izrazu (10). Ova činjenica proizilazi iz geometrijskih razmatranja: ista prava linija (3) odgovara jednadžbi regresije, ali kada se procjenjuje regresija u devijacijama, ishodište koordinata se pomiče u tačku sa koordinatama . U ovom slučaju, u izrazu (8) će oba suma biti jednaka nuli, što će za posljedicu imati jednakost slobodnog člana nuli.

Razmotrimo, kao primjer, za grupu poduzeća koja proizvode jednu vrstu proizvoda, funkciju troškova



Table 1.

Izlaz proizvoda u hiljadama jedinica() Troškovi proizvodnje, milioni rubalja()
31,1
67,9
141,6
104,7
178,4
104,7
141,6
Ukupno: 22 770,0

Sistem normalnih jednačina će izgledati ovako:

Rešavajući to, dobijamo a= -5,79, b=36,84.

Jednačina regresije je:

Zamjena vrijednosti u jednadžbu X, hajde da nađemo teorijske vrijednosti y(poslednja kolona tabele).

Magnituda a nema ekonomskog smisla. Ako su varijable x I y izraženo u terminima odstupanja od prosječnih nivoa, tada će linija regresije na grafu proći kroz početak koordinata. Procjena koeficijenta regresije se neće promijeniti:

, Gdje , .

Kao drugi primjer, razmotrite funkciju potrošnje oblika:

,

gdje je C potrošnja, y-prihod, K,L- opcije. Ova jednačina linearne regresije se obično koristi zajedno sa jednadžbom bilansa stanja:

,

Gdje I– veličina investicije, r- štednja.

Radi jednostavnosti, pretpostavite da se prihod troši na potrošnju i investicije. Dakle, razmatra se sistem jednačina:

Prisustvo bilansne jednakosti nameće ograničenja na vrijednost koeficijenta regresije, koji ne može biti veći od jedan, tj. .

Pretpostavimo da je funkcija potrošnje:

.

Koeficijent regresije karakterizira sklonost potrošnji. Pokazuje da se od svake hiljadu rubalja prihoda u prosjeku troši 650 rubalja na potrošnju, a 350 rubalja. investirano. Ako izračunamo regresiju veličine ulaganja na prihod, tj. , tada će jednačina regresije biti . Ovu jednačinu ne treba definirati, jer je izvedena iz funkcije potrošnje. Koeficijenti regresije ove dvije jednačine povezani su jednakošću:

Ako se pokaže da je koeficijent regresije veći od jedan, tada se na potrošnju troši ne samo prihod, već i ušteda.



Koeficijent regresije u funkciji potrošnje koristi se za izračunavanje množitelja:

Evo m≈2,86, tako da je dodatna investicija 1 hiljada rubalja. za duži period će dovesti, uz ostale jednake stvari, do dodatnog prihoda od 2,86 hiljada rubalja.

U linearnoj regresiji, linearni koeficijent korelacije djeluje kao indikator bliskosti veze r:

Njegove vrijednosti su unutar granica: . Ako b> 0, onda kada b< 0 . Prema primjeru, to znači vrlo blisku ovisnost troškova proizvodnje od obima proizvodnje.

Da biste procijenili kvalitetu uklapanja linearne funkcije, izračunajte koeficijent odlučnosti kao kvadrat koeficijenta linearne korelacije r 2. Karakterizira udio varijanse rezultirajuće karakteristike y objašnjeno regresijom u ukupnoj varijansi rezultirajuće osobine:

Vrijednost karakterizira udio varijanse y, uzrokovan utjecajem drugih faktora koji nisu uzeti u obzir u modelu.

U primjeru. Jednačina regresije objašnjava 98,2% varijanse, a ostali faktori čine 1,8%, ovo je rezidualna varijansa.

Preduslovi OLS (Gauss-Markov uslovi)

Kao što je gore spomenuto, veza između y I x u parovima regresija nije funkcionalna, već je korelacija. Dakle, procjene parametara a I b su slučajne varijable, čija svojstva značajno zavise od svojstava slučajne komponente ε. Da bi se postigli najbolji rezultati korištenjem najmanjih kvadrata, moraju biti ispunjeni sljedeći preduslovi u pogledu slučajnog odstupanja (Gauss-Markov uvjeti):

1 0 . Očekivana vrijednost nasumično odstupanje je nula za sva opažanja: .

20 . Varijanca slučajnih odstupanja je konstantna: .

Izvodljivost ovog preduslova se zove homoskedastičnost(konstantnost varijanse odstupanja). Nemogućnost ove premise se zove heteroskedastičnost(nekonstantnost varijanse odstupanja)

trideset . Slučajna odstupanja εi I ε j nezavisni su jedno od drugog za:

Izvodljivost ovog stanja se zove odsustvo autokorelacije.

4 0 . Slučajna varijansa mora biti nezavisna od varijabli koje objašnjavaju.

Tipično, ovaj uslov je automatski zadovoljen ako varijable koje objašnjavaju u datom modelu nisu nasumične. Osim toga, izvodljivost ovog preduslova za ekonometrijske modele nije toliko kritična u poređenju sa prva tri.

Ako su ispunjeni navedeni preduslovi, onda Gaussova teorema-Markova: Procjene (7) i (8) dobivene korištenjem OLS-a imaju najmanju varijansu u klasi svih linearnih nepristrasnih procjena .

Dakle, ako su ispunjeni Gauss-Markovljevi uslovi, procjene (7) i (8) nisu samo nepristrasne procjene koeficijenata regresije, već i najefikasnije, tj. imaju najmanju disperziju u poređenju sa bilo kojom drugom procenom ovih parametara koji su linearni u odnosu na vrednosti y i.

Razumevanje važnosti Gauss-Markovljevih uslova je ono što razlikuje kompetentnog istraživača koji koristi regresionu analizu od nekompetentnog. Ako ovi uslovi nisu ispunjeni, istraživač mora biti svjestan toga. Ako je korektivna radnja moguća, onda bi analitičar trebao biti u mogućnosti to poduzeti. Ako se situacija ne može ispraviti, istraživač mora biti u stanju procijeniti koliko bi to ozbiljno moglo utjecati na rezultate.

Da biste predvidjeli korištenjem jednadžbe regresije, morate izračunati regresijske koeficijente i jednačine. I tu postoji još jedan problem koji utiče na tačnost predviđanja. Leži u činjenici da obično nisu svi moguće vrijednosti varijable X i Y, tj. opšta populacija zajedničke distribucije u problemima predviđanja nije poznata, poznat je samo uzorak iz ove opšte populacije. Kao rezultat toga, prilikom predviđanja, pored slučajne komponente, javlja se još jedan izvor grešaka – greške uzrokovane nepotpunom korespondencijom uzorka sa opštom populacijom i rezultirajuće greške u određivanju koeficijenata regresione jednačine.

Drugim riječima, zbog činjenice da je broj stanovnika nepoznat, tačne vrijednosti koeficijenti i regresijske jednačine se ne mogu odrediti. Koristeći uzorak iz ove nepoznate populacije, mogu se dobiti samo procjene pravih koeficijenata i.

Da bi greške predviđanja kao rezultat takve zamjene bile minimalne, procjena se mora provesti korištenjem metode koja jamči nepristrasne i efikasne dobivene vrijednosti. Metoda daje nepristrasne procjene ako je, kada se ponovi nekoliko puta s novim uzorcima iz iste populacije, ispunjen uslov i. Metoda daje efikasne procjene ako se, kada se više puta ponavlja sa novim uzorcima iz iste populacije, osigura minimalna disperzija koeficijenata a i b, tj. uslove i ispunjeni su.

U teoriji vjerovatnoće dokazana je teorema prema kojoj se primjenom metode najmanjih kvadrata osigurava efikasnost i nepristrasne procjene koeficijenata jednačine linearne regresije na osnovu podataka uzorka.

Suština metode najmanjih kvadrata je sljedeća. Za svaku tačku uzorka upisuje se jednačina oblika . Tada se pronalazi greška između izračunatih i stvarnih vrijednosti. Rješenje optimizacijskog problema pronalaženja takvih vrijednosti i koje daju minimalni zbir grešaka na kvadrat za svih n tačaka, tj. rješenje problema traženja , daje nepristrasne i efikasne procjene koeficijenata i . Za slučaj uparene linearne regresije, ovo rješenje ima oblik:

Treba napomenuti da nepristrasne i efikasne procjene pravih vrijednosti koeficijenata regresije za opštu populaciju dobijene na ovaj način iz uzorka uopće ne garantuju od grešaka kada se jednom primjenjuju. Garancija je da je, kao rezultat ponovljenog ponavljanja ove operacije sa drugim uzorcima iz iste populacije, zagarantovana manja količina grešaka u odnosu na bilo koju drugu metodu i da će širenje ovih grešaka biti minimalno.

Dobijeni koeficijenti jednadžbe regresije određuju položaj linije regresije, koja je glavna os oblaka formiranog od tačaka originalnog uzorka. Oba koeficijenta imaju sasvim određeno značenje. Koeficijent pokazuje vrijednost na , ali u mnogim slučajevima nema smisla; osim toga, često ni nema smisla, stoga se dato tumačenje koeficijenta mora pažljivo koristiti. Univerzalnija interpretacija značenja je sljedeća. Ako je , tada je relativna promjena nezavisne varijable (procentualna promjena) uvijek manja od relativne promjene zavisne varijable.

Koeficijent pokazuje koliko će se jedinica zavisna varijabla promijeniti kada se nezavisna varijabla promijeni za jednu jedinicu. Koeficijent se često naziva koeficijent regresije, naglašavajući da je važniji od . Konkretno, ako umjesto vrijednosti zavisnih i nezavisnih varijabli uzmemo njihova odstupanja od njihovih prosječnih vrijednosti, tada se regresijska jednadžba pretvara u oblik . Drugim riječima, u transformiranom koordinatnom sistemu svaka regresijska linija prolazi kroz početak koordinata (slika 13) i nema koeficijenta.

Slika 13. Položaj zavisnosti regresije u transformiranom koordinatnom sistemu.

Parametri regresijske jednadžbe nam govore kako su zavisne i nezavisne varijable povezane jedna s drugom, ali nam ne govore ništa o stepenu bliskosti odnosa, tj. prikazuje položaj glavne ose oblaka podataka, ali ne govori ništa o stepenu nepropusnosti veze (koliko je oblak uzak ili širok).

Za teritorije regiona dati su podaci za 200X.

Broj regije Prosječna životna plata po glavi stanovnika po danu jedne radno sposobne osobe, rub., x Prosječna dnevna plata, rub., god
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

vježba:

1. Konstruirajte korelacijsko polje i formulirajte hipotezu o obliku veze.

2. Izračunajte parametre jednačine linearne regresije

4. Koristeći prosječni (opći) koeficijent elastičnosti, dajte komparativnu ocjenu jačine veze između faktora i rezultata.

7. Izračunajte predviđenu vrijednost rezultata ako se predviđena vrijednost faktora poveća za 10% od njegovog prosječnog nivoa. Odredite interval pouzdanosti prognoze za nivo značajnosti.

Rješenje:

Hajde da odlučimo ovaj zadatak koristeći Excel.

1. Upoređivanjem dostupnih podataka x i y, na primjer, rangiranjem po rastućem faktoru x, može se uočiti postojanje direktne veze između karakteristika, kada povećanje prosječnog životnog nivoa po glavi stanovnika povećava prosječni dnevni nadnica. Na osnovu toga možemo pretpostaviti da je odnos između karakteristika direktan i da se može opisati jednolinskom jednadžbom. Isti zaključak potvrđuje i grafička analiza.

Da biste izgradili polje korelacije, možete koristiti Excel PPP. Unesite početne podatke redom: prvo x, zatim y.

Odaberite područje ćelija koje sadrži podatke.

Zatim odaberite: Insert / Scatter Plot / Scatter with Markers kao što je prikazano na slici 1.

Slika 1 Konstrukcija korelacionog polja

Analiza korelacionog polja pokazuje prisustvo bliske pravolinijskoj zavisnosti, jer se tačke nalaze skoro u pravoj liniji.

2. Izračunati parametre jednačine linearne regresije
Koristimo ugrađenu statističku funkciju LINEST.

Za ovo:

1) Otvorite postojeću datoteku koja sadrži analizirane podatke;
2) Odaberite područje 5x2 praznih ćelija (5 redaka, 2 stupca) za prikaz rezultata statistike regresije.
3) Aktivirajte Čarobnjak za funkcije: u glavnom meniju izaberite Formule / Funkcija umetanja.
4) U prozoru Kategorija ti uzimaš Statistički, u funkcijskom prozoru - LINEST. Kliknite na dugme uredu kao što je prikazano na slici 2;

Slika 2 Dijaloški okvir čarobnjaka za funkcije

5) Popunite argumente funkcije:

Poznate vrijednosti za

Poznate vrijednosti x

Konstantno - boolean vrijednost, što ukazuje na prisustvo ili odsustvo slobodnog člana u jednačini; ako je Konstanta = 1, onda se slobodni termin izračunava na uobičajen način, ako je Konstanta = 0, onda je slobodni termin 0;

Statistika- logička vrijednost koja pokazuje da li treba prikazati dodatne informacije o regresionoj analizi ili ne. Ako je statistika = 1, onda Dodatne informacije se prikazuje, ako je Statistika = 0, tada se prikazuju samo procjene parametara jednadžbe.

Kliknite na dugme uredu;

Slika 3 Dijaloški okvir Argumenti funkcije LINEST

6) Prvi element konačne tabele će se pojaviti u gornjoj lijevoj ćeliji odabranog područja. Da otvorite celu tabelu, pritisnite taster , a zatim na kombinaciju tipki ++ .

Dodatna statistika regresije će biti ispisana redoslijedom prikazanim na sljedećem dijagramu:

Vrijednost koeficijenta b Koeficijent vrijednost
Standardna greška b Standardna greška a
Standardna greška y
F-statistika
Regresijski zbir kvadrata

Slika 4 Rezultat izračunavanja funkcije LINEST

Dobili smo nivo regresije:

Zaključujemo: Uz povećanje prosječne egzistencije po glavi stanovnika za 1 rub. prosječna dnevna plata raste u prosjeku za 0,92 rublje.

Znači 52% varijacije plate(y) objašnjava se varijacijom faktora x - prosječnog egzistencijalnog nivoa po glavi stanovnika, i 48% - djelovanjem drugih faktora koji nisu uključeni u model.

Koristeći izračunati koeficijent determinacije, može se izračunati koeficijent korelacije: .

Veza se ocenjuje kao bliska.

4. Pomoću prosječnog (općeg) koeficijenta elastičnosti određujemo jačinu utjecaja faktora na rezultat.

Za jednadžbu pravolinijske, prosječni (ukupni) koeficijent elastičnosti određujemo pomoću formule:

Prosječne vrijednosti ćemo pronaći odabirom područja ćelija sa x vrijednostima i odabirom Formule / AutoSum / Average, a isto ćemo učiniti sa vrijednostima y.

Slika 5 Izračunavanje prosječnih vrijednosti funkcije i argumenta

Dakle, ako se prosječni troškovi života po glavi stanovnika mijenjaju za 1% od njegove prosječne vrijednosti, prosječna dnevna plata će se promijeniti u prosjeku za 0,51%.

Korištenje alata za analizu podataka Regresija dostupno:
- rezultate regresijske statistike,
- rezultate analize varijanse,
- rezultati intervali poverenja,
- reziduali i grafovi uklapanja regresijskih linija,
- reziduali i normalna vjerovatnoća.

Procedura je sljedeća:

1) provjerite pristup Paket analiza. U glavnom meniju izaberite: Fajl/Opcije/Dodaci.

2) U padajućoj listi Kontrola odaberite stavku Excel dodaci i pritisnite dugme Idi.

3) U prozoru Dodaci označite polje Paket analiza a zatim kliknite na dugme uredu.

Ako Paket analiza nije na listi polja Dostupni dodaci, pritisnite dugme Pregled da izvršite pretragu.

Ako dobijete poruku koja ukazuje da paket za analizu nije instaliran na vašem računaru, kliknite Da da ga instalirate.

4) U glavnom meniju izaberite: Podaci / Analiza podataka / Alati za analizu / Regresija a zatim kliknite na dugme uredu.

5) Popunite dijaloški okvir parametara ulaznih i izlaznih podataka:

Interval unosa Y- opseg koji sadrži podatke rezultujućeg atributa;

Interval unosa X- opseg koji sadrži podatke faktorske karakteristike;

Oznake- zastavicu koja pokazuje da li prvi red sadrži nazive kolona ili ne;

Konstanta - nula- zastavicu koja označava prisustvo ili odsustvo slobodnog člana u jednačini;

Izlazni interval- dovoljno je naznačiti gornju lijevu ćeliju budućeg raspona;

6) Novi radni list - možete odrediti proizvoljno ime za novi list.

Zatim kliknite na dugme uredu.

Slika 6 Dijaloški okvir za unos parametara za alat Regresija

Rezultati regresione analize za podatke o problemu prikazani su na slici 7.

Slika 7 Rezultat korištenja alata za regresiju

5. Procijenimo korištenje prosečna greška kvalitet aproksimacije jednadžbi. Koristimo rezultate regresione analize prikazane na slici 8.

Slika 8 Rezultat korištenja alata za regresiju “Povlačenje ostatka”

Kreirajmo novu tabelu kao što je prikazano na slici 9. U koloni C izračunavamo relativna greška aproksimacija prema formuli:

Slika 9 Proračun prosječne greške aproksimacije

Prosječna greška aproksimacije se izračunava pomoću formule:

Kvalitet izrađenog modela ocjenjuje se kao dobar, jer ne prelazi 8 - 10%.

6. Iz tabele c regresijska statistika(Slika 4) zapisujemo stvarnu vrijednost Fisherovog F-testa:

Zbog na nivou značajnosti od 5%, onda možemo zaključiti da je jednačina regresije značajna (odnos je dokazan).

8. Evaluacija statistički značaj Parametre regresije ćemo provesti koristeći Studentovu t-statistiku i izračunavanjem intervala povjerenja za svaki indikator.

Postavili smo hipotezu H 0 o statistički beznačajnoj razlici između indikatora i nule:

.

za broj stepeni slobode

Slika 7 ima stvarne t-statističke vrijednosti:

T-test za koeficijent korelacije može se izračunati na dva načina:

Metoda I:

Gdje - slučajna greška koeficijenta korelacije.

Podatke za proračun ćemo uzeti iz tabele na slici 7.

Metoda II:

Stvarne vrijednosti t-statistike premašuju vrijednosti tablice:

Stoga se hipoteza H 0 odbacuje, odnosno regresijski parametri i koeficijent korelacije ne razlikuju se slučajno od nule, već su statistički značajni.

Interval pouzdanosti za parametar a definiran je kao

Za parametar a, granice od 95% kao što je prikazano na slici 7 bile su:

Interval pouzdanosti za koeficijent regresije je definiran kao

Za koeficijent regresije b, granice od 95% kao što je prikazano na slici 7 bile su:

Analiza gornje i donje granice intervala povjerenja dovodi do zaključka da s vjerovatnoćom parametri a i b, koji su u navedenim granicama, ne uzimaju nulte vrijednosti, tj. nisu statistički beznačajne i značajno se razlikuju od nule.

7. Dobijene procjene jednačine regresije omogućavaju njeno korištenje za prognoziranje. Ako su predviđeni troškovi života:

Tada će predviđena vrijednost troškova života biti:

Izračunavamo grešku prognoze koristeći formulu:

Gdje

Također ćemo izračunati varijansu koristeći Excel PPP. Za ovo:

1) Aktivirajte Čarobnjak za funkcije: u glavnom meniju izaberite Formule / Funkcija umetanja.

3) Popunite opseg koji sadrži numeričke podatke faktorske karakteristike. Kliknite uredu.

Slika 10 Izračun varijanse

Dobili smo vrijednost varijanse

Da bismo izračunali preostalu varijansu po stepenu slobode, koristićemo rezultate analize varijanse kao što je prikazano na slici 7.

Intervali povjerenja za predviđanje pojedinačnih vrijednosti y sa vjerovatnoćom od 0,95 određeni su izrazom:

Interval je prilično širok, prvenstveno zbog malog obima posmatranja. Općenito, prognoza za prosječnu mjesečnu platu pokazala se pouzdanom.

Uslov problema je preuzet iz: Radionica o ekonometriji: Proc. dodatak / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i drugi; Ed. I.I. Eliseeva. - M.: Finansije i statistika, 2003. - 192 str.: ilustr.



Novo na sajtu

>

Najpopularniji