Dom Pulpitis Prosječna relativna greška aproksimacije u excelu. Prosječna greška aproksimacije

Prosječna relativna greška aproksimacije u excelu. Prosječna greška aproksimacije

Rad na kursu

u disciplini "Ekonometrija"

« Sveobuhvatna analiza odnosa između finansijskih i ekonomskih pokazatelja učinka preduzeća"

Opcija br. 12

Završeno:

student grupe EET-312

Logunov N.Yu.

Provjereno:

vanr. Ishkhanyan M.V.

Moskva 2015

Formulacija problema

1. Kompilacija korelacijske matrice. Izbor faktora

2. Konstrukcija višestruke jednačine linearna regresija. Interpretacija parametara jednadžbe

3. Koeficijent determinacije, višestruki koeficijent korelacije

4. Procjena kvaliteta jednačine višestruke linearne regresije

4.1.Prosjek relativna greška aproksimacije

4.2.Provjera statistički značaj jednačine višestruka regresija ukupno koristeći Fišerov F test

4.3.Provjera statističke značajnosti parametara jednačine višestruke regresije. Intervalne procjene parametara

5.Primjena regresijski model

5.1. Tačkasta prognoza

5.2. Koeficijenti djelomične elastičnosti i prosječni koeficijenti parcijalne elastičnosti

6. Analiza reziduala regresijskog modela (provjera premisa Gauss-Markovljeve teoreme)

6.1. Ocjene matematičko očekivanje ostaci

6.2.Provjera autokorelacije u rezidualima

7. Kriterijum Gregory Chow

Formulacija problema

Navedene su vrijednosti 6 indikatora koji karakterišu privrednu aktivnost 53 preduzeća. Obavezno:

1. Kreirajte matricu korelacije. Podesite skup nezavisnih varijabli (odaberite 2 faktora).

4.2. Testirajte statističku značajnost jednačine višestruke regresije u cjelini koristeći Fisher F test. Izvucite zaključke

4.3. Provjerite statističku značajnost parametara jednačine višestruke regresije. Konstruirati intervalne procjene parametara. Izvucite zaključke.



5. Primjena regresijskog modela:

5.1. Koristeći konstruiranu jednačinu, dajte prognozu bodova. Nađite vrijednost proučavanog parametra y, ako je vrijednost prvog faktora (najbliže y) 110% njegove prosječne vrijednosti, vrijednost drugog faktora je 80% njegove prosječne vrijednosti. Dajte ekonomsku interpretaciju rezultata.

5.2. Pronađite koeficijente parcijalne elastičnosti i prosječne parcijalne koeficijente elastičnosti. Interpretirajte rezultate. Izvucite zaključke.

6. Analizirajte ostatke regresijskog modela (provjerite zahtjeve Gauss-Markovljeve teoreme):

6.1. Pronađite procjene matematičkog očekivanja reziduala.

6.2. Provjerite autokorelaciju u reziduama. Izvucite zaključak.

7. Podijelite uzorak na dva jednaka dijela. Uzimajući u obzir prvo i posljednje opažanje kao nezavisne uzorke, testirajte hipotezu o mogućnosti njihovog kombiniranja u jedan uzorak koristeći Gregory-Chow kriterij.

Izrada korelacione matrice. Izbor faktora

Preduzeće br. Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1. Kreirajte matricu korelacije. Podesite skup nezavisnih varijabli (odaberite 2 faktora).

Razmotrimo rezultujući znak Y3 i faktorske karakteristike X10, X12, X5, X7, X13 .

Kreirajmo matricu korelacije koristeći opciju “Analiza podataka→Korelacija” u MS Excel-u:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Odabiremo 2 faktora prema kriterijima:

1) veza između Y i X treba da bude maksimalna

2) veza između Xmi treba biti minimalna

Stoga će se u sljedećim paragrafima raditi sa faktorima X10 , X5.

Izrada višestruke linearne regresijske jednačine. Interpretacija parametara jednadžbe.

2. Konstruirajte jednadžbu višestruke linearne regresije. Dajte tumačenje parametara jednačine.

Kreirajmo regresijski model koristeći paket analize “Analiza podataka→Regresija” u MS Excel-u:

Odds
Y -20,7163
X 10 5,7169
X 5 34,9321

Jednačina regresije će izgledati ovako:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 je pozitivan;

2) b5 je pozitivan;

Koeficijent determinacije, koeficijent višestruke korelacije

3. Naći koeficijent determinacije, koeficijent višestruke korelacije. Izvucite zaključke.

U regresionoj analizi koja je izvršena pomoću paketa analize „Analiza podataka → Regresija“ u MS Excel-u, nalazimo tabelu „Statistika regresije“:

Višestruka R-veza između Y3 i X10,X5 je slaba

R-kvadrat - 22,05% varijacije u osobini Y objašnjava se varijacijom u osobinama X10 i X5

Procjena kvaliteta višestruke linearne regresijske jednačine

4. Procijenite kvalitet jednačine višestruke linearne regresije:

Prosječna relativna greška aproksimacije

4.1. Pronađite prosječnu relativnu grešku aproksimacije. Izvucite zaključke.

Izračunajmo predviđene vrijednosti za svako zapažanje ili koristimo kolonu "Predviđeno Y" u tabeli "Rezidualni izlaz" u regresionoj analizi koja se izvodi pomoću paketa analize "Analiza podataka→Regresija" u MS Excel-u)

Izračunajmo relativne greške za svako opažanje koristeći formulu:

Izračunajmo prosječnu relativnu grešku aproksimacije koristeći formulu:

zaključak: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

Greška aproksimacije je jedan od najčešćih problema koji se javljaju prilikom primjene određenih metoda aproksimacije izvornih podataka. Postoje različite vrste aproksimacijskih grešaka:

Greške povezane s greškama izvornih podataka;

Greške povezane s neslaganjem između aproksimativnog modela i strukture aproksimiranih podataka.

Excel ima dobro razvijenu linearnu funkciju za obradu podataka i aproksimacije koja koristi sofisticiranu matematiku. Da bismo imali predstavu o tome, okrenimo se (putem F1) opisnom dijelu ovog razvoja, koji predstavljamo skraćenicama i nekim promjenama u notaciji.

Izračunava statistiku za seriju koristeći metodu najmanjih kvadrata za izračunavanje prave linije koja najbolje odgovara dostupnim podacima. Funkcija vraća niz koji opisuje rezultirajuću liniju. Budući da se vraća niz vrijednosti, funkcija mora biti navedena kao formula niza.

Jednačina za pravu liniju je:

y=a+b1*x1+b2*x2+...bn*xn

sintaksa:

LINEST(y;x;konst;statistika)

Niz y - poznate vrednosti y.

Niz x - poznate vrijednosti x. X niz može sadržavati jedan ili više skupova varijabli.

Const je boolean vrijednost, koji specificira da li lažni termin a mora biti jednak 0.

Ako je argument const TRUE, 1 ili je izostavljen, tada se a procjenjuje kao i obično. Ako je argument const FALSE ili 0, tada je a postavljeno na 0.

Statistics je Boolean vrijednost koja pokazuje da li treba vratiti dodatnu statistiku regresije. Ako je statistika TRUE ili 1, tada LINEST vraća dodatni regresijska statistika. Ako je statistika FALSE, 0 ili je izostavljena, tada LINEST vraća samo koeficijente i presek.

Dodatna statistika regresije:

se1,se2,...,sen - vrijednosti standardne greške za koeficijente b1,b2,...,bn.

sea ​​- standardna vrijednost greške za konstantu a (sea = #N/A ako je const FALSE).

r2 je koeficijent determinizma. Uspoređuju se stvarne vrijednosti y i vrijednosti dobijene iz jednačine linije; Na osnovu rezultata poređenja izračunava se koeficijent determinizma, normalizovan od 0 do 1. Ako je jednak 1, postoji potpuna korelacija sa modelom, tj. nema razlike između stvarne i procijenjene vrijednosti y. U suprotnom slučaju, ako je koeficijent determinacije 0, tada je jednadžba regresije neuspješna u predviđanju vrijednosti y. Za informacije o tome kako se izračunava r2, pogledajte "Napomene" na kraju ovog odjeljka.

sey je standardna greška za procjenu y.

F-statistika ili F-opažena vrijednost. F-statistika se koristi za određivanje da li je uočeni odnos između zavisnih i nezavisnih varijabli rezultat slučajnosti ili ne.

df - stepeni slobode. Stupnjevi slobode su korisni za pronalaženje F-kritičnih vrijednosti u statističkoj tabeli. Da biste odredili razinu pouzdanosti modela, usporedite vrijednosti u tablici sa F-statistikom koju vraća funkcija LINEST.

ssreg je regresijski zbir kvadrata.

ssresid je rezidualni zbir kvadrata.

Slika ispod pokazuje redoslijed po kojem se vraćaju dodatne statistike regresije.

Bilješke

Odabrane informacije iz funkcije mogu se dobiti putem funkcije INDEX, na primjer:

Y-presretak (slobodni termin):

INDEX(LINEST(y,x),2)

Preciznost aproksimacije pomoću prave linije izračunate funkcijom LINEST zavisi od stepena rasipanja podataka. Što su podaci bliži pravoj liniji, to je tačniji model koji koristi funkcija LINEST. Funkcija LINEST koristi najmanje kvadrate kako bi odredila najbolje uklapanje u podatke.

Izvođenjem regresione analize, Microsoft Excel izračunava za svaku tačku kvadrat razlike između predviđene vrijednosti y i stvarne vrijednosti y. Zbir ovih kvadrata razlika naziva se rezidualni zbir kvadrata. Microsoft Excel zatim izračunava zbir kvadrata razlika između stvarnih y vrijednosti i srednje vrijednosti y, koji se naziva ukupan zbir kvadrata (regresijski zbir kvadrata + preostali zbir kvadrata). Što je manji rezidualni zbir kvadrata u poređenju sa ukupnim zbirom kvadrata, veći je koeficijent determinacije r2, koji meri koliko dobro regresiona jednačina objašnjava odnose između varijabli.

Imajte na umu da y vrijednosti predviđene jednadžbom regresije možda neće biti tačne ako su izvan raspona vrijednosti y koje su korištene za definiranje jednadžbe.

Primjer 1 Nagib i Y-presjek

LINEST((1;9;5;7);(0;4;2;3)) je jednako (2;1), nagib = 2 i y-presjek = 1.

Korištenje F i R2 statistike

Možete koristiti F statistiku da odredite da li je rezultat s visokom vrijednošću r2 rezultat slučajnosti. Ako je F-opaženi veći od F-kritičnog, tada postoji odnos između varijabli. F-kritični se može dobiti iz tabele F-kritičnih vrijednosti u bilo kojoj priručniku o matematičkoj statistici. Da biste pronašli ovu vrijednost pomoću jednostranog testa, postavite vrijednost Alpha (vrijednost Alpha se koristi za označavanje vjerovatnoće pogrešnog zaključivanja da postoji jaka veza) jednaku 0,05, a za broj stupnjeva slobode ( obično označavaju v1 i v2), stavimo v1 = k = 4 i v2 = n - (k + 1) = 11 - (4 + 1) = 6, gdje je k broj varijabli, a n broj tačaka podataka . Iz referentne tabele, F-kritični je 4,53. Uočena F-vrijednost je 459,753674 (ova vrijednost je dobijena u primjeru koji smo izostavili), što je primjetno veće od F-kritične vrijednosti od 4,53. Stoga je rezultirajuća regresijska jednačina korisna za predviđanje željenog rezultata.

Prosječna greška aproksimacije- prosječno odstupanje izračunatih vrijednosti od stvarnih:

Gdje je y x izračunata vrijednost iz jednadžbe.

Prosječna greška aproksimacije do 15% ukazuje na dobro prilagođen model jednačine.

Za sedam teritorija Uralske regije za 199X poznate su vrijednosti dvije karakteristike.

Obavezno:
1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) moć;
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model do kraja prosječna greška aproksimacije A cf i Fišerov F-test.

Rješenje provodimo korištenjem online kalkulator Jednačina linearne regresije.
a) jednačina linearne regresije;
Korišćenjem grafičke metode.
Ova metoda se koristi za vizuelni prikaz oblika povezanosti proučavanih ekonomskih pokazatelja. Da biste to učinili, crta se graf u pravokutnom koordinatnom sistemu, pojedinačne vrijednosti rezultujuće karakteristike Y iscrtavaju se duž ordinatne ose, a pojedinačne vrijednosti faktorske karakteristike X crtaju se duž ose apscise.
Skup tačaka rezultantnih i faktorskih karakteristika se naziva korelaciono polje.


Na osnovu korelacionog polja može se postaviti hipoteza (za stanovništva) da je odnos između svih mogućih vrijednosti X i Y linearan.
Jednačina linearne regresije je y = bx + a + ε
Ovdje je ε slučajna greška (odstupanje, poremećaj).
Razlozi za postojanje slučajne greške:
1. Neuključivanje značajnih objašnjavajućih varijabli u regresijski model;
2. Agregacija varijabli. Na primjer, funkcija ukupne potrošnje je pokušaj opšti izraz zbir pojedinačnih odluka o potrošnji. Ovo je samo aproksimacija pojedinačnih odnosa koji imaju različite parametre.
3. Netačan opis strukture modela;
4. Neispravna funkcionalna specifikacija;
5. Greške u mjerenju.
Budući da su odstupanja ε i za svako specifično opažanje i slučajna i njihove vrijednosti u uzorku su nepoznate, tada:
1) iz opažanja x i i y i mogu se dobiti samo procjene parametara α i β
2) Procene parametara α i β regresionog modela su vrednosti a i b, respektivno, koje su slučajne prirode, jer odgovaraju slučajnom uzorku;
Tada će jednadžba regresije procjene (konstruirana iz podataka uzorka) imati oblik y = bx + a + ε, gdje su e i uočene vrijednosti (procjene) grešaka ε i , a a i b su procjene parametri α i β regresionog modela koji treba pronaći.
Za procjenu parametara α i β koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata).




Dobijamo b = -0,35, a = 76,88
Regresijska jednadžba:
y = -0,35 x + 76,88

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y - y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Napomena: vrijednosti y(x) se nalaze iz rezultirajuće regresijske jednadžbe:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0,35*59 + 76,88 = 56,47
... ... ...

Greška aproksimacije
Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije. Prosječna greška aproksimacije- prosječno odstupanje izračunatih vrijednosti od stvarnih:

Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.

F-statistika. Fisherov kriterijum.










3. Vrijednost tabele određena iz Fisherovih distribucijskih tabela za dati nivo značajnosti, uzimajući u obzir da je broj stupnjeva slobode za ukupan iznos kvadrati (veća varijansa) je 1, a broj stepeni slobode preostalog zbira kvadrata (manja varijansa) u linearnoj regresiji je n-2.
4. Ako je stvarna vrijednost F-testa manja od vrijednosti u tabeli, onda kažu da nema razloga za odbacivanje nulte hipoteze.
U suprotnom, nulta hipoteza se odbacuje i alternativna hipoteza o statističkom značaju jednačine u cjelini se prihvata s vjerovatnoćom (1-α).

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

b) regresija snage;
Rješenje se provodi pomoću usluge nelinearne regresije. Prilikom odabira navedite Snaga y = ax b
c) eksponencijalna regresija;
d) model jednakostranične hiperbole.
Sistem normalnih jednačina.

Za naše podatke sistem jednačina ima oblik
7a + 0,1291b = 405,2
0,1291a + 0,0024b = 7,51
Iz prve jednačine izražavamo a i zamjenjujemo ga u drugu jednačinu
Dobijamo b = 1054,67, a = 38,44
Regresijska jednadžba:
y = 1054,67 / x + 38,44
Greška aproksimacije.
Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije.

Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.

Fisherov kriterijum.
Testiranje značajnosti regresijskog modela provodi se korištenjem Fišerovog F testa, čija se izračunata vrijednost nalazi kao omjer varijanse originalne serije zapažanja indikatora koji se proučava i nepristrasne procjene varijanse zaostalog niza za ovaj model.
Ako je izračunata vrijednost sa k1=(m) i k2=(n-m-1) stepenima slobode veća od tabelarne vrijednosti na datom nivou značajnosti, tada se model smatra značajnim.

gdje je m broj faktora u modelu.
Statistička značajnost uparene linearne regresije se procjenjuje korištenjem sljedećeg algoritma:
1. Postavlja se nulta hipoteza da je jednadžba u cjelini statistički beznačajna: H 0: R 2 =0 na nivou značajnosti α.
2. Zatim odredite stvarnu vrijednost F-kriterijuma:

gdje je m=1 za parnu regresiju.
Tabelarna vrijednost kriterija sa stupnjevima slobode k1=1 i k2=5, Fkp = 6,61
Budući da je stvarna vrijednost F< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

5. Koristeći F-test, ustanovljeno je da je rezultirajuća uparena regresiona jednačina u cjelini statistički beznačajna i da ne opisuje na adekvatan način proučavani fenomen odnosa između vrijednosti mjesečne penzije y i troškova života x.

6. Generiran je ekonometrijski model višestruke linearne regresije koji povezuje iznos neto prihoda uslovne firme y sa obrtom kapitala x1 i utrošenim kapitalom x2

7. Izračunavanjem koeficijenata elastičnosti pokazuje se da se pri promeni prometa kapitala za 1% iznos neto prihoda preduzeća menja za 0,0008%, a kada se upotrebljeni kapital menja za 1% iznos neto prihoda preduzeća promjene za 0,56%.

8. Korištenjem t-testa procijenjena je statistička značajnost koeficijenata regresije.Utvrđeno je da je eksplanatorna varijabla x 1 statistički beznačajna i da se može isključiti iz jednadžbe regresije, dok je u isto vrijeme eksplanatorna varijabla x 2 statistički značajno.

9. Koristeći F-test ustanovljeno je da je rezultirajuća uparena regresiona jednačina u cjelini statistički značajna, te da adekvatno opisuje proučavani fenomen odnosa između neto prihoda uslovnog preduzeća y i obrta kapitala x 1 i utrošenog kapitala. x 2.

10. Izračunata je prosječna greška aproksimacije statističkih podataka linearnom višestrukom regresionom jednačinom koja je iznosila 29,8%. Pokazuje se zbog kojeg posmatranja u statističkoj bazi podataka veličina ove greške prelazi dozvoljenu vrijednost.

14. Izgradnja uparenog regresijskog modela bez korištenja EXCEL-a.

Koristeći statistički materijal dat u tabeli 3.5 potrebno je:

2. Procijenite bliskost veze koristeći indikatore korelacije i determinacije.

3. Koristeći koeficijent elastičnosti odrediti stepen povezanosti između faktorske karakteristike i rezultantne karakteristike.

4. Odrediti prosječnu grešku aproksimacije.

5. Procijeniti statističku pouzdanost modeliranja koristeći Fišerov F-test.

Tabela 3.5. Početni podaci.

Udio novčanih prihoda usmjerenih na povećanje štednje na depozitima, kreditima, certifikatima i za kupovinu deviza, u ukupnom iznosu prosječnog novčanog prihoda po stanovniku, %

Prosječne mjesečne obračunate plaće, k.u.

Kaluzhskaya

Kostromskaya

Orlovskaya

Ryazan

Smolenskaya

Za određivanje nepoznatih parametara b 0 , b 1 uparene jednačine linearne regresije koristimo standardni sistem normalnih jednačina, koji ima oblik

(3.7)

Za rješavanje ovog sistema prvo je potrebno odrediti vrijednosti Sx 2 i Sxy. Ove vrijednosti se određuju iz tabele izvornih podataka, dopunjujući je odgovarajućim kolonama (tabela 3.6).

Tabela 3.6. Ka izračunavanju koeficijenata regresije.

Tada sistem (3.7) poprima oblik

Izražavajući b 0 iz prve jednačine i zamjenom rezultirajućeg izraza u drugu jednačinu dobijamo:

Izvođenjem množenja član po član i otvaranjem zagrada dobijamo:

Konačno, uparena jednačina linearne regresije koja povezuje vrijednost udjela gotovinskog dohotka stanovništva u cilju povećanja štednje y sa prosječnom mjesečnom obračunatom platom x ima oblik:

Dakle, kako se konstruiše jednačina uparene linearne regresije, određujemo koeficijent linearne korelacije prema zavisnosti:

gdje su vrijednosti standardnih devijacija odgovarajućih parametara.

Da bismo izračunali koeficijent linearne korelacije iz zavisnosti (3.9), vršimo međuproračune.

Zamjenom vrijednosti pronađenih parametara u izraz (3.9) dobijamo

.

Dobijena vrijednost koeficijenta linearne korelacije ukazuje na postojanje slabe inverzne statističke veze između udjela novčanih prihoda stanovništva usmjerenih na povećanje štednje y i iznosa prosječne mjesečne obračunate zarade x.

Koeficijent determinacije je , što znači da je samo 9,6% objašnjeno regresijom eksplanatorne varijable x na y. Shodno tome, vrijednost 1 jednaka 90,4% karakteriše udio varijanse varijable y uzrokovan utjecajem svih ostalih eksplanatornih varijabli koje nisu uzete u obzir u ekonometrijskom modelu.

Koeficijent elastičnosti je

Shodno tome, kada se prosječna mjesečna obračunata plata promijeni za 1%, udio novčanih prihoda stanovništva usmjerenih na povećanje štednje također se smanjuje za 1%, a sa povećanjem zarada dolazi do smanjenja udjela novčanih prihoda stanovništva. stanovništva u cilju povećanja štednje. Ovaj zaključak je u suprotnosti sa zdravim razumom i može se objasniti samo neispravnošću generisanog matematičkog modela.

Izračunajmo prosječnu grešku aproksimacije.

Tabela 3.7. Prema proračunu prosječne greške aproksimacije.

Dobijena vrijednost prelazi (12...15)%, što ukazuje na značajnost prosječnog odstupanja izračunatih podataka od stvarnih podataka na kojima je izgrađen ekonometrijski model.

Pouzdanost statističkog modeliranja će se vršiti na osnovu Fišerovog F-testa. Teorijska vrijednost Fisherovog kriterija F calc određuje se iz omjera vrijednosti faktora i preostale disperzije izračunatih za jedan stepen slobode prema formuli

gdje je n broj zapažanja;

m je broj eksplanatornih varijabli (za primjer koji se razmatra m m =1).

Kritična vrijednost F crit je određena iz statističkih tabela i za nivo značajnosti a = 0,05 je 10,13. Pošto je F izračunao

15. Izgradnja modela višestruke regresije bez korištenja EXCEL-a.

Koristeći statistički materijal dat u tabeli 3.8 morate:

1. Konstruirajte linearnu višestruku regresiju i objasnite ekonomsko značenje njenih parametara.

2. Dajte komparativnu ocjenu bliskosti odnosa između faktora i rezultirajućeg atributa koristeći prosječne (opće) koeficijente elastičnosti.

3. Procijeniti statističku značajnost koeficijenata regresije koristeći t-test i nultu hipotezu o ne-značajnosti jednačine koristeći F-test.

4. Procijeniti kvalitet jednačine određivanjem prosječne greške aproksimacije.

Tabela 3.8. Početni podaci.

Neto prihod, milion američkih dolara

Promet kapitala u milionima američkih dolara

Korišteni kapital, milion američkih dolara

Za određivanje nepoznatih parametara b 0 , b 1 , b 2 jednačine višestruke linearne regresije koristimo standardni sistem normalnih jednačina, koji ima oblik

(3.11)

Za rješavanje ovog sistema prvo je potrebno odrediti vrijednosti Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Ove vrijednosti se određuju iz tabele izvornih podataka, dopunjujući je odgovarajućim kolonama (tabela 3.9).

Tabela 3.9. Ka izračunavanju koeficijenata regresije.

Tada sistem (3.11) poprima oblik

Da bismo riješili ovaj sistem, koristit ćemo Gaussovu metodu, koja se sastoji od sekvencijalnog eliminisanja nepoznanica: podijelite prvu jednačinu sistema sa 10, zatim pomnožite rezultirajuću jednačinu sa 370,6 i oduzmite je od druge jednačine sistema, a zatim pomnožite rezultirajuću jednačinu za 158,20 i oduzmite je od treće jednačine sistema. Ponavljajući navedeni algoritam za transformisanu drugu i treću jednačinu sistema, dobijamo:

Þ Þ

Þ .

Nakon transformacije imamo:

Tada je konačna zavisnost neto prihoda od obrta kapitala i utrošenog kapitala u obliku linearna jednačina višestruka regresija ima oblik:

Iz dobijene ekonometrijske jednačine može se vidjeti da s povećanjem utrošenog kapitala raste neto prihod i obrnuto, s povećanjem obrta kapitala, neto prihod opada. Osim toga, što je veći koeficijent regresije, veći je utjecaj eksplanatorne varijable na zavisnu varijablu. U primjeru koji se razmatra, vrijednost koeficijenta regresije je veća od vrijednosti koeficijenta, stoga utrošeni kapital ima značajno veći utjecaj na neto prihod od obrta kapitala. Da bismo kvantificirali ovaj zaključak, odredit ćemo parcijalne koeficijente elastičnosti.

Analiza rezultata takođe pokazuje da upotrebljeni kapital ima veći uticaj na neto prihod. Tako se, posebno, sa povećanjem korišćenog kapitala za 1%, neto prihod povećava za 1,17%. Istovremeno, sa povećanjem obrta kapitala za 1%, neto prihod se smanjuje za 0,5%.

Teorijska vrijednost Fišerovog kriterija F rač.

Vrijednost kritične vrijednosti F crit je određena iz statističkih tabela i za nivo značajnosti a = 0,05 jednaka je 4,74. Pošto je F calc > F crit, nulta hipoteza se odbacuje i rezultirajuća regresiona jednačina se prihvata kao statistički značajna.

Procjena statističke značajnosti koeficijenata regresije i t-kriterijuma svodi se na poređenje numeričke vrijednosti ovih koeficijenata sa veličinom njihovih slučajnih grešaka i prema odnosu:

Radna formula za izračunavanje teorijske vrijednosti t-statistike je:

, (3.13)

gdje su koeficijenti parne korelacije i koeficijent višestruke korelacije izračunati iz zavisnosti:

Tada su teorijske (izračunate) vrijednosti t-statistike jednake:

Budući da je kritična vrijednost t-statistike, određena iz statističkih tabela za nivo značajnosti a = 0,05 jednak t crit = 2,36, po apsolutnoj vrijednosti veća od = - 1,798, onda se nulta hipoteza ne odbacuje i eksplanatorna varijabla x 1 je statistički beznačajan i može se isključiti iz jednačine regresije. Suprotno tome, za drugi koeficijent regresije > t crit (3,3 > 2,36), a eksplanatorna varijabla x 2 je statistički značajna.

Izračunajmo prosječnu grešku aproksimacije.

Tabela 3.10. Prema proračunu prosječne greške aproksimacije.

Tada je prosječna greška aproksimacije

Dobijena vrijednost ne prelazi dozvoljenu granicu jednaku (12…15)%.

16. Istorijat razvoja teorije mjerenja

TI se prvo razvio kao teorija psihofizičkih mjerenja. U poslijeratnim publikacijama američki psiholog S.S. Stevens se fokusirao na mjerne skale. U drugoj polovini 20. veka. Opseg primjene TI se brzo širi. Jedan od tomova "Enciklopedije psiholoških nauka" objavljen u SAD-u 50-ih zvao se "Psihološka mjerenja". Autori ove publikacije proširili su opseg TI sa psihofizike na psihologiju uopšte. U članku u ovoj zbirci, „Osnove teorije mjerenja“, prezentacija je bila na apstraktnom matematičkom nivou, bez upućivanja na bilo koje specifično polje primjene. U njemu je akcenat stavljen na „homomorfizme empirijskih sistema sa relacijama u numeričke“ (ovde nema potrebe ulaziti u ove matematičke termine), a matematička složenost prikaza je povećana u odnosu na radove S.S. Stevens.

U jednom od prvih domaćih članaka o TI (kraj 60-ih godina) ustanovljeno je da se bodovi koje dodeljuju stručnjaci prilikom procene predmeta ispitivanja, po pravilu, mere na ordinalnoj skali. Radovi koji su se pojavili početkom 70-ih doveli su do značajnog proširenja obima upotrebe TI. Primijenjena je u pedagoškoj kvalimetriji (mjerenje kvaliteta znanja studenata), u sistemskim istraživanjima i raznim teorijskim problemima. stručne procjene, za agregiranje pokazatelja kvaliteta proizvoda, u sociološkim studijama, itd.

Kao dva glavna problema TI, uz utvrđivanje tipa skale za merenje konkretnih podataka, izneta je potraga za algoritmima za analizu podataka čiji se rezultat ne menja nikakvom dozvoljenom transformacijom skale (tj. invarijantan je u odnosu na skalu). Ordinalne skale u geografiji su vjetrovi Beaufortove skale („tiho“, „blag vjetar“, „umjeren vjetar“ itd.), skala jačine potresa. Očigledno, ne može se reći da je potres magnitude 2 (lampa koja se ljulja ispod plafona) tačno 5 puta slabiji od zemljotresa magnitude 10 (potpuno uništenje svega na površini zemlje).

U medicini, ordinalne skale su skala faza hipertenzije (prema Myasnikovu), skala stupnjeva srčane insuficijencije (prema Strazhesko-Vasilenko-Langu), skala težine koronarne insuficijencije (prema Fogelsonu) itd. . Sve ove skale su izgrađene prema sljedećoj shemi: nije otkrivena bolest; prva faza bolesti; druga faza; treći stadij... Ponekad se razlikuju stadijumi 1a, 16 itd. Svaki stadij ima jedinstvenu medicinsku karakteristiku. Kada se opisuju grupe invaliditeta, brojevi se koriste suprotnim redoslijedom: najteža je prva grupa invaliditeta, zatim druga, najlakša je treća.

Brojevi kuća se mjere i na ordinacionoj skali - pokazuju kojim redom se kuće nalaze duž ulice. Brojevi svezaka u sabranim delima pisca ili brojevi predmeta u arhivi preduzeća obično su povezani sa hronološkim redosledom njihovog nastanka.

Kod ocjenjivanja kvaliteta proizvoda i usluga popularne su ordinalne skale u tzv. kvalimetriji (doslovni prijevod – mjerenje kvaliteta). Naime, jedinica proizvodnje se ocjenjuje kao prohodna ili nepodobna. Za detaljniju analizu koristi se skala sa tri gradacije: postoje značajni nedostaci - postoje samo manji nedostaci - nema nedostataka. Ponekad se koriste četiri gradacije: postoje kritični nedostaci (što onemogućava korištenje) - postoje značajni nedostaci - postoje samo manji nedostaci - nema nedostataka. Ocjenjivanje proizvoda ima slično značenje - premium, prvi razred, drugi razred,...

Prilikom procjene uticaja na životnu sredinu, prva, najopštija procjena je obično redovna, na primjer: prirodna sredina je stabilna - prirodna sredina je potlačena (degradirana). Ekološko-medicinska skala je slična: nema izraženog utjecaja na zdravlje ljudi - primjećuje se negativan utjecaj na zdravlje.

Redna skala se koristi i u drugim oblastima. U ekonometriji su to prije svega različite metode stručnih procjena.

Sve skale merenja su podeljene u dve grupe - skale kvalitativnih karakteristika i skale kvantitativnih karakteristika. Ordinalna skala i skala imenovanja su glavne skale kvalitativnih atributa, tako da se u mnogim specifičnim oblastima rezultati kvalitativne analize mogu smatrati mjerenjima na ovim skalama. Skale kvantitativnih karakteristika su skale intervala, omjera, razlika, apsoluta. Koristeći intervalnu skalu, mjeri se veličina potencijalne energije ili koordinata tačke na pravoj liniji. U tim slučajevima, ni prirodno porijeklo ni prirodna mjerna jedinica ne mogu se označiti na skali. Istraživač mora postaviti početnu tačku i sam odabrati mjernu jedinicu. Prihvatljive transformacije u intervalnoj skali su linearne rastuće transformacije, tj. linearne funkcije. Temperaturne skale Celzijus i Farenhajt su povezane upravo ovom zavisnošću: °C = 5/9 (°F - 32), gdje je °C temperatura (u stepenima) na Celzijusovoj skali, a °F temperatura na Farenhajtu skala.

Od kvantitativnih skala, u nauci i praksi najčešće su skale omjera. Imaju prirodnu referentnu tačku - nulu, tj. odsustvo količine, ali nema prirodne mjerne jedinice. Većina fizičkih jedinica se mjeri na skali omjera: tjelesna masa, dužina, naboj, kao i cijene u privredi. Prihvatljive transformacije u skali omjera su slične (mijenja se samo skala). Drugim riječima, linearne rastuće transformacije bez slobodnog termina, na primjer, pretvaranje cijena iz jedne valute u drugu po fiksnoj stopi. Pretpostavimo da uporedimo ekonomsku efikasnost dva investiciona projekta koristeći cijene u rubljama. Neka se prvi projekat pokaže boljim od drugog. Sada pređimo na kinesku valutu - juan, koristeći fiksni kurs konverzije. Očigledno je da bi prvi projekat opet trebao biti isplativiji od drugog. Međutim, algoritmi proračuna ne osiguravaju automatski ispunjenje ovog uvjeta, te je potrebno provjeriti da li je ispunjen. Rezultati takvog testa za prosječne vrijednosti su opisani u nastavku.

Skala razlike ima prirodnu mjernu jedinicu, ali nema prirodnu referentnu tačku. Vrijeme se mjeri na skali razlika, ako se kao prirodna mjerna jedinica uzme godina (ili dan - od podneva do podneva), a na skali intervala u opšti slučaj. Na sadašnjem nivou znanja nemoguće je naznačiti prirodnu polaznu tačku. Različiti autori na različite načine računaju datum stvaranja svijeta, kao i trenutak rođenja Hristovog.

Samo za apsolutnu skalu rezultati mjerenja su brojevi u uobičajenom smislu riječi, na primjer, broj ljudi u prostoriji. Za apsolutnu skalu, dozvoljena je samo transformacija identiteta.

U procesu razvoja odgovarajuće oblasti znanja, tip skale se može promijeniti. Dakle, najprije se temperatura mjerila na ordinalnoj skali (hladnije - toplije). Zatim - prema intervalu (Celzijusova, Farenhajtova, Reaumur skala). Konačno, nakon otkrića apsolutne nule, temperatura se može smatrati mjerenom na skali omjera (Kelvinova skala). Treba napomenuti da ponekad postoje neslaganja među stručnjacima o tome koje skale treba koristiti za razmatranje određenih stvarnih izmjerenih vrijednosti. Drugim riječima, proces mjerenja uključuje i određivanje vrste vage (zajedno sa obrazloženjem za izbor određene vrste vage). Pored navedenih šest glavnih tipova skala, ponekad se koriste i druge skale.

17. Invarijantni algoritmi i prosječne vrijednosti.

Formulirajmo glavni zahtjev za algoritme analize podataka u TI: zaključci izvedeni na osnovu podataka mjerenih na skali određenog tipa ne bi se trebali mijenjati kada je skala mjerenja ovih podataka dozvoljena. Drugim riječima, zaključci moraju biti invarijantni prema važećim transformacijama skale.

Dakle, jedan od glavnih ciljeva teorije mjerenja je suzbijanje subjektivnosti istraživača pri dodjeljivanju numeričkih vrijednosti stvarnim objektima. Dakle, udaljenosti se mogu mjeriti u aršinima, metrima, mikronima, miljama, parsecima i drugim mjernim jedinicama. Masa (težina) - u poodima, kilogramima, funtama, itd. Cijene za robu i usluge mogu se navesti u juanima, rubljama, tenge, grivnama, latovima, krunama, markama, američkim dolarima i drugim valutama (podliježu određenim stopama konverzije). Istaknimo jednu vrlo važnu, iako sasvim očiglednu činjenicu: izbor mjernih jedinica zavisi od istraživača, tj. subjektivno. Statistički zaključci mogu biti adekvatni stvarnosti samo kada ne zavise od toga koju jedinicu mere istraživač preferira, kada su invarijantni u odnosu na dozvoljenu transformaciju skale. Od mnogih algoritama za ekonometrijsku analizu podataka, samo nekoliko zadovoljava ovaj uslov. Pokažimo to upoređivanjem prosječnih vrijednosti.

Neka je X 1, X 2,.., X n uzorak volumena n. Često se koristi aritmetička sredina. Upotreba aritmetičkog prosjeka je toliko uobičajena da se druga riječ u terminu često izostavlja i ljudi govore o prosječnoj plati, prosječnom dohotku i drugim prosjecima za specifične ekonomske podatke, što znači „prosjek“ aritmetičkog prosjeka. Ova tradicija može dovesti do pogrešnih zaključaka. Pokažimo to na primjeru izračunavanja prosječne plate (prosječnog dohotka) zaposlenih u hipotetičkom preduzeću. Od 100 radnika samo njih 5 ima platu koja je veća, a plata preostalih 95 znatno je manja od aritmetičkog prosjeka. Razlog je očigledan - plata jedne osobe - generalnog direktora - veća je od plate 95 radnika - niskokvalifikovanih i visokokvalifikovanih radnika, inženjera i kancelarijskih radnika. Situacija podsjeća na onu opisanu u poznatoj priči o bolnici u kojoj je 10 pacijenata, od kojih 9 ima temperaturu od 40°C, a jedan je već patio, ležeći u mrtvačnici sa temperaturom od 0°C. C. U međuvremenu, prosječna temperatura u bolnici je 36°C - ne može biti bolje!

Dakle, aritmetička sredina se može koristiti samo za prilično homogene populacije (bez velikih odstupanja u jednom ili drugom smjeru). Koje prosječne vrijednosti treba koristiti za opisivanje plata? Sasvim je prirodno koristiti medijanu - aritmetičku sredinu 50. i 51. zaposlenih, ako je njihov plate poredane u nepadajućem redosledu. Prvo dolaze plate 40 niskokvalifikovanih radnika, a zatim - od 41. do 70. radnika - plate visokokvalifikovanih radnika. Posljedično, medijana pada upravo na njih i jednaka je 200. Za 50 radnika plata ne prelazi 200, a za 50 - najmanje 200, tako da medijana pokazuje „centar“ oko kojeg je najveći dio proučavanih vrijednosti ​su grupisane. Druga prosječna vrijednost je mod, vrijednost koja se najčešće pojavljuje. U predmetnom slučaju to su plate niskokvalifikovanih radnika, tj. 100. Dakle, za opisivanje plate imamo tri prosječne vrijednosti - mod (100 jedinica), medijan (200 jedinica) i aritmetička sredina (400 jedinica).

Za distribuciju dohotka i plata posmatrane u stvarnom životu, isti obrazac je istinit: mod je manji od medijane, a medijan je manji od aritmetičke sredine.

Zašto se prosjeci koriste u ekonomiji? Obično se kolekcija brojeva zamijeni jednim brojem kako bi se uporedile populacije koristeći prosjeke. Neka je, na primjer, Y 1, Y 2,..., Y n skup stručnih procjena „datih“ jednom objektu ekspertize (na primjer, jedna od opcija za strateški razvoj kompanije), Z 1 , Z 2,..., Z n -druga (još jedna verzija ovog razvoja). Kako se ove populacije upoređuju? Očigledno, najlakši način je prosječnim vrijednostima.

Kako izračunati prosjek? Poznato različite vrste prosječne vrijednosti: aritmetička sredina, medijana, mod, geometrijska sredina, harmonijska sredina, kvadratna sredina. Da vas podsjetimo na to opšti koncept prosječnu vrijednost uveo je francuski matematičar iz prve polovine 19. vijeka. akademik O. Cauchy. To je kako slijedi: prosječna vrijednost je bilo koja funkcija F(H 1, H 2,..., H n) takva da, za sve moguće vrijednosti argumenata, vrijednost ove funkcije nije manja od minimalne brojeva X 1, X 2,... , X n , i ne više od maksimuma ovih brojeva. Sve gore navedene vrste proseka su Cauchyjevi proseci.

Uz prihvatljivu transformaciju skale, vrijednost prosjeka se očito mijenja. Ali zaključci za koju populaciju je prosjek veći, a za koju manji ne bi se trebali mijenjati (u skladu sa zahtjevom invarijantnosti zaključaka, prihvaćenim kao glavnim zahtjevom u TI). Formulirajmo odgovarajući matematički problem traženja tipa prosječnih vrijednosti čiji je rezultat poređenja stabilan u odnosu na dozvoljene transformacije skale.

Neka je F(H 1 H 2 ,..., H n) Cauchyjev prosjek. Neka je prosjek za prvu populaciju manji od prosjeka za drugu populaciju: tada je, prema TI, za stabilnost rezultata poređenja prosjeka potrebno da za bilo koju dopuštenu transformaciju g iz grupe dopuštenih transformacija u na odgovarajućoj skali tačno je da je prosjek transformiranih vrijednosti iz prve populacije također manji od prosjeka transformiranih vrijednosti za drugi skup. Štaviše, formulirani uslov mora biti istinit za bilo koja dva skupa Y 1, Y 2,...,Y n i Z 1, Z 2,..., Z n i, podsjetimo, bilo koju dopuštenu transformaciju. Prosječne vrijednosti koje zadovoljavaju formulirani uvjet nazivamo prihvatljivim (u odgovarajućoj skali). Prema TI, samo takvi prosjeci se mogu koristiti pri analizi stručnih mišljenja i drugih podataka mjerenih na skali koja se razmatra.

Korišćenjem matematička teorija, razvijen 1970-ih, uspijeva opisati vrstu prihvatljivih prosjeka na osnovnim skalama. Jasno je da je za podatke mjerene na skali imena, samo modus pogodan kao prosjek.

18. Prosječne vrijednosti na ordinalnoj skali

Razmotrimo obradu stručnih mišljenja mjereno na ordinalnoj skali. Sljedeća izjava je tačna.

Teorema1 . Od svih Cauchyjevih prosjeka, jedini prihvatljivi prosjeci na ordinalnoj skali su termini varijantne serije(redna statistika).

Teorema 1 vrijedi pod uslovom da je prosjek F(H 1 H 2 ,..., H n) kontinuirana (preko skupa varijabli) i simetrična funkcija. Ovo poslednje znači da kada se argumenti preurede, vrednost funkcije F(H 1 H 2 ,..., H n) se ne menja. Ovaj uslov je sasvim prirodan, jer nalazimo prosječnu vrijednost za totalitet (skup), a ne za niz. Skup se ne mijenja ovisno o redoslijedu kojim navodimo njegove elemente.

Prema teoremi 1, medijana se može koristiti kao prosjek za podatke mjerene na ordinalnoj skali (ako je veličina uzorka neparna). Ako je volumen paran, treba koristiti jedan od dva centralna pojma varijacionog niza - kako se ponekad nazivaju, lijevi medijan ili desni medijan. Moda se također može koristiti - uvijek je član serije varijacija. Ali nikada ne možete izračunati aritmetičku sredinu, geometrijsku sredinu, itd.

Sljedeća teorema je tačna.

Teorema 2. Neka su Y 1, Y 2,...,Y m nezavisne identično raspoređene slučajne varijable sa funkcijom distribucije F(x), a Z 1, Z 2,..., Zn nezavisne identično raspoređene slučajne varijable sa distribucijama funkcija H(x), a uzorci Y 1, Y 2,...,Y m i Z 1, Z 2,..., Z n su nezavisni jedan od drugog i MY X > MZ X. Da bi vjerovatnoća događaja težila 1 u min(m, n) za bilo koju striktno rastuću kontinuiranu funkciju g koja zadovoljava uvjet |g i |>X potrebno je i dovoljno da nejednakost F(x) bude zadovoljena za sve x< Н(х), причем существовало число х 0 , для которого F(x 0)

Bilješka. Stanje sa gornjom granicom je čisto intra-matematičke prirode. Zapravo, funkcija g je proizvoljna prihvatljiva transformacija na ordinalnoj skali.

Prema teoremi 2, aritmetička sredina se također može koristiti u ordinalnoj skali ako se uporede uzorci iz dvije distribucije koje zadovoljavaju nejednakost datu u teoremi. Jednostavno rečeno, jedna od funkcija distribucije uvijek mora ležati iznad druge. Funkcije distribucije se ne mogu ukrštati, dozvoljeno im je samo da se dodiruju. Ovaj uvjet je ispunjen, na primjer, ako se funkcije distribucije razlikuju samo po pomaku:

F(x) = N(x + ∆)

za neki ∆.

Posljednji uvjet je zadovoljen ako se pomoću istog mjernog instrumenta mjere dvije vrijednosti određene veličine, kod kojih se raspodjela grešaka ne mijenja pri prelasku s mjerenja jedne vrijednosti dotične veličine na mjerenje druge.

Prosjek prema Kolmogorovu

Generalizacija nekoliko proseka navedenih iznad je Kolmogorov prosek. Za brojeve X 1, X 2,..., X n, Kolmogorovljev prosjek se izračunava pomoću formule

G((F(X l) + F(X 2)+...F(X n))/n),

gdje je F strogo monotona funkcija (tj. striktno rastuća ili striktno opadajuća),

G je inverzna funkcija od F.

Među Kolmogorovljevim prosjekima ima mnogo poznatih likova. Dakle, ako je F(x) = x, onda je Kolmogorovljeva sredina aritmetička sredina, ako je F(x) = lnx, onda je geometrijska sredina, ako je F(x) = 1/x, onda je harmonijska sredina, ako je F( x) = x 2, zatim srednji kvadrat, itd. Kolmogorovljev prosjek je poseban slučaj Cauchyjevog prosjeka. S druge strane, popularni prosjeci kao što su medijana i modus ne mogu se predstaviti kao Kolmogorovljevi prosjeci. U monografiji su dokazane sljedeće tvrdnje.

Teorema3 . Ako su određeni intramatematički uslovi pravilnosti u intervalnoj skali važeći, od svih Kolmogorovljevih sredina, dozvoljena je samo aritmetička sredina. Dakle, geometrijska sredina ili srednji kvadrat temperatura (u Celzijusima) ili udaljenosti su besmislene. Aritmetička sredina se mora koristiti kao prosjek. Također možete koristiti medijanu ili mod.

Teorema 4. Ako su određeni intramatematički uslovi pravilnosti u skali omjera važeći, od svih Kolmogorovljevih prosjeka, dozvoljeni su samo prosjeci snage sa F(x) = x c i geometrijskim prosjekom.

Komentar. Geometrijska sredina je granica srednje vrijednosti snage za c > 0.

Postoje li prosjeci Kolmogorova koji se ne mogu koristiti u skali omjera? Naravno. Na primjer F(x) = e x.

Slično prosječnim vrijednostima, mogu se proučavati i druge statističke karakteristike - indikatori raspršenosti, povezanosti, udaljenosti itd. Nije teško pokazati, na primjer, da se koeficijent korelacije ne mijenja pri bilo kakvoj dozvoljenoj transformaciji u posudi intervala, baš kao i omjer disperzija, disperzija se ne mijenja u skali razlika, koeficijent varijacije u skala omjera itd.

Gore navedeni rezultati o prosječnim vrijednostima se široko koriste, ne samo u ekonomiji, menadžmentu, teoriji stručnih procjena ili sociologiji, već i u inženjerstvu, na primjer, za analizu metoda za agregiranje senzora u automatiziranim sistemima upravljanja procesima visokih peći. TI je od velike praktične važnosti u problemima standardizacije i upravljanja kvalitetom, posebno u kvalimetriji, gdje su dobijeni zanimljivi teorijski rezultati. Tako, na primjer, svaka promjena težinskih koeficijenata pojedinih pokazatelja kvalitete proizvoda dovodi do promjene redoslijeda proizvoda prema ponderiranom prosječnom pokazatelju (ovaj teorem je dokazao prof. V.V. Podinovski). Shodno tome, gore navedene kratke informacije o TI i njegovim metodama kombinuju, u izvesnom smislu, ekonomiju, sociologiju i inženjerske nauke i predstavljaju adekvatan aparat za rešavanje složenih problema koji ranije nisu bili podložni delotvornoj analizi, štaviše, otvara se put ka izgradnji realističnih modela i rješavanju problema prognoze.

22. Uparena linearna regresija

Okrenimo se sada detaljnijem proučavanju najjednostavnijeg slučaja linearne regresije u paru. Linearna regresija je opisana najjednostavnijim funkcionalnim odnosom u obliku pravolinijske jednačine i karakterizirana je transparentnom interpretacijom parametara modela (koeficijenata jednadžbe). Desna strana jednadžbe nam omogućava da dobijemo teorijske (izračunate) vrijednosti rezultirajuće (objašnjene) varijable na osnovu datih vrijednosti regresora (objašnjavajuće varijable). Ove vrijednosti se ponekad nazivaju i predviđenim (u istom smislu), tj. dobijene iz teorijskih formula. Međutim, kada se postavlja hipoteza o prirodi zavisnosti, koeficijenti jednačine i dalje ostaju nepoznati. Općenito govoreći, dobivanje približnih vrijednosti ovih koeficijenata moguće je različitim metodama.

Ali najvažnija i najraširenija od njih je metoda najmanjih kvadrata (OLS). Zasnovan je (kao što je već objašnjeno) na zahtjevu da se minimizira zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike od izračunatih (teoretskih) vrijednosti. Umjesto teoretskih vrijednosti (da biste ih dobili), zamijenite desnu stranu jednadžbe regresije u zbir kvadrata odstupanja, a zatim pronađite parcijalne izvode ove funkcije (zbir kvadrata odstupanja stvarnih vrijednosti proizašle karakteristike iz teorijskih). Ove parcijalne derivacije se ne uzimaju u odnosu na varijable x i y, već u odnosu na parametre a i b. Parcijalne derivacije se postavljaju jednake nuli i nakon jednostavnih, ali glomaznih transformacija dobija se sistem normalnih jednačina za određivanje parametara. Koeficijent za varijablu x, tj. b se naziva koeficijent regresije, on pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu. Parametar a možda nema ekonomsku interpretaciju, posebno ako je predznak ovog koeficijenta negativan.

Parna linearna regresija se koristi za proučavanje funkcije potrošnje. Koeficijent regresije u funkciji potrošnje koristi se za izračunavanje množitelja. Gotovo uvijek, jednačina regresije je dopunjena indikatorom bliskosti veze. Za najjednostavniji slučaj linearne regresije, ovaj indikator bliskosti veze je linearni koeficijent korelacije. Ali budući da koeficijent linearne korelacije karakterizira bliskost odnosa između obilježja u linearnom obliku, blizina apsolutne vrijednosti koeficijenta linearne korelacije nuli još uvijek ne služi kao pokazatelj odsustva veze između obilježja.

Uz drugačiji izbor specifikacije modela, a samim tim i tipa zavisnosti, stvarni odnos može biti prilično blizak jedinici. Ali kvalitet selekcije linearna funkcija određuje se pomoću kvadrata koeficijenta linearne korelacije - koeficijenta determinacije. Karakterizira udio varijanse efektivnog atributa y objašnjene regresijom u ukupnoj varijansi efektivnog atributa. Vrijednost koja dopunjuje koeficijent determinacije na 1 karakterizira udio varijanse uzrokovane utjecajem drugih faktora koji nisu uzeti u obzir u modelu (rezidualna varijansa).

Uparena regresija je predstavljena jednadžbom koja povezuje dvije varijable y i x sljedećeg oblika:

gdje je y zavisna varijabla (rezultativni atribut), a x je nezavisna varijabla (objašnjavajuća varijabla ili faktor-atribut). Postoji linearna regresija i nelinearna regresija. Linearna regresija je opisana jednadžbom oblika:

y = a+ bx + .

Nelinearna regresija, zauzvrat, može biti nelinearna u odnosu na objašnjavajuće varijable uključene u analizu, ali linearna u odnosu na procijenjene parametre. Ili je možda regresija nelinearna u smislu parametara koji se procjenjuju. Primjeri regresije koja je nelinearna u eksplanatornim varijablama, ali linearna u procijenjenim parametrima, uključuju polinomske zavisnosti različitih stupnjeva (polinome) i jednakostraničnu hiperbolu.

Nelinearna regresija za procijenjene parametre je ovisnost o snazi ​​u odnosu na parametar (parametar je u eksponentu), eksponencijalna ovisnost, gdje je parametar u osnovi eksponenta, i eksponencijalna ovisnost, kada je cijela linearna ovisnost u potpunosti u eksponentu. Imajte na umu da je u sva ova tri slučaja slučajna komponenta (slučajni ostatak)  uključena desna strana jednadžbe u obliku faktora, a ne u obliku sabirka, tj. multiplikativno! Prosječno odstupanje izračunatih vrijednosti rezultirajuće karakteristike od stvarnih karakterizira prosječna greška aproksimacije. Izražava se u procentima i ne bi trebalo da prelazi 7-8%. Ova prosječna greška aproksimacije je jednostavno procentualni prosjek relativnih veličina razlika između stvarnih i izračunatih vrijednosti.

Važan je prosječni koeficijent elastičnosti, koji služi kao važna karakteristika mnogih ekonomskih pojava i procesa. Izračunava se kao proizvod vrijednosti derivacije date funkcionalne veze i odnosa prosječne vrijednosti x i prosječne vrijednosti y. Koeficijent elastičnosti pokazuje za koji procenat u prosjeku će se rezultat y promijeniti u odnosu na svoju prosječnu vrijednost kada se faktor x promijeni za 1% od svoje (faktora x) prosječne vrijednosti.

Problemi analize varijanse su usko povezani sa parnom regresijom i višestrukom regresijom (kada postoji mnogo faktora) i rezidualnom varijansom. Analiza varijanse ispituje varijansu zavisne varijable. U ovom slučaju, ukupni zbir kvadrata odstupanja se dijeli na dva dijela. Prvi član je zbir odstupanja na kvadrat zbog regresije, ili objašnjena (faktorijalna). Drugi pojam je rezidualni zbir kvadrata odstupanja neobjašnjenih faktorskom regresijom.

Udio varijanse objašnjen regresijom u ukupnoj varijansi rezultirajuće karakteristike y karakterizira koeficijent (indeks) determinacije, koji nije ništa drugo do omjer zbira kvadrata odstupanja zbog regresije i ukupnog zbira kvadrata odstupanja (prvi član na cijeli zbir).

Kada se parametri modela (koeficijenti nepoznanica) određuju metodom najmanjih kvadrata, tada se, u suštini, pronalaze neke slučajne varijable (u procesu dobijanja procjena). Od posebnog značaja je procjena koeficijenta regresije, koji je neki poseban oblik slučajne varijable. Svojstva ove slučajne varijable zavise od svojstava zaostalog člana u jednačini (u modelu). Za model uparene linearne regresije, razmotrite eksplanatornu varijablu x kao neslučajnu egzogenu varijablu. To samo znači da se vrijednosti varijable x u svim opservacijama mogu smatrati unaprijed određenim i ni na koji način se ne odnose na ovisnost koja se proučava. Dakle, stvarna vrijednost objašnjene varijable sastoji se od dvije komponente: neslučajne i slučajne komponente (rezidualni član).

S druge strane, koeficijent regresije određen metodom najmanjih kvadrata (OLS) jednak je količniku dijeljenja kovarijanse varijabli x i y varijansom varijable x. Stoga sadrži i slučajnu komponentu. Na kraju krajeva, kovarijansa zavisi od vrednosti varijable y, pri čemu vrednosti varijable y zavise od vrednosti slučajnog rezidualnog člana . Dalje, lako je pokazati da je kovarijansa varijabli x i y jednaka proizvodu procijenjenog koeficijenta regresije beta () i varijanse varijable x, plus kovarijansa varijabli x i . Dakle, procjena koeficijenta regresije beta jednaka je samom ovom nepoznatom regresijskom koeficijentu, dodatom kvocijentu dijeljenja kovarijanse varijabli x i  varijansom varijable x. One. procjena koeficijenta regresije b dobijena iz bilo kojeg uzorka predstavljena je kao zbir dva člana: konstantna vrijednost jednaka pravoj vrijednosti koeficijenta  (beta) i slučajna komponenta ovisno o kovarijansi varijabli x i  .

23. Matematički Gauss-Markovljevi uslovi i njihova primjena.

Da bi regresiona analiza zasnovana na običnom OLS-u dala najbolje rezultate, slučajni član mora zadovoljiti četiri Gauss-Markovljeva uslova.

Matematičko očekivanje slučajnog člana je jednako nuli, tj. to je nepristrasno. Ako jednadžba regresije uključuje konstantan član, onda je prirodno smatrati da je ovaj zahtjev ispunjen, jer je to konstantan član i mora uzeti u obzir svaki sistematski trend u vrijednostima varijable y, koji bi, naprotiv, trebao nisu sadržane u objašnjavajućim varijablama regresione jednačine.

Varijanca slučajnog člana je konstantna za sva opažanja.

Kovarijantnost vrijednosti slučajne varijable, formiranje uzorka mora biti jednako nuli, tj. ne postoji sistematski odnos između vrijednosti slučajnog člana u bilo koja dva konkretna zapažanja. Slučajni članovi moraju biti nezavisni jedan od drugog.

Zakon distribucije slučajnog člana mora biti nezavisan od varijabli koje objašnjavaju.

Štaviše, u mnogim aplikacijama objašnjavajuće varijable nisu stohastičke, tj. nemaju slučajnu komponentu. Vrijednost bilo koje nezavisne varijable u svakoj opservaciji mora se smatrati egzogenom, u potpunosti određena vanjskim uzrocima koji nisu uzeti u obzir u jednadžbi regresije.

Zajedno sa navedenim Gauss-Markovovim uslovima, takođe se pretpostavlja da slučajni član ima normalnu distribuciju. Vrijedi pod vrlo širokim uvjetima i zasniva se na takozvanoj centralnoj graničnoj teoremi (CLT). Suština ove teoreme je da ako je slučajna varijabla ukupni rezultat interakcije velikog broja drugih slučajnih varijabli, od kojih nijedna nema dominantan utjecaj na ponašanje ovog ukupnog rezultata, onda će rezultirajuća slučajna varijabla biti opisana po približno normalnoj distribuciji. Ova blizina do normalna distribucija omogućava vam korištenje normalne distribucije za dobivanje procjena i is u određenom smislu njegova generalizacija je Studentova raspodjela, koja se uočljivo razlikuje od normalne uglavnom na takozvanim „repovima“, tj. za male veličine uzoraka. Takođe je važno da ako je slučajni član normalno raspoređen, onda će i koeficijenti regresije biti normalno raspoređeni.

Utvrđena regresiona kriva (regresiona jednačina) nam omogućava da riješimo problem tzv. tačkaste prognoze. U takvim proračunima, određena vrijednost x se uzima izvan proučavanog intervala promatranja i zamjenjuje u desnu stranu jednačine regresije (ekstrapolacijski postupak). Jer Procjene koeficijenata regresije su već poznate, tada je moguće izračunati vrijednost objašnjene varijable y koja odgovara preuzetoj vrijednosti x. Naravno, u skladu sa značenjem predviđanja (prognoze), proračuni se vrše naprijed (u područje budućih vrijednosti).

Međutim, budući da su koeficijenti određeni sa određenom greškom, to nije od interesa tačka procene(tačkasta prognoza) za efektivnu karakteristiku i poznavanje granica u kojima će, sa određenom vjerovatnoćom, ležati vrijednosti efektivne karakteristike, koje odgovaraju preuzetoj vrijednosti faktora x.

Da biste to učinili, izračunava se standardna greška (standardna devijacija). Može se dobiti u duhu onoga što je upravo rečeno na sljedeći način. Izraz slobodnog člana a iz procjena kroz prosječne vrijednosti zamjenjuje se u jednačinu linearne regresije. Tada se ispostavlja da standardna greška zavisi od greške prosečnog efektivnog faktora y i aditivno od greške koeficijenta regresije b. Jednostavno kvadrat ove standardne greške jednak zbiru kvadratna greška prosječne vrijednosti y i proizvod kvadrata greške koeficijenta regresije na kvadrat odstupanja vrijednosti faktora x i njegovog prosjeka. Dalje, prvi član, prema zakonima statistike, jednak je količniku dijeljenja varijanse opće populacije veličinom (volumenom) uzorka.

Umjesto nepoznate varijanse, varijansa uzorka se koristi kao procjena. Prema tome, greška koeficijenta regresije je definisana kao količnik dijeljenja varijanse uzorka sa varijansom faktora x. Možete dobiti standardnu ​​grešku (standardnu ​​devijaciju) i druga razmatranja koja su nezavisnija od modela linearne regresije. Da bi se to postiglo, koristi se koncept prosječne greške i marginalne greške i odnos između njih.

Ali čak i nakon dobijanja standardne greške, ostaje pitanje u kojim granicama će se nalaziti predviđena vrijednost. Drugim riječima, o intervalu greške mjerenja, u prirodnoj pretpostavci u mnogim slučajevima da je sredina ovog intervala data izračunatom (prosječnom) vrijednošću efektivnog faktora y. Ovdje u pomoć dolazi središnja granična teorema, koja precizno pokazuje s kojom vjerovatnoćom se nepoznata veličina nalazi unutar ove interval povjerenja.

U suštini, formula standardne greške, bez obzira na to kako i u kom obliku je dobijena, karakteriše grešku u položaju linije regresije. Standardna greška dostiže minimum kada se vrednost faktora x poklapa sa srednjom vrednošću faktora.

24. Statistička provjera hipoteza i procjena značajnosti linearne regresije primjenom Fisherovog kriterija.

Nakon što se pronađe jednačina linearne regresije, procjenjuje se značaj jednačine u cjelini i njenih pojedinačnih parametara. Procjena značaja jednačine regresije u cjelini može se obaviti korištenjem različitih kriterija. Prilično česta i efikasna je upotreba Fišerovog F testa. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b=0, pa stoga faktor x nema uticaja na rezultat y. Neposrednom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable y od prosječne vrijednosti y na dva dijela – “objašnjeno” i “neobjašnjeno”:

Ukupan zbir kvadrata odstupanja pojedinačnih vrijednosti rezultirajuće karakteristike y od prosječne vrijednosti y uzrokovan je utjecajem mnogih faktora.

Uvjetno podijelimo cijeli skup razloga u dvije grupe: proučavani faktor x i drugi faktori. Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna sa OX i y=y osom. Tada je cijela varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupni zbir kvadrata odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda je y funkcionalno povezan sa x i rezidualni zbir kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata. Kako sve tačke korelacionog polja ne leže na regresijskoj liniji, njihovo rasipanje uvek nastaje usled uticaja faktora x, tj. regresija y na x, i uzrokovana drugim uzrocima (neobjašnjiva varijacija). Pogodnost linije regresije za predviđanje zavisi od toga koliko je ukupne varijacije u osobini y objašnjeno varijacijom.

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i x faktor ima značajan utjecaj na rezultat. Ovo je ekvivalentno činjenici da će se koeficijent determinacije približiti jedinici. Svaki zbir kvadrata odstupanja povezan je sa brojem stepeni slobode, tj. broj slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije ili sa brojem konstanti koje se određuju iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od n mogućih [(y 1 -y), (y 2 -y),...(y n -y)] potrebno da se formira zadani zbir kvadrata. Dakle, za ukupan zbir kvadrata ∑(y-y sr) 2 potrebna su (n-1) nezavisna odstupanja, jer u populaciji od n jedinica, nakon izračunavanja prosječnog nivoa, samo (n-1) broj odstupanja slobodno varira. Prilikom izračunavanja objašnjene ili faktorske sume kvadrata ∑(y-y avg) 2, koriste se teorijske (izračunate) vrijednosti rezultujuće karakteristike y*, koje se nalaze duž linije regresije: y(x)=a+bx.

Vratimo se sada na proširenje ukupnog zbira kvadrata odstupanja efektivnog faktora od prosjeka ove vrijednosti. Ovaj zbir sadrži dva dijela koja su već definirana gore: zbir kvadrata odstupanja objašnjenih regresijom i drugi zbir koji se naziva rezidualni zbir kvadrata odstupanja. Uz ovu dekompoziciju je povezana i analiza varijanse, koja direktno odgovara na fundamentalno pitanje: kako procijeniti značaj regresione jednačine u cjelini i njenih pojedinačnih parametara? To također u velikoj mjeri određuje značenje ovog pitanja. Za procjenu značaja jednačine regresije u cjelini, koristi se Fisherov kriterij (F-test). Prema pristupu koji je predložio Fisher, postavlja se nulta hipoteza: koeficijent regresije je jednak nuli, tj. vrijednostb=0. To znači da faktor X nema uticaja na ishod Y.

Podsetimo se da skoro uvek tačke dobijene kao rezultat statističke studije ne leže tačno na liniji regresije. Oni su raštrkani, manje-više udaljeni od linije regresije. Takva disperzija je posljedica utjecaja drugih faktora, različitih od faktora objašnjenja X, koji se ne uzimaju u obzir u jednačini regresije. Prilikom izračunavanja objašnjene ili faktorske sume kvadrata odstupanja, koriste se teorijske vrijednosti rezultirajuće karakteristike pronađene iz regresijske linije.

Za dati skup vrijednosti varijabli Y i X, izračunata vrijednost prosječne vrijednosti Y je u linearnoj regresiji funkcija samo jednog parametra - koeficijenta regresije. U skladu s tim, faktor zbir kvadrata odstupanja ima broj stupnjeva slobode jednak 1. A broj stupnjeva slobode preostalog zbira kvadrata odstupanja u linearnoj regresiji je n-2.

Posljedično, podijelimo svaki zbir kvadrata odstupanja u originalnoj ekspanziji sa brojem stupnjeva slobode, dobivamo prosječne kvadratne devijacije (varijansa po jednom stepenu slobode). Zatim, dijeljenjem faktorske varijanse sa jednim stepenom slobode rezidualnom varijansom sa jednim stepenom slobode, dobijamo kriterijum za testiranje nulte hipoteze, takozvani F-razmjer, ili istoimeni kriterijum. Naime, ako je nulta hipoteza tačna, faktor i rezidualne varijanse su jednostavno jednake jedna drugoj.

Odbaciti nultu hipotezu, tj. prihvaćajući suprotnu hipotezu, koja izražava činjenicu značajnosti (prisustva) odnosa koji se proučava, a ne samo slučajnu podudarnost faktora koji simuliraju odnos koji zapravo ne postoji, potrebno je koristiti tablice kritičnih vrijednosti specificirani odnos. Pomoću tabela određuje se kritična (granična) vrijednost Fisherovog kriterija. Naziva se i teorijskim. Zatim provjeravaju, upoređujući je sa odgovarajućom empirijskom (stvarnom) vrijednošću kriterija izračunatom iz podataka opservacije, da li stvarna vrijednost omjera premašuje kritičnu vrijednost iz tabela.

Ovo se radi detaljnije ovako. Odabrati dati nivo vjerovatnoće prisustva nulte hipoteze i pronaći iz tabela kritičnu vrijednost F-kriterijuma, pri kojoj još uvijek može doći do nasumične divergencije varijansi za 1 stepen slobode, tj. maksimalnu takvu vrijednost. Tada se izračunata vrijednost F-omjera smatra pouzdanom (tj. izražava razliku između stvarne i rezidualne varijanse) ako je ovaj omjer veći od tabelarnog. Tada se nulta hipoteza odbacuje (nije tačno da nema znakova veze) i, naprotiv, dolazimo do zaključka da veza postoji i da je značajna (nije slučajna, značajna).

Ako se ispostavi da je vrijednost odnosa manja od tabelarne, tada se ispostavlja da je vjerovatnoća nulte hipoteze veća od navedenog nivoa (koji je inicijalno odabran) i nulta hipoteza se ne može odbaciti bez primjetne opasnosti od dobijanje pogrešnog zaključka o postojanju veze. Shodno tome, jednačina regresije se smatra beznačajnom.

Vrijednost samog F-kriterijuma povezana je sa koeficijentom determinacije. Pored procjene značaja regresione jednačine u cjelini, procjenjuje se i značaj pojedinih parametara regresione jednačine. U ovom slučaju, standardna greška koeficijenta regresije se određuje korišćenjem empirijske stvarne standardne devijacije i empirijske varijanse po stepenu slobode. Studentova raspodjela se zatim koristi za testiranje značajnosti koeficijenta regresije za izračunavanje njegovih intervala povjerenja.

Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem vrijednosti ovih veličina i standardne greške. Veličina greške parametara linearne regresije i koeficijenta korelacije određena je sljedećim formulama:

gdje je S srednja kvadratna rezidualna devijacija uzorka,

r xy – koeficijent korelacije.

Prema tome, vrijednost standardne greške predviđene regresijskom linijom je data formulom:

Odgovarajući omjeri vrijednosti koeficijenata regresije i korelacije prema njihovoj standardnoj grešci formiraju takozvanu t-statistiku, a poređenje odgovarajuće tablične (kritične) vrijednosti i njene stvarne vrijednosti omogućava da se prihvati ili odbije nulta vrijednost. hipoteza. Ali tada, da bi se izračunao interval pouzdanosti, maksimalna greška za svaki indikator se nalazi kao proizvod tabelarne vrednosti t statistike sa prosečnom slučajnom greškom odgovarajućeg indikatora. U stvari, mi smo to malo drugačije napisali malo iznad. Tada se dobijaju granice intervala poverenja: donja granica je oduzimanjem odgovarajuće marginalne greške od odgovarajućih koeficijenata (u stvari prosek), a gornja granica je sabiranjem (sabiranjem).

U linearnoj regresiji ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. To je lako provjeriti pozivanjem na formulu za koeficijent linearne korelacije: r 2 xy = b 2 *σ 2 x /σ 2 y

gdje je σ 2 y ukupna varijansa osobine y;

σ 2 x - disperzija karakteristike y zbog faktora x. Prema tome, zbir kvadrata odstupanja zbog linearne regresije bit će:

∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 .

Pošto, za dati obim posmatranja u x i y, faktor zbir kvadrata u linearnoj regresiji zavisi samo od jedne konstante koeficijenta regresije b, onda ovaj zbir kvadrata ima jedan stepen slobode. Razmotrimo sadržajnu stranu izračunate vrijednosti atributa y, tj. y x. Vrijednost y x određena je jednadžbom linearne regresije: y x ​​= a + bx.

Parametar a se može definirati kao a=y-bx. Zamjenom izraza za parametar a u linearni model dobijamo: y x ​​=y-bx+bx avg =y-b(x-x avg).

Za dati skup varijabli y i x, izračunata vrijednost y x u linearnoj regresiji je funkcija samo jednog parametra – koeficijenta regresije. U skladu s tim, zbir faktora kvadrata odstupanja ima broj stupnjeva slobode jednak 1.

Postoji jednakost između broja stupnjeva slobode ukupnog, faktorskog i rezidualnog zbroja kvadrata. Broj stepeni slobode preostalog zbira kvadrata u linearnoj regresiji je (n-2). Broj stepeni slobode za ukupan zbir kvadrata određen je brojem jedinica, a pošto koristimo prosek izračunat iz podataka uzorka, gubimo jedan stepen slobode, tj. (n-1). Dakle, imamo dvije jednakosti: za sume i za broj stupnjeva slobode. A ovo nas, zauzvrat, vraća na uporedive varijanse po stepenu slobode, čiji odnos daje Fišerov kriterijum.

25. Procjena značaja pojedinih parametara regresione jednačine i koeficijenata pomoću Studentovog testa.

27. Linearna i nelinearna regresija i metode za njihovo proučavanje.

Linearna regresija i metode njenog istraživanja i evaluacije ne bi bile toliko važne da uz ovaj vrlo važan, ali ipak najjednostavniji slučaj, uz njihovu pomoć ne bismo dobili alat za analizu složenijih nelinearnih zavisnosti. Nelinearne regresije se mogu podijeliti u dvije značajno različite klase. Prva i jednostavnija je klasa nelinearnih zavisnosti u kojoj postoji nelinearnost u odnosu na eksplanatorne varijable, ali koje ostaju linearne u parametrima koji su u njih uključeni i podložni su evaluaciji. Ovo uključuje polinome različitih stupnjeva i jednakostranične hiperbole.

Takva nelinearna regresija za varijable uključene u objašnjenje jednostavnom transformacijom (zamjenom) varijabli može se lako svesti na običnu linearnu regresiju za nove varijable. Stoga se procjena parametara u ovom slučaju vrši jednostavno pomoću najmanjih kvadrata, budući da su ovisnosti linearne u parametrima. Dakle, važnu ulogu u ekonomiji igra nelinearna zavisnost opisana jednakostraničnom hiperbolom:

Njegovi parametri su dobro procijenjeni metodom najmanjih kvadrata, a sama ova zavisnost karakterizira vezu između specifičnih troškova sirovina, goriva, materijala sa obimom proizvodnje, vremenom prometa robe i svih ovih faktora sa količinom prometa. promet. Na primjer, Phillipsova kriva karakterizira nelinearni odnos između stope nezaposlenosti i procenta rasta plata.

Situacija je potpuno drugačija s regresijom koja je nelinearna u parametrima koji se procjenjuju, na primjer, predstavljena funkcijom stepena, u kojoj je sam stepen (njegov eksponent) parametar, ili zavisi od parametra. To također može biti eksponencijalna funkcija, gdje je osnova stepena parametar i eksponencijalna funkcija, u kojoj opet indikator sadrži parametar ili kombinaciju parametara. Ova klasa je zauzvrat podijeljena u dvije podklase: jedna uključuje eksterno nelinearnu, ali suštinski interno linearnu. U ovom slučaju, možete dovesti model u linearni oblik pomoću transformacija. Međutim, ako je model interno nelinearan, onda se ne može svesti na linearnu funkciju.

Dakle, samo modeli koji su suštinski nelinearni u regresionoj analizi smatraju se zaista nelinearnim. Svi ostali, koji se transformacijama mogu svesti na linearne, ne smatraju se takvima i upravo se oni najčešće razmatraju u ekonometrijskim studijama. Istovremeno, to ne znači da je nemoguće proučavati suštinski nelinearne zavisnosti u ekonometriji. Ako je model interno nelinearan u svojim parametrima, tada se za procjenu parametara koriste iterativne procedure, čiji uspjeh ovisi o vrsti jednadžbe za karakteristike korištene iterativne metode.

Vratimo se na zavisnosti svedene na linearne. Ako su nelinearne i u parametrima i u varijablama, na primjer, oblika y = a pomnoženo sa potencijom X, čiji je eksponent parametar -  (beta):

Očigledno, takav odnos se lako može pretvoriti u linearnu jednačinu jednostavnim logaritmom.

Nakon uvođenja novih varijabli koje označavaju logaritme, dobija se linearna jednačina. Procedura za procjenu regresije se tada sastoji od izračunavanja novih varijabli za svako opažanje uzimanjem logaritma originalnih vrijednosti. Zatim se procjenjuje regresijska zavisnost novih varijabli. Da biste prešli na originalne varijable, trebalo bi da uzmete antilogaritam, odnosno da se zapravo vratite na same stepene umesto na njihove eksponente (na kraju krajeva, logaritam je eksponent). Slučaj eksponencijalnih ili eksponencijalnih funkcija može se razmatrati na sličan način.

Za značajno nelinearnu regresiju, nije moguće primijeniti uobičajenu proceduru procjene regresije jer se odgovarajući odnos ne može pretvoriti u linearnu. Opća shema radnji je sljedeća:

1. Neke vjerodostojne početne vrijednosti parametara su prihvaćene;

2. Predviđene Y vrijednosti se izračunavaju iz stvarnih X vrijednosti koristeći ove vrijednosti parametara;

3. Izračunavaju se reziduali za sva opažanja u uzorku, a zatim zbir kvadrata reziduala;

4. Male promjene su napravljene u jednom ili više procjena parametara;

5. Izračunavaju se nove predviđene vrijednosti Y, rezidua i suma kvadrata reziduala;

6. Ako je zbir kvadrata reziduala manji nego ranije, tada su nove procjene parametara bolje od prethodnih i treba ih koristiti kao novu polaznu tačku;

7. Koraci 4, 5 i 6 se ponavljaju sve dok ne postane nemoguće izvršiti takve promjene u procjenama parametara koje bi dovele do promjene u zbroju reziduala kvadrata;

8. Zaključeno je da je zbir kvadrata reziduala minimiziran, a konačne procjene parametara su procjene najmanjih kvadrata.

Među nelinearnim funkcijama koje se mogu svesti na linearni oblik, funkcija snage se široko koristi u ekonometriji. Parametar b u njemu ima jasnu interpretaciju, jer je koeficijent elastičnosti. U modelima koji su nelinearni u procijenjenim parametrima, ali se mogu svesti na linearni oblik, metoda najmanjih kvadrata se primjenjuje na transformirane jednadžbe. Praktična upotreba logaritama i, shodno tome, eksponenata je moguća kada rezultirajući znak nema negativne vrijednosti. Prilikom proučavanja odnosa među funkcijama koristeći logaritam rezultantnog atributa, u ekonometriji prevladavaju zavisnosti po stepenu (krivulje potražnje i ponude, proizvodne funkcije, krive apsorpcije za karakterizaciju odnosa između intenziteta rada proizvoda, obima proizvodnje, ovisnosti BND na nivou zaposlenosti, Engelove krive).

28. Inverzni model i njegova upotreba

Ponekad se koristi takozvani inverzni model, koji je interno nelinearan, ali u njemu, za razliku od jednakostranične hiperbole, nije eksplanatorna varijabla podložna transformaciji, već rezultirajući atribut Y. Dakle, inverzni model ispada kao biti interno nelinearan i OLS zahtjev nije zadovoljen za stvarne vrijednosti rezultirajućeg atributa Y i za njihove inverzne vrijednosti. Proučavanje korelacije za nelinearnu regresiju zaslužuje posebnu pažnju. U opštem slučaju, parabola drugog stepena, poput polinoma višeg reda, kada se linearizira, poprima oblik jednačine višestruke regresije. Ako, kada je linearizovana, jednačina regresije koja je nelinearna u odnosu na objašnjenu varijablu ima oblik linearne uparene regresione jednadžbe, tada se linearni koeficijent korelacije može koristiti za procjenu bliskosti veze.

Ako su transformacije regresijske jednadžbe u linearni oblik povezane sa zavisnom varijablom (rezultativnom karakteristikom), tada koeficijent linearne korelacije zasnovan na transformiranim vrijednostima karakteristika daje samo približnu procjenu odnosa i ne numerički se poklapa sa indeks korelacije. Treba imati na umu da se pri izračunavanju indeksa korelacije koriste sumi kvadrata odstupanja rezultirajuće karakteristike Y, a ne njihovi logaritmi. Procjena značajnosti indeksa korelacije vrši se na isti način kao i procjena pouzdanosti (značajnosti) koeficijenta korelacije. Sam indeks korelacije, kao i indeks determinacije, koristi se za testiranje ukupnog značaja jednačine nelinearne regresije koristeći Fisher F test.

Imajte na umu da mogućnost konstruisanja nelinearnih modela, kako svođenjem na linearni oblik, tako i upotrebom nelinearne regresije, s jedne strane, povećava univerzalnost regresione analize. S druge strane, to značajno otežava zadatke istraživača. Ako se ograničimo na analizu uparene regresije, možemo prikazati zapažanja Y i X kao dijagram raspršenja. Često nekoliko različitih nelinearnih funkcija aproksimira opažanja ako leže na nekoj krivulji. Ali u slučaju analize višestruke regresije, takav graf se ne može konstruisati.

Kada se razmatraju alternativni modeli sa istom definicijom zavisne varijable, postupak odabira je relativno jednostavan. Može se procijeniti regresija na temelju svih vjerodostojnih funkcija koje se mogu zamisliti i odabrati funkciju koja najviše objašnjava promjenu zavisne varijable. Jasno je da kada linearna funkcija objašnjava približno 64% varijanse u y, a hiperbolička funkcija objašnjava 99,9%, očito bi trebalo odabrati potonju. Ali kada različiti modeli korištenjem različitih funkcionalnih oblika, problem odabira modela postaje znatno složeniji.

29. Korištenje Box-Cox testa.

Općenito, kada se razmatraju alternativni modeli sa istom definicijom zavisne varijable, izbor je jednostavan. Najrazumnije je procijeniti regresiju na osnovu svih vjerojatnih funkcija, fokusirajući se na funkciju koja najviše objašnjava promjenu zavisne varijable. Ako koeficijent determinacije mjeri, u jednom slučaju, udio varijanse objašnjene regresijom, au drugom udio varijanse u logaritmu ove zavisne varijable objašnjene regresijom, onda se izbor vrši bez poteškoća. Druga je stvar kada su ove vrijednosti za dva modela vrlo bliske i problem izbora postaje znatno složeniji.

Zatim treba primijeniti standardni postupak u obliku Box-Cox testa. Ako samo trebate uporediti modele koristeći efektivni faktor i njegov logaritam u obliku varijante zavisne varijable, tada se koristi verzija Zarembka testa. Predlaže transformaciju skale posmatranja Y, koja omogućava direktno poređenje srednje kvadratne greške (MSE) u linearnim i logaritamskim modelima. Odgovarajući postupak uključuje sljedeće korake:

    Izračunava se geometrijska sredina vrijednosti Y u uzorku, koja se poklapa sa eksponentom aritmetičke sredine logaritma od Y;

    Zapažanja Y se ponovo izračunavaju na način da se podijele s vrijednošću dobivenom u prvom koraku;

    Regresija se procjenjuje za linearni model koristeći skalirane Y vrijednosti umjesto originalnih Y vrijednosti, a za logaritamski model koristeći logaritam skaliranih Y vrijednosti. RMSE vrijednosti za dvije regresije su sada uporedive i stoga model sa manjim zbirom kvadrata odstupanja omogućava bolje uklapanje u pravi odnos posmatranih vrednosti;

    Da bi se provjerilo da jedan od modela ne pruža značajno bolje uklapanje, može se koristiti umnožak polovice broja promatranja i logaritma omjera vrijednosti standardne devijacije u ponovno izračunatim regresijama, a zatim uzeti apsolutnu vrijednost ove vrijednosti.

30. Koncepti interkorelacije i multikolinearnosti faktora.

34. Osnove MNK i valjanost njegove primjene.

Okrenimo se sada osnovama OLS-a, valjanosti njegove primjene (uključujući probleme višestruke regresije) i najvažnijim svojstvima procjena dobivenih korištenjem OLS-a. Počnimo s činjenicom da, uz analitičku ovisnost na desnoj strani regresijska jednačina Nasumični termin takođe igra važnu ulogu. Ova nasumična komponenta je veličina koja se ne može uočiti. Sami statistički testovi regresijski parametri i korelacione mere su zasnovane na neproverljivim pretpostavkama o raspodeli ove nasumične komponente višestruke regresije. Ove pretpostavke su samo preliminarne. Tek nakon konstruisanja regresione jednadžbe provjerava se da li procjene slučajnih reziduala (empirijski analogi slučajne komponente) imaju svojstva pretpostavljena a priori. U suštini, kada se procjenjuju parametri modela, izračunavaju se razlike između teorijske i stvarne vrijednosti rezultirajućeg atributa kako bi se na taj način procijenila sama slučajna komponenta. Važno je imati na umu da je ovo samo primjer implementacije nepoznatog ostatka date jednačine.

Regresijski koeficijenti dobijeni iz sistema normalnih jednačina su uzorke procjene jačine veze. Jasno je da oni imaju praktičan značaj samo kada su nepristrasni. Podsjetimo da je u ovom slučaju srednja vrijednost reziduala jednaka nuli, ili, što je isto, srednja vrijednost procjene jednaka je samom procijenjenom parametru. Tada se reziduali neće akumulirati u velikom broju procjena uzorka, a sam pronađeni parametar regresije može se smatrati prosjekom velikog broja nepristrasnih procjena.

Osim toga, procjene bi trebale imati najmanju varijansu, tj. bude efikasna i tada postaje moguće preći sa praktično neupotrebljivih tačaka na procenu intervala. Konačno, intervali povjerenja su korisni kada je vjerovatnoća dobijanja procjene na datoj udaljenosti od prave (nepoznate) vrijednosti parametra blizu jedan. Takve procjene se nazivaju konzistentnim, a svojstvo konzistentnosti karakterizira povećanje njihove točnosti s povećanjem veličine uzorka.

Međutim, uslov konzistentnosti nije zadovoljen automatski i značajno zavisi od ispunjenja sledeća dva važna zahteva. Prvo, sami reziduali moraju biti stohastički sa najizraženijom slučajnošću, tj. sve jasno funkcionalne zavisnosti moraju biti posebno uključene u analitičku komponentu višestruke regresije, a osim toga, vrednosti reziduala moraju biti raspoređene nezavisno jedna od druge za različite uzorke (nema autokorelacije reziduala). Drugi, ne manje važan zahtjev je da varijansa svakog odstupanja (rezidualna) bude identična za sve vrijednosti X varijabli (homoskedastičnost). One. homoskedastičnost se izražava konstantnošću varijanse za sva opažanja:

Naprotiv, heteroskedastičnost je kršenje takve konstantnosti varijanse za različita opažanja. U ovom slučaju, apriorna (prije opažanja) vjerojatnost dobivanja vrlo devijantnih vrijednosti s različitim teorijskim distribucijama slučajnog člana za različita opažanja u uzorku će biti relativno visoka.

Autokorelacija reziduala, odnosno prisustvo korelacije između reziduala tekućih i prethodnih (naknadnih) opservacija, određena je vrijednošću uobičajenog linearnog koeficijenta korelacije. Ako se značajno razlikuje od nule, tada su reziduali autokorelirani i, stoga, funkcija gustoće vjerovatnoće (distribucija reziduala) ovisi o točki promatranja i o raspodjeli vrijednosti reziduala na drugim točkama promatranja. Pogodno je odrediti autokorelaciju reziduala koristeći dostupne statističke informacije ako postoji poređanje opservacija po faktoru X. Odsustvo autokorelacije reziduala osigurava konzistentnost i efektivnost procjena koeficijenata regresije.

35. Homoskedastičnost i heteroskedastičnost, autokorelacija reziduala, generalizirani najmanji kvadrati (GLM).

Istost varijansi reziduala za sve vrijednosti X varijabli, ili homoskedastičnost, također je apsolutno neophodna da bi se dobile konzistentne procjene parametara regresije korištenjem OLS-a. Neispunjavanje uslova homoskedastičnosti dovodi do takozvane heteroskedastičnosti. To može dovesti do pristrasnih procjena koeficijenata regresije. Heteroskedastičnost će uglavnom uticati na smanjenje efikasnosti procjena koeficijenta regresije. U ovom slučaju postaje posebno teško koristiti formulu za standardnu ​​grešku koeficijenta regresije, čija upotreba pretpostavlja jednoliku disperziju reziduala za bilo koje vrijednosti faktora. Što se tiče nepristrasnosti procjena regresijskih koeficijenata, ona prvenstveno ovisi o neovisnosti reziduala i vrijednosti samih faktora.

Prilično jasan, iako nerigorozan i koji zahtijeva vještine, način testiranja homoskedastičnosti je grafičko proučavanje prirode ovisnosti reziduala o prosječnom izračunatom (teorijskom) rezultantnom atributu, ili odgovarajućim poljima korelacije. Analitičke metode za proučavanje i procjenu heteroskedastičnosti su rigoroznije. Ako postoji značajno prisustvo heteroskedastičnosti, preporučljivo je koristiti generalizirani OLS (GLM) umjesto OLS.

Pored zahtjeva za višestruku regresiju koji proizilaze iz upotrebe OLS-a, potrebno je ispoštovati i uslove o varijablama uključenim u model. Oni, prije svega, uključuju zahtjeve u pogledu broja faktora modela za dati obim posmatranja (1 do 7). U suprotnom, parametri regresije će biti statistički beznačajni. Sa stanovišta efikasnosti primene odgovarajućih numeričkih metoda pri implementaciji LSM-a, neophodno je da broj posmatranja bude veći od broja procenjenih parametara (u sistemu jednačina broj jednačina je veći od broja traženih varijable).

Najznačajnije dostignuće ekonometrije je značajan razvoj metoda za procenu nepoznatih parametara i unapređenje kriterijuma za identifikaciju statičkog značaja efekata koji se razmatraju. S tim u vezi, nemogućnost ili nesvrsishodnost upotrebe tradicionalnog OLS-a zbog heteroskedastičnosti koja se manifestuje u različitom stepenu dovela je do razvoja generalizovanog OLS-a (GLM). U stvari, ovo uključuje prilagođavanje modela, promjenu njegove specifikacije i transformaciju originalnih podataka kako bi se osigurale nepristrasne, efikasne i konzistentne procjene koeficijenata regresije.

Pretpostavlja se da je prosjek reziduala nula, ali njihova disperzija više nije konstantna, već je proporcionalna vrijednostima K i, gdje su ove vrijednosti koeficijenti proporcionalnosti koji su različiti za različite vrijednosti faktor x. Dakle, ovi koeficijenti (vrijednosti K i) karakteriziraju heterogenost disperzije. Naravno, smatra se da je sama količina disperzije, koja je zajednički faktor za ove koeficijente proporcionalnosti, nepoznata.

Originalni model, nakon uvođenja ovih koeficijenata u jednadžbu višestruke regresije, nastavlja ostati heteroskedastičan (tačnije, to su rezidualne vrijednosti modela). Neka ovi ostaci (reziduali) nisu autokorelirani. Uvedemo nove varijable dobijene dijeljenjem početnih varijabli modela snimljenih kao rezultat i-tog opažanja kvadratnim korijenom koeficijenata proporcionalnosti K i . Tada dobijamo novu jednačinu u transformisanim varijablama u kojoj će reziduali biti homoskedastični. Nove varijable same su ponderisane stare (originalne) varijable.

Stoga će se procjena parametara nove jednadžbe dobijene na ovaj način sa homoskedastičkim rezidualima svesti na metodu ponderiranih najmanjih kvadrata (u suštini, ovo je OLS metoda). Kada se koriste umjesto samih regresijskih varijabli, njihova odstupanja od prosjeka, izrazi za koeficijente regresije poprimaju jednostavan i standardiziran (ujednačen) oblik, malo drugačiji za OLS i OLS po faktoru korekcije 1/K u brojniku i nazivniku razlomka koji daje koeficijent regresije.

Treba imati na umu da parametri transformisanog (prilagođenog) modela značajno zavise od toga koji se koncept koristi kao osnova za koeficijente proporcionalnosti K i. Često se pretpostavlja da su ostaci jednostavno proporcionalni vrijednostima faktora. Model dobija svoj najjednostavniji oblik kada se prihvati hipoteza da su greške proporcionalne vrijednostima posljednjeg faktora po redu. Tada OLS omogućava povećanje težine zapažanja s manjim vrijednostima transformiranih varijabli pri određivanju parametara regresije u odnosu na rad standardnog OLS-a s originalnim izvornim varijablama. Ali ove nove varijable već dobijaju drugačiji ekonomski sadržaj.

Hipoteza o proporcionalnosti reziduala prema veličini faktora može imati realnu osnovu. Neka se obrađuje određeni nedovoljno homogen skup podataka, na primjer, uključujući i velika i mala preduzeća u isto vrijeme. Tada velike volumetrijske vrijednosti faktora mogu odgovarati i velikoj disperziji rezultirajuće karakteristike i velikoj disperziji preostalih vrijednosti. Nadalje, korištenje OLS-a i odgovarajući prijelaz na relativne vrijednosti ne samo da smanjuje varijaciju faktora, već i smanjuje varijansu greške. Dakle, najjednostavniji slučaj uzimanja u obzir i korekcije heteroskedastičnosti u regresijskim modelima se ostvaruje upotrebom OLS-a.

Gore navedeni pristup implementaciji OLS-a u obliku ponderisanog OLS-a je prilično praktičan – jednostavno se implementira i ima transparentnu ekonomsku interpretaciju. Naravno, ovo nije najopštiji pristup, a u kontekstu matematičke statistike, koja služi kao teorijska osnova ekonometrije, nudi nam se mnogo rigoroznija metoda koja implementira OLS u samu svoju opšti pogled. U njemu morate znati matricu kovarijanse vektora greške (rezidualni stupac). A to je obično nepravedno u praktičnim situacijama i može biti nemoguće pronaći ovu matricu kao takvu. Stoga, općenito govoreći, potrebno je nekako procijeniti traženu matricu da bi se takva procjena koristila u odgovarajućim formulama umjesto same matrice. Dakle, opisana verzija implementacije OMNC-a predstavlja jednu od takvih procjena. Ponekad se naziva pristupačnim generaliziranim najmanjim kvadratima.

Također treba uzeti u obzir da koeficijent determinacije ne može poslužiti kao zadovoljavajuća mjera kvalitete uklapanja pri korištenju OLS-a. Vraćajući se upotrebi OLS-a, takođe napominjemo da metoda korišćenja standardnih devijacija (standardnih grešaka) u White obliku (tzv. konzistentne standardne greške u prisustvu heteroskedastičnosti) ima dovoljnu opštost. Ova metoda je primjenjiva pod uvjetom da je matrica kovarijanse vektora greške dijagonalna. Ako postoji autokorelacija reziduala (greške), kada postoje različiti od nule elementi (koeficijenti) u matrici kovarijanse i izvan glavne dijagonale, tada treba koristiti opštiju metodu standardne greške u Neve West obliku. Postoji značajno ograničenje: elementi različiti od nule, pored glavne dijagonale, nalaze se samo na susjednim dijagonalama, udaljenim od glavne dijagonale ne više od određenog iznosa.

Iz navedenog je jasno da je potrebno moći provjeriti heteroskedastičnost podataka. U tu svrhu služe donji testovi. Oni testiraju glavnu hipotezu o jednakosti varijansi reziduala u odnosu na alternativnu hipotezu (o nejednakosti ovih hipoteza). Osim toga, postoje a priori strukturna ograničenja na prirodu heteroskedastičnosti. Goldfeld-Quandt test obično koristi pretpostavku da je varijansa greške (rezidualna) direktno zavisna od vrijednosti neke nezavisne varijable. Shema za korištenje ovog testa je sljedeća. Prvo, podaci se poredaju u opadajućem redosledu nezavisne varijable za koju se sumnja na heteroskedastičnost. Ovaj poredani skup podataka zatim eliminiše nekoliko prosječnih zapažanja, gdje riječ "nekoliko" znači oko četvrtinu (25%) ukupan broj sva zapažanja. Zatim se izvode dvije nezavisne regresije na prvom od preostalih (nakon eliminacije) prosječnih opservacija i posljednje dvije od ovih preostalih prosječnih opservacija. Nakon toga se konstruišu dva odgovarajuća ostatka. Konačno, sastavlja se Fisher F statistika i ako je hipoteza koja se proučava tačna, onda je F zaista Fisherova raspodjela sa odgovarajućim stupnjevima slobode. Tada velika vrijednost ove statistike znači da hipoteza koja se testira mora biti odbačena. Bez koraka eliminacije, snaga ovog testa je smanjena.

Breusch-Pagan test se koristi u slučajevima kada se a priori pretpostavlja da varijanse zavise od nekih dodatnih varijabli. Prvo se izvodi obična (standardna) regresija i dobija se vektor reziduala. Zatim se konstruiše procjena varijanse. Zatim se izvodi regresija kvadratnog vektora reziduala podijeljenog sa empirijskom varijansom (procjenom varijanse). Za nju (regresija) se nalazi objašnjeni dio varijacije. I za ovaj objašnjeni dio varijacije, podijeljen na pola, izgrađuje se statistika. Ako je nulta hipoteza tačna (nije tačna heteroskedastičnost), tada ova vrijednost ima distribuciju hee-kvadrat. Ako test, naprotiv, otkrije heteroskedastičnost, tada se originalni model transformira dijeljenjem komponenti vektora reziduala sa odgovarajućim komponentama vektora promatranih nezavisnih varijabli.

36. Metoda standardne devijacije u bijelom obliku.

Mogu se izvući sljedeći zaključci. Upotreba OLS-a u prisustvu heteroskedastičnosti svodi se na minimiziranje sume ponderisanih kvadratnih devijacija. Upotreba dostupnog OLS-a povezana je sa potrebom za velikim brojem opservacija koje premašuju broj procijenjenih parametara. Najpovoljniji slučaj za korištenje OLS-a je slučaj kada je greška (reziduali) proporcionalna jednoj od nezavisnih varijabli i rezultirajuće procjene su konzistentne. Ako je, ipak, u modelu sa heteroskedastičnošću potrebno koristiti ne OLS, već standardni OLS, tada se za dobivanje konzistentnih procjena mogu koristiti procjene greške u bijelom ili Nevier-West obliku.

Prilikom analize vremenskih serija često je potrebno uzeti u obzir statističku zavisnost posmatranja u različitim vremenskim momentima. U ovom slučaju, pretpostavka nekoreliranih grešaka nije zadovoljena. Hajde da razmotrimo jednostavan model, u kojem greške formiraju autoregresivni proces prvog reda. U ovom slučaju greške zadovoljavaju jednostavnu rekurentnu relaciju, na čijoj desnoj strani je jedan od članova niz nezavisnih normalno raspoređenih slučajnih varijabli sa nultom srednjom i konstantnom varijansom. Drugi pojam je proizvod parametra (koeficijenta autoregresije) i vrijednosti reziduala u prethodnom trenutku. Sam niz vrijednosti greške (rezidua) čini stacionarni slučajni proces. Stacionarni slučajni proces karakteriše konstantnost njegovih karakteristika tokom vremena, posebno srednje vrednosti i varijanse. U ovom slučaju, kovarijansna matrica (njeni termini) koja nas zanima može se lako napisati korištenjem snaga parametra.

Procjena autoregresivnog modela za poznati parametar se izvodi pomoću OLS-a. U ovom slučaju, dovoljno je jednostavno svesti originalni model jednostavnom transformacijom u model čije greške zadovoljavaju uslove standardnog regresijskog modela. To je vrlo rijetko, ali ipak postoji situacija u kojoj je poznat parametar autoregresije. Stoga je općenito potrebno izvršiti procjenu s nepoznatim autoregresivnim parametrom. Postoje tri najčešće korištena postupka za takvu procjenu. Cochrane-Orcutt metoda, Hildreth-Lu procedura i Durbin metoda.

Općenito govoreći, slijedeći zaključci su tačni. Analiza vremenskih serija zahteva korekciju konvencionalnog OLS-a, pošto su greške u ovom slučaju obično povezane. Često ove greške formiraju stacionarni autoregresivni proces prvog reda. OLS estimatori za autoregresiju prvog reda su nepristrasni, konzistentni, ali neefikasni. Sa poznatim koeficijentom autoregresije, OLS se svodi na jednostavne transformacije (korekcije) originalnog sistema, a zatim na primenu standardnog OLS-a. Ako je, što je češći slučaj, koeficijent autoregresije nepoznat, tada je za OLS na raspolaganju nekoliko procedura koje se sastoje u procjeni nepoznatog parametra (koeficijenta), nakon čega se primjenjuju iste transformacije kao u prethodnom slučaju poznatog parametar.

37. Koncept Breusch-Pagan testa, Goldfeldt-Quandt test

Provjerimo hipotezu H 0 o jednakosti pojedinačnih koeficijenata regresije nuli (ako alternativa nije jednaka H 1) na nivou značajnosti b = 0,05.

Ako se glavna hipoteza pokaže netačnom, prihvatamo alternativnu. Za testiranje ove hipoteze koristi se Studentov t-test.

Vrijednost t-kriterijuma pronađena iz podataka opservacije (koji se također nazivaju promatrani ili stvarni) upoređuje se sa tabeliranom (kritičnom) vrijednošću određenom iz Studentovih distribucijskih tabela (koje se obično daju na kraju udžbenika i radionica o statistici ili ekonometriji).

Vrednost tabele se određuje u zavisnosti od nivoa značajnosti (b) i broja stepena slobode, koji je u slučaju linearne regresije para jednak (n-2), n je broj posmatranja.

Ako je stvarna vrijednost t-testa veća od tabelarne vrijednosti (modulo), tada se glavna hipoteza odbacuje i smatra se da se s vjerovatnoćom (1-b) parametar ili statistička karakteristika u populaciji značajno razlikuje od nule. .

Ako je stvarna vrijednost t-testa manja od vrijednosti tabele (modulo), onda nema razloga za odbacivanje glavne hipoteze, tj. parametar ili statistička karakteristika u populaciji se ne razlikuje značajno od nule na nivou značajnosti b.

t crit (n-m-1;b/2) = (30;0,025) = 2,042

Od 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в u ovom slučaju koeficijent b se može zanemariti.

Od 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Interval pouzdanosti za koeficijente regresijske jednačine.

Odredimo intervale povjerenja koeficijenata regresije, koji će s pouzdanošću od 95% biti sljedeći:

  • (b - t krit S b ; b + t krit S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Budući da tačka 0 (nula) leži unutar intervala povjerenja, intervalna procjena koeficijenta b je statistički beznačajna.

  • (a - t crit S a ; a + t crit S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Sa vjerovatnoćom od 95% može se reći da će vrijednost ovog parametra ležati u pronađenom intervalu.

Budući da tačka 0 (nula) leži unutar intervala povjerenja, intervalna procjena koeficijenta a je statistički beznačajna.

2) F-statistika. Fisherov kriterijum.

Koeficijent determinacije R2 se koristi za testiranje značaja jednačine linearne regresije u cjelini.

Testiranje značajnosti regresijskog modela provodi se korištenjem Fišerovog F testa, čija se izračunata vrijednost nalazi kao omjer varijanse originalne serije zapažanja indikatora koji se proučava i nepristrasne procjene varijanse zaostalog niza za ovaj model.

Ako je izračunata vrijednost sa k 1 =(m) i k 2 =(n-m-1) stepenima slobode veća od tabelarne vrijednosti na datom nivou značajnosti, tada se model smatra značajnim.

gdje je m broj faktora u modelu.

Statistička značajnost uparene linearne regresije se procjenjuje korištenjem sljedećeg algoritma:

  • 1. Postavlja se nulta hipoteza da je jednačina u cjelini statistički beznačajna: H 0: R 2 =0 na nivou značajnosti b.
  • 2. Zatim odredite stvarnu vrijednost F-kriterijuma:

gdje je m=1 za parnu regresiju.

3. Tabelarna vrijednost se određuje iz Fisherove distributivne tablice za dati nivo značajnosti, uzimajući u obzir da je broj stupnjeva slobode za ukupan zbir kvadrata (veća varijansa) 1 i broj stupnjeva slobode za ostatak zbir kvadrata (manja varijansa) u linearnoj regresiji je n-2.

F tabela je maksimum moguće značenje kriterijum pod uticajem slučajnih faktora sa datim stepenom slobode i nivoom značajnosti b. Nivo značajnosti b - vjerovatnoća odbacivanja tačne hipoteze, pod uslovom da je tačna. Obično se uzima b jednako 0,05 ili 0,01.

4. Ako je stvarna vrijednost F-testa manja od vrijednosti u tabeli, onda kažu da nema razloga za odbacivanje nulte hipoteze.

U suprotnom, nulta hipoteza se odbacuje i sa vjerovatnoćom (1-b) prihvata se alternativna hipoteza o statističkom značaju jednačine u cjelini.

Tabelarna vrijednost kriterija sa stupnjevima slobode k 1 =1 i k 2 =30, F tabela = 4,17

Budući da je stvarna vrijednost F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Odnos između Fišerova F-testa i Studentove t-statistike izražava se jednakošću:

Indikatori kvaliteta regresijske jednačine.

Testiranje autokorelacije reziduala.

Važan preduvjet za konstruiranje kvalitativnog regresijskog modela korištenjem OLS-a je neovisnost vrijednosti slučajnih odstupanja od vrijednosti odstupanja u svim drugim opažanjima. Ovo osigurava da ne postoji korelacija između bilo kakvih odstupanja, a posebno između susjednih odstupanja.

Autokorelacija (serijska korelacija) se definiše kao korelacija između posmatranih indikatora poredanih u vremenu (vremenske serije) ili prostoru (unakrsne serije). Autokorelacija reziduala (varijansi) je uobičajena u regresionoj analizi kada se koriste podaci vremenskih serija i vrlo rijetka kada se koriste podaci poprečnog presjeka.

U ekonomskim problemima, pozitivna autokorelacija je mnogo češća od negativne autokorelacije. U većini slučajeva, pozitivna autokorelacija je uzrokovana usmjerenošću stalna izloženost neki faktori koji nisu uzeti u obzir u modelu.

Negativna autokorelacija u suštini znači da nakon pozitivnog odstupanja slijedi negativna i obrnuto. Ova situacija može nastati ako se isti odnos između potražnje za bezalkoholnim pićima i prihoda razmatra prema sezonskim podacima (zima-ljeto).

Među glavnim razlozima koji uzrokuju autokorelaciju su sljedeći:

  • 1. Greške u specifikaciji. Neuzimanje u obzir bilo koje važne eksplanatorne varijable u modelu ili netačan izbor oblika zavisnosti obično dovodi do sistemskih odstupanja tačaka posmatranja od regresione linije, što može dovesti do autokorelacije.
  • 2. Inercija. Mnogi ekonomski pokazatelji(inflacija, nezaposlenost, BNP, itd.) imaju određenu cikličnu prirodu povezanu sa talasanjem poslovne aktivnosti. Stoga se promjena indikatora ne događa odmah, već ima određenu inerciju.
  • 3. Efekat paukove mreže. U mnogim proizvodnim i drugim oblastima ekonomski pokazatelji reaguju na promjene ekonomskih uslova sa zakašnjenjem (vremenskim kašnjenjem).
  • 4. Izglađivanje podataka. Često se podaci za određeni dugi vremenski period dobijaju usrednjavanjem podataka u njegovim sastavnim intervalima. To može dovesti do određenog izglađivanja fluktuacija koje su se dogodile u periodu koji se razmatra, što zauzvrat može uzrokovati autokorelaciju.

Posljedice autokorelacije slične su posljedicama heteroskedastičnosti: zaključci iz t- i F-statistike koji određuju značajnost koeficijenta regresije i koeficijenta determinacije vjerovatno će biti netačni.



Novo na sajtu

>

Najpopularniji