Dom Desni Koji su zahtjevi u modelu regresione analize. Metode matematičke statistike

Koji su zahtjevi u modelu regresione analize. Metode matematičke statistike

ZAKLJUČAK REZULTATA

Tabela 8.3a. Statistika regresije
Statistika regresije
Množina R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
Standardna greška 0,42405
Zapažanja 10

Hajde da prvo razmotrimo gornji dio proračuni prikazani u tabeli 8.3a - statistika regresije.

Vrijednost R-kvadrat, također nazvana mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između izvornih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata pada između ovih vrijednosti, koje se nazivaju ekstremnim vrijednostima, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost relevantnih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači da je kvalitet konstruiranog modela loš.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

Množina R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruko R je jednako kvadratni korijen iz koeficijenta determinacije, ova veličina poprima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti
Odds Standardna greška t-statistika
Y-raskrsnica 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dostavljena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna, prikazan u tabeli 8.3b. Ovdje su dati koeficijent regresije b (2,305454545) i pomak duž ordinatne ose, tj. konstanta a (2,694545455).

Na osnovu proračuna možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu predznaka (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).

Ako je znak na koeficijent regresije- pozitivan, odnos između zavisne varijable i nezavisne varijable će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tabeli 8.3c. Prikazani su rezultati derivacije reziduala. Da bi se ovi rezultati pojavili u izvještaju, morate aktivirati potvrdni okvir “Residuals” kada pokrećete alat “Regresija”.

POVLAČENJE OSTALOGA

Tabela 8.3c. Ostaci
Opservation Predviđeno Y Ostaci Standardni bilansi
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruisane linije regresije. Najveća apsolutna vrijednost

Svrha regresione analize je mjerenje odnosa između zavisne varijable i jedne (parna regresiona analiza) ili više (više) nezavisnih varijabli. Nezavisne varijable se takođe nazivaju faktorske, eksplanatorne, determinantne, regresorske i prediktorske varijable.

Zavisna varijabla se ponekad naziva definirana, objašnjena ili “odgovorna” varijabla. Izuzetno rasprostranjena upotreba regresione analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, jeste efikasan metod modeliranje i predviđanje.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijom - metodom parova.

Uparena regresijska analiza

Prvi koraci pri korištenju regresione analize bit će gotovo identični onima koje smo poduzeli pri izračunavanju koeficijenta korelacije. Tri glavna uslova za efikasnost korelacione analize prema Pearson metodi - normalna distribucija varijabli, intervalno mjerenje varijabli, linearni odnos između varijabli - također su relevantni za višestruku regresiju. Shodno tome, u prvoj fazi se konstruišu dijagrami raspršenja, vrši se statistička i deskriptivna analiza varijabli i izračunava regresijska linija. Kao iu okviru korelacione analize, regresijske linije se konstruišu metodom najmanjih kvadrata.

Da bismo jasnije ilustrovali razlike između ove dve metode analize podataka, okrenimo se već diskutovanom primeru sa varijablama „Podrška SPS“ i „udeo ruralnog stanovništva“. Izvorni podaci su identični. Razlika u dijagramima raspršenja će biti u tome što je u regresionoj analizi ispravno iscrtati zavisnu varijablu – u našem slučaju, “SPS podršku” na Y-osi, dok u korelacionoj analizi to nije bitno. Nakon čišćenja odstupanja, dijagram raspršenosti izgleda ovako:

Osnovna ideja regresione analize je da ima opšti trend za varijable - u obliku regresijske linije - možete predvidjeti vrijednost zavisne varijable, s obzirom na vrijednosti nezavisne.

Zamislimo uobičajenu matematiku linearna funkcija. Bilo koja linija u Euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja specificira pomak duž ordinatne ose; b je koeficijent koji određuje ugao nagiba linije.

Poznavajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ovo najjednostavnija funkcija i formirao osnovu za model regresione analize uz upozorenje da nećemo tačno predviđati vrijednost y, već unutar određenog interval povjerenja, tj. otprilike.

Konstanta je tačka preseka linije regresije i y-ose (F-presek, koji se u statističkim paketima obično označava kao „presretač”). U našem primjeru sa glasanjem za Savez desnih snaga, njegova zaokružena vrijednost će biti 10,55. Ugaoni koeficijent b će biti približno -0,1 (kao u korelacionoj analizi, znak pokazuje vrstu veze - direktnu ili inverznu). Tako će rezultirajući model imati oblik SP C = -0,1 x Sel. nas. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika između originalne i predviđene vrijednosti naziva se ostatak (s tim pojmom, koji je fundamentalan za statistiku, već smo se susreli pri analizi kontingentnih tablica). Dakle, za slučaj "Republike Adigeje" ostatak će biti jednak 3,92 - 5,63 = -1,71. Što je veća modularna vrijednost ostatka, to je manje uspješno predviđena vrijednost.

Izračunavamo predviđene vrijednosti i ostatke za sve slučajeve:
Dešava se Sjesti. nas. hvala

(original)

hvala

(predviđeno)

Ostaci
Republika Adygea 47 3,92 5,63 -1,71 -
Republika Altai 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za procjenu kvaliteta rezultirajućeg modela i njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja statistike regresije je višestruki koeficijent korelacije R - koeficijent korelacije između originalne i predviđene vrijednosti zavisne varijable. U parnoj regresionoj analizi jednak je uobičajenom Pirsonovom koeficijentu korelacije između zavisnih i nezavisnih varijabli, u našem slučaju - 0,63. Za smisleno tumačenje višestrukog R, mora se pretvoriti u koeficijent determinacije. To se radi na isti način kao u korelacionoj analizi - kvadriranjem. Koeficijent determinacije R-kvadrat (R 2) pokazuje proporciju varijacije zavisne varijable koja je objašnjena nezavisnom varijablom(ama).

U našem slučaju, R 2 = 0,39 (0,63 2); to znači da varijabla “udio ruralnog stanovništva” objašnjava otprilike 40% varijacije u varijabli “SPS podrška”. Što je veći koeficijent determinacije, to je veći kvalitet modela.

Drugi pokazatelj kvaliteta modela je standardna greška procjene. Ovo je mjera koliko su tačke „rasute“ oko linije regresije. Mjera širenja za intervalne varijable je standardna devijacija. Prema tome, standardna greška procjene je standardna devijacija distribucije reziduala. Što je veća njegova vrijednost, veći je raspršivanje i lošiji je model. U našem slučaju, standardna greška je 2,18. Upravo za taj iznos će naš model „prosečno grešiti” prilikom predviđanja vrednosti varijable „SPS podrška”.

Regresijska statistika također uključuje analizu varijanse. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koliki deo varijanse zavisne varijable čine ostaci (neobjašnjivi deo); 3) koliki je odnos ove dve veličine (/"-odnos). Statistika disperzije je posebno važna za studije uzoraka- pokazuje koliko je vjerovatno da postoji veza između nezavisnih i zavisnih varijabli u stanovništva. Međutim, čak i za kontinuirano istraživanje (kao u našem primjeru), proučavanje rezultata analiza varijanse nije korisno. U ovom slučaju provjeravaju da li je utvrđeni statistički obrazac uzrokovan slučajnošću slučajnih okolnosti, koliko je tipičan za skup uslova u kojima se nalazi ispitana populacija, tj. nije utvrđena istinitost rezultata dobijenog za neku veću opštu populaciju, već stepen njene pravilnosti i oslobođenosti od slučajnih uticaja.

U našem slučaju, ANOVA statistika je sljedeća:

SS df GOSPOĐA F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostatak 395,59 83,00 L,11
Ukupno 654,36

F-razmjer od 54,29 je značajan na nivou od 0,0000000001. Shodno tome, sa sigurnošću možemo odbaciti nultu hipotezu (da je odnos koji smo otkrili rezultat slučajnosti).

Kriterijum t ima sličnu funkciju, ali u odnosu na koeficijente regresije (ugaoni i F-presek). Koristeći / kriterij testiramo hipotezu da su u općoj populaciji koeficijenti regresije jednaki nuli. U našem slučaju, opet možemo sa sigurnošću odbaciti nultu hipotezu.

Višestruka regresiona analiza

Model višestruka regresija skoro identičan modelu uparene regresije; jedina razlika je u tome što je nekoliko nezavisnih varijabli sekvencijalno uključeno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije nezavisne varijable, ne možemo dobiti vizualnu predstavu o njihovom odnosu u tom pogledu, višestruka regresija je manje „vizualna“ od regresije u paru. Kada imate dvije nezavisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenja. U profesionalnim statističkim softverskim paketima (na primjer, Statistica) postoji mogućnost rotiranja trodimenzionalnog grafikona, što vam omogućava da vizualno dobro predstavite strukturu podataka.

Kod rada sa višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Korak po korak algoritam uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli na osnovu njihove objašnjavajuće „težine“. Stepwise metoda je dobra kada postoji mnogo nezavisnih varijabli; “čisti” model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uslov za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je odsustvo multikolinearnosti – prisustvo jakih korelacija između nezavisnih varijabli.

Tumačenje statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Pored toga, postoje i druge važne komponente statistike višestruke regresione analize.

Rad ćemo ilustrovati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u nivou izborne aktivnosti u ruskim regijama. Specifične empirijske studije sugerišu da na nivo izlaznosti birača utiču:

Nacionalni faktor (varijabla “Rusko stanovništvo”; operacionalizovano kao udio ruskog stanovništva u konstitutivnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

Faktor urbanizacije (varijabilna " gradsko stanovništvo"; operacionalizovan kao udeo gradskog stanovništva u konstitutivnim entitetima Ruske Federacije, već smo radili sa ovim faktorom u okviru korelacione analize); Pretpostavlja se da povećanje udjela gradskog stanovništva dovodi i do smanjenja izlaznosti birača.

Zavisna varijabla - "intenzitet izborne aktivnosti" ("aktivan") operacionalizovana je kroz podatke o prosječnom odzivu po regionima na saveznim izborima od 1995. do 2003. godine. Početna tabela podataka za dvije nezavisne i jednu zavisnu varijablu bit će sljedeća:

Dešava se Varijable
Imovina. Gor. nas. Rus. nas.
Republika Adygea 64,92 53 68
Republika Altai 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Republika Karachay-Cherkess 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija ostaje 83 od 88 slučajeva)

Statistički podaci koji opisuju kvalitet modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. Shodno tome, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije varijable „izborna aktivnost“.

2. Prosječna greška je 3,38. Upravo toliko je „prosječno pogrešan“ konstruirani model kada se predviđa nivo izlaznosti.

3. /l-odnos objašnjene i neobjašnjive varijacije je 25,2 na nivou 0,000000003. Odbacuje se nulta hipoteza o nasumičnosti identifikovanih veza.

4. Kriterijum / za konstantne i regresijske koeficijente varijabli „gradsko stanovništvo“ i „rusko stanovništvo“ je značajan na nivou od 0,0000001; 0,00005 i 0,007 respektivno. Nul hipoteza da su koeficijenti slučajni se odbacuje.

Dodatne korisne statistike u analizi odnosa između originalne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prva je mjera jedinstvenosti slučaja (pokazuje koliko je kombinacija vrijednosti svih nezavisnih varijabli za ovaj slučaj odstupa od srednje vrednosti za sve nezavisne varijable istovremeno). Druga je mjera uticaja slučaja. Različita opažanja imaju različite efekte na nagib linije regresije, a Cookova udaljenost se može koristiti za njihovo upoređivanje na ovom indikatoru. Ovo može biti korisno pri čišćenju izvanrednih vrijednosti (odvojeni slučaj se može smatrati pretjerano utjecajnim slučajem).

U našem primjeru, jedinstveni i utjecajni slučajevi uključuju Dagestan.

Dešava se Original

vrijednosti

Predska

vrijednosti

Ostaci Razdaljina

Mahalanobis

Razdaljina
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Altai 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Sam regresijski model ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (horizontalno) = -0,1; Kommersant (rus. nas.) = -0,06. Konačna formula.

Karakteristike kauzalnih zavisnosti

Uzročno-posledične veze- ovo je veza između pojava i procesa, kada promjena jednog od njih - uzroka - dovodi do promjene drugog - posljedice.

Znakovi prema svom značaju za proučavanje odnosa dijele se u dvije klase.

Znakovi koji uzrokuju promjene u drugim znakovima povezanim s njima se nazivaju faktorijal (ili faktori).

Znakovi koji se mijenjaju pod uticajem faktorskih znakova su efektivno.

Razlikuju se sljedeći oblici komunikacije: funkcionalni i stohastički. Funkcionalni je odnos u kojem određena vrijednost faktorske karakteristike odgovara jednoj i samo jednoj vrijednosti rezultantne karakteristike. Funkcionalna povezanost se manifestuje u svim slučajevima posmatranja i za svaku konkretnu jedinicu populacije koja se proučava.

Funkcionalni odnos se može predstaviti sljedećom jednadžbom:
y i =f(x i), gdje: y i - rezultantni znak; f(x i) - poznata funkcija veze između rezultantnih i faktorskih karakteristika; x i - faktor znak.
U stvarnoj prirodi ne postoje funkcionalne veze. Oni su samo apstrakcije, korisne u analizi fenomena, ali pojednostavljuju stvarnost.

Stohastički (statistički ili slučajni)veza predstavlja odnos između veličina u kojem jedna od njih reaguje na promjenu druge veličine ili drugih veličina promjenom zakona raspodjele. Drugim riječima, sa ovom vezom različita značenja jedna varijabla odgovara različitim distribucijama druge varijable. To je zbog činjenice da na zavisnu varijablu, pored nezavisnih koje se razmatraju, utiču i brojni neobračunati ili nekontrolisani slučajni faktori, kao i neke neizbežne greške u merenju varijabli. Zbog činjenice da su vrijednosti zavisne varijable podložne slučajnom rasipanju, one se ne mogu predvidjeti s dovoljnom točnošću, već se mogu naznačiti samo s određenom vjerojatnošću.

Zbog dvosmislenosti stohastičke zavisnosti između Y i X, posebno je interesantna šema zavisnosti usrednjena za x, tj. obrazac u promjeni prosječne vrijednosti - uslovno matematičko očekivanje Mx(Y) (matematičko očekivanje slučajne varijable Y, pronađeno pod uslovom da varijabla X poprima vrijednost x) u zavisnosti od x.

Poseban slučaj stohastičke komunikacije je korelacija. Korelacija(od lat. korelacija- korelacija, odnos). Direktna definicija pojma korelacija - stohastički, vjerovatno, moguće veza između dvoje (par) ili nekoliko (više) slučajne varijable.

Korelaciona zavisnost između dve varijable naziva se i statistička veza između ovih varijabli, u kojoj svakoj vrednosti jedne varijable odgovara određena prosečna vrednost, tj. uslovno matematičko očekivanje je drugačije. Korelaciona ovisnost je poseban slučaj stohastičke ovisnosti, u kojoj promjena vrijednosti faktorskih karakteristika (x 1 x 2 ..., x n) povlači promjenu prosječne vrijednosti rezultirajuće karakteristike.



Uobičajeno je razlikovati sljedeće vrste korelacije:

1. Parna korelacija – veza između dvije karakteristike (rezultativne i faktorske ili dva faktora).

2. Parcijalna korelacija - zavisnost između rezultantne i jedne faktorske karakteristike sa fiksnom vrijednošću ostalih faktorskih karakteristika uključenih u studiju.

3. Višestruka korelacija – zavisnost rezultanta i dva ili više faktorskih karakteristika uključenih u studiju.

Svrha regresijske analize

Analitički oblik predstavljanja uzročno-posledičnih veza su regresijski modeli. Naučna valjanost i popularnost regresione analize čini je jednim od glavnih matematičkih alata za modeliranje fenomena koji se proučava. Ova metoda se koristi za izglađivanje eksperimentalnih podataka i dobijanje kvantitativnih procjena komparativnog utjecaja razni faktori na varijablu ishoda.

Regresiona analiza je u određivanju analitičkog izraza odnosa u kojem je promjena jedne vrijednosti (zavisne varijable ili rezultantne karakteristike) posljedica utjecaja jednog ili više nezavisne količine(faktori ili prediktori), a skup svih ostalih faktora koji takođe utiču na zavisnu vrednost uzimaju se kao konstantne i prosečne vrednosti.

Ciljevi regresione analize:

Procjena funkcionalne zavisnosti uslovne prosječne vrijednosti rezultantne karakteristike y od faktora faktora (x 1, x 2, ..., x n);

Predviđanje vrijednosti zavisne varijable koristeći nezavisnu(e) varijablu(e).

Određivanje doprinosa pojedinačnih nezavisnih varijabli varijaciji zavisne varijable.

Regresionom analizom se ne može utvrditi da li postoji veza između varijabli, jer je postojanje takve veze preduslov za primenu analize.

U regresijskoj analizi unaprijed se pretpostavlja da postoje uzročno-posljedične veze između rezultante (U) i faktorskih karakteristika x 1, x 2 ..., x n.

Funkcija , op Odredjujuća zavisnost indikatora od parametara naziva se regresijska jednačina (funkcija) 1 . Jednačina regresije pokazuje očekivanu vrijednost zavisne varijable s obzirom na određene vrijednosti nezavisnih varijabli.
U zavisnosti od broja faktora uključenih u model X modeli se dijele na jednofaktorne (model parne regresije) i višefaktorske (model višestruke regresije). Ovisno o vrsti funkcije, modeli se dijele na linearne i nelinearne.

Model uparene regresije

Zbog uticaja neuračunatih slučajnih faktora i uzroka, pojedinačna zapažanja y će u većoj ili manjoj meri odstupiti od funkcije regresije f(x). U ovom slučaju, jednačina za odnos između dvije varijable (upareni regresijski model) može se predstaviti kao:

Y=f(X) + ɛ,

gdje je ɛ slučajna varijabla koja karakterizira odstupanje od funkcije regresije. Ova varijabla se naziva smetnja ili smetnja (rezidualna ili greška). Dakle, u regresijskom modelu zavisna varijabla Y postoji neka funkcija f(X) do nasumičnih poremećaja ɛ.

Razmotrimo klasični linearni model parne regresije (CLMPR). Ona izgleda kao

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

Gdje y i– objašnjeno (rezultirajuća, zavisna, endogena varijabla); x i– eksplanatorna (prediktorska, faktorska, egzogena) varijabla; β 0 , β 1– numerički koeficijenti; ɛi– slučajna (stohastička) komponenta ili greška.

Osnovni uslovi (preduslovi, hipoteze) KLMPR-a:

1) x i– deterministička (nesumična) veličina, a pretpostavlja se da među vrijednostima x i – nisu sve iste.

2) Očekivana vrijednost(prosječne vrijednosti) poremećaja ɛi jednako nuli:

M[ɛ i ]=0 (i=1,2, …, n).

3) Disperzija poremećaja je konstantna za bilo koju vrijednost i (uslov homoskedastičnosti):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Poremećaji za različita opažanja nisu u korelaciji:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 za i≠j,

gdje je cov[ɛ i , ɛ j ] koeficijent kovarijance (korelacijski momenat).

5) Poremećaji su normalno raspoređene slučajne varijable sa nultom srednjom vrednošću i varijansom σ 2:

ɛ i ≈ N(0, σ 2).

Da bi se dobila jednačina regresije, dovoljne su prve četiri premise. Zahtjev da se ispuni peti preduslov je neophodan za procjenu tačnosti jednačine regresije i njenih parametara.

komentar: Fokus na linearnim odnosima objašnjava se ograničenom varijacijom varijabli i činjenicom da se u većini slučajeva nelinearni oblici odnosa pretvaraju (logaritmom ili zamjenom varijabli) u linearni oblik za obavljanje proračuna.

Tradicionalna metoda najmanji kvadrati (LS)

Procjena modela iz uzorka je jednačina

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

gdje je ŷ i – teorijske (aproksimativne) vrijednosti zavisne varijable dobijene iz jednadžbe regresije; a 0 , a 1 - koeficijenti (parametri) regresione jednačine (uzorak procjena koeficijenata β 0, β 1, respektivno).

Prema najmanjim kvadratima, nepoznati parametri a 0 , a 1 biraju se tako da je zbir kvadrata odstupanja vrijednosti ŷ i od empirijskih vrijednosti y i (preostali zbir kvadrata) minimalan:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

gdje je e i = y i - ŷ i – procjena uzorka poremećaja ɛ i, ili rezidual regresije.

Problem se svodi na pronalaženje takvih vrijednosti parametara a 0 i a 1 za koje funkcija Q e uzima najmanju vrijednost. Imajte na umu da je funkcija Q e = Q e (a 0 , a 1) funkcija dvije varijable a 0 i a 1 sve dok nismo pronašli i potom fiksirali njihove “najbolje” (u smislu metode najmanjih kvadrata) vrijednosti, a x i , y i su konstantni brojevi pronađeni eksperimentalno.

Potrebni uslovi ekstremi (3) se nalaze izjednačavanjem parcijalnih izvoda ove funkcije dvije varijable na nulu. Kao rezultat, dobijamo sistem od dva linearne jednačine, koji se naziva sistem normalnih jednačina:

(4)

Koeficijent a 1 je koeficijent regresije uzorka y na x, koji pokazuje koliko se jedinica u prosjeku mijenja varijabla y kada se varijabla x promijeni za jednu jedinicu mjerenja, odnosno varijaciju u y po jedinici varijacije u x. Potpiši a 1 ukazuje na smjer ove promjene. Koeficijent a 0 – pomak, prema (2) jednaka vrijednostiŷ i za x=0 i možda neće imati smislenu interpretaciju. Iz tog razloga, zavisna varijabla se ponekad naziva odgovor.

Statistička svojstva procjena koeficijenta regresije:

Procjene koeficijenta a 0, a 1 su nepristrasne;

Varijance procjena a 0 , a 1 se smanjuju (tačnost procjena raste) sa povećanjem veličine uzorka n;

Varijanca procjene nagiba a 1 opada sa povećanjem i stoga je preporučljivo izabrati x i tako da njihovo širenje oko prosječne vrijednosti bude veliko;

Za x¯ > 0 (što je od najvećeg interesa), postoji negativan statistički odnos između 0 i 1 (povećanje 1 dovodi do smanjenja 0).

Glavna karakteristika regresione analize: uz njenu pomoć možete dobiti specifične informacije o tome kakav oblik i prirodu ima odnos između varijabli koje se proučavaju.

Redoslijed faza regresione analize

Razmotrimo ukratko faze regresione analize.

    Formulacija problema. U ovoj fazi se formiraju preliminarne hipoteze o zavisnosti proučavanih pojava.

    Definicija zavisnih i nezavisnih (objašnjavajućih) varijabli.

    Prikupljanje statističkih podataka. Podaci se moraju prikupiti za svaku od varijabli uključenih u regresijski model.

    Formulacija hipoteze o obliku veze (jednostavna ili višestruka, linearna ili nelinearna).

    Definicija regresijske funkcije (sastoji se u izračunavanju numeričkih vrijednosti parametara regresijske jednadžbe)

    Procjena tačnosti regresione analize.

    Interpretacija dobijenih rezultata. Dobijeni rezultati regresione analize uspoređeni su sa preliminarnim hipotezama. Ocjenjuje se ispravnost i vjerodostojnost dobijenih rezultata.

    Predviđanje nepoznate vrijednosti zavisna varijabla.

Koristeći regresionu analizu, moguće je riješiti problem predviđanja i klasifikacije. Predviđene vrijednosti se izračunavaju zamjenom vrijednosti objašnjavajućih varijabli u jednadžbu regresije. Problem klasifikacije se rješava na ovaj način: regresijska linija dijeli cijeli skup objekata u dvije klase, pri čemu onaj dio skupa gdje je vrijednost funkcije veća od nule pripada jednoj klasi, a dio gdje je manja od nule. pripada drugoj klasi.

Problemi regresijske analize

Razmotrimo glavne zadatke regresione analize: utvrđivanje oblika zavisnosti, određivanje regresijske funkcije, procjena nepoznatih vrijednosti zavisne varijable.

Uspostavljanje oblika zavisnosti.

Priroda i oblik odnosa između varijabli mogu formirati sljedeće vrste regresije:

    pozitivno linearna regresija(izraženo ujednačenim rastom funkcije);

    pozitivna ravnomerno rastuća regresija;

    pozitivna ravnomerno rastuća regresija;

    negativna linearna regresija (izražena kao uniforman pad funkcije);

    negativna ravnomerno ubrzana opadajuća regresija;

    negativna ravnomjerno opadajuća regresija.

Međutim, opisane sorte se obično ne nalaze u čista forma, ali u kombinaciji jedno s drugim. U ovom slučaju govorimo o kombinovanim oblicima regresije.

Definicija funkcije regresije.

Drugi zadatak se svodi na utvrđivanje uticaja na zavisnu varijablu glavnih faktora ili uzroka, pod uslovom da su ostale jednake, i uz isključenje uticaja slučajnih elemenata na zavisnu varijablu. Regresijska funkcija definira se u obliku matematičke jednadžbe ovog ili drugog tipa.

Procjena nepoznatih vrijednosti zavisne varijable.

Rješenje ovog problema svodi se na rješavanje problema jednog od sljedećih tipova:

    Procjena vrijednosti zavisne varijable unutar razmatranog intervala početnih podataka, tj. nedostajuće vrijednosti; u ovom slučaju, problem interpolacije je riješen.

    Procjena budućih vrijednosti zavisne varijable, tj. pronalaženje vrijednosti izvan navedenog intervala izvornih podataka; u ovom slučaju je riješen problem ekstrapolacije.

Oba problema se rješavaju zamjenom pronađenih procjena parametara za vrijednosti nezavisnih varijabli u jednadžbu regresije. Rezultat rješavanja jednačine je procjena vrijednosti ciljne (zavisne) varijable.

Pogledajmo neke od pretpostavki na koje se oslanja regresiona analiza.

Pretpostavka linearnosti, tj. pretpostavlja se da je odnos između varijabli koje se razmatraju linearan. Dakle, u ovom primjeru smo nacrtali dijagram raspršenosti i mogli smo vidjeti jasan linearni odnos. Ako na dijagramu raspršenja varijabli vidimo jasno odsustvo linearne veze, tj. Ako postoji nelinearna veza, treba koristiti metode nelinearne analize.

Pretpostavka normalnosti ostaci. Pretpostavlja se da je distribucija razlike između predviđenih i posmatranih vrijednosti normalna. Da biste vizualno odredili prirodu distribucije, možete koristiti histograme ostaci.

Kada se koristi regresiona analiza, treba uzeti u obzir njeno glavno ograničenje. Sastoji se u činjenici da nam regresiona analiza omogućava da otkrijemo samo zavisnosti, a ne veze koje leže u osnovi ovih zavisnosti.

Regresiona analiza vam omogućava da procenite jačinu veze između varijabli izračunavanjem procenjene vrednosti varijable na osnovu nekoliko poznatih vrednosti.

Jednačina regresije.

Jednačina regresije izgleda ovako: Y=a+b*X

Koristeći ovu jednačinu, varijabla Y je izražena u terminima konstante a i nagiba prave (ili nagiba) b, pomnožene vrijednošću varijable X. Konstanta a se također naziva termin presjeka, a nagib je koeficijent regresije ili B-koeficijent.

U većini slučajeva (ako ne i uvijek) postoji određena raspršenost opažanja u odnosu na liniju regresije.

Ostatak je odstupanje jedne tačke (zapažanja) od linije regresije (predviđena vrijednost).

Da biste riješili problem regresione analize u MS Excelu, odaberite iz izbornika Servis"Paket analiza" i alat za analizu regresije. Postavljamo ulazne intervale X i Y. Ulazni interval Y je opseg zavisnih analiziranih podataka, mora uključivati ​​jednu kolonu. Interval unosa X je raspon nezavisnih podataka koje treba analizirati. Broj ulaznih raspona ne bi trebao biti veći od 16.

Na izlazu procedure u izlaznom opsegu dobijamo dat izveštaj tabela 8.3a-8.3v.

ZAKLJUČAK REZULTATA

Tabela 8.3a. Statistika regresije

Statistika regresije

Množina R

R-kvadrat

Normalizirani R-kvadrat

Standardna greška

Zapažanja

Pogledajmo prvo gornji dio proračuna predstavljenih u tabela 8.3a, - statistika regresije.

Magnituda R-kvadrat, koji se naziva i mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između izvornih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva vrijednost R-kvadrat je između ovih vrijednosti, naziva se ekstremna, tj. između nule i jedan.

Ako vrijednost R-kvadrat blizu jedinice, to znači da konstruisani model objašnjava skoro svu varijabilnost odgovarajućih varijabli. Obrnuto, značenje R-kvadrat, blizu nule, znači loš kvalitet izrađenog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

množina R - koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Množina R jednaka je kvadratnom korijenu koeficijenta determinacije; ova veličina poprima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresionoj analizi množina R jednaka Pearsonovom koeficijentu korelacije. stvarno, množina R u našem slučaju jednak je Pirsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti

Odds

Standardna greška

t-statistika

Y-raskrsnica

Varijabla X 1

* Dostavljena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna predstavljenih u tabela 8.3b. Ovdje su dati koeficijent regresije b (2,305454545) i pomak duž ordinatne ose, tj. konstanta a (2,694545455).

Na osnovu proračuna možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu predznaka (negativnih ili pozitivnih) koeficijenata regresije (koeficijent b).

Ako je predznak koeficijenta regresije pozitivan, odnos između zavisne varijable i nezavisne varijable će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je predznak koeficijenta regresije negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

IN tabela 8.3c. prikazani su izlazni rezultati ostaci. Da bi se ovi rezultati pojavili u izvještaju, morate aktivirati potvrdni okvir “Residuals” kada pokrećete alat “Regresija”.

POVLAČENJE OSTALOGA

Tabela 8.3c. Ostaci

Opservation

Predviđeno Y

Ostaci

Standardni bilansi

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruisane linije regresije. Najveća apsolutna vrijednost ostatak u našem slučaju - 0,778, najmanji - 0,043. Da bismo bolje interpretirali ove podatke, koristit ćemo graf izvornih podataka i konstruiranu regresijsku liniju prikazanu u pirinač. 8.3. Kao što vidite, regresijska linija je prilično precizno "uklopljena" u vrijednosti izvornih podataka.

Treba uzeti u obzir da je primjer koji se razmatra prilično jednostavan i da nije uvijek moguće kvalitativno konstruirati liniju linearne regresije.

Rice. 8.3. Izvorni podaci i regresijska linija

Problem procjene nepoznatih budućih vrijednosti zavisne varijable na osnovu poznatih vrijednosti nezavisne varijable ostao je nerazmatran, tj. problem predviđanja.

Imajući jednadžbu regresije, problem predviđanja se svodi na rješavanje jednadžbe Y= x*2,305454545+2,694545455 sa poznatim vrijednostima x. Prikazani su rezultati predviđanja zavisne varijable Y šest koraka unaprijed u tabeli 8.4.

Tabela 8.4. Rezultati varijable prognoze Y

Y (predviđeno)

Dakle, kao rezultat korištenja regresione analize u Microsoft Excelu, mi:

    izgrađena jednačina regresije;

    utvrđen oblik zavisnosti i pravac veze između varijabli - pozitivna linearna regresija, koja se izražava u ravnomernom rastu funkcije;

    utvrdio pravac odnosa između varijabli;

    procijenio kvalitet rezultirajuće linije regresije;

    bili u mogućnosti da vide odstupanja izračunatih podataka od podataka originalnog skupa;

    predviđene buduće vrijednosti zavisne varijable.

Ako regresijska funkcija definisano, interpretirano i opravdano, a procjena tačnosti regresione analize ispunjava zahtjeve, konstruisani model i predviđene vrijednosti mogu se smatrati dovoljno pouzdanim.

Predviđene vrijednosti dobijene na ovaj način su prosječne vrijednosti koje se mogu očekivati.

U ovom radu razmotrili smo glavne karakteristike deskriptivna statistika a među njima i koncepti kao što su prosječna vrijednost,medijana,maksimum,minimum i druge karakteristike varijacije podataka.

Kratko se razgovaralo io konceptu emisije. Razmatrane karakteristike se odnose na takozvanu istraživačku analizu podataka, njeni zaključci se možda ne odnose na opštu populaciju, već samo na uzorak podataka. Eksploratorna analiza podataka koristi se za dobijanje primarnih zaključaka i formiranje hipoteza o populaciji.

Diskutovane su i osnove korelacione i regresione analize, njihovi zadaci i mogućnosti praktične upotrebe.

Metoda regresijske analize koristi se za određivanje tehničkih i ekonomskih parametara proizvoda koji pripadaju određenoj parametarskoj seriji kako bi se izgradili i uskladili vrijednosni odnosi. Ova metoda se koristi za analizu i opravdavanje odnosa nivoa i cijena proizvoda koje karakterizira prisustvo jednog ili više tehničkih i ekonomskih parametara koji odražavaju glavna potrošačka svojstva. Regresiona analiza nam omogućava da pronađemo empirijsku formulu koja opisuje ovisnost cijene o tehničkim i ekonomskim parametrima proizvoda:

P=f(X1X2,...,Xn),

gdje je P vrijednost jedinične cijene proizvoda, rub.; (X1, X2, ... Xn) - tehnički i ekonomski parametri proizvoda.

Metoda regresione analize - najnaprednija od korišćenih normativno-parametarskih metoda - efikasna je kada se izvode proračuni zasnovani na upotrebi savremenih informacione tehnologije i sistemi. Njegova primjena uključuje sljedeće glavne korake:

  • određivanje klasifikacijskih parametarskih grupa proizvoda;
  • izbor parametara koji najviše utiču na cenu proizvoda;
  • izbor i opravdanje oblika povezanosti promjena cijena pri promjeni parametara;
  • izrada sistema normalnih jednačina i proračun regresionih koeficijenata.

Basic kvalifikacionu grupu proizvodi čija je cijena podložna izjednačavanju je parametarska serija, u okviru koje se proizvodi mogu grupirati u različite izvedbe u zavisnosti od njihove primjene, uslova rada i zahtjeva itd. Prilikom formiranja parametarskih serija mogu se koristiti automatske metode klasifikacije koje omogućavaju proizvodima da identifikuju svoje homogene grupe. Odabir tehničkih i ekonomskih parametara vrši se na osnovu sljedećih osnovnih zahtjeva:

  • odabrani parametri uključuju parametre zabilježene u standardima i tehnički uslovi; pored tehničkih parametara (snaga, nosivost, brzina itd.), koriste se indikatori serijalizacije proizvoda, koeficijenti složenosti, unifikacije itd.;
  • skup odabranih parametara trebao bi dovoljno u potpunosti karakterizirati dizajn, tehnološka i operativna svojstva proizvoda uključenih u seriju i imati prilično blisku korelaciju s cijenom;
  • parametri ne bi trebali biti međusobno zavisni.

Za odabir tehničkih i ekonomskih parametara koji značajno utječu na cijenu izračunava se matrica koeficijenata korelacije parova. Na osnovu veličine koeficijenata korelacije između parametara može se suditi o bliskosti njihove povezanosti. Istovremeno, korelacija blizu nule pokazuje neznatan uticaj parametra na cenu. Konačni odabir tehničko-ekonomskih parametara vrši se u procesu regresione analize korak po korak korištenjem kompjuterska oprema i odgovarajuće standardne programe.

U praksi određivanja cijena koristi se sljedeći skup funkcija:

linearno

P = ao + alXl + ... + antXn,

linearne snage

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverzni logaritam

P = a0 + a1: U X1 + ... + an: U Xn,

moć

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikativno

P = e^(a1+a1X1+...+anXn)

hiperbolično

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

gdje je P izjednačavanje cijena; X1 X2,..., Xn - vrijednost tehničkih i ekonomskih parametara proizvoda serije; a0, a1 ..., an - izračunati koeficijenti regresione jednačine.

U praktičnom radu na određivanju cijena, ovisno o obliku odnosa cijena i tehničko-ekonomskih parametara, mogu se koristiti i druge regresijske jednačine. Tip funkcije veze između cijene i skupa tehničko-ekonomskih parametara može se unaprijed postaviti ili odabrati automatski tokom kompjuterske obrade. Bliskost korelacije između cijene i skupa parametara ocjenjuje se vrijednošću višestruki koeficijent korelacije. Njegova blizina jednom ukazuje na blisku vezu. Pomoću regresijske jednadžbe dobijaju se izjednačene (izračunate) vrijednosti cijena za proizvode date parametarske serije. Za procjenu rezultata izjednačavanja izračunavaju se relativne vrijednosti odstupanja izračunatih vrijednosti cijena od stvarnih:

Tsr = Rf - Rr: R x 100

gdje je Rf, Rr - stvarne i obračunate cijene.

Vrijednost CR ne bi trebala prelaziti 8-10%. U slučaju značajnih odstupanja izračunatih vrijednosti od stvarnih, potrebno je istražiti:

  • ispravnost formiranja parametarske serije, jer može sadržavati proizvode koji se po svojim parametrima oštro razlikuju od ostalih proizvoda u seriji. Moraju biti isključeni;
  • ispravan odabir tehničkih i ekonomskih parametara. Moguć je skup parametara koji je u slaboj korelaciji sa cijenom. U tom slučaju potrebno je nastaviti pretraživanje i odabir parametara.

Postupak i metodologija izvođenja regresione analize, pronalaženja nepoznatih parametara jednačine i ekonomska procjena dobijenih rezultata sprovode se u skladu sa zahtjevima matematičke statistike.



Novo na sajtu

>

Najpopularniji