Dom Obložen jezik Koeficijent korelacije se koristi za testiranje statističke značajnosti. Test: Procjena značaja koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Koeficijent korelacije se koristi za testiranje statističke značajnosti. Test: Procjena značaja koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Kao što je više puta napomenuto, da bi se donio statistički zaključak o postojanju ili odsustvu korelacije između ispitivanih varijabli, potrebno je provjeriti značajnost koeficijenta korelacije uzorka. Zbog činjenice da pouzdanost statističkih karakteristika, uključujući i koeficijent korelacije, zavisi od veličine uzorka, može doći do situacije kada je vrijednost koeficijenta korelacije u potpunosti određena slučajnim fluktuacijama u uzorku na osnovu kojih se izračunava. . Ako postoji značajan odnos između varijabli, koeficijent korelacije bi trebao biti značajno različit od nule. Ako ne postoji korelacija između proučavanih varijabli, tada je koeficijent korelacije populacije ρ jednak nuli. U praktičnim istraživanjima, po pravilu se zasnivaju na posmatranju uzoraka. Kao i svaka statistička karakteristika, koeficijent korelacije uzorka je slučajna varijabla, tj. njegove vrijednosti su nasumično raspršene oko istoimenog parametra populacije (prava vrijednost koeficijenta korelacije). U nedostatku korelacije između varijabli y i x koeficijent korelacije u populaciji je nula. Ali zbog slučajne prirode raspršenja, situacije su fundamentalno moguće kada će se neki koeficijenti korelacije izračunati iz uzoraka iz ove populacije razlikovati od nule.

Mogu li se uočene razlike pripisati slučajnim fluktuacijama u uzorku ili odražavaju značajnu promjenu uslova pod kojima su se formirale veze između varijabli? Ako vrijednosti koeficijenta korelacije uzorka padaju u zonu raspršenja zbog slučajne prirode samog indikatora, onda to nije dokaz odsustva veze. Najviše što se može reći je da opservacijski podaci ne poriču nepostojanje veze između varijabli. Ali ako se vrijednost koeficijenta korelacije uzorka nalazi izvan spomenute zone raspršenja, onda zaključuju da se značajno razlikuje od nule, te možemo pretpostaviti da između varijabli y i x postoji statistički značajna veza. Kriterijum koji se koristi za rješavanje ovog problema, a baziran na distribuciji različitih statistika, naziva se kriterij značajnosti.

Procedura testiranja značajnosti počinje formulisanjem nulte hipoteze H0 . Uopšteno govoreći, ne postoje značajne razlike između parametra uzorka i parametra populacije. Alternativna hipoteza H1 je da postoje značajne razlike između ovih parametara. Na primjer, kada se testira korelacija u populaciji, nulta hipoteza je da je pravi koeficijent korelacije nula ( H0: ρ = 0). Ako se kao rezultat testa pokaže da nulta hipoteza nije prihvatljiva, tada koeficijent korelacije uzorka rwow značajno razlikuje od nule (nulta hipoteza se odbacuje i alternativa se prihvata H1). Drugim riječima, pretpostavku da su slučajne varijable u populaciji nekorelirane treba smatrati neosnovanom. Suprotno tome, ako se na osnovu testa značajnosti prihvata nulta hipoteza, tj. rwow leži u dozvoljenoj zoni slučajnog raspršenja, onda nema razloga da se pretpostavka nekoreliranih varijabli u populaciji smatra upitnom.

U testu značajnosti, istraživač postavlja nivo značajnosti α koji pruža praktičnu sigurnost da će se pogrešni zaključci donijeti samo u vrlo rijetkim slučajevima. Nivo značajnosti izražava vjerovatnoću da je nulta hipoteza H0 odbijeno kada je to zaista istina. Jasno je da ima smisla odabrati ovu vjerovatnoću što manju.

Neka je poznata distribucija karakteristike uzorka, što je nepristrasna procjena parametra populacije. Odabrani nivo značajnosti α odgovara zasjenjenim područjima ispod krive ove distribucije (vidi sliku 24). Neosenčeno područje ispod krivulje distribucije određuje vjerovatnoću P = 1 - α . Granice segmenata na x-osi ispod zasjenjenih područja nazivaju se kritičnim vrijednostima, a sami segmenti čine kritično područje, odnosno područje odbacivanja hipoteze.

U postupku testiranja hipoteze, karakteristika uzorka izračunata iz rezultata promatranja uspoređuje se s odgovarajućom kritičnom vrijednošću. U ovom slučaju treba razlikovati jednostrane i dvostrane kritične oblasti. Oblik specificiranja kritičnog područja zavisi od formulacije problema u statističkim istraživanjima. Dvostrano kritično područje je neophodno kada je prilikom upoređivanja parametra uzorka i parametra populacije potrebno procijeniti apsolutnu vrijednost neslaganja između njih, odnosno pozitivne i negativne razlike između proučavanih vrijednosti su od interes. Kada je potrebno osigurati da je jedna vrijednost u prosjeku striktno veća ili manja od druge, koristi se jednostrano kritično područje (desno ili lijevo). Sasvim je očigledno da je za istu kritičnu vrijednost nivo značajnosti pri korištenju jednostranog kritičnog područja manji nego kod korištenja dvostranog. Ako je raspodjela karakteristike uzorka simetrična,

Rice. 24. Testiranje nulte hipoteze H0

tada je nivo značajnosti dvostranog kritičnog područja jednak α, a jednostranog - (vidi sliku 24). Ograničimo se na opštu formulaciju problema. Detaljnije informacije o teorijskoj osnovi za testiranje statističkih hipoteza mogu se naći u stručnoj literaturi. U nastavku ćemo samo naznačiti kriterijume značaja za različite postupke, ne zadržavajući se na njihovoj konstrukciji.

Provjerom značajnosti koeficijenta parne korelacije utvrđuje se prisustvo ili odsustvo korelacije između proučavanih pojava. U nedostatku veze, koeficijent korelacije populacije je nula (ρ = 0). Procedura testiranja počinje formulisanjem nulte i alternativne hipoteze:

H0: razlika između koeficijenta korelacije uzorka r a ρ = 0 je beznačajan,

H1: razlika između r i ρ = ​​0 je značajno, a samim tim i između varijabli at I X postoji značajna veza. Alternativna hipoteza implicira da trebamo koristiti dvostrano kritično područje.

Već je spomenuto u Odjeljku 8.1 da je koeficijent korelacije uzorka, pod određenim pretpostavkama, povezan sa slučajnom varijablom t, poštujući Studentovu distribuciju sa f = n- 2 stepena slobode. Statistika izračunata iz rezultata uzorka

se poredi sa kritičnom vrednošću određenom iz Studentove tabele raspodele na datom nivou značajnosti α If = n- 2 stepena slobode. Pravilo za primenu kriterijuma je sledeće: ako | t| >tf,A, zatim nulta hipoteza na nivou značajnosti α odbačen, tj. odnos između varijabli je značajan; ako | t| ≤tf,A, tada se prihvata nulta hipoteza na nivou značajnosti α. Odstupanje vrijednosti r od ρ = 0 može se pripisati slučajnoj varijaciji. Podaci uzorka karakteriziraju hipotezu koja se razmatra kao vrlo moguću i vjerodostojnu, odnosno hipoteza o nepostojanju veze ne izaziva primjedbe.

Procedura za testiranje hipoteze je znatno pojednostavljena ako se umjesto statistike t koristiti kritične vrijednosti koeficijenta korelacije, koji se mogu odrediti kroz kvantile Studentove distribucije zamjenom u (8.38) t= tf, a i r= ρ f, O:

(8.39)

Postoje detaljne tabele kritičnih vrednosti, izvod iz kojih je dat u dodatku ove knjige (videti tabelu 6). Pravilo za testiranje hipoteze u ovom slučaju se svodi na sljedeće: ako r> ρ f, i tada možemo tvrditi da je odnos između varijabli značajan. Ako rrf,A, onda smatramo da su rezultati posmatranja u skladu sa hipotezom o odsustvu veze.

Kao što je više puta napomenuto, da bi se donio statistički zaključak o postojanju ili odsustvu korelacije između ispitivanih varijabli, potrebno je provjeriti značajnost koeficijenta korelacije uzorka. Zbog činjenice da pouzdanost statističkih karakteristika, uključujući i koeficijent korelacije, zavisi od veličine uzorka, može doći do situacije kada je vrijednost koeficijenta korelacije u potpunosti određena slučajnim fluktuacijama u uzorku na osnovu kojih se izračunava. . Ako postoji značajan odnos između varijabli, koeficijent korelacije bi trebao biti značajno različit od nule. Ako ne postoji korelacija između proučavanih varijabli, tada je koeficijent korelacije populacije jednak nuli. U praktičnim istraživanjima, po pravilu se zasnivaju na posmatranju uzoraka. Kao i svaka statistička karakteristika, koeficijent korelacije uzorka je slučajna varijabla, odnosno njegove vrijednosti su nasumično raspršene oko istoimenog parametra populacije (prava vrijednost koeficijenta korelacije). Ako ne postoji korelacija između varijabli, njihov koeficijent korelacije u populaciji je jednak nuli. Ali zbog slučajne prirode raspršenja, situacije su fundamentalno moguće kada će se neki koeficijenti korelacije izračunati iz uzoraka iz ove populacije razlikovati od nule.

Mogu li se uočene razlike pripisati slučajnim fluktuacijama u uzorku ili odražavaju značajnu promjenu uslova pod kojima su se formirale veze između varijabli? Ako vrijednosti koeficijenta korelacije uzorka padaju unutar zone raspršenja,

zbog nasumične prirode samog indikatora, ovo nije dokaz odsustva veze. Najviše što se može reći je da opservacijski podaci ne poriču nepostojanje veze između varijabli. Ali ako se vrijednost koeficijenta korelacije uzorka nalazi izvan navedene zone raspršenja, onda zaključuju da se ona značajno razlikuje od nule, te možemo pretpostaviti da postoji statistička razlika između varijabli smislena veza. Kriterijum koji se koristi za rješavanje ovog problema, a baziran na distribuciji različitih statistika, naziva se kriterij značajnosti.

Procedura testiranja značajnosti počinje formulisanjem nulte hipoteze.Uopšteno govoreći, ne postoje značajne razlike između parametra uzorka i parametra populacije. Alternativna hipoteza je da postoje značajne razlike između ovih parametara. Na primjer, kada se testira prisutnost korelacije u populaciji, nulta hipoteza je da je pravi koeficijent korelacije nula. Ako test rezultira da je nulta hipoteza neprihvatljiva, tada se koeficijent korelacije uzorka značajno razlikuje od nule (nulti hipoteza se odbacuje, a alternativa prihvata. Drugim rečima, pretpostavku da slučajne varijable nisu u korelaciji u populaciji treba smatrati neosnovanom. I obrnuto, ako se na osnovu kriterijuma značajnosti prihvati nulta hipoteza, tj. u dozvoljenoj zoni slučajnog raspršenja, onda nema razloga da se pretpostavka nekoreliranih varijabli u populaciji smatra upitnom.

U testu značajnosti, istraživač postavlja nivo značajnosti a koji pruža praktičnu sigurnost da će se pogrešni zaključci donijeti samo u vrlo rijetkim slučajevima. Nivo značajnosti izražava vjerovatnoću da će nulta hipoteza biti odbačena kada je zapravo tačna. Jasno je da ima smisla odabrati ovu vjerovatnoću što manju.

Neka je poznata distribucija karakteristike uzorka, što je nepristrasna procjena parametra populacije. Odabrani nivo značajnosti a odgovara zasjenjenim područjima ispod krive ove distribucije (vidi sliku 24). Neosenčeno područje ispod krivulje raspodjele određuje vjerovatnoću.Granice segmenata na osi apscise ispod zasjenjenih područja nazivaju se kritične vrijednosti, a sami segmenti čine kritično područje, odnosno područje odbacivanja hipoteze.

U postupku testiranja hipoteze, karakteristika uzorka izračunata iz rezultata promatranja uspoređuje se s odgovarajućom kritičnom vrijednošću. U ovom slučaju treba razlikovati jednostrane i dvostrane kritične oblasti. Oblik specificiranja kritične regije zavisi od formulacije problema kada statističko istraživanje. Dvostrano kritično područje je potrebno kada se poredi parametar uzorka i parametar populacije

potrebno je procijeniti apsolutnu vrijednost neslaganja između njih, odnosno interesantne su i pozitivne i negativne razlike između proučavanih veličina. Kada je potrebno osigurati da je jedna vrijednost u prosjeku striktno veća ili manja od druge, koristi se jednostrano kritično područje (desno ili lijevo). Sasvim je očigledno da je za istu kritičnu vrijednost nivo značajnosti pri korištenju jednostranog kritičnog područja manji nego kod korištenja dvostranog.

Rice. 24. Testiranje nulte hipoteze

Ako je raspodjela karakteristike uzorka simetrična, tada je nivo značajnosti dvostranog kritičnog područja jednak a, a jednostranog kritičnog područja jednak y (vidi sliku 24). Ograničimo se na opštu formulaciju problema. Detaljnije sa teorijskim opravdanjem testa statističke hipoteze možete se naći specijalizovanu literaturu. U nastavku ćemo navesti samo kriterijume značaja za razne procedure, bez zaustavljanja na njihovoj izgradnji.

Provjerom značajnosti koeficijenta parne korelacije utvrđuje se prisustvo ili odsustvo korelacije između proučavanih pojava. Ako nema veze, koeficijent korelacije populacije je nula.Procedura verifikacije počinje formulisanjem nulte i alternativne hipoteze:

Razlika između koeficijenta korelacije uzorka je beznačajna,

Razlika između njih je značajna, pa stoga postoji značajan odnos između njihovih varijabli. Alternativna hipoteza implicira da trebamo koristiti dvostrano kritično područje.

Već je spomenuto u Odjeljku 8.1 da je koeficijent korelacije uzorka, pod određenim pretpostavkama, povezan sa slučajnom promjenljivom koja podliježe Studentovoj distribuciji sa stepenima slobode. Statistika izračunata iz rezultata uzorka

se poredi sa kritičnom vrednošću određenom iz Studentove tabele raspodele na datom nivou značajnosti a i stepenu slobode. Pravilo za primenu kriterijuma je sledeće: ako se nulta hipoteza odbije na nivou značajnosti a, odnosno odnos između varijabli je značajan; ako je tada prihvaćena nulta hipoteza na nivou značajnosti a. Odstupanje vrijednosti od može se pripisati slučajnoj varijaciji. Podaci uzorka karakteriziraju hipotezu koja se razmatra kao vrlo moguću i vjerodostojnu, odnosno hipoteza o nepostojanju veze ne izaziva primjedbe.

Procedura testiranja hipoteza je znatno pojednostavljena ako umjesto statistike koristimo kritične vrijednosti koeficijenta korelacije, koji se mogu odrediti kroz kvantile Studentove distribucije zamjenom u

Postoje detaljne tabele kritičnih vrednosti, izvod iz kojih je dat u dodatku ove knjige (videti tabelu 6). Pravilo za testiranje hipoteze u ovom slučaju se svodi na sljedeće: ako je tako, možemo tvrditi da je odnos između varijabli značajan. Ako je tako, smatramo da su rezultati promatranja u skladu s hipotezom o nepostojanju veze.

Testirajmo hipotezu o nezavisnosti produktivnosti rada od stepena mehanizacije rada na prema podacima datim u odjeljku 4.1. Prethodno je izračunato da iz (8.38) dobijamo

Koristeći Studentovu tabelu raspodjele za nalazimo kritičnu vrijednost ove statistike: Pošto odbacujemo nultu hipotezu, pravimo grešku samo u 5% slučajeva.

Dobićemo isti rezultat ako uporedimo sa kritičnom vrednošću koeficijenta korelacije pronađenom iz odgovarajuće tabele na

koji ima -distribuciju sa stepenima slobode. Zatim se postupak za provjeru značajnosti provodi slično prethodnom koristeći -kriterijum.

Primjer

Na osnovu ekonomske analize pojava, pretpostavljamo u opštoj populaciji snažnu vezu između produktivnosti rada i stepena mehanizacije rada. Neka, na primjer, . Kao alternativu, u ovom slučaju možemo postaviti hipotezu da je koeficijent korelacije uzorka Dakle, moramo koristiti jednostrano kritično područje. Iz (8.40) slijedi da

Dobivenu vrijednost upoređujemo sa kritičnom, tako da na nivou značajnosti od 5% možemo pretpostaviti postojanje vrlo bliske veze između proučavanih karakteristika, odnosno početni podaci omogućavaju da se smatra vjerojatnim

Na sličan način se provjerava značaj parcijalnih koeficijenata korelacije. Mijenja se samo broj stupnjeva slobode, koji postaje jednak gdje je broj varijabli koje objašnjavaju. Statistička vrijednost izračunata pomoću formule

upoređuje se sa kritičnom vrijednošću a pronađenom iz tabele distribucije na nivou značajnosti a i broju stupnjeva slobode.Prihvatanje ili odbijanje hipoteze o značajnosti parcijalnog koeficijenta korelacije vrši se prema istom pravilu kao što je gore opisano. . Testiranje značajnosti može se provesti i korištenjem kritičnih vrijednosti koeficijenta korelacije prema (8.39), kao i korištenjem Fisherove transformacije (8.40).

Primjer

Hajde da proverimo statističku pouzdanost parcijalni koeficijenti korelacije izračunati u odjeljku 4.5 na nivou značajnosti U nastavku, zajedno sa parcijalnim koeficijentima korelacije, date su odgovarajuće izračunate i kritične statističke vrijednosti

Zbog činjenice da je prihvaćena hipoteza o značajnosti koeficijenata, zaključujemo: stepen mehanizacije rada ima značajan uticaj na produktivnost rada, isključujući uticaj prosječne starosti radnika (i prosječnog procenta usklađenosti sa standardima). Razlika od nule preostalih koeficijenata

parcijalne korelacije se mogu pripisati slučajnim fluktuacijama u uzorku, pa stoga iz njih ne možemo reći ništa određeno o parcijalnim utjecajima relevantnih varijabli.

O značaju koeficijenta višestruka korelacija ocjenjuje se rezultatom postupka provjere značajnosti koeficijenta višestruka odlučnost. O tome ćemo detaljnije razgovarati u sljedećem odjeljku.

Pitanje koje je često interesantno je: da li se dva koeficijenta korelacije značajno razlikuju jedan od drugog? Prilikom testiranja ove hipoteze, pretpostavlja se da se razmatraju iste karakteristike homogenih populacija; podaci predstavljaju rezultate nezavisni testovi; Koriste se koeficijenti korelacije istog tipa, odnosno parni koeficijenti korelacije ili parcijalni koeficijenti korelacije kada se isključuje isti broj varijabli.

Zapremine dvaju uzoraka iz kojih se izračunavaju koeficijenti korelacije mogu biti različiti. Nul hipoteza: tj. koeficijenti korelacije dvije populacije koje se razmatraju su jednaki. Alternativna hipoteza: Alternativna hipoteza implicira da treba koristiti dvosmjernu kritičnu regiju. Drugim riječima, treba provjeriti da li se razlika značajno razlikuje od nule. Koristimo statistiku koja ima približno normalnu distribuciju:

gdje je - rezultati transformacija koeficijenata korelacije - zapremine uzorka. Pravilo testiranja: ako je tada hipoteza odbačena; ako je tada hipoteza prihvaćena.

Ako se prihvati, vrijednost

nakon ponovnog izračunavanja pomoću (8.6) služi kao sumarna procjena koeficijenta korelacije.Dalje, hipoteza se može testirati pomoću statistike

imaju normalnu distribuciju.

Primjer

Neka je potrebno utvrditi da li se bliskost veze između produktivnosti rada i stepena mehanizacije rada razlikuje kod preduzeća iste industrije koja se nalaze u različitim regionima zemlje. Hajde da uporedimo preduzeća koja se nalaze u dve oblasti. Neka se koeficijent korelacije za jedan od njih izračuna korištenjem uzorka zapremine (vidi odjeljak 4.1). Za Drugi region, izračunato korišćenjem uzorka zapremine

Nakon pretvaranja oba koeficijenta korelacije u -vrijednosti, izračunavamo koristeći (8.42) vrijednost statistike X:

Kritična vrijednost statistike pri je. Dakle, hipoteza je prihvaćena, odnosno na osnovu dostupnih uzoraka ne možemo utvrditi značajnu razliku između koeficijenata korelacije. Štaviše, oba koeficijenta korelacije su značajna.

Koristeći (8.43) i (8.6), dobijamo zbirnu procenu koeficijenta korelacije za dva regiona:

Na kraju, provjerimo hipotezu da li se zbirna procjena koeficijenta korelacije značajno razlikuje od nule pomoću statistike (8.44):

S obzirom da pri tome možemo tvrditi da u opštoj populaciji postoji značajna veza između produktivnosti rada i stepena mehanizacije rada.

X kriterijum se može koristiti u različitim aspektima. Tako se umjesto regiona mogu razmatrati različite industrije, npr. kada je potrebno utvrditi da li postoje razlike u jačini proučavanih veza između ekonomski pokazatelji preduzeća koja pripadaju dvije različite industrije.

Izračunajmo, na osnovu dva obimna uzorka, koeficijente korelacije koji karakterišu blisku vezu između produktivnosti rada i stepena mehanizacije rada u preduzećima koja pripadaju dve delatnosti (dve opšte populacije). Iz (8.42) dobijamo

Pošto odbacujemo nultu hipotezu. Shodno tome, može se tvrditi da postoje značajne razlike u bliskosti odnosa između produktivnosti rada i stepena mehanizacije rada u preduzećima koja pripadaju različitim privrednim granama. Nastavićemo ovaj primjer u odjeljku 8.7, gdje ćemo uporediti linije regresije konstruirane za dvije populacije.

Analizirajući navedene primjere, uvjerili smo se da uzimajući u obzir samo apsolutnu razliku upoređenih koeficijenata korelacije

(veličine uzorka su iste u oba slučaja) bez provjere značaja ove razlike dovest će do pogrešnih zaključaka. Ovo potvrđuje potrebu za korištenjem statističkih kriterija prilikom poređenja koeficijenata korelacije.

Procedura za poređenje dva koeficijenta korelacije može se generalizovati na veći broj koeficijenti koji podliježu gore navedenim preduvjetima. Hipoteza o jednakosti koeficijenata korelacije između varijabli izražava se na sljedeći način: Testira se na osnovu koeficijenata korelacije izračunatih iz uzoraka zapremine iz opšte populacije. koeficijenti korelacije se preračunavaju u -vrijednosti: Pošto in opšti slučaj nepoznato, njegovu procjenu nalazimo kroz formulu, koja je generalizacija (8.43).

Punu verziju ove napomene (sa formulama i tabelama) možete preuzeti sa ove stranice u PDF formatu. Tekst postavljen na samoj stranici je sažetak sadržaj ove bilješke i najvažnije zaključke.

Posvećeno statistici optimistima

Koeficijent korelacije (CC) je jedna od najjednostavnijih i najpopularnijih statistika koja karakteriše odnos između slučajnih varijabli. Istovremeno, CC drži vodeću ulogu u broju pogrešnih i jednostavno besmislenih zaključaka koji se donose uz njegovu pomoć. Ovakvo stanje je rezultat ustaljene prakse prezentovanja materijala koji se odnosi na korelaciju i korelacione zavisnosti.

Velike, male i "srednje" QC vrijednosti

Kada se razmatra korelacioni odnos, detaljno se razmatra koncept „jake“ (skoro pojedinačne) i „slabe“ (gotovo nulte) korelacije, ali se u praksi nikada ne susreću ni jedno ni drugo. Kao rezultat toga, ostaje nejasno pitanje razumne interpretacije "srednjih" QC vrijednosti koje su uobičajene u praksi. Koeficijent korelacije jednak 0.9 ili 0.8 , ulijeva optimizam kod početnika, ali ga niže vrijednosti zbunjuju.

Kako se iskustvo stiče, optimizam raste, a sada je QC jednak 0.7 ili 0.6 oduševljava istraživača i uliva optimizam 0.5 I 0.4 . Ako je istraživač upoznat s metodama za testiranje statističkih hipoteza, tada prag za "dobre" QC vrijednosti pada na 0.3 ili 0.2 .

Zaista, koje CC vrijednosti se već mogu smatrati "dovoljno velikim", a koje ostaju "premale"? Na ovo pitanje postoje dva dijametralno suprotna odgovora – optimističan i pesimistički. Hajde da prvo razmotrimo optimističan (najpopularniji) odgovor.

Značaj koeficijenta korelacije

Ovu opciju odgovora nam daje klasična statistika i vezana je za koncept statistički značaj KK. Ovdje ćemo razmotriti samo situaciju u kojoj je pozitivna korelacija od interesa (slučaj negativne korelacije je potpuno sličan). Više težak slučaj, kada se provjerava samo prisustvo korelacije bez uzimanja u obzir predznaka, relativno je rijetko u praksi.

Ako je za QC r nejednakost je zadovoljena r > r e (n), onda kažu da je KK statistički značajno na nivou značaja e. Evo r e (n)-- kvantil, u odnosu na koji će nas zanimati samo činjenica da na fiksnom nivou značajnosti e njegova vrijednost teži nuli sa povećanjem dužine n uzorci. Pokazalo se da je povećanjem niza podataka moguće postići statističku značajnost QC-a čak i pri vrlo malim vrijednostima. Kao rezultat toga, ako imate dovoljno velik uzorak, postaje primamljivo to priznati u slučaju CC jednak, npr. 0.06 . Međutim, zdrav razum nalaže da zaključak o prisutnosti značajne korelacije kada r=0,06 ne može biti istinito za bilo koju veličinu uzorka. Ostaje razumjeti prirodu greške. Da bismo to učinili, pogledajmo pobliže koncept statističke značajnosti.

Kao i obično, kada se testiraju statističke hipoteze, smisao izračunavanja leži u izboru nulte hipoteze i alternativne hipoteze. Prilikom provjere značaja CC, pretpostavka se uzima kao nulta hipoteza (r=0) pod alternativnom hipotezom (r > 0)(zapamtite da ovde razmatramo samo situaciju u kojoj je pozitivna korelacija od interesa). Slobodno odabran nivo značaja e određuje vjerovatnoću tzv greške tipa I kada je nulta hipoteza tačna ( r=0), ali ga statistički test odbacuje (tj. test pogrešno prepoznaje prisustvo značajne korelacije). Odabirom nivoa značajnosti garantujemo nisku vjerovatnoću takve greške, tj. gotovo smo imuni na činjenicu da za nezavisne uzorke ( r=0) pogrešno prepoznati postojanje korelacije ( r > 0). grubo govoreći, značajnost koeficijenta korelacije samo znači da je najvjerovatnije različit od nule.

Zato se veličina uzorka i vrijednost QC međusobno kompenzuju – veliki uzorci jednostavno omogućavaju postizanje veće preciznosti u lokalizaciji malog QC-a prema njegovoj procjeni uzorka.

Jasno je da koncept značaja ne daje odgovor na početno pitanje o razumijevanju kategorija „veliki/mali“ u odnosu na CC vrijednosti. Odgovor dat kriterijumom značajnosti ne govori nam ništa o svojstvima korelacije, već nam samo omogućava da potvrdimo da je sa velikom verovatnoćom nejednakost zadovoljena r > 0. Istovremeno, sama CC vrijednost sadrži mnogo značajnije informacije o svojstvima korelacijske veze. Zaista, jednako značajni CC su jednaki 0.1 I 0.9 , značajno se razlikuju u stepenu izraženosti odgovarajuće korelacione veze, te iskazu o značaju CC r = 0,06 za praksu je to apsolutno beskorisno, jer sa bilo kojom veličinom uzorka ne treba govoriti o bilo kakvoj korelaciji.

Konačno, možemo reći da u praksi nijedna svojstva korelacionog odnosa, pa čak ni samo njegovo postojanje, ne proizilaze iz značaja koeficijenta korelacije. Sa praktične tačke gledišta, sam izbor alternativne hipoteze koja se koristi prilikom testiranja značaja QC je pogrešan, jer slučajevi r=0 I r>0 at small r sa praktične tačke gledišta oni se ne razlikuju.

U stvari, od kada značaj QC zaključiti postojanje značajna korelacija, napraviti potpuno besramnu zamjenu pojmova na osnovu semantičke višeznačnosti riječi “značaj”. Značaj QC (jasno definisanog koncepta) na varan način se pretvara u „značajnu korelaciju“, a ovaj izraz, koji nema striktnu definiciju, tumači se kao sinonim za „izraženu korelaciju“.

Razdvajanje varijanse

Razmotrimo još jedan odgovor na pitanje o “malim” i “velikim” CC vrijednostima. Ova opcija odgovora povezana je sa razjašnjavanjem regresijskog značenja QC-a i pokazuje se kao veoma korisna za praksu, iako je mnogo manje optimistična od kriterijuma za značaj QC-a.

Zanimljivo je da rasprava o regresijskom značenju CC često nailazi na teškoće didaktičke (ili bolje rečeno psihološke) prirode. Hajde da ih ukratko prokomentarišemo. Nakon formalnog uvođenja CC i objašnjenja značenja „jakih“ i „slabih“ korelacija, smatra se potrebnim ući u raspravu o filozofskim pitanjima odnosa korelacije i uzročno-posledičnih veza. Istovremeno se intenzivno pokušava dezavuisati (hipotetički!) pokušaj da se korelacioni odnos tumači kao uzročno-posledični. U tom kontekstu, rasprava o pitanju dostupnosti funkcionalna zavisnost(uključujući regresiju) između korelirajućih veličina počinje izgledati jednostavno bogohulno. Na kraju krajeva, od funkcionalne ovisnosti do uzročno-posljedične veze samo je jedan korak! Kao rezultat toga, općenito se izbjegava pitanje regresijskog značenja CC, kao i pitanje korelacijskih svojstava linearne regresije.

U stvari, ovdje je sve jednostavno. Ako su za normalizirane (tj. koje imaju nula očekivanja i jediničnu varijansu) slučajne varijable X I Y postoji veza

Y = a + bX + N,

Gdje N-- neka slučajna varijabla sa nultim očekivanjem (aditivni šum), onda je to lako provjeriti a = 0 I b = r. Ovo je odnos između slučajnih varijabli X I Y naziva se jednadžba linearne regresije.

Izračunavanje varijanse slučajne varijable Y Lako je dobiti sljedeći izraz:

D[Y] = b 2 D[X] + D[N].

U posljednjem izrazu, prvi član određuje doprinos slučajne varijable X u varijansu Y, a drugi član je doprinos šuma N u varijansu Y. Koristeći gornji izraz za parametar b, lako je izraziti doprinose slučajnih varijabli X I N kroz veličinu r =r(zapamtite da brojimo količine X I Y normalizovan, tj. D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r 2

Uzimajući u obzir dobijene formule, često se kaže da za slučajne varijable X I Y povezane regresijska jednačina, magnituda r 2 određuje proporciju varijanse slučajne varijable Y, linearno određen promjenom slučajne varijable X. Dakle, ukupna varijansa slučajne varijable Y raspada se u disperziju, linearno uslovljena prisustvo regresijske veze i rezidualna varijansa, uzrokovano prisustvom aditivne buke.


Razmotrimo dijagram raspršenja dvodimenzionalne slučajne varijable (X, Y). Na malom D[N] dijagram raspršenja se degenerira u linearna zavisnost između slučajnih varijabli, malo izobličenih aditivnim šumom (tj. tačke na dijagramu raspršenja će biti uglavnom koncentrisane blizu prave linije X=Y). Ovaj slučaj se javlja za vrijednosti r, blizak po modulu jedinici. Sa smanjenjem (apsolutne vrijednosti) CC vrijednosti, disperzija komponente buke N počinje da daje sve veći doprinos disperziji količine Y i kod malih r dijagram raspršivanja potpuno gubi sličnost s ravnom linijom. U ovom slučaju imamo oblak tačaka čije je rasipanje uglavnom zbog šuma. Upravo ovaj slučaj se ostvaruje pri značajnim, ali malim po apsolutnoj vrijednosti, vrijednostima CC. Jasno je da u ovom slučaju ne treba govoriti ni o kakvoj korelaciji.

Pogledajmo sada kakav nam odgovor na pitanje o “velikim” i “malim” vrijednostima KK nudi regresijska interpretacija KK. Prije svega, potrebno je naglasiti da je disperzija najprirodnija mjera disperzije vrijednosti slučajne varijable. Priroda ove "prirodnosti" sastoji se u aditivnosti varijanse za nezavisne slučajne varijable, ali ovo svojstvo ima vrlo različite manifestacije, koje uključuju cijepanje varijanse prikazane gore na linearno uslovljene i rezidualne varijanse.

Dakle, vrijednost r 2 određuje proporciju varijanse količine Y, linearno određen prisustvom regresijskog odnosa sa slučajnom varijablom X. Pitanje koliki se udio linearno određene varijanse može smatrati znakom prisustva izražene korelacije ostaje na savjesti istraživača. Međutim, postaje jasno da male vrijednosti koeficijenta korelacije ( r< 0.3 ) pružaju tako mali udio linearno objašnjene varijanse da nema smisla govoriti o bilo kakvoj izraženoj korelaciji. At r > 0,5 možemo govoriti o prisutnosti uočljive korelacije između količina i kada r > 0,7 korelacija se može smatrati značajnom.


Uvod. 2

1. Procjena značajnosti koeficijenata regresije i korelacije korištenjem Studentovog f-testa. 3

2. Izračunavanje značajnosti koeficijenata regresije i korelacije pomoću Studentovog f-testa. 6

Zaključak. 15

Nakon konstruisanja regresione jednadžbe potrebno je provjeriti njen značaj: pomoću posebnih kriterija utvrditi da li je rezultirajuća ovisnost izraženo jednačinom regresija, nasumična, tj. da li se može koristiti u svrhe predviđanja i faktorske analize? U statistici su razvijene metode za striktno testiranje značajnosti koeficijenata regresije analiza varijanse i izračunavanje posebnih kriterijuma (na primer, F-kriterijum). Labavi test se može izvesti izračunavanjem prosječne relativno linearne devijacije (e), koja se naziva srednja greška aproksimacije:

Pređimo sada na procjenu značaja koeficijenata regresije bj i konstruiranje intervala povjerenja za parametre regresionog modela Ru (J=l,2,...,p).

Blok 5 - procjena značajnosti koeficijenata regresije na osnovu vrijednosti Studentovog ^-testa. Izračunate vrijednosti ta se upoređuju sa dozvoljenom vrijednošću

Blok 5 - procjena značajnosti koeficijenata regresije na osnovu vrijednosti ^-kriterijuma. Izračunate vrijednosti t0n upoređuju se sa dozvoljenom vrijednošću 4,/ koja se utvrđuje iz tablica t-distribucije za datu vjerovatnoću greške (a) i broj stupnjeva slobode (/).

Pored provjere značajnosti cjelokupnog modela, potrebno je testirati značajnost koeficijenata regresije pomoću Student /-testa. Minimalna vrijednost koeficijenta regresije bg mora odgovarati uvjetu bifob-^t, gdje je bi vrijednost koeficijenta regresione jednadžbe na prirodnoj skali na i-c faktor znak; ah. - srednja kvadratna greška svakog koeficijenta. neuporedivost koeficijenata D u njihovoj značajnosti;

Dalja statistička analiza se odnosi na testiranje značajnosti koeficijenata regresije. Da bismo to učinili, nalazimo vrijednost ^-kriterijuma za koeficijente regresije. Kao rezultat njihovog poređenja, utvrđuje se najmanji ^-kriterijum. Faktor čiji koeficijent odgovara najmanjem ^-kriterijumu je isključen iz dalje analize.

Za procjenu statističke značajnosti koeficijenata regresije i korelacije, Studentov t-test i intervali poverenja svaki od indikatora. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog f-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:

Procjena važnosti koeficijenata čiste regresije pomoću Studentovog /-testa svodi se na izračunavanje vrijednosti

Kvalitet rada je karakteristika specifičnog rada, odražavajući stepen njegove složenosti, intenzitet (intenzitet), uslove i značaj za ekonomski razvoj. K.t. mereno kroz tarifni sistem koji omogućava diferencijaciju zarada u zavisnosti od nivoa kvalifikacija (složenosti posla), uslova, težine rada i njegovog intenziteta, kao i značaja pojedinih delatnosti i proizvodnje, regiona, teritorija za razvoj privreda zemlje. K.t. nalazi izraz u plate radnika, koji se na tržištu rada razvijaju pod uticajem ponude i potražnje radna snaga(posebne vrste rada). K.t. - složene strukture

Dobijene ocjene relativne važnosti pojedinačnih ekonomskih, društvenih i ekoloških posljedica projekta dalje daju osnovu za poređenje alternativnih projekata i njihovih opcija korištenjem „kompleksnog bodovnog bezdimenzionalnog kriterija društvene i ekološko-ekonomske efikasnosti“ Ek projekta, izračunatog (u prosječnim ocjenama značajnosti) koristeći formulu

Unutarindustrijska regulacija osigurava razlike u platama radnika u datoj industriji, u zavisnosti od značaja pojedinih vrsta proizvodnje u datoj industriji, od složenosti i uslova rada, kao i od oblika naknade koji se koriste.

Rezultirajuća ocjena rejtinga analiziranog preduzeća u odnosu na standardno preduzeće bez uzimanja u obzir značaja pojedinačnih indikatora je komparativna. Kada se porede ocene nekoliko preduzeća najviša ocjena ima preduzeće sa minimalnom vrednošću dobijene uporedne ocene.

Razumijevanje kvaliteta proizvoda kao mjere njegove korisnosti stavlja praktično važno pitanje o njegovom mjerenju. Njegovo rješenje se postiže proučavanjem značaja pojedinih svojstava u zadovoljavanju određene potrebe. Značaj čak i istog svojstva može biti različit u zavisnosti od uslova potrošnje proizvoda. Posljedično, korisnost proizvoda u različitim okolnostima njegove upotrebe su različite.

Druga faza rada je proučavanje statističkih podataka i utvrđivanje odnosa i interakcije indikatora, utvrđivanje značaja pojedinačnih faktora i razloga za promjene općih indikatora.

Svi razmatrani indikatori su kombinovani u jedan na način da je rezultat sveobuhvatna procena svih analiziranih aspekata delatnosti preduzeća, uzimajući u obzir uslove njegove delatnosti, uzimajući u obzir stepen značaja pojedinih indikatora za razne vrste investitori:

Regresijski koeficijenti pokazuju intenzitet uticaja faktora na pokazatelj učinka. Ako se izvrši preliminarna standardizacija faktorskih indikatora, onda je b0 jednako prosječnoj vrijednosti efektivnog indikatora u agregatu. Koeficijenti b, b2 ..... bl pokazuju za koliko jedinica nivo efektivnog indikatora odstupa od njegove prosječne vrijednosti ako vrijednosti faktorskog indikatora odstupaju od prosjeka jednake nuli za jedan standardna devijacija. Dakle, koeficijenti regresije karakterišu stepen značajnosti pojedinih faktora za povećanje nivoa pokazatelja učinka. Specifične vrijednosti koeficijenata regresije određuju se iz empirijskih podataka prema metodi najmanjih kvadrata(kao rezultat rješavanja sistema normalnih jednačina).

2. Izračunavanje značajnosti koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Razmotrimo linearni oblik višefaktorskih odnosa ne samo kao najjednostavniji, već i kao oblik koji pružaju aplikativni softverski paketi za PC. Ako veza između pojedinačnog faktora i rezultirajućeg atributa nije linearna, tada se jednačina linearizira zamjenom ili transformacijom vrijednosti faktorskog atributa.

Opšti oblik multivarijantna regresijska jednadžba ima oblik:


gdje je k broj faktorskih karakteristika.

Da bi se pojednostavio sistem jednadžbi najmanjih kvadrata neophodnih za izračunavanje parametara jednačine (8.32), obično se uvode odstupanja pojedinačnih vrednosti svih karakteristika od prosečnih vrednosti ovih karakteristika.

Dobijamo sistem od k jednadžbi najmanjih kvadrata:

Rješavajući ovaj sistem, dobijamo vrijednosti uslovno čistih koeficijenata regresije b. Slobodni član jednačine se izračunava po formuli


Izraz „uslovno čisti koeficijent regresije” znači da svaka od vrijednosti bj mjeri ukupno prosječno odstupanje rezultirajuće karakteristike od njene prosječne vrijednosti kada dati faktor xj odstupi od svoje prosječne vrijednosti za jedinicu svoje mjere i pod uvjetom da svi ostali faktori uključeni u jednačinu regresije, fiksirani na prosječnim vrijednostima, ne mijenjaju se, ne variraju.

Dakle, za razliku od koeficijenta uparene regresije, koeficijent uslovne čiste regresije meri uticaj faktora, apstrahujući od odnosa varijacije ovog faktora sa varijacijama drugih faktora. Ako bi bilo moguće uključiti u jednadžbu regresije sve faktore koji utječu na varijaciju rezultirajuće karakteristike, tada bi vrijednosti bj. mogu se smatrati mjerama čistog uticaja faktora. Ali pošto je zaista nemoguće uključiti sve faktore u jednačinu, onda koeficijenti bj. nije oslobođena primjesa uticaja faktora koji nisu uključeni u jednačinu.

Nemoguće je uključiti sve faktore u jednadžbu regresije iz jednog od tri razloga ili sve odjednom, jer:

1) neki faktori mogu biti nepoznati moderna nauka, poznavanje bilo kojeg procesa je uvijek nepotpuno;

2) nema podataka o nekom od poznatih teorijskih faktora ili je nepouzdan;

3) veličina populacije koja se proučava (uzorak) je ograničena, što omogućava uključivanje ograničenog broja faktora u jednačinu regresije.

Koeficijenti uslovne čiste regresije bj. su imenovani brojevi izraženi u različitim mjernim jedinicama i stoga su međusobno neuporedivi. Da bi se oni pretvorili u uporedive relativne indikatore, koristi se ista transformacija kao za dobijanje koeficijenta parne korelacije. Rezultirajuća vrijednost se poziva standardizovani koeficijent regresija ili?-koeficijent.


Koeficijent faktora xj određuje meru uticaja varijacije faktora xj na varijaciju rezultujuće karakteristike y, apstrahujući od istovremene varijacije drugih faktora uključenih u regresionu jednačinu.

Koeficijente uslovno čiste regresije je korisno izraziti u obliku relativnih uporedivih pokazatelja povezanosti, koeficijenata elastičnosti:

Koeficijent elastičnosti faktora xj kaže da kada vrijednost datog faktora odstupi od njegove prosječne vrijednosti za 1% i apstrahirajući od pratećeg odstupanja drugih faktora uključenih u jednačinu, rezultirajuća karakteristika će odstupiti od svoje prosječne vrijednosti za ej posto od god. Češće se koeficijenti elastičnosti tumače i primjenjuju u smislu dinamike: sa povećanjem faktora x za 1% njegove prosječne vrijednosti, rezultirajuća karakteristika će se povećati za e. posto svoje prosječne vrijednosti.

Razmotrimo proračun i interpretaciju multifaktorske regresione jednačine koristeći istih 16 farmi kao primjer (Tabela 8.1). Rezultirajući znak - nivo bruto prihod a tri faktora koja na to utiču prikazana su u tabeli. 8.7.

Podsjetimo još jednom da je za dobijanje pouzdanih i dovoljno tačnih pokazatelja korelacije potrebna veća populacija.


Tabela 8.7

Nivo bruto dohotka i njegovi faktori

Brojevi farme

Bruto prihod, rub./ra

Troškovi rada, čovjek-dana/ha x1

Udio obradivog zemljišta,

Prinos mlijeka po 1 kravi,


Tabela 8.8 Indikatori regresijske jednačine


Zavisna varijabla: y

Koeficijent regresije

Konstanta-240.112905

Std. greška proc. = 79,243276


Rješenje je izvedeno pomoću programa “Microstat” za PC. Evo tabela iz ispisa: tabela. 8.7 daje prosječne vrijednosti i standardne devijacije svih karakteristika. Table 8.8 sadrži koeficijente regresije i njihovu vjerovatnoću:

prva kolona “var” - varijable, odnosno faktori; druga kolona “koeficijent regresije” - uslovno čisti koeficijenti regresije bj; treća kolona “std. errr" - prosječne greške u procjenama koeficijenta regresije; četvrti stupac - vrijednosti Studentovog t-testa sa 12 stupnjeva slobode varijacije; peti stupac “prob” - vjerovatnoća nulte hipoteze u odnosu na koeficijente regresije;

šesta kolona “parcijalni r2” - parcijalni koeficijenti determinacije. Sadržaj i metodologija za izračunavanje indikatora u kolonama 3-6 dalje se razmatraju u Poglavlju 8. „Konstanta“ je slobodni termin regresione jednačine a; "Std. greška procjene." - srednja kvadratna greška procjene efektivne karakteristike korištenjem jednačine regresije. Dobivena je jednačina višestruka regresija:


y = 2,26x1 - 4,31x2 + 0,166x3 - 240.


To znači da je iznos bruto prihoda po 1 hektara poljoprivrednog zemljišta u prosjeku su porasli za 2,26 rubalja. uz povećanje troškova rada za 1 sat/ha; smanjen u prosjeku za 4,31 rublje. uz povećanje udjela obradivog zemljišta u poljoprivrednom zemljištu za 1% i povećanje za 0,166 rubalja. uz povećanje prinosa mlijeka po kravi za 1 kg. Negativna vrijednost slobodnog termina je sasvim prirodna, a, kao što je već navedeno u paragrafu 8.2, efektivni znak je da bruto prihod postaje nula mnogo prije nego što faktori dostignu nulte vrijednosti, što je nemoguće u proizvodnji.

Negativna vrijednost koeficijenta za x^ signal je značajnih problema u privredi posmatranih farmi, gdje je uzgoj usjeva neisplativ, a isplativo je samo stočarstvo. Uz racionalne metode poljoprivredne proizvodnje i normalne cijene (ravnotežne ili bliske njima) za proizvode svih sektora prihod ne bi trebao opadati, već bi trebao rasti sa povećanjem najplodnijeg udjela poljoprivrednog zemljišta – oranica.

Na osnovu podataka iz pretposljednja dva reda tabele. 8.7 i tabela. 8.8 izračunavamo p-koeficijente i koeficijente elastičnosti prema formulama (8.34) i (8.35).

I na varijaciju u visini dohotka i na njegovu moguću promjenu u dinamici najjače utiče faktor x3 - produktivnost krava, a najslabiji x2 - udio obradivog zemljišta. Vrijednosti P2/ će se dalje koristiti (Tabela 8.9);


Tabela 8.9 Uporedni uticaj faktora na nivo prihoda

Faktori xj


Dakle, dobili smo da se ?-koeficijent faktora xj odnosi na koeficijent elastičnosti ovog faktora, kao što se koeficijent varijacije faktora odnosi na koeficijent varijacije rezultirajuće karakteristike. Pošto, kao što se vidi iz poslednjeg reda tabele. 8.7, koeficijenti varijacije svih faktora manji su od koeficijenta varijacije rezultirajuće karakteristike; svi?-koeficijenti su manji od koeficijenata elastičnosti.

Razmotrimo odnos između uparenog i uslovno čistog koeficijenta regresije koristeći faktor -s, kao primjer. Parovi linearna jednačina veza y sa x ima oblik:


y = 3,886x1 – 243,2


Uslovno čisti koeficijent regresije na x1 je samo 58% uparenog. Preostalih 42% je zbog činjenice da varijaciju x1 prati varijacija faktora x2 x3, što zauzvrat utječe na rezultirajuću osobinu. Veze svih karakteristika i njihovi koeficijenti parne regresije prikazani su na grafu veza (slika 8.2).

Ako zbrojimo procjene direktnog i indirektnog utjecaja varijacije x1 na y, odnosno proizvod uparenih regresijskih koeficijenata duž svih „puteva“ (slika 8.2), dobijamo: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Ova vrijednost je još veća koeficijent para veze x1 sa y. Shodno tome, indirektni uticaj varijacije x1 kroz faktore koji nisu uključeni u jednačinu je suprotan, dajući ukupno:


1 Ayvazyan S.A., Mkhitaryan V.S. Primijenjena statistika i osnove ekonometrije. Udžbenik za univerzitete. - M.: JEDINSTVO, 2008, – 311 str.

2 Johnston J. Ekonometrijske metode. - M.: Statistika, 1980. – 282s.

3 Dougherty K. Uvod u ekonometriju. - M.: INFRA-M, 2004, – 354 str.

4 Dreyer N., Smith G., Primijenjena regresiona analiza. - M.: Finansije i statistika, 2006, – 191 str.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. Ekonometrija. Početni kurs.-M.: Delo, 2006, – 259 str.

6 Radionica o ekonometriji/Ed. I. I. Eliseeva - M.: Finansije i statistika, 2004, – 248 str.

7 Econometrics/Ed. I. I. Eliseeva - M.: Finansije i statistika, 2004, – 541 str.

8 Kremer N., Putko B. Ekonometrija - M.: UNITY-DANA, 200, – 281 str.



Tutoring

Trebate pomoć u proučavanju teme?

Naši stručnjaci će savjetovati ili pružiti usluge podučavanja o temama koje vas zanimaju.
Pošaljite svoju prijavu naznačivši temu upravo sada kako biste saznali o mogućnosti dobivanja konsultacija.

NASTAVNI RAD

Tema: Korelaciona analiza

Uvod

1. Analiza korelacije

1.1 Koncept korelacije

1.2 Opća klasifikacija korelacije

1.3 Korelaciona polja i svrha njihove konstrukcije

1.4 Faze korelacione analize

1.5 Koeficijenti korelacije

1.6 Normalizovani Bravais-Pearson koeficijent korelacije

1.7 Koeficijent rang korelacije Spearman

1.8 Osnovna svojstva koeficijenata korelacije

1.9 Provjera značajnosti koeficijenata korelacije

1.10 Kritične vrijednosti koeficijent korelacije para

2. Planiranje multifaktorskog eksperimenta

2.1 Stanje problema

2.2 Određivanje centra plana (osnovni nivo) i nivoa varijacije faktora

2.3 Izgradnja matrice planiranja

2.4 Provjera homogenosti disperzije i ekvivalencije mjerenja u različitim serijama

2.5 Koeficijenti regresijske jednačine

2.6 Varijanca reproduktivnosti

2.7 Provjera značaja koeficijenata regresijske jednačine

2.8 Provjera adekvatnosti jednačine regresije

Zaključak

Bibliografija

UVOD

Eksperimentalno planiranje je matematička i statistička disciplina koja proučava metode racionalne organizacije eksperimentalno istraživanje- od optimalan izbor faktore koji se proučavaju i utvrđivanje stvarnog eksperimentalnog plana u skladu sa njegovom svrhom do metoda za analizu rezultata. Eksperimentalno planiranje započelo je radovima engleskog statističara R. Fišera (1935), koji je naglasio da racionalno eksperimentalno planiranje ne daje manje značajne dobitke u tačnosti procjena od optimalne obrade rezultata mjerenja. Šezdesetih godina 20. vijeka postojala je moderna teorija planiranje eksperimenta. Njene metode su usko povezane sa teorijom aproksimacije funkcija i matematičkim programiranjem. Izrađeni su optimalni planovi i proučavana su njihova svojstva za široku klasu modela.

Eksperimentalno planiranje – odabir eksperimentalnog plana koji ispunjava određene zahtjeve, skup radnji usmjerenih na razvoj strategije eksperimentiranja (od dobijanja a priori informacija do dobijanja izvodljivog matematičkog modela ili određivanja optimalni uslovi). Ovo je svrsishodna kontrola eksperimenta, sprovedena u uslovima nepotpunog poznavanja mehanizma fenomena koji se proučava.

U procesu mjerenja, naknadne obrade podataka, kao i formalizacije rezultata u obliku matematičkog modela, nastaju greške i gube se dio informacija sadržanih u originalnim podacima. Upotreba metoda eksperimentalnog planiranja omogućava određivanje greške matematičkog modela i procjenu njegove adekvatnosti. Ako se ispostavi da je tačnost modela nedovoljna, tada korištenje metoda eksperimentalnog planiranja omogućava modernizaciju matematički model uz dodatne eksperimente bez gubitka prethodnih informacija i uz minimalne troškove.

Svrha planiranja eksperimenta je pronaći takve uvjete i pravila za izvođenje eksperimenata pod kojima je moguće dobiti pouzdane i pouzdane informacije o objektu uz najmanju količinu rada, kao i predstaviti te informacije u kompaktnom i prikladnom obliku. sa kvantitativnom procjenom tačnosti.

Među glavnim metodama planiranja koje se koriste u različitim fazama studije su:

Planiranje skrining eksperimenta, čije je glavno značenje odabir iz čitavog skupa faktora grupe značajnih faktora koji su predmet daljeg detaljnog proučavanja;

Eksperimentalni dizajn za ANOVA, tj. izrada planova za objekte sa kvalitativnim faktorima;

Planiranje regresijskog eksperimenta koji vam omogućava da dobijete regresijski modeli(polinom i drugi);

Planiranje ekstremnog eksperimenta u kojem je glavni zadatak eksperimentalna optimizacija objekta istraživanja;

Planiranje prilikom proučavanja dinamičkih procesa itd.

Svrha izučavanja discipline je osposobljavanje studenata za proizvodno-tehničke aktivnosti u svojoj specijalnosti korištenjem metoda teorije planiranja i savremenih informacionih tehnologija.

Ciljevi discipline: studij savremenim metodama planiranje, organizovanje i optimizacija naučnih i industrijskih eksperimenata, izvođenje eksperimenata i obrada dobijenih rezultata.

1. KORELACIONA ANALIZA

1.1 Koncept korelacije

Istraživača često zanima kako su dvije ili više varijabli međusobno povezane u jednom ili više uzoraka koji se proučavaju. Na primjer, može li visina utjecati na težinu osobe ili krvni tlak može utjecati na kvalitetu proizvoda?

Ova vrsta zavisnosti između varijabli naziva se korelacija ili korelacija. Korelacija je konzistentna promjena dvije karakteristike, koja odražava činjenicu da je varijabilnost jedne karakteristike u skladu sa varijabilnosti druge.

Poznato je, na primjer, da u prosjeku postoji razlika između visine ljudi i njihove težine. pozitivna veza, i to da što je veća visina, to je veća težina osobe. Međutim, postoje izuzeci od ovog pravila kada su relativno niski ljudi imati prekomjerna težina, i, obrnuto, astenici, s visokim rastom, imaju malu težinu. Razlog ovakvih izuzetaka je što svaki biološki, fiziološki ili psihološki znak određena uticajem mnogih faktora: ekoloških, genetskih, društvenih, ekoloških itd.

Korelacione veze su probabilističke promjene koje se mogu proučavati samo na reprezentativnim uzorcima korištenjem metoda matematičke statistike. Oba termina - korelacija i zavisnost od korelacije - često se koriste naizmjenično. Zavisnost podrazumeva uticaj, povezanost - bilo koje koordinisane promene koje se mogu objasniti stotinama razloga. Korelacijske veze se ne mogu smatrati dokazom uzročno-posljedične veze, one samo ukazuju na to da su promjene u jednoj osobini obično praćene određenim promjenama u drugoj.

Korelaciona zavisnost - to su promjene koje unose vrijednosti jedne karakteristike u vjerovatnoću pojave različita značenja drugi znak.

Zadatak korelacione analize svodi se na utvrđivanje pravca (pozitivnog ili negativnog) i oblika (linearnog, nelinearnog) odnosa između različitih karakteristika, merenje njegove bliskosti i, na kraju, proveru nivoa značajnosti dobijenih koeficijenata korelacije.

Korelacijske veze se razlikuju po obliku, smjeru i stupnju (snage) .

Oblik korelacijske veze može biti linearan ili krivolinijski. Na primjer, odnos između broja treninga na simulatoru i broja ispravno riješenih problema u kontrolnoj sesiji može biti jednostavan. Na primjer, odnos između nivoa motivacije i efektivnosti zadatka može biti krivolinijski (slika 1). Sa porastom motivacije, prvo raste efektivnost izvršenja zadatka, a zatim se postiže optimalni nivo motivacije, koji odgovara maksimalnoj efektivnosti izvršenja zadatka; Dalje povećanje motivacije je praćeno smanjenjem efikasnosti.

Slika 1 – Odnos između efektivnosti rješavanja problema i snage motivacijskih tendencija

U smjeru, korelacijski odnos može biti pozitivan („direktan“) i negativan („inverzan“). Uz pozitivnu linearnu korelaciju, veće vrijednosti jedne karakteristike odgovaraju višim vrijednostima druge, a niže vrijednosti jedne karakteristike odgovaraju niske vrijednosti druga (slika 2). Uz negativnu korelaciju, odnosi su inverzni (slika 3). Uz pozitivnu korelaciju, koeficijent korelacije ima pozitivan znak, sa negativnom korelacijom - negativnim predznakom.

Slika 2 – Direktna korelacija

Slika 3 – Inverzna korelacija


Slika 4 – Nema korelacije

Stepen, jačina ili bliskost korelacije određuje se vrijednošću koeficijenta korelacije. Snaga veze ne ovisi o njegovom smjeru i određena je apsolutna vrijednost koeficijent korelacije.

1.2 Opća klasifikacija korelacija

Ovisno o koeficijentu korelacije razlikuju se sljedeće korelacije:

Jaka ili bliska sa koeficijentom korelacije r>0,70;

Prosjek (na 0,50

Umjereno (u 0.30

Slab (na 0,20

Veoma slaba (na r<0,19).

1.3 Korelaciona polja i svrha njihove konstrukcije

Korelacija se proučava na osnovu eksperimentalnih podataka, a to su izmjerene vrijednosti (x i, y i) dvije karakteristike. Ako ima malo eksperimentalnih podataka, onda je dvodimenzionalna empirijska raspodjela predstavljena kao dvostruki niz vrijednosti x i i y i. Istovremeno, korelaciona zavisnost između karakteristika može se opisati na različite načine. Korespondencija između argumenta i funkcije može se dati tabelom, formulom, grafikonom itd.

Korelaciona analiza, kao i druge statističke metode, temelji se na korištenju vjerojatnosnih modela koji opisuju ponašanje ispitivanih karakteristika u određenoj općoj populaciji iz koje se dobijaju eksperimentalne vrijednosti xi i y i. Prilikom proučavanja korelacije između kvantitativnih karakteristika, čije se vrijednosti mogu precizno izmjeriti u jedinicama metričke skale (metri, sekunde, kilogrami, itd.), vrlo često se usvaja dvodimenzionalni normalno raspoređeni model populacije. Takav model grafički prikazuje odnos između varijabli x i i y i u obliku geometrijske lokacije tačaka u sistemu pravokutnih koordinata. Ovaj grafički odnos se naziva i dijagram raspršenja ili korelacijsko polje.
Ovaj model dvodimenzionalne normalne distribucije (korelacijsko polje) nam omogućava da damo jasnu grafičku interpretaciju koeficijenta korelacije, jer distribucija ukupno zavisi od pet parametara: μ x, μ y – prosječne vrijednosti (matematička očekivanja); σ x ,σ y – standardne devijacije slučajnih varijabli X i Y i p – koeficijent korelacije, koji je mjera odnosa između slučajnih varijabli X i Y.
Ako je p = 0, tada se vrijednosti x i , y i dobivene iz dvodimenzionalne normalne populacije nalaze na grafu u koordinatama x, y unutar područja ograničenog krugom (slika 5, a). U ovom slučaju ne postoji korelacija između slučajnih varijabli X i Y i one se nazivaju nekoreliranim. Za dvodimenzionalnu normalnu distribuciju, nekorelacija istovremeno znači nezavisnost slučajnih varijabli X i Y.



Novo na sajtu

>

Najpopularniji