Dom Usnoj šupljini Pouzdanost koeficijenta korelacije. Test: Procjena značaja koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Pouzdanost koeficijenta korelacije. Test: Procjena značaja koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Neki istraživači, nakon što su izračunali vrijednost koeficijenta korelacije, tu se zaustavljaju. Ali sa stanovišta kompetentne eksperimentalne metodologije, treba odrediti i nivo značajnosti (tj. stepena pouzdanosti) ovog koeficijenta.

Nivo značajnosti koeficijenta korelacije izračunava se pomoću tabele kritičnih vrijednosti. Ispod je fragment ove tabele, koji nam omogućava da odredimo nivo značajnosti koeficijenta koji smo dobili.

Odabiremo red koji odgovara veličini uzorka. U našem slučaju, n = 10. U ovom redu biramo vrednost tabele koja je nešto manja od empirijske (ili joj je tačno jednaka, što je izuzetno retko). Taj broj podebljan je 0,632. Odnosi se na kolonu sa nivoom značajnosti p = 0,05. To jest, u stvari, empirijska vrijednost je srednja između stupaca p = 0,05 i p = 0,01, dakle 0,05  p  0,01. Dakle, odbacujemo nultu hipotezu i zaključujemo da je dobijeni rezultat (R xy = 0,758) značajan na nivou p< 0,05 (это уровень статистической значимости): R эмп >R cr (str< 0,05) H 0 ,  Н 1 ! ст. зн.

U svakodnevnom jeziku to se može protumačiti na sljedeći način: možemo očekivati ​​da će se ova snaga povezanosti javljati u uzorku rjeđe nego u pet od 100 slučajeva, ako je ta povezanost posljedica slučajnosti.

    1. Regresiona analiza

X(visina)

Y(težina)

M X = 166,6

M y = 58,3

x = 6 , 54

y = 8 , 34

Regresiona analiza se koristi za proučavanje odnosa između dvije veličine mjerene na intervalnoj skali. Ova vrsta analize uključuje konstrukciju regresijske jednačine koja vam omogućava da kvantitativno opišete zavisnost jedne karakteristike od druge (Pearsonov koeficijent korelacije ukazuje na prisustvo ili odsustvo veze, ali ne opisuje ovaj odnos). Poznavajući slučajnu vrijednost jedne od karakteristika i koristeći ovu jednačinu, istraživač može, sa određenim stepenom vjerovatnoće, predvidjeti odgovarajuću vrijednost druge karakteristike. Linearna zavisnost karakteristika opisana je sljedećom tipom jednadžbe:

y = a +b y * x ,

Gdje A - slobodni član jednačine jednak porastu grafa u tački x=0 u odnosu na osu apscise, b – ugaoni koeficijent nagiba linije regresije jednak je tangentu ugla nagiba grafika na osu apscise (pod uslovom da je skala vrednosti na obe ose ista).

Poznavajući vrijednosti karakteristika koje se proučavaju, možete odrediti vrijednost slobodnog termina i koeficijenta regresije koristeći sljedeće formule:

a =M y b y * M x

u našem slučaju:
;

a = 58,3 – 0,97 * 166,6 = -103,3

Dakle, formula za težinu u odnosu na visinu je sljedeća: y = 0,969 * x – 103,3

Odgovarajući grafikon je prikazan ispod.

Ako je potrebno opisati odnos između visine i težine ( X od at), zatim vrijednosti A I b postaju različite i formule se moraju u skladu s tim modificirati:

x= a +b x * at

a =M x b x * M y

U ovom slučaju se mijenja i izgled grafikona.

Koeficijent regresije je usko povezan sa koeficijentom korelacije. Ovo posljednje je geometrijska sredina koeficijenata regresije obilježja:

Kvadrat koeficijenta korelacije naziva se koeficijent determinacije. Njegova vrijednost određuje postotak međusobnog utjecaja varijabli. U našem slučaju R 2 = 0,76 2 = 0,58 . To znači da je 58% ukupne varijanse u Y objašnjeno uticajem varijable X, a preostalih 42% je posledica uticaja faktora koji nisu uzeti u obzir u jednačini.

Treba napomenuti da je pravi pokazatelj stepena linearne veze između varijabli teorijski koeficijent korelacije, koji se izračunava na osnovu podataka iz cijele populacije (tj moguće vrijednosti indikatori):

Gdje - teorijska mjera kovarijanse, koji se računa kao matematičko očekivanje proizvoda devijacija SV
I od njihovih matematičkih očekivanja.

Po pravilu, ne možemo izračunati teoretski koeficijent korelacije. Međutim, iz činjenice da koeficijent uzorkovanja nije jednak nuli
iz toga ne proizlazi da je i teorijski koeficijent
(tj. indikatori mogu biti linearno nezavisni). To. Na osnovu podataka slučajnog uzorkovanja, ne može se reći da postoji veza između indikatora.

Koeficijent korelacije uzorka je procjena teorijskog koeficijenta, jer izračunava se samo za dio vrijednosti varijable.

Uvek postoji greška koeficijenta korelacije. Ova greška je neslaganje između koeficijenta korelacije zapremine uzorka a koeficijent korelacije za populaciju je određen formulama:

at
; I
at
.

Testiranje značaja linearnog koeficijenta korelacije znači testiranje koliko možemo vjerovati podacima uzorka.

U tu svrhu testira se nulta hipoteza
da je vrijednost koeficijenta korelacije za opštu populaciju nula, tj. nema korelacije u populaciji. Alternativna hipoteza je
.

Da bismo testirali ovu hipotezu, izračunavamo - statistika ( -T-test učenika:

.

Koji ima Studentsku distribuciju sa
stepeni slobode 1.

Kritična vrijednost je određena iz Studentovih distribucijskih tabela
.

Ako je izračunata vrijednost kriterija
, tada se nulta hipoteza odbacuje, odnosno izračunati koeficijent korelacije značajno se razlikuje od nule s vjerovatnoćom
.

Ako
, tada se nulta hipoteza ne može odbaciti. U ovom slučaju je moguće da je prava vrijednost koeficijenta korelacije nula, tj. odnos između indikatora se može smatrati statistički beznačajnim.

Primjer 1. U tabeli su prikazani podaci za 8 godina o ukupnom prihodu i izdaci za finalnu potrošnju .

Proučavati i mjeriti bliskost odnosa između datih indikatora.

Tema 4. Uparena linearna regresija. Metoda najmanjeg kvadrata

Koeficijent korelacije ukazuje na stepen bliskosti veze između dve karakteristike, ali ne daje odgovor na pitanje kako promena jedne karakteristike za jednu jedinicu njene dimenzije utiče na promenu druge karakteristike. Da bi se odgovorilo na ovo pitanje, koriste se metode regresione analize.

Regresiona analiza setovi formu zavisnosti između slučajne varijable i varijabilne vrijednosti
, i vrijednosti
smatraju se precizno navedenim.

Jednačina regresije je formula za statistički odnos između varijabli.

Ako je ova formula linearna, onda govorimo o tome linearna regresija. Poziva se formula za statistički odnos između dvije varijable parna regresija(nekoliko varijabli - višestruko).

Izbor formule zavisnosti se zove specifikacija regresijske jednačine. Poziva se procjena vrijednosti parametara odabrane formule parametrizaciju.

Kako procijeniti vrijednosti parametara i provjeriti pouzdanost napravljenih procjena?

Pogledajmo crtež

    Na grafikonu (a) odnos X I at je blizu linearne, prava linija 1 je ovde blizu tačaka posmatranja i ove odstupaju od nje samo kao rezultat relativno malih slučajnih uticaja.

    Grafikon (b) pokazuje stvarni odnos između veličina X I at je opisan nelinearnom funkcijom 2, i bez obzira koju ravnu liniju nacrtamo (na primjer, 1), odstupanja tačaka od nje neće biti slučajna.

    Na grafikonu (c) odnos između varijabli X I at nedostaje, a rezultati parametrizacije bilo koje formule zavisnosti će biti neuspešni.

Polazna tačka za analizu ekonometrijske veze obično je procjena linearna zavisnost varijable. Uvijek možete pokušati nacrtati pravu liniju koja će biti "najbliža" tačkama posmatranja u njihovoj ukupnosti (na primjer, na slici (c) prava linija 1 će biti bolja od prave linije 2).

Teorijska jednačina linearne regresije u paru ima oblik:


,

Gdje
su pozvani teorijski parametri (teorijski koeficijenti) regresija; -nasumično odstupanje(slučajna greška).

Općenito ćemo predstaviti teorijski model kao:

.

Za određivanje vrijednosti teoretskih koeficijenata regresije potrebno je znati sve vrijednosti varijabli X I Y, tj. sve opšta populacija, što je praktično nemoguće.

Zadatak je sljedeći: prema dostupnim podacima opservacije
,
potrebno je procijeniti vrijednosti parametara
.

Neka Aprocjena parametara
,bprocjena parametara .

Tada je procijenjena jednačina regresije:
,

Gdje
teorijske vrijednosti zavisne varijable y, - uočene vrijednosti greške . Ova jednačina se zove empirijska regresijska jednačina. Napisaćemo to u formularu
.

Osnova za procjenu parametara linearne regresije je Metoda najmanjeg kvadrata (MNC) je metoda za procjenu parametara linearne regresije koja minimizira sumu kvadrata odstupanja opažanja zavisne varijable od željene linearne funkcije.

Funkcija Q je kvadratna funkcija dva parametra a I b. Jer kontinuirano je, konveksno i ograničeno ispod (
), tako da dostiže minimum. Neophodan uslov za postojanje minimuma je jednakost nuli njegovih parcijalnih izvoda u odnosu na a I b:


.

Deljenje obe jednačine sistema sa n, dobijamo:


ili

Inače možete napisati:

I - standardne devijacije vrijednosti istih karakteristika.

To. linija regresije prolazi kroz tačku sa prosječnim vrijednostima X I at
, A koeficijent regresije b je proporcionalna indeksu kovarijanse i koeficijentu linearna korelacija.

Ako pored regresije Y on X za iste empirijske vrijednosti, jednadžba regresije X na Y (
, Gdje
), zatim proizvod koeficijenata
:

.

TO koeficijent regresije  ovo je vrijednost koja pokazuje u koliko jedinica dimenzije će se vrijednost promijeniti pri promeni vrednosti po jedinici svoje dimenzije. Slično se određuje i koeficijent .

U naučnim istraživanjima često postoji potreba da se pronađe veza između varijabli ishoda i faktora (prinos useva i količina padavina, visina i težina osobe u homogenim grupama prema polu i starosti, broj otkucaja srca i telesna temperatura). , itd.).

Drugi su znakovi koji doprinose promjenama u onima koji su s njima povezani (prvi).

Koncept korelacione analize

Postoji mnogo Na osnovu gore navedenog, možemo reći da je korelaciona analiza metoda koja se koristi za testiranje hipoteze o statistički značaj dvije ili više varijabli ako ih istraživač može izmjeriti, ali ih ne može promijeniti.

Postoje i druge definicije pojma u pitanju. Korelaciona analiza je metoda obrade koja uključuje proučavanje koeficijenata korelacije između varijabli. U ovom slučaju, koeficijenti korelacije između jednog para ili više parova karakteristika se upoređuju kako bi se uspostavile statističke veze između njih. Korelaciona analiza je metoda za proučavanje statističke zavisnosti između slučajnih varijabli sa opcionim prisustvom stroge funkcionalne prirode, u kojoj dinamika jedne slučajne varijable dovodi do dinamike matematičko očekivanje drugi.

Koncept lažne korelacije

Prilikom dirigovanja korelacione analize potrebno je uzeti u obzir da se može izvesti u odnosu na bilo koji skup karakteristika, često apsurdnih u odnosu na druge. Ponekad nemaju uzročno-posledične veze jedno s drugim.

U ovom slučaju govore o lažnoj korelaciji.

Problemi korelacione analize

Na osnovu navedenih definicija mogu se formulisati sledeći zadaci opisane metode: dobiti informacije o jednoj od traženih varijabli koristeći drugu; utvrditi bliskost odnosa između proučavanih varijabli.

Korelaciona analiza podrazumeva utvrđivanje odnosa između karakteristika koje se proučavaju, pa se zadaci korelacione analize mogu dopuniti sledećim:

  • identifikaciju faktora koji imaju najveći uticaj na rezultujuću karakteristiku;
  • identifikacija ranije neistraženih uzroka veza;
  • konstrukcija korelacionog modela sa njegovom parametarskom analizom;
  • proučavanje značaja komunikacijskih parametara i njihova intervalna procjena.

Veza između korelacione analize i regresije

Metoda korelacione analize često nije ograničena na pronalaženje bliskosti odnosa između proučavanih veličina. Ponekad se dopunjuje sastavljanjem regresionih jednačina, koje se dobijaju istoimenom analizom, a koje predstavljaju opis korelacione zavisnosti između rezultujuće i faktorske (faktorske) karakteristike (obeležja). Ova metoda, zajedno sa analizom koja se razmatra, čini metodu

Uslovi za korištenje metode

Efektivni faktori zavise od jednog do nekoliko faktora. Metoda korelacione analize može se koristiti ako postoji veliki broj zapažanja o vrednosti efektivnih i faktorskih indikatora (faktora), dok faktori koji se proučavaju moraju biti kvantitativni i reflektovani u konkretnim izvorima. Prvi se može odrediti normalnim zakonom - u ovom slučaju, rezultat korelacijske analize su koeficijenti korelacije Pearson, ili, ako karakteristike ne poštuju ovaj zakon, koristi se koeficijent rang korelacije Spearman.

Pravila za odabir faktora korelacione analize

Prilikom upotrebe ovu metodu potrebno je utvrditi faktore koji utiču na indikatore učinka. Oni su odabrani uzimajući u obzir činjenicu da moraju postojati uzročno-posledične veze između indikatora. U slučaju kreiranja multifaktorskog modela korelacije, biraju se oni koji imaju značajan uticaj na rezultujući indikator, a poželjno je da se u korelacioni model ne uključuju međuzavisni faktori sa koeficijentom korelacije para većim od 0,85, kao i oni za koje odnos sa rezultujućim parametrom nije linearan ili funkcionalan.

Prikaz rezultata

Rezultati korelacione analize mogu se prikazati u tekstualnom i grafičkom obliku. U prvom slučaju oni su predstavljeni kao koeficijent korelacije, u drugom - u obliku dijagrama raspršenja.

U nedostatku korelacije između parametara, tačke na dijagramu su locirane haotično, prosječni stupanj povezanosti karakterizira veći stupanj reda i manje ili više ujednačena udaljenost označenih oznaka od medijane. Jaka veza ima tendenciju da bude ravna i pri r=1 tačkasta dijagram je ravna linija. Reverzna korelacija se razlikuje u smjeru grafikona od gornjeg lijevog prema donjem desnom, direktna korelacija - od donjeg lijevog do gornjeg desnog ugla.

3D prikaz dijagrama raspršenja

Pored tradicionalnog prikaza 2D dijagrama raspršenja, sada se koristi 3D grafički prikaz korelacijske analize.

Također se koristi matrica dijagrama raspršenja koja prikazuje sve uparene dijagrame u jednoj slici u formatu matrice. Za n varijabli, matrica sadrži n redaka i n stupaca. Grafikon koji se nalazi na raskrsnici i-tog reda i j-te kolone je dijagram varijabli Xi naspram Xj. Dakle, svaki red i kolona su jedna dimenzija, jedna ćelija prikazuje dijagram raspršenja od dvije dimenzije.

Procjena nepropusnosti veze

Bliskost korelacione veze određena je koeficijentom korelacije (r): jaka - r = ±0,7 do ±1, srednja - r = ±0,3 do ±0,699, slaba - r = 0 do ±0,299. Ova klasifikacija nije stroga. Na slici je prikazan malo drugačiji dijagram.

Primjer korištenja metode korelacijske analize

Zanimljivo istraživanje je sprovedeno u Velikoj Britaniji. Posvećena je povezanosti pušenja i raka pluća, a provedena je kroz analizu korelacije. Ovo zapažanje je predstavljeno u nastavku.

Početni podaci za korelacione analize

Profesionalna grupa

mortalitet

Poljoprivrednici, šumari i ribari

Rudari i radnici u kamenolomu

Proizvođači gasa, koksa i hemikalija

Proizvođači stakla i keramike

Radnici peći, kovačnica, livnica i valjaonica

Radnici na elektrotehnici i elektronici

Inženjerske i srodne struke

Drvoprerađivačka industrija

Leatherworkers

Tekstilni radnici

Proizvođači radne odeće

Radnici u industriji hrane, pića i duhana

Proizvođači papira i štampe

Proizvođači ostalih proizvoda

Graditelji

Slikari i dekorateri

Vozači stacionarnih motora, dizalica itd.

Radnici koji nisu uključeni drugdje

Radnici transporta i veza

Radnici skladišta, skladištara, pakera i mašina za punjenje

Kancelarijski radnici

Prodavci

Sportski i rekreativni radnici

Administratori i menadžeri

Profesionalci, tehničari i umjetnici

Započinjemo analizu korelacije. Bolje je započeti s rješenjem radi jasnoće grafička metoda, za koji ćemo konstruisati dijagram raspršenja.

To pokazuje direktnu vezu. Međutim, teško je izvući nedvosmislen zaključak samo na osnovu grafičke metode. Stoga ćemo nastaviti sa analizom korelacije. U nastavku je prikazan primjer izračunavanja koeficijenta korelacije.

Pomoću softvera (u nastavku će biti opisan MS Excel kao primjer) određujemo koeficijent korelacije, koji iznosi 0,716, što znači jaku povezanost između ispitivanih parametara. Odredimo statističku pouzdanost dobijene vrijednosti koristeći odgovarajuću tabelu, za koju trebamo oduzeti 2 od 25 parova vrijednosti, kao rezultat dobijamo 23 i pomoću ove linije u tabeli nalazimo r kritično za p = 0,01 (pošto ovo su medicinski podaci, strožija zavisnost, u ostalim slučajevima je dovoljan p=0,05), što je 0,51 za ovu korelaciju. Primjer je pokazao da je izračunato r veće od kritičnog r, a vrijednost koeficijenta korelacije smatra se statistički pouzdanom.

Korištenje softvera prilikom provođenja korelacijske analize

Opisani tip statističke obrade podataka može se izvršiti korištenjem softver, posebno MS Excel. Korelacija uključuje izračunavanje sljedećih parametara pomoću funkcija:

1. Koeficijent korelacije se određuje pomoću funkcije CORREL (niz1; niz2). Niz1,2 - ćelija intervala vrijednosti rezultantnih i faktorskih varijabli.

Koeficijent linearne korelacije naziva se i Pearsonov koeficijent korelacije, i stoga, počevši od Excel 2007, možete koristiti funkciju s istim nizovima.

Grafički prikaz korelacione analize u Excel-u se vrši korišćenjem panela „Grafikoni“ sa izborom „Raspoj“.

Nakon specificiranja početnih podataka, dobijamo graf.

2. Procjena značaja koeficijenta parne korelacije pomoću Studentovog t-testa. Izračunata vrijednost t-kriterijuma se upoređuje sa tabeliranom (kritičnom) vrijednošću ovog indikatora iz odgovarajuće tablice vrijednosti parametra koji se razmatra, uzimajući u obzir navedeni nivo značajnosti i broj stupnjeva slobode. Ova procjena se vrši korištenjem funkcije STUDISCOVER(vjerovatnost; stupnjevi_slobode).

3. Matrica koeficijenata korelacije parova. Analiza se vrši pomoću alata za analizu podataka u kojem je odabrana Korelacija. Statistička procjena koeficijenata parne korelacije vrši se poređenjem njegove apsolutne vrijednosti sa tabelarno (kritičnom) vrijednošću. Kada izračunati koeficijent parne korelacije premaši kritični, možemo reći, uzimajući u obzir dati stepen vjerovatnoće, da se nulta hipoteza o značajnosti linearne veze ne odbacuje.

Konačno

Upotreba metode korelacione analize u naučnim istraživanjima omogućava nam da utvrdimo odnos između razni faktori i indikatori učinka. Potrebno je uzeti u obzir da se iz apsurdnog para ili skupa podataka može dobiti visok koeficijent korelacije, te stoga ovaj tip analiza mora biti sprovedena na dovoljno velikom nizu podataka.

Nakon dobijanja izračunate vrijednosti r, preporučljivo je uporediti je sa kritičnim r kako bi se potvrdila statistička pouzdanost određene vrijednosti. Korelaciona analiza se može izvršiti ručno pomoću formula, ili pomoću softvera, posebno MS Excel-a. Ovdje također možete konstruirati dijagram raspršenja u svrhu vizualnog predstavljanja odnosa između proučavanih faktora korelacijske analize i rezultirajuće karakteristike.

Faza 3. Pronalaženje odnosa između podataka

Linearna korelacija

Posljednja faza zadatka proučavanja veza između fenomena je procjena bliskosti veze pomoću indikatora korelacije. Ova faza je veoma važna za utvrđivanje zavisnosti između faktora i karakteristika performansi, a samim tim i za mogućnost postavljanja dijagnoze i prognoze fenomena koji se proučava.

Dijagnoza(od grčkog dijagnoza prepoznavanje) - utvrđivanje suštine i karakteristika stanja objekta ili pojave na osnovu njegovog sveobuhvatnog proučavanja.

Prognoza(od grčkog prognosis foresight, predviđanje) - svako specifično predviđanje, sud o stanju bilo koje pojave u budućnosti (vremenska prognoza, ishod izbora, itd.). Prognoza je naučno utemeljena hipoteza o mogućem budućem stanju sistema, objekta ili fenomena koji se proučava i indikatora koji karakterišu ovo stanje. Predviđanje – razvoj prognoze, specijal Naučno istraživanje specifične izglede za razvoj bilo koje pojave.

Prisjetimo se definicije korelacije:

Korelacija– zavisnost između slučajnih varijabli, izražena u činjenici da distribucija jedne vrijednosti zavisi od vrijednosti druge vrijednosti.

Uočava se korelacija ne samo između kvantitativnih, već i kvalitativnih karakteristika. Postoji razne načine i indikatori za procjenu bliskosti veza. Zaustavićemo se samo na linearni koeficijent korelacije para , koji se koristi kada postoji linearna veza između slučajnih varijabli. U praksi se često javlja potreba da se odredi nivo povezanosti između slučajnih varijabli nejednakih dimenzija, pa je poželjno imati neku vrstu bezdimenzionalne karakteristike ove veze. Takva karakteristika (mjera povezanosti) je koeficijent linearne korelacije r xy, što je određeno formulom

Gdje , .

Označavajući i , možemo dobiti sljedeći izraz za izračunavanje koeficijenta korelacije

.

Ako uvedemo koncept normalizovano odstupanje , koji izražava odstupanje koreliranih vrijednosti od prosjeka u dijelovima standardne devijacije:



tada će izraz za koeficijent korelacije poprimiti oblik

.

Ako izračunate koeficijent korelacije na osnovu konačnih vrijednosti početne slučajne varijable iz tabele proračuna, tada se koeficijent korelacije može izračunati pomoću formule

.

Svojstva koeficijenta linearne korelacije:

1). Koeficijent korelacije je bezdimenzionalna veličina.

2). |r| £1 ili .

3). , a,b= const, – vrijednost koeficijenta korelacije neće se promijeniti ako se sve vrijednosti slučajnih varijabli X i Y pomnože (ili podijele) konstantom.

4). , a,b= const, – vrijednost koeficijenta korelacije neće se promijeniti ako se sve vrijednosti slučajnih varijabli X i Y povećaju (ili smanje) za konstantu.

5). Postoji veza između koeficijenta korelacije i koeficijenta regresije:

Vrijednosti koeficijenata korelacije mogu se tumačiti na sljedeći način:

Kvantitativni kriteriji za procjenu bliskosti komunikacije:

Za prognostičke svrhe, vrijednosti sa |r| > 0.7.

Koeficijent korelacije nam omogućava da zaključimo da postoji linearna veza između dvije slučajne varijable, ali ne pokazuje koja od varijabli uzrokuje promjenu druge. Zapravo, veza između dvije slučajne varijable može postojati bez uzročno-posljedične veze između samih vrijednosti, jer promjena u obje slučajne varijable može biti uzrokovana promjenom (utjecajem) treće.

Koeficijent korelacije r xy je simetrična u odnosu na slučajne varijable koje se razmatraju X I Y. To znači da je za određivanje koeficijenta korelacije potpuno indiferentno koja je od veličina nezavisna, a koja zavisna.

Značaj koeficijenta korelacije

Čak i za nezavisne količine koeficijent korelacije može biti različit od nule zbog slučajnog raspršivanja rezultata mjerenja ili zbog malog uzorka slučajnih varijabli. Stoga treba provjeriti značaj koeficijenta korelacije.

Značajnost koeficijenta linearne korelacije se provjerava na osnovu Studentov t-test :

.

Ako t > t cr(P,n-2), onda linearni koeficijent korelacija je značajna, pa je stoga značajna i statistička povezanost X I Y.

.

Radi lakšeg izračunavanja, kreirane su tabele vrednosti granica poverenja koeficijenata korelacije za razni brojevi stepena slobode f = n–2 (dvostrani test) i različiti nivoi značaja a= 0,1; 0,05; 0,01 i 0,001. Korelacija se smatra značajnom ako izračunati koeficijent korelacije prelazi vrijednost granice povjerenja koeficijenta korelacije za datu f I a.

Za velike n I a= 0,01 vrijednost granice povjerenja koeficijenta korelacije može se izračunati pomoću približne formule

.

Uvod. 2

1. Procjena značajnosti koeficijenata regresije i korelacije korištenjem Studentovog f-testa. 3

2. Izračunavanje značajnosti koeficijenata regresije i korelacije pomoću Studentovog f-testa. 6

Zaključak. 15

Nakon konstruisanja regresione jednadžbe potrebno je provjeriti njen značaj: pomoću posebnih kriterija utvrditi da li je rezultirajuća zavisnost izraženo jednačinom regresija, slučajna, tj. može li se koristiti u svrhe predviđanja i faktorske analize. U statistici su razvijene metode za striktno testiranje značajnosti koeficijenata regresije analiza varijanse i izračunavanje posebnih kriterijuma (na primer, F-kriterijum). Labav test se može izvesti izračunavanjem prosječnog relativnog linearnog odstupanja (e), tzv prosečna greška aproksimacije:

Pređimo sada na procjenu značaja koeficijenata regresije bj i konstruiranje intervala povjerenja za parametre regresionog modela Ru (J=l,2,...,p).

Blok 5 - procjena značajnosti koeficijenata regresije na osnovu vrijednosti Studentovog ^-testa. Izračunate vrijednosti ta se upoređuju sa dozvoljenom vrijednošću

Blok 5 - procjena značajnosti koeficijenata regresije na osnovu vrijednosti ^-kriterijuma. Izračunate vrijednosti t0n upoređuju se sa dozvoljenom vrijednošću 4,/ koja se utvrđuje iz tablica t-distribucije za datu vjerovatnoću greške (a) i broj stupnjeva slobode (/).

Pored provjere značajnosti cjelokupnog modela, potrebno je testirati značajnost koeficijenata regresije pomoću Student /-testa. Minimalna vrijednost koeficijenta regresije bg mora odgovarati uslovu bifob-^t, gdje je bi vrijednost koeficijenta regresione jednadžbe na prirodnoj skali na i-c faktor znak; ah. - srednja kvadratna greška svakog koeficijenta. neuporedivost koeficijenata D u njihovoj značajnosti;

Dalja statistička analiza se odnosi na testiranje značajnosti koeficijenata regresije. Da bismo to učinili, nalazimo vrijednost ^-kriterijuma za koeficijente regresije. Kao rezultat njihovog poređenja, utvrđuje se najmanji ^-kriterijum. Faktor čiji koeficijent odgovara najmanjem ^-kriterijumu je isključen iz dalje analize.

Za procjenu statističke značajnosti koeficijenata regresije i korelacije, Studentov t-test i intervali poverenja svaki od indikatora. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog f-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:

Procjena važnosti koeficijenata čiste regresije pomoću Studentovog /-testa svodi se na izračunavanje vrijednosti

Kvalitet rada je karakteristika specifičnog rada, odražavajući stepen njegove složenosti, intenzitet (intenzitet), uslove i značaj za ekonomski razvoj. K.t. mereno kroz tarifni sistem koji omogućava diferencijaciju zarada u zavisnosti od nivoa kvalifikacija (složenosti posla), uslova, težine rada i njegovog intenziteta, kao i značaja pojedinih delatnosti i proizvodnje, regiona, teritorija za razvoj privreda zemlje. K.t. nalazi izraz u plate radnika, koji se na tržištu rada razvijaju pod uticajem ponude i potražnje radna snaga(posebne vrste rada). K.t. - složene strukture

Dobijene ocjene relativne važnosti pojedinačnih ekonomskih, društvenih i ekoloških posljedica projekta dalje daju osnovu za poređenje alternativnih projekata i njihovih opcija korištenjem „kompleksnog bodovnog bezdimenzionalnog kriterija društvene i ekološko-ekonomske efikasnosti“ Ek projekta, izračunatog (u prosječnim ocjenama značajnosti) koristeći formulu

Unutarindustrijska regulacija osigurava razlike u platama radnika u datoj industriji, u zavisnosti od značaja pojedinih vrsta proizvodnje u datoj industriji, od složenosti i uslova rada, kao i od oblika naknade koji se koriste.

Rezultirajuća ocjena rejtinga analiziranog preduzeća u odnosu na standardno preduzeće bez uzimanja u obzir značaja pojedinačnih indikatora je komparativna. Kada se porede ocene nekoliko preduzeća najviša ocjena ima preduzeće sa minimalnom vrednošću dobijene uporedne ocene.

Razumijevanje kvaliteta proizvoda kao mjere njegove korisnosti stavlja praktično važno pitanje o njegovom mjerenju. Njegovo rješenje se postiže proučavanjem značaja pojedinih svojstava u zadovoljavanju određene potrebe. Značaj čak i istog svojstva može biti različit u zavisnosti od uslova potrošnje proizvoda. Posljedično, korisnost proizvoda u različitim okolnostima njegove upotrebe su različite.

Druga faza rada je proučavanje statističkih podataka i utvrđivanje odnosa i interakcije indikatora, utvrđivanje značaja pojedinačnih faktora i razloga za promjene općih indikatora.

Svi razmatrani indikatori su kombinovani u jedan na način da je rezultat sveobuhvatna procena svih analiziranih aspekata delatnosti preduzeća, uzimajući u obzir uslove njegove delatnosti, uzimajući u obzir stepen značaja pojedinih indikatora za razne vrste investitori:

Regresijski koeficijenti pokazuju intenzitet uticaja faktora na pokazatelj učinka. Ako se izvrši preliminarna standardizacija faktorskih indikatora, onda je b0 jednako prosječnoj vrijednosti efektivnog indikatora u agregatu. Koeficijenti b, b2 ..... bl pokazuju za koliko jedinica nivo efektivnog indikatora odstupa od njegove prosječne vrijednosti ako vrijednosti faktorskog indikatora odstupaju od prosjeka jednake nuli za jedan standardna devijacija. Dakle, koeficijenti regresije karakterišu stepen značajnosti pojedinih faktora za povećanje nivoa pokazatelja učinka. Specifične vrijednosti koeficijenata regresije određuju se iz empirijskih podataka prema metodi najmanjih kvadrata(kao rezultat rješavanja sistema normalnih jednačina).

2. Izračunavanje značajnosti koeficijenata regresije i korelacije korištenjem Studentovog f-testa

Razmotrimo linearni oblik višefaktorskih odnosa ne samo kao najjednostavniji, već i kao oblik koji pružaju aplikativni softverski paketi za PC. Ako veza između pojedinačnog faktora i rezultirajućeg atributa nije linearna, tada se jednačina linearizira zamjenom ili transformacijom vrijednosti faktorskog atributa.

Opšti oblik multivarijantna regresijska jednadžba ima oblik:


gdje je k broj faktorskih karakteristika.

Da bi se pojednostavio sistem jednadžbi najmanjih kvadrata neophodnih za izračunavanje parametara jednačine (8.32), obično se uvode odstupanja pojedinačnih vrednosti svih karakteristika od prosečnih vrednosti ovih karakteristika.

Dobijamo sistem od k jednadžbi najmanjih kvadrata:

Rješavajući ovaj sistem, dobijamo vrijednosti uslovno čistih koeficijenata regresije b. Slobodni član jednačine se izračunava po formuli


Izraz „uslovno čisti koeficijent regresije” znači da svaka od vrijednosti bj mjeri ukupno prosječno odstupanje rezultirajuće karakteristike od njene prosječne vrijednosti kada dati faktor xj odstupi od svoje prosječne vrijednosti za jedinicu svoje mjere i pod uvjetom da svi ostali faktori uključeni u jednačinu regresije, fiksirani na prosječnim vrijednostima, ne mijenjaju se, ne variraju.

Dakle, za razliku od koeficijenta uparene regresije, koeficijent uslovne čiste regresije meri uticaj faktora, apstrahujući od odnosa varijacije ovog faktora sa varijacijama drugih faktora. Ako bi bilo moguće uključiti u jednadžbu regresije sve faktore koji utječu na varijaciju rezultirajuće karakteristike, tada bi vrijednosti bj. mogu se smatrati mjerama čistog uticaja faktora. Ali pošto je zaista nemoguće uključiti sve faktore u jednačinu, onda koeficijenti bj. nije oslobođena primjesa uticaja faktora koji nisu uključeni u jednačinu.

Nemoguće je uključiti sve faktore u jednadžbu regresije iz jednog od tri razloga ili sve odjednom, jer:

1) neki faktori mogu biti nepoznati moderna nauka, poznavanje bilo kojeg procesa je uvijek nepotpuno;

2) nema podataka o nekom od poznatih teorijskih faktora ili je nepouzdan;

3) veličina populacije koja se proučava (uzorak) je ograničena, što omogućava uključivanje ograničenog broja faktora u jednačinu regresije.

Koeficijenti uslovne čiste regresije bj. su imenovani brojevi izraženi u različitim mjernim jedinicama i stoga su međusobno neuporedivi. Da bi se oni pretvorili u uporedive relativne indikatore, koristi se ista transformacija kao za dobijanje koeficijenta parne korelacije. Rezultirajuća vrijednost se poziva standardizovani koeficijent regresija ili?-koeficijent.


Koeficijent faktora xj određuje meru uticaja varijacije faktora xj na varijaciju rezultujuće karakteristike y, apstrahujući od istovremene varijacije drugih faktora uključenih u regresionu jednačinu.

Koeficijente uslovno čiste regresije je korisno izraziti u obliku relativnih uporedivih pokazatelja povezanosti, koeficijenata elastičnosti:

Koeficijent elastičnosti faktora xj kaže da kada vrijednost datog faktora odstupi od njegove prosječne vrijednosti za 1% i apstrahirajući od pratećeg odstupanja drugih faktora uključenih u jednačinu, rezultirajuća karakteristika će odstupiti od svoje prosječne vrijednosti za ej posto od god. Češće se koeficijenti elastičnosti tumače i primjenjuju u smislu dinamike: sa povećanjem faktora x za 1% njegove prosječne vrijednosti, rezultirajuća karakteristika će se povećati za e. posto svoje prosječne vrijednosti.

Razmotrimo proračun i interpretaciju multifaktorske regresione jednačine koristeći istih 16 farmi kao primjer (Tabela 8.1). Rezultirajući znak - nivo bruto prihod a tri faktora koja na to utiču prikazana su u tabeli. 8.7.

Podsjetimo još jednom da je za dobijanje pouzdanih i dovoljno tačnih pokazatelja korelacije potrebna veća populacija.


Tabela 8.7

Nivo bruto dohotka i njegovi faktori

Brojevi farme

Bruto prihod, rub./ra

Troškovi rada, čovjek-dana/ha x1

Udio obradivog zemljišta,

Prinos mlijeka po 1 kravi,

Tabela 8.8 Indikatori regresijske jednačine

Zavisna varijabla: y

Koeficijent regresije

Konstanta-240.112905

Std. greška proc. = 79,243276


Rješenje je izvedeno pomoću programa “Microstat” za PC. Evo tabela iz ispisa: tabela. 8.7 daje prosječne vrijednosti i standardne devijacije svih karakteristika. Table 8.8 sadrži koeficijente regresije i njihovu vjerovatnoću:

prva kolona “var” - varijable, odnosno faktori; druga kolona “koeficijent regresije” - uslovno čisti koeficijenti regresije bj; treća kolona “std. errr" - prosječne greške u procjenama koeficijenta regresije; četvrti stupac - vrijednosti Studentovog t-testa sa 12 stupnjeva slobode varijacije; peti stupac “prob” - vjerovatnoća nulte hipoteze u odnosu na koeficijente regresije;

šesta kolona “parcijalni r2” - parcijalni koeficijenti determinacije. Sadržaj i metodologija za izračunavanje indikatora u kolonama 3-6 dalje se razmatraju u Poglavlju 8. „Konstanta“ je slobodni termin regresione jednačine a; "Std. greška procjene.” - srednja kvadratna greška procjene efektivne karakteristike korištenjem jednačine regresije. Dobivena je jednačina višestruka regresija:

y = 2,26x1 - 4,31x2 + 0,166x3 - 240.

To znači da je iznos bruto prihoda po 1 hektaru poljoprivrednog zemljišta u prosjeku povećan za 2,26 rubalja. uz povećanje troškova rada za 1 sat/ha; smanjen u prosjeku za 4,31 rublje. uz povećanje udjela obradivog zemljišta u poljoprivrednom zemljištu za 1% i povećanje za 0,166 rubalja. uz povećanje prinosa mlijeka po kravi za 1 kg. Negativna vrijednost slobodnog termina je sasvim prirodna, a, kao što je već navedeno u paragrafu 8.2, efektivni znak je da bruto prihod postaje nula mnogo prije nego što faktori dostignu nulte vrijednosti, što je nemoguće u proizvodnji.

Negativna vrijednost koeficijenta za x^ signal je značajnih problema u privredi posmatranih farmi, gdje je uzgoj usjeva neisplativ, a isplativo je samo stočarstvo. Uz racionalne metode poljoprivredne proizvodnje i normalne cijene (ravnotežne ili bliske njima) za proizvode svih sektora prihod ne bi trebao opadati, već bi trebao rasti sa povećanjem najplodnijeg udjela poljoprivrednog zemljišta – oranica.

Na osnovu podataka iz pretposljednja dva reda tabele. 8.7 i tabela. 8.8 izračunavamo p-koeficijente i koeficijente elastičnosti prema formulama (8.34) i (8.35).

I na varijaciju u visini dohotka i na njegovu moguću promjenu u dinamici najjače utiče faktor x3 - produktivnost krava, a najslabiji x2 - udio obradivog zemljišta. Vrijednosti P2/ će se dalje koristiti (Tabela 8.9);

Tabela 8.9 Uporedni uticaj faktora na nivo prihoda

Faktori xj


Dakle, dobili smo da se ?-koeficijent faktora xj odnosi na koeficijent elastičnosti ovog faktora, kao što se koeficijent varijacije faktora odnosi na koeficijent varijacije rezultirajuće karakteristike. Pošto, kao što se vidi iz poslednjeg reda tabele. 8.7, koeficijenti varijacije svih faktora manji su od koeficijenta varijacije rezultirajuće karakteristike; svi?-koeficijenti su manji od koeficijenata elastičnosti.

Razmotrimo odnos između uparenog i uslovno čistog koeficijenta regresije koristeći faktor -s, kao primjer. Parovi linearna jednačina veza y sa x ima oblik:

y = 3,886x1 – 243,2

Uslovno čisti koeficijent regresije na x1 je samo 58% uparenog. Preostalih 42% je zbog činjenice da varijaciju x1 prati varijacija faktora x2 x3, što zauzvrat utječe na rezultirajuću osobinu. Veze svih karakteristika i njihovi koeficijenti parne regresije prikazani su na grafu veza (slika 8.2).


Ako zbrojimo procjene direktnog i indirektnog utjecaja varijacije x1 na y, odnosno proizvod uparenih regresijskih koeficijenata duž svih „puteva“ (slika 8.2), dobijamo: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Ova vrijednost je još veća koeficijent para veze x1 sa y. Shodno tome, indirektni uticaj varijacije x1 kroz faktore koji nisu uključeni u jednačinu je suprotan, dajući ukupno:

1 Ayvazyan S.A., Mkhitaryan V.S. Primijenjena statistika i osnove ekonometrije. Udžbenik za univerzitete. - M.: JEDINSTVO, 2008, – 311 str.

2 Johnston J. Ekonometrijske metode. - M.: Statistika, 1980. – 282s.

3 Dougherty K. Uvod u ekonometriju. - M.: INFRA-M, 2004, – 354 str.

4 Dreyer N., Smith G., Applied regresiona analiza. - M.: Finansije i statistika, 2006, – 191 str.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. Ekonometrija. Početni kurs.-M.: Delo, 2006, – 259 str.

6 Radionica o ekonometriji/Ed. I. I. Eliseeva - M.: Finansije i statistika, 2004, – 248 str.

7 Econometrics/Ed. I. I. Eliseeva - M.: Finansije i statistika, 2004, – 541 str.

8 Kremer N., Putko B. Ekonometrija - M.: UNITY-DANA, 200, – 281 str.


Ayvazyan S.A., Mkhitaryan V.S. Primijenjena statistika i osnove ekonometrije. Udžbenik za univerzitete. - M.: JEDINSTVO, 2008, – str. 23.

Kremer N., Putko B. Ekonometrija.- M.: UNITY-DANA, 200, – str.64

Dreyer N., Smith G., Primijenjena regresiona analiza. - M.: Finansije i statistika, 2006, – str.57.

Radionica o ekonometriji/Ed. I.I. Eliseeva - M.: Finansije i statistika, 2004, – str.172.



Novo na sajtu

>

Najpopularniji