Dom Miris iz usta Procjena značaja jednačine regresije za koeficijent determinacije. Regresija u Excelu: jednadžba, primjeri

Procjena značaja jednačine regresije za koeficijent determinacije. Regresija u Excelu: jednadžba, primjeri

Da bi se testirala značajnost, analizira se odnos koeficijenta regresije i njegove standardne devijacije. Ovaj omjer je Studentova distribucija, odnosno da bismo odredili značajnost koristimo t-test:

- RMS od rezidualne disperzije;

- zbir odstupanja od prosječne vrijednosti

Ako t ras. >t tab. , tada je koeficijent b i značajan.

Interval pouzdanosti je određen formulom:

POSTUPAK IZVOĐENJA RADOVA

    Uzmite početne podatke prema opciji rada (po broju učenika u časopisu). Naveden je statički kontrolni objekt sa dva ulaza X 1 , X 2 i jedan izlaz Y. U objektu je sproveden pasivni eksperiment i dobijen je uzorak od 30 tačaka koji sadrži vrednosti X 1 , X 2 I Y za svaki eksperiment.

    Otvorite novu datoteku u programu Excel 2007. Unesite početne informacije u stupce originalne tablice - vrijednosti ulaznih varijabli X 1 , X 2 i izlazna varijabla Y.

    Pripremite dvije dodatne kolone za unos izračunatih vrijednosti Y i ostaci.

    Pozovite program “Regresija”: Podaci / Analiza podataka / Regresija.

Rice. 1. Dijalog za analizu podataka.

    Unesite adrese izvornih podataka u dijaloški okvir “Regresija”:

    ulazni interval Y, ulazni interval X (2 kolone),

    postavite nivo pouzdanosti na 95%,

    u opciji “Izlazni interval” označite gornju lijevu ćeliju mjesta gdje se izlaze podaci regresione analize (prva ćelija na 2. stranici radnog lista),

    omogućite opcije "Preostali" i "Graf preostalog",

    pritisnite dugme OK za početak regresiona analiza.

Rice. 2. Okvir za dijalog Regresija.

    Excel će prikazati 4 tabele i 2 grafikona zavisnosti reziduala od varijabli X1 I X2.

    Formatirajte tabelu „Izlaz ukupnih vrednosti“ - proširite kolonu sa nazivima izlaznih podataka, napravite 3 značajne brojke iza decimalne tačke u drugoj koloni.

    Format tabele " Analiza varijanse» - učinite količinu lako čitljivom i razumljivom značajne figure nakon zareza, skratiti nazive varijabli i prilagoditi širinu kolona.

    Formatirajte tablicu koeficijenata jednadžbi - skratite nazive varijabli i prilagodite širinu kolona ako je potrebno, učinite broj značajnih cifara lakšim za čitanje i razumijevanje, uklonite posljednje 2 kolone (vrijednosti i izgled tabele).

    Prenesite podatke iz tabele “Preostali izlaz” u pripremljene kolone izvorne tabele, a zatim obrišite tabelu “Preostali izlaz” (opcija “ubaci specijalnu”).

    Dobijene procjene koeficijenta unesite u izvornu tabelu.

    Povucite tabele rezultata na vrh stranice.

    Napravite grafikone ispod tabela Yexp, Yproračun i greške prognoze (rezidualne).

    Formatirajte rezidualne grafikone. Koristeći rezultirajuće grafikone, procijenite ispravnost modela na osnovu ulaznih podataka X1, X2.

    Odštampajte rezultate regresione analize.

    Razumjeti rezultate regresione analize.

    Pripremite izvještaj o radu.

PRIMJER IZVOĐENJA RADA

Metoda za izvođenje regresione analize u EXCEL-u prikazana je na slikama 3-5.

Rice. 3. Primjer regresione analize u EXCEL paketu.


Fig.4. Varijabilne rezidualne parcele X1, X2

Rice. 5. Grafikoni Yexp,Yproračun i greške prognoze (rezidualne).

Prema regresionoj analizi možemo reći:

1. Jednačina regresije dobijena korištenjem Excela ima oblik:

    Koeficijent determinacije:

Varijacija rezultata od 46,5% objašnjava se varijacijom faktora.

    Opšti F test testira hipotezu o statističkoj značajnosti jednačine regresije. Analiza se vrši poređenjem stvarnih i tabelarnih vrijednosti Fisher F testa.

Pošto stvarna vrijednost premašuje tabelu
, onda zaključujemo da je rezultirajuća regresiona jednačina statistički značajna.

    Koeficijent višestruka korelacija:

    b 0 :

t tab. (29, 0,975)=2,05

b 0 :

Interval povjerenja:

    Mi definišemo interval povjerenja za koeficijent b 1 :

Provjera značajnosti koeficijenta b 1 :

t dis. >t tab. , koeficijent b 1 je značajan

Interval povjerenja:

    Odredite interval pouzdanosti za koeficijent b 2 :

Test značajnosti za koeficijent b 2 :

Odredite interval pouzdanosti:

OPCIJE ZADATAKA

Tabela 2. Opcije zadatka

Opcija br.

Efikasan znak Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

Faktor br. X i

Faktor br. X i

Nastavak tabele 1

Opcija br.

Efikasan znak Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Faktor br. X i

Faktor br. X i

Tabela 3. Početni podaci

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

PITANJA ZA SAMOKONTROLU

    Problemi regresione analize.

    Preduvjeti za regresionu analizu.

    Osnovna jednadžba analize varijanse.

    Šta pokazuje Fisherov F-razmjer?

    Kako se utvrđuje tabelarna vrijednost Fisherovog kriterija?

    Šta pokazuje koeficijent determinacije?

    Kako odrediti značajnost regresijskih koeficijenata?

    Kako odrediti interval pouzdanosti koeficijenata regresije?

    Kako odrediti izračunatu vrijednost t-testa?

    Kako odrediti tabelu vrijednost t-testa?

    Formulirajte glavnu ideju analize varijanse; za rješavanje kojih problema je najefikasnija?

    Koje su osnovne teorijske premise analize varijanse?

    Dekomponujte ukupan zbir kvadrata odstupanja na komponente u ANOVA-i.

    Kako dobiti procjene varijanse iz zbira kvadrata odstupanja?

    Kako se dobijaju potrebni brojevi stepeni slobode?

    Kako se utvrđuje standardna greška?

    Objasnite dizajn dvofaktorske analize varijanse.

    Kako se unakrsna klasifikacija razlikuje od hijerarhijske klasifikacije?

    Koja je razlika između uravnoteženih podataka?

Izvještaj je pripremljen u uređivač teksta Word na papiru A4 GOST 6656-76 (210x297 mm) i sadrži:

    Naziv laboratorijskog rada.

    Cilj rada.

  1. Rezultati proračuna.

VRIJEME DOZVOLJENO ZA ZAVRŠETAK

LABORATORIJSKI RAD

Priprema za rad – 0,5 akademskih. sati.

Završetak rada – 0,5 akademskih. sati.

Računarski proračuni – 0,5 akademski. sati.

Dizajn rada – 0,5 akademski. sati.

Književnost

    Identifikacija kontrolnih objekata. / A. D. Semenov, D. V. Artamonov, A. V. Bryukhachev. Tutorial. - Penza: PSU, 2003. - 211 str.

    Osnove statističke analize. Radionica o statističkim metodama i istraživanju operacija korištenjem STATISTIC i EXCEL paketa. / Vukolov E.A. Tutorial. - M.: FORUM, 2008. - 464 str.

    Osnove teorije identifikacije objekata upravljanja. / AA. Ignatiev, S.A. Ignatiev. Tutorial. - Saratov: SSTU, 2008. - 44 str.

    Teorija vjerojatnosti i matematička statistika u primjerima i problemima koristeći EXCEL. / G.V. Gorelova, I.A. Katsko. - Rostov n/d: Phoenix, 2006.- 475 str.

    Cilj 2

    Osnovni koncepti 2

    Radni nalog 6

    Primjer rada 9

    Pitanja za samokontrolu 13

    Vrijeme predviđeno za završetak radova 14

    Nakon procene pojedinca statistički značaj Za svaki od koeficijenata regresije obično se analizira ukupna značajnost koeficijenata, tj. cijelu jednačinu u cjelini. Ova analiza se provodi na osnovu testiranja hipoteze o opštem značaju hipoteze o istovremenoj jednakosti na nulu svih regresijskih koeficijenata za eksplanatorne varijable:

    H 0: b 1 = b 2 = ... = b m = 0.

    Ako se ova hipoteza ne odbaci, onda se zaključuje da se ukupan uticaj svih m eksplanatornih varijabli X 1, X 2, ..., X m modela na zavisnu varijablu Y može smatrati statistički beznačajnim, a ukupni kvalitet regresione jednadžbe može se smatrati niskim.

    Ova hipoteza se testira na osnovu analize varijanse upoređujući objašnjenu i rezidualnu varijansu.

    H 0: (objašnjena varijansa) = (preostala varijansa),

    H 1: (objašnjena varijansa) > (preostala varijansa).

    F-statistika se konstruiše:

    Gdje – varijansa objašnjena regresijom;

    – rezidualna disperzija (zbir kvadrata odstupanja podijeljen sa brojem stupnjeva slobode n-m-1). Kada su OLS pretpostavke ispunjene, konstruirana F-statistika ima Fisherovu raspodjelu sa stupnjevima slobode n1 = m, n2 = n–m–1. Stoga, ako je na traženom nivou značajnosti uočeno a F > F a ; m; n - m -1 = F a (gdje je F a ; m ; n - m -1 kritična tačka Fisherove raspodjele), tada se H 0 odbacuje u korist H 1 . To znači da je varijansa objašnjena regresijom značajno veća od preostale varijanse, te stoga jednadžba regresije prilično kvalitativno odražava dinamiku promjene zavisne varijable Y. Ako se posmatra F< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    Međutim, u praksi se umjesto ove hipoteze češće testira usko povezana hipoteza o statističkoj značajnosti koeficijenta determinacije R2:



    H 0: R 2 > 0.

    Za testiranje ove hipoteze koristi se sljedeća F-statistika:

    . (8.20)

    Vrijednost F, ako su ispunjene pretpostavke OLS-a i ako je H 0 istinit, ima Fisherovu raspodjelu sličnu distribuciji F-statistike (8.19). Zaista, podijeliti brojilac i imenilac razlomka u (8.19) sa ukupan iznos kvadratne devijacije i znajući da se rastavlja na zbir kvadrata odstupanja objašnjenih regresijom i rezidualni zbir kvadratnih odstupanja (ovo je posljedica, kako će se kasnije pokazati, sistema normalnih jednačina)

    ,

    dobijamo formulu (8.20):

    Iz (8.20) je očigledno da su eksponenti F i R 2 u isto vrijeme jednaki ili nisu jednaki nuli. Ako je F = 0, onda je R 2 = 0, a regresijska linija Y = je najbolja prema najmanjim kvadratima, te stoga vrijednost Y ne ovisi linearno o X 1, X 2, ..., X m . Za testiranje nulte hipoteze H 0: F = 0 na datom nivou značajnosti a, kritična vrijednost F cr = F a nalazi se iz tabela kritičnih tačaka Fisherove distribucije; m; n - m -1 . Nul hipoteza se odbacuje ako je F > F cr. Ovo je ekvivalentno činjenici da je R 2 > 0, tj. R2 je statistički značajan.

    Analiza F statistike nam omogućava da zaključimo da za prihvatanje hipoteze da su svi koeficijenti linearne regresije istovremeno jednaki nuli, koeficijent determinacije R2 ne bi trebao značajno da se razlikuje od nule. Njegova kritična vrijednost opada kako se broj opažanja povećava i može postati proizvoljno mala.

    Neka, na primjer, kada se procjenjuje regresija sa dvije eksplanatorne varijable X 1 i, X 2 i za 30 opservacija, R 2 = 0,65. Onda

    Fob = =25,07.

    Koristeći tabele kritičnih tačaka Fisherove distribucije, nalazimo F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Pošto je uočeno F = 25,07 > F cr i na 5% i na 1% nivou značajnosti, nulta hipoteza se odbacuje u oba slučaja.

    Ako je u istoj situaciji R 2 = 0,4, onda

    F ops = = 9.

    I ovdje se odbacuje pretpostavka da je odnos beznačajan.

    Imajte na umu da je u slučaju parne regresije testiranje nulte hipoteze za F-statistiku ekvivalentno testiranju nulte hipoteze za t-statistiku

    koeficijent korelacije. U ovom slučaju, F-statistika je jednaka t-statistici na kvadrat. R2 koeficijent dobija nezavisan značaj u slučaju višestruke linearne regresije.

    8.6. Analiza varijanse za dekompoziciju ukupnog zbira kvadrata odstupanja. Stepeni slobode za odgovarajuće sume kvadrata odstupanja

    Primijenimo gore opisanu teoriju za linearnu regresiju u paru.

    Nakon što se pronađe jednačina linearne regresije, procjenjuje se značaj jednačine u cjelini i njenih pojedinačnih parametara.

    Značaj regresione jednadžbe u cjelini procjenjuje se korištenjem Fisher F testa. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b = 0, pa stoga faktor x nema efekta na rezultat y.

    Direktnom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable y od prosječne vrijednosti na dva dijela – “objašnjeno” i “neobjašnjeno”:

    Jednačina (8.21) je posljedica sistema normalnih jednačina izvedenih u jednoj od prethodnih tema.

    Dokaz izraza (8.21).

    Ostaje dokazati da je posljednji član jednak nuli.

    Ako saberete sve jednačine od 1 do n

    y i = a+b×x i +e i , (8.22)

    tada dobijamo åy i = a×å1+b×åx i +åe i . Pošto je åe i =0 i å1 =n, dobijamo

    Onda .

    Ako od izraza (8.22) oduzmemo jednačinu (8.23), dobićemo

    Kao rezultat dobijamo

    Posljednje sume su jednake nuli zbog sistema dvije normalne jednačine.

    Ukupan zbir kvadrata odstupanja pojedinačnih vrijednosti efektivne karakteristike y od prosječne vrijednosti uzrokovan je utjecajem mnogih razloga. Uvjetno podijelimo cijeli skup razloga u dvije grupe: proučavani faktor x i drugi faktori. Ako faktor nema nikakav utjecaj na rezultat, tada je linija regresije paralelna sa OX i osom. Tada je cijela varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupni zbir kvadrata odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda je y funkcionalno povezan sa x i rezidualni zbir kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom poklapa se sa ukupnim zbirom kvadrata.

    Kako sve tačke korelacionog polja ne leže na regresijskoj liniji, njihovo rasipanje uvek nastaje usled uticaja faktora x, tj. regresija y na x, i uzrokovana drugim uzrocima (neobjašnjiva varijacija). Pogodnost linije regresije za predviđanje zavisi od toga koliko je ukupne varijacije u osobini y objašnjeno varijacijom. Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i faktor x ima značajan utjecaj na karakteristiku y. Ovo je ekvivalentno činjenici da će se koeficijent determinacije približiti jedinici.

    Svaki zbir kvadrata povezan je sa brojem stepeni slobode (df – stepeni slobode), sa brojem slobode nezavisne varijacije neke karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se iz njega određuju. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od n mogućih potrebnih da bi se formirao zadati zbir kvadrata. Dakle, za ukupan zbir kvadrata potrebna su (n-1) nezavisna odstupanja, jer u skupu od n jedinica, nakon izračunavanja prosjeka, samo (n-1) broj odstupanja slobodno varira. Na primjer, imamo niz y vrijednosti: 1,2,3,4,5. Prosjek njih je 3, a tada će n odstupanja od prosjeka biti: -2, -1, 0, 1, 2. Pošto , tada samo četiri odstupanja slobodno variraju, a peto odstupanje se može odrediti ako su prethodna četiri poznato.

    Prilikom izračunavanja objašnjenog ili faktorskog zbroja kvadrata koriste se teorijske (izračunate) vrijednosti rezultirajuće karakteristike

    Tada je zbir kvadrata odstupanja zbog linearne regresije jednak

    Pošto, za dati obim posmatranja u x i y, faktor zbir kvadrata u linearnoj regresiji zavisi samo od regresijske konstante b, onda ovaj zbir kvadrata ima samo jedan stepen slobode.

    Postoji jednakost između broja stupnjeva slobode ukupnog, faktora i rezidualnog zbroja kvadrata odstupanja. Broj stupnjeva slobode preostalog zbira kvadrata u linearnoj regresiji je n-2. Broj stepeni slobode ukupnog zbira kvadrata određen je brojem jedinica varijabilnih karakteristika, a pošto koristimo prosek izračunat iz podataka uzorka, gubimo jedan stepen slobode, tj. df total = n–1.

    Dakle, imamo dvije jednakosti:

    Podijelivši svaki zbir kvadrata odgovarajućim brojem stupnjeva slobode, dobijamo srednji kvadrat odstupanja ili, što je isto, disperziju po jednom stepenu slobode D.

    ;

    ;

    .

    Definisanje varijanse jednim stepenom slobode dovodi varijanse u uporediv oblik. Upoređujući faktor i rezidualne varijanse po stepenu slobode, dobijamo vrednost Fišerovog F testa

    gdje je F-kriterijum za testiranje nulte hipoteze H 0: D činjenica = D ostatak.

    Ako je nulta hipoteza tačna, tada se faktor i rezidualne varijanse ne razlikuju jedna od druge. Za H 0 potrebno je opovrgavanje kako bi disperzija faktora nekoliko puta premašila disperziju ostatka. Engleski statističar Snedecor razvio je tablice kritičnih vrijednosti F-omjera na različitim nivoima značaja nulte hipoteze i razni brojevi stepena slobode. Vrijednost tabele F-test je maksimalna vrijednost omjera varijansi koja se može dogoditi ako se slučajno razlikuju za dati nivo vjerovatnoće nulte hipoteze. Izračunata vrijednost F-razmjera smatra se pouzdanom ako je veća od vrijednosti u tabeli. Ako je F činjenica > F tabela, onda se odbacuje nulta hipoteza H 0: D činjenica = D o nepostojanju veze između karakteristika i donosi se zaključak o značaju ove veze.

    Ako je F činjenica< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    U ovom primjeru iz poglavlja 3:

    = 131200 -7*144002 = 30400 – ukupan zbir kvadrata;

    1057,878*(135,43-7*(3,92571) 2) = 28979,8 – faktor zbir kvadrata;

    =30400-28979,8 = 1420,197 – rezidualni zbir kvadrata;

    D činjenica = 28979,8;

    D ostatak = 1420,197/(n-2) = 284,0394;

    F činjenica =28979,8/284,0394 = 102,0274;

    F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

    Pošto je tabela F činjenica > F na oba nivoa značajnosti 1% i 5%, možemo zaključiti da je jednačina regresije značajna (odnos je dokazan).

    Vrijednost F testa povezana je sa koeficijentom determinacije. Zbir faktora kvadrata odstupanja može se predstaviti kao

    ,

    i rezidualni zbir kvadrata kao

    .

    Tada se vrijednost F-testa može izraziti kao

    .

    Procjena značajnosti regresije se obično daje u obliku analize tabele varijanse

    , njegova vrijednost se upoređuje sa tabličnom vrijednošću na određenom nivou značajnosti α i broju stupnjeva slobode (n-2).
    Izvori varijacija Broj stepeni slobode Zbir kvadrata odstupanja Disperzija po stepenu slobode F-odnos
    stvarni Tabela na a=0,05
    Generale
    Objašnjeno 28979,8 28979,8 102,0274 6,61
    Ostatak 1420,197 284,0394

    100 RUR bonus za prvu narudžbu

    Odaberite vrstu posla Diplomski rad Rad na kursu Esej Magistarska disertacija Izvještaj o praksi Članak Pregled izvještaja Test Monografija Rešavanje problema Poslovni plan Odgovori na pitanja Kreativni rad Esej Crtanje Radovi Prevod Prezentacije Tipkanje Ostalo Povećanje jedinstvenosti teksta Magistarski rad Laboratorijski rad Pomoć na mreži

    Saznajte cijenu

    Nakon što je pronađena jednačina linearne regresije, procjena značaja kao jednačina uopšteno i pojedinačno parametri. Provjerite značaj jednačine regresije- znači utvrditi da li odgovara matematički model, izražavajući odnos između varijabli, eksperimentalnih podataka i da li su varijable koje objašnjavaju uključene u jednadžbu (jedna ili više) dovoljne za opisivanje zavisne varijable. Imati opći sud o kvaliteti modela iz relativna odstupanja za svako zapažanje odredite prosječna greška aproksimacije: Prosječna greška aproksimacija ne bi trebalo da prelazi 8-10%.

    Značaj regresione jednačine u cjelini se procjenjuje na osnovu F-Fišerov kriterijum, kojoj prethodi analiza varijanse. Prema osnovnoj ideji analize varijanse, ukupna suma kvadrata odstupanja varijable y od prosjeka y dekomponuje se na dva dela – “objašnjeno” i “neobjašnjeno”: gde je ukupan zbir kvadrata odstupanja; – zbir kvadrata odstupanja objašnjenih regresijom (ili suma faktora kvadrata odstupanja); – rezidualni zbir kvadrata odstupanja, koji karakteriše uticaj faktora koji nisu uzeti u obzir u modelu. Definisanje varijanse jednim stepenom slobode dovodi varijanse u uporediv oblik. Upoređujući faktor i rezidualnu disperziju po jednom stepenu slobode, dobijamo vrednost F-Fišerov kriterijum: Stvarna vrijednost F-Fišerov kriterijum se poredi sa

    vrijednost tabele F tablica(a; k 1; k 2) na nivou značajnosti a i stepenima slobode k 1 = m I k 2= n-m-1.U ovom slučaju, ako je stvarna vrijednost F- kriterij je veći od tabelarnog, tada se prepoznaje statistička značajnost jednačine u cjelini.

    Za uparenu linearnu regresiju m=1, dakle

    Magnituda F-kriterijum se odnosi na koeficijent determinacije R2, može se izračunati po sledećoj formuli:

    U parnoj linearnoj regresiji, značaj ne samo jednačine u cjelini, već i njenih pojedinačnih parametri. U tu svrhu se za svaki parametar utvrđuje njegova standardna greška: m b I m a. Standardna greška koeficijenta regresije određena je formulom: , Gdje

    Standardna vrijednost greške zajedno sa t–Distribucija studenata u n-2 stepena slobode se koristi za testiranje značajnosti koeficijenta regresije i za izračunavanje njegovog intervala pouzdanosti. Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardnom greškom, tj. utvrđena stvarna vrijednost t-Studentov t-test: koji se zatim poredi sa tabelarnom vrednošću na određenom nivou značajnosti a i broju stepeni slobode (n-2). Interval pouzdanosti za koeficijent regresije je definiran kao b± t stol × mb. Pošto predznak koeficijenta regresije ukazuje na povećanje efektivne karakteristike y sa povećanjem faktor-znaka x(b>0), smanjenje efektivne karakteristike sa povećanjem predznaka faktora ( b<0) или его независимость от независимой переменной (b=0), tada granice intervala povjerenja za koeficijent regresije ne bi trebale sadržavati kontradiktorne rezultate, na primjer, -1,5 £ b£0,8. Ova vrsta zapisa ukazuje na to da prava vrijednost koeficijenta regresije istovremeno sadrži pozitivne i negativne vrijednosti, pa čak i nulu, što ne može biti slučaj.

    Standardna greška parametar a određena formulom: Procedura za procjenu značajnosti ovog parametra se ne razlikuje od gore razmotrenog za koeficijent regresije. Izračunato t-kriterijum: , njegova vrijednost se upoređuje sa vrijednošću tablice na n- 2 stepena slobode.


    Uparena regresija predstavlja regresiju između dvije varijable

    -y i x, tj. tip modela + E

    Gdje at- rezultantni znak, odnosno zavisna varijabla; X- znak-faktor.

    Linearna regresija svodi na pronalaženje jednadžbe oblika ili

    Jednadžba oblika omogućava, s obzirom na vrijednosti faktora x, da se dobiju teorijske vrijednosti rezultantne karakteristike zamjenom stvarnih vrijednosti faktora x u nju.

    Konstrukcija linearne regresije svodi se na procjenu njenih parametara a i b.

    Procjene parametara linearne regresije mogu se pronaći korištenjem različitih metoda.

    1.

    2.

    Parametar b pozvao koeficijent regresije. Njegova vrijednost pokazuje

    prosječna promjena rezultata sa promjenom faktora od jedne jedinice.

    Formalno A- značenje at na x = 0. Ako je predznak faktor

    nema i ne može imati nultu vrijednost, tada gore

    tumačenje slobodnog člana, A nema smisla. parametar, A Možda

    nemaju ekonomski sadržaj. Pokušaji da se ekonomski

    interpretirati parametar, A može dovesti do apsurda, posebno kada A < 0.

    Može se interpretirati samo znak parametra A. Ako A > 0,

    tada je relativna promjena u rezultatu sporija od promjene

    provjera kvaliteta pronađenih parametara i cijelog modela u cjelini:

    -Procjena značajnosti koeficijenta regresije (b) i koeficijenta korelacije

    -Procjena značaja cijele regresione jednačine. Koeficijent determinacije

    Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. At

    koristeći linearnu regresiju, takav indikator je

    koeficijent linearne korelacije r xy . Postoje različiti

    modifikacije formule koeficijenta linearne korelacije.

    Koeficijent linearne korelacije je u granicama: -1≤ .r xy

    ≤ 1. Štaviše, što je bliže r do 0, slabija je korelacija i obrnuto

    Što je r bliže 1 ili -1, to je jača korelacija, tj. zavisnost x i y je blizu

    linearno. Ako r tačno =1 ili -1 sve tačke leže na istoj pravoj liniji.

    Ako je koeficijent regresija b>0 zatim 0 ≤. r xy≤ 1 i

    obrnuto za b<0 -1≤.r xy≤0. Coef.

    korelacija odražava stepene linearna zavisnost m/y količine ako su dostupne

    izražena zavisnost drugog tipa.

    Za procjenu kvalitete uklapanja linearne funkcije, kvadrat linearne

    koeficijent korelacije

    Called koeficijent odlučnosti. Koeficijent determinacije

    karakterizira udio varijanse objašnjenog rezultantnog atributa y

    regresija. Odgovarajuća vrijednost

    karakteriše udio varijanse y, uzrokovano uticajem drugih neuračunatih

    u faktorskom modelu.

    MNC dozvoljava dobiti takve procjene parametara A I b, koji

    zbir kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike

    (y) od izračunatog (teorijskog)

    minimum:

    Drugim riječima, od

    od cjelokupnog skupa linija, linija regresije na grafu je odabrana tako da je zbir

    kvadrati vertikalnih razmaka između tačaka i ove prave bili bi

    minimalno.

    Rješavanje sistema normalnih jednačina

    OCJENA ZNAČAJA PARAMETARA LINEARNE REGRESIJE.

    Procjena značaja jednačine regresije u cjelini data je korištenjem F-testa

    Fisher. U ovom slučaju, postavlja se nulta hipoteza kojoj je koeficijent regresije jednak

    nula, tj. b = 0, a samim tim i faktor X ne pruža

    uticaj na rezultat u.

    Neposrednom izračunavanju F-testa prethodi analiza varijanse.

    Centralno mjesto u njemu zauzima ekspanzija ukupnog zbira kvadrata odstupanja

    varijabla at od prosječne vrijednosti at na dva dela -

    "objašnjeno" i "neobjašnjeno":

    Ukupan zbroj kvadrata odstupanja

    Zbir kvadrata

    odstupanja objašnjena regresijom

    Preostali zbir kvadrata odstupanja.

    Svaki zbir odstupanja na kvadrat povezan je sa brojem stepeni slobode , T.

    tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se iz njega određuju. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P moguće potrebno za

    formiranje date sume kvadrata.

    Disperzija po stepenu slobode D.

    F-odnosi (F-test):

    Ako je nulta hipoteza tačna, onda faktor i preostale varijanse nisu

    razlikuju jedno od drugog. Za H 0 potrebno je opovrgavanje

    faktor disperzije je nekoliko puta premašio rezidualnu disperziju. engleski

    Statističar Snedekor je razvio tablice kritičnih vrijednosti F-omjera

    na različitim nivoima značajnosti nulte hipoteze i različitom broju stepeni

    sloboda. Tabelarna vrijednost F-testa je maksimalna vrijednost omjera

    disperzije, koje se mogu pojaviti kada se nasumično divergiraju za datu

    nivo vjerovatnoće nulte hipoteze. Izračunata vrijednost F-razmjera

    smatra se pouzdanim ako je o veće od tablice. U ovom slučaju, nula

    odbacuje se hipoteza o nepostojanju veze između znakova i donosi se zaključak o tome

    značaj ove veze: F činjenica > F tabela N 0

    odbijeno.

    Ako se ispostavi da je vrijednost manja od činjenice u tabeli ‹, F stol

    Tada je vjerovatnoća nulte hipoteze veća od datog nivoa i ne može biti

    odbijen bez ozbiljnog rizika da se izvuče netačan zaključak o postojanju veze. IN

    U ovom slučaju, jednačina regresije se smatra statistički beznačajnom. Ali

    ne odstupa.


    Povezane informacije.


    Nakon procjene parametara a I b, dobili smo jednadžbu regresije pomoću koje možemo procijeniti vrijednosti y prema datim vrijednostima x. Prirodno je vjerovati da se izračunate vrijednosti zavisne varijable neće poklapati sa stvarnim vrijednostima, jer linija regresije opisuje odnos samo u prosjeku, općenito. Pojedinačna značenja su rasuta oko njega. Dakle, pouzdanost izračunatih vrijednosti dobivenih iz jednadžbe regresije je u velikoj mjeri određena raspršivanjem promatranih vrijednosti oko regresijske linije. U praksi, po pravilu, varijansa greške je nepoznata i procjenjuje se iz promatranja istovremeno s parametrima regresije a I b. Sasvim je logično pretpostaviti da je procjena povezana sa zbirom kvadrata reziduala regresije. Količina je procjena uzorka disperzije poremećaja sadržanih u teorijski model . Može se pokazati da za model uparene regresije

    gdje je odstupanje stvarne vrijednosti zavisne varijable od njene izračunate vrijednosti.

    Ako , tada se za sva opažanja stvarne vrijednosti zavisne varijable poklapaju sa izračunatim (teoretskim) vrijednostima . Grafički, to znači da teorijska regresijska linija (linija konstruirana pomoću funkcije) prolazi kroz sve točke korelacijskog polja, što je moguće samo uz strogo funkcionalnu vezu. Dakle, efektivni znak at u potpunosti je posljedica uticaja faktora X.

    Obično u praksi dolazi do nekog rasipanja tačaka korelacionog polja u odnosu na teorijsku liniju regresije, odnosno odstupanja empirijskih podataka od teorijskih. Ovo rasipanje je zbog uticaja faktora X, tj. regresija y By X, (takva varijansa se naziva objašnjena, jer se objašnjava jednadžbom regresije), i djelovanjem drugih razloga (neobjašnjiva varijacija, slučajna). Veličina ovih odstupanja je osnova za izračunavanje pokazatelja kvaliteta jednačine.

    Prema osnovnom principu analize varijanse, ukupan zbir kvadrata odstupanja zavisne varijable y iz prosječne vrijednosti može se razložiti na dvije komponente: objašnjeno regresijskom jednadžbom i neobjašnjeno:

    ,

    gdje su vrijednosti y, izračunato prema jednačini.

    Nađimo omjer zbira kvadrata odstupanja objašnjenih jednadžbom regresije i ukupnog zbira kvadrata:

    , gdje

    . (7.6)

    Odnos dijela varijanse objašnjen regresionom jednadžbom prema ukupnoj varijansi rezultirajuće karakteristike naziva se koeficijent determinacije. Vrijednost ne može biti veća od jedinice i ova maksimalna vrijednost će se postići samo na , tj. kada je svako odstupanje nula i stoga sve tačke na dijagramu raspršenja leže tačno na pravoj liniji.

    Koeficijent determinacije karakterizira udio varijanse objašnjene regresijom u ukupnoj varijansi zavisne varijable . Shodno tome, vrijednost karakterizira udio varijacije (disperzije) y, neobjašnjivo jednačinom regresije, pa stoga uzrokovano uticajem drugih faktora koji nisu uzeti u obzir u modelu. Što je bliže jedinstvu, to je kvalitetniji model.



    U parnoj linearnoj regresiji, koeficijent determinacije jednak kvadratu dubl linearni koeficijent korelacije: .

    Koren ovog koeficijenta determinacije je koeficijent višestruke korelacije (indeks) ili teorijski korelacioni odnos.

    Da bismo saznali da li vrijednost koeficijenta determinacije dobivene pri procjeni regresije zaista odražava pravi odnos između y I x provjeriti značaj izgrađene jednačine u cjelini i pojedinačnih parametara. Testiranje značaja jednačine regresije omogućava vam da saznate da li je jednačina regresije prikladna za praktičnu upotrebu, kao što je predviđanje, ili ne.

    Istovremeno se postavlja glavna hipoteza o beznačajnosti jednadžbe u cjelini, koja se formalno svodi na hipotezu da su parametri regresije jednaki nuli, ili, što je isto, da je koeficijent determinacije jednak na nulu: . Alternativna hipoteza o značaju jednačine je hipoteza da parametri regresije nisu jednaki nuli ili da koeficijent determinacije nije jednak nuli: .

    Da biste testirali značaj regresijskog modela, koristite F- Fišerov kriterijum, izračunat kao omjer zbira kvadrata (po jednoj nezavisnoj promenljivoj) i preostalog zbira kvadrata (po jednom stepenu slobode):

    , (7.7)

    Gdje k– broj nezavisnih varijabli.

    Nakon što se brojnik i imenilac relacije (7.7) podijele sa ukupnim zbirom kvadrata odstupanja zavisne varijable, F- kriterijum se može ekvivalentno izraziti na osnovu koeficijenta:

    .

    Ako je nulta hipoteza tačna, tada se varijansa objašnjena jednadžbom regresije i neobjašnjiva (rezidualna) varijansa ne razlikuju jedna od druge.

    Procijenjena vrijednost F- kriterijum se poredi sa kritičnom vrednošću, koja zavisi od broja nezavisnih varijabli k, te o broju stupnjeva slobode (n-k-1). Tabela (kritična) vrijednost F- Kriterijum je maksimalna vrijednost omjera varijansi koja se može pojaviti ako se nasumično divergiraju za dati nivo vjerovatnoće nulte hipoteze. Ako je izračunata vrijednost F- kada je kriterijum veći od tabelarnog na datom nivou značajnosti, tada se odbacuje nulta hipoteza o nepostojanju veze i donosi zaključak o značajnosti ovog odnosa, tj. model se smatra značajnim.

    Za upareni regresijski model

    .

    U linearnoj regresiji obično se procjenjuje značaj ne samo jednačine u cjelini, već i njenih pojedinačnih koeficijenata. Da bi se to postiglo, određuje se standardna greška svakog parametra. Standardne greške koeficijenata regresije parametara određuju se formulama:

    , (7.8)

    (7.9)

    Standardne greške koeficijenata regresije ili standardne devijacije izračunate po formulama (7.8,7.9), po pravilu, daju se u rezultatima proračuna regresionog modela u statističkim paketima.

    Na osnovu srednje kvadratne greške koeficijenata regresije, provjerava se značajnost ovih koeficijenata korištenjem uobičajene sheme za testiranje statističkih hipoteza.

    Glavna hipoteza je da se „pravi“ koeficijent regresije neznatno razlikuje od nule. Alternativna hipoteza u ovom slučaju je suprotna hipoteza, tj. da „pravi“ parametar regresije nije jednak nuli. Ova hipoteza se testira pomoću t- statistike koje imaju t- Raspodjela studenata:

    Zatim izračunate vrijednosti t- statistika se poredi sa kritičnim vrednostima t- statistika utvrđena iz studentskih tabela raspodjele. Kritična vrijednost određuju se u zavisnosti od nivoa značaja α i broj stepeni slobode, koji je jednak (n-k-1), n ​​- broj zapažanja, k- broj nezavisnih varijabli. U slučaju linearne parne regresije, broj stepeni slobode je (P- 2). Kritična vrijednost se može izračunati i na računaru pomoću ugrađene funkcije STUDARCOVER u Excel paketu.

    Ako je izračunata vrijednost t- statistika je više nego kritična, onda se glavna hipoteza odbacuje i vjeruje se da s vjerovatnoćom (1-α)„pravi“ koeficijent regresije se značajno razlikuje od nule, što je statistička potvrda postojanja linearne zavisnosti odgovarajućih varijabli.

    Ako je izračunata vrijednost t- statistika je manje od kritične, onda nema razloga da se odbaci glavna hipoteza, tj. „pravi“ koeficijent regresije se ne razlikuje značajno od nule na nivou značajnosti α . U ovom slučaju, faktor koji odgovara ovom koeficijentu treba isključiti iz modela.

    Značaj koeficijenta regresije može se utvrditi konstruiranjem intervala povjerenja. Interval pouzdanosti za parametre regresije a I b definiran na sljedeći način:

    ,

    ,

    gdje se određuje iz Studentove tabele raspodjele za nivo značajnosti α i broj stepena slobode (P- 2) za uparenu regresiju.

    Budući da koeficijenti regresije u ekonometrijskim studijama imaju jasnu ekonomsku interpretaciju, intervali povjerenja ne bi trebali sadržavati nulu. Prava vrijednost koeficijenta regresije ne može istovremeno sadržavati pozitivne i negativne vrijednosti, uključujući nulu, u suprotnom dobijamo kontradiktorne rezultate kada ekonomski tumačimo koeficijente, što ne može biti slučaj. Dakle, koeficijent je značajan ako rezultujući interval pouzdanosti ne pokriva nulu.

    Primjer 7.4. Prema primjeru 7.1:

    a) Konstruirajte upareni model linearne regresije zavisnosti profita od prodaje od Prodajna cijena koristeći softver za obradu podataka.

    b) Procijeniti značaj regresione jednačine u cjelini koristeći F- Fisherov kriterij na α=0,05.

    c) Procijenite značaj koeficijenata regresijskog modela koristeći t-Učenički test u α=0,05 I α=0,1.

    Za provođenje regresijske analize koristimo standardni uredski softver. EXCEL program. Regresijski model ćemo izgraditi pomoću alata REGRESSION postavki PAKET ANALIZE (slika 7.5), koji se pokreće na sljedeći način:

    ServiceData AnalysisREGRESSIONOK.

    Sl.7.5. Korištenje alata REGRESSION

    U dijaloškom okviru REGRESIJA, u polje Input interval Y, morate unijeti adresu raspona ćelija koje sadrže zavisnu varijablu. U polje Input interval X potrebno je da unesete adrese jednog ili više opsega koji sadrže vrednosti nezavisnih varijabli. Potvrdni okvir Oznake u prvom redu je aktivan ako su izabrana i zaglavlja kolona. Na sl. 7.6. prikazuje ekranski obrazac za izračunavanje regresijskog modela pomoću alata REGRESSION.

    Rice. 7.6. Izgradnja modela parne regresije koristeći

    REGRESSION alat

    Kao rezultat alata REGRESSION, generira se sljedeći protokol regresijske analize (slika 7.7).

    Rice. 7.7. Protokol regresijske analize

    Jednačina za ovisnost dobiti od prodaje od prodajne cijene ima oblik:

    Procijenićemo značaj regresione jednačine koristeći F- Fisherov test. Značenje F- Fišerov kriterijum ćemo uzeti iz tabele “Analiza varijanse” u EXCEL protokolu (slika 7.7.). Procijenjena vrijednost F- kriterijumi 53.372. Vrijednost tabele F- kriterijum na nivou značajnosti α=0,05 i broj stepena slobode je 4.964. Jer , tada se jednačina smatra značajnom.

    Izračunate vrijednosti t Studentovi t-testovi za koeficijente regresione jednačine prikazani su u tabeli rezultata (slika 7.7). Vrijednost tabele t-Test učenika na nivou značajnosti α=0,05 a 10 stepeni slobode je 2,228. Za koeficijent regresije a, dakle koeficijent a nije značajno. Za koeficijent regresije b, dakle, koeficijent b značajan



Novo na sajtu

>

Najpopularniji