Dom Stomatitis Sprovesti regresionu analizu. Metode matematičke statistike

Sprovesti regresionu analizu. Metode matematičke statistike

Regresijska i korelaciona analiza su statističke metode istraživanja. Ovo su najčešći načini da se pokaže zavisnost parametra od jedne ili više nezavisnih varijabli.

U nastavku o konkretnim praktični primjeri Pogledajmo ove dvije vrlo popularne analize među ekonomistima. Navest ćemo i primjer dobivanja rezultata pri njihovom kombiniranju.

Regresiona analiza u Excelu

Pokazuje uticaj nekih vrednosti (nezavisnih, nezavisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva zavisi od broja preduzeća, veličine plate i drugi parametri. Ili: kako strane investicije, cijene energije itd. utiču na nivo BDP-a.

Rezultat analize vam omogućava da istaknete prioritete. I na osnovu glavnih faktora predvidjeti, planirati razvoj prioritetnih oblasti i donijeti upravljačke odluke.

Regresija se dešava:

  • linearni (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolično (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Pogledajmo primjer izgradnje regresijskog modela u Excelu i interpretacije rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su dali otkaz. Potrebno je utvrditi zavisnost broja zaposlenih koji otpuštaju od prosječne plate.

Model linearna regresija ima sljedeći oblik:

Y = a 0 + a 1 x 1 +…+a k x k.

Gdje su a koeficijenti regresije, x su utjecajne varijable, k je broj faktora.

U našem primjeru, Y je indikator napuštanja zaposlenika. Faktor uticaja su plate (x).

Excel ima ugrađene funkcije koje vam mogu pomoći da izračunate parametre modela linearne regresije. Ali dodatak “Paket analize” će to učiniti brže.

Aktiviramo moćan analitički alat:

Kada se aktivira, dodatak će biti dostupan na kartici Podaci.

Sada uradimo samu regresijsku analizu.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru – 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju 75,5% odnosa između proučavanih parametara. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše – manje od 0,5 (ovakva analiza se teško može smatrati razumnom). U našem primjeru – “nije loše”.

Koeficijent 64.1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatraju jednake 0. Odnosno, na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plata u okviru ovog modela utiče na broj onih koji odustaju sa ponderom od -0,16285 (ovo je mali stepen uticaja). Znak “-” ukazuje na negativan uticaj: što je veća plata, manje ljudi daje otkaz. Što je pošteno.



Analiza korelacije u Excel-u

Korelaciona analiza pomaže da se utvrdi da li postoji veza između indikatora u jednom ili dva uzorka. Na primjer, između vremena rada mašine i troškova popravki, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, da li povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativno) drugog. Korelaciona analiza pomaže analitičaru da utvrdi da li se vrednost jednog indikatora može koristiti za predviđanje moguće značenje drugi.

Koeficijent korelacije je označen sa r. Varira od +1 do -1. Klasifikacija korelacija za različitim oblastima biće drugačiji. Kada je koeficijent 0 linearna zavisnost ne postoji između uzoraka.

Pogledajmo kako pronaći koeficijent korelacije koristeći Excel.

Za pronalaženje uparenih koeficijenata koristi se CORREL funkcija.

Cilj: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite dugme fx.

  1. U kategoriji “Statistički” odaberite funkciju CORREL.
  2. Argument “Niz 1” - prvi raspon vrijednosti – vrijeme rada mašine: A2:A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - cijena popravke: B2:B14. Kliknite OK.

Da biste odredili vrstu veze, potrebno je pogledati apsolutni broj koeficijenta (svako polje aktivnosti ima svoju skalu).

Za korelacione analize nekoliko parametara (više od 2), pogodnije je koristiti „Analizu podataka“ (dodatak „Paket analize“). Potrebno je da izaberete korelaciju sa liste i odredite niz. Sve.

Dobijeni koeficijenti će biti prikazani u korelacionoj matrici. Volim ovo:

Korelaciona i regresiona analiza

U praksi se ove dvije tehnike često koriste zajedno.

primjer:


Sada su podaci regresione analize postali vidljivi.

Glavna svrha regresione analize sastoji se u određivanju analitičkog oblika komunikacije u kojem je promjena efektivne karakteristike posljedica utjecaja jedne ili više faktorskih karakteristika, a skup svih ostalih faktora koji također utiču na efektivnu karakteristiku uzimaju se kao konstantne i prosječne vrijednosti.
Problemi regresijske analize:
a) Utvrđivanje oblika zavisnosti. U pogledu prirode i oblika odnosa među pojavama, pravi se razlika između pozitivne linearne i nelinearne i negativne linearne i nelinearne regresije.
b) Određivanje funkcije regresije u obliku matematičke jednačine ove ili one vrste i utvrđivanje uticaja eksplanatornih varijabli na zavisnu varijablu.
c) Evaluacija Ne poznate vrednosti zavisna varijabla. Koristeći funkciju regresije, možete reproducirati vrijednosti zavisne varijable unutar intervala specificiranih vrijednosti varijabli objašnjenja (tj. riješiti problem interpolacije) ili procijeniti tok procesa izvan navedenog intervala (tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednadžba za odnos između dvije varijable y i x: , gdje je y zavisna varijabla (rezultativni atribut); x je nezavisna eksplanatorna varijabla (faktor karakteristika).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije se dijele u dvije klase: regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, i regresije koje su nelinearne u odnosu na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje su nelinearne u odnosu na procijenjene parametre: Konstrukcija jednačine regresije svodi se na procjenu njenih parametara. Za procjenu parametara regresije linearnih u parametrima, koristite metodu najmanjih kvadrata(MNC). Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara kod kojih je zbir kvadrata odstupanja stvarnih vrijednosti rezultujuće karakteristike y od teoretskih minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se svode na linearne, riješiti sledeći sistem u vezi a i b:

Možete koristiti gotove formule koje slijede iz ovog sistema:

Procjenjuje se bliskost povezanosti fenomena koji se proučavaju linearni koeficijent parna korelacija za linearnu regresiju:

i indeks korelacije - za nelinearnu regresiju:

Kvalitet izgrađenog modela će se ocjenjivati ​​koeficijentom (indeksom) determiniranosti, kao i prosječnom greškom aproksimacije.
Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dozvoljena granica vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti pokazuje za koji će se postotak u prosjeku rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Zadatak analiza varijanse sastoji se od analize varijanse zavisne varijable:
,
Gdje - ukupan iznos kvadratna odstupanja;
- zbir kvadrata odstupanja zbog regresije („objašnjeno“ ili „faktorsko“);
- rezidualni zbir kvadrata odstupanja.
Udio varijanse objašnjen regresijom u ukupnoj varijansi rezultirajuće karakteristike y karakterizira koeficijent (indeks) determinacije R2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvaliteta jednačine regresije - sastoji se od testiranja hipoteze br o statističkoj beznačajnosti regresione jednačine i indikatora bliskosti veze. Da bi se to postiglo, pravi se poređenje između stvarne F činjenice i kritične (tabelarne) vrijednosti F tablice Fišerova F-kriterija. F činjenica se određuje iz omjera vrijednosti faktora i rezidualnih varijansi izračunatih za jedan stepen slobode:
,
gdje je n broj jedinica stanovništva; m je broj parametara za varijable x.
F tabela je maksimalna moguća vrijednost kriterijuma pod uticajem slučajnih faktora na datim stepenima slobode i nivou značajnosti a. Nivo značajnosti a je vjerovatnoća odbacivanja tačne hipoteze, s obzirom da je tačna. Obično se a uzima jednakim 0,05 ili 0,01.
Ako je F tabela< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Činjenica je da se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost i nepouzdanost jednačine regresije.
Za stopu statistički značaj Izračunavaju se koeficijenti regresije i korelacije, Studentov t-test i intervali povjerenja za svaki indikator. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:
; ; .
Slučajne greške parametara linearne regresije i koeficijenta korelacije određene su formulama:



Upoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tablice i t činjenice - prihvatamo ili odbacujemo hipotezu H o.
Odnos između Fišerovog F-testa i Studentove t-statistike izražava se jednakošću

Ako t tabela< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t je činjenica da se hipoteza H o ne odbacuje i da se prepoznaje slučajna priroda formiranja a, b ili.
Da bismo izračunali interval pouzdanosti, određujemo maksimalnu grešku D za svaki indikator:
, .
Formule za izračunavanje intervala povjerenja su sljedeće:
; ;
; ;
Ako nula spada u interval pouzdanosti, tj. Ako je donja granica negativna, a gornja pozitivna, tada se procijenjeni parametar uzima kao nula, jer ne može istovremeno uzimati i pozitivne i negativne vrijednosti.
Predviđena vrijednost se određuje zamjenom odgovarajuće (prognozirane) vrijednosti u regresionu jednačinu. Prosječna standardna greška prognoze se izračunava:
,
Gdje
i gradi se interval povjerenja prognoza:
; ;
Gdje .

Primjer rješenja

Zadatak br. 1. Za sedam teritorija Uralskog regiona 199X godine poznate su vrijednosti dvije karakteristike.
Tabela 1.
Obavezno: 1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) snaga (najprije morate izvršiti proceduru linearizacije varijabli uzimajući logaritam oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model koristeći prosječnu grešku aproksimacije i Fišerov F test.

Rješenje (opcija br. 1)

Za izračunavanje parametara a i b linearne regresije (izračun se može obaviti pomoću kalkulatora).
riješiti sistem normalnih jednačina za A I b:
Na osnovu početnih podataka izračunavamo :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Wed. značenje (Ukupno/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regresijska jednadžba: y = 76,88 - 0,35X. Uz povećanje prosječne dnevne plaće za 1 rub. udio troškova nabavke prehrambenih proizvoda smanjuje se u prosjeku za 0,35% poena.
Izračunajmo linearni koeficijent korelacije para:

Veza je umjerena, inverzna.
Odredimo koeficijent determinacije:

Varijacija rezultata od 12,7% objašnjava se varijacijom faktora x. Zamjena stvarnih vrijednosti u jednadžbu regresije X, odredimo teorijske (izračunate) vrijednosti . Nađimo vrijednost prosječne greške aproksimacije:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterijum:

od 1< F < ¥ , treba uzeti u obzir F -1 .
Rezultirajuća vrijednost ukazuje na potrebu prihvaćanja hipoteze Ali oh nasumična priroda utvrđene zavisnosti i statistička beznačajnost parametara jednačine i indikatora bliskosti veze.
1b. Izgradnji energetskog modela prethodi postupak linearizacije varijabli. U primjeru, linearizacija se izvodi uzimanjem logaritama obje strane jednačine:


GdjeY=lg(y), X=lg(x), C=lg(a).

Za proračune koristimo podatke u tabeli. 1.3.

Tabela 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Prosječna vrijednost 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Izračunajmo C i b:


Dobijamo linearnu jednačinu: .
Nakon što smo izvršili njegovu potenciranje, dobijamo:

Zamjena stvarnih vrijednosti u ovu jednačinu X, dobijamo teorijske vrijednosti rezultata. Koristeći ih, izračunat ćemo indikatore: čvrstoću veze - indeks korelacije i prosječnu grešku aproksimacije

Performanse modela potencijskog zakona pokazuju da je nešto bolje linearna funkcija opisuje odnos.

1c. Izrada jednadžbe eksponencijalne krive

kojoj prethodi procedura za linearizaciju varijabli uzimanjem logaritama obje strane jednačine:

Za proračune koristimo tabelarne podatke.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Wed. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Vrijednosti regresijskih parametara A i IN iznosio:


Rezultirajuća linearna jednačina je: . Potencirajmo rezultirajuću jednačinu i zapišemo je u uobičajenom obliku:

Bliskost veze ćemo procijeniti kroz indeks korelacije:

Studenti se tokom studija vrlo često susreću sa raznim jednačinama. Jedna od njih - jednačina regresije - razmatra se u ovom članku. Ova vrsta jednadžbe se koristi posebno za opisivanje karakteristika odnosa između matematičkih parametara. Ovaj tip jednakosti se koriste u statistici i ekonometriji.

Definicija regresije

U matematici, regresija označava određenu veličinu koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Jednačina regresije pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Funkcija regresije ima oblik jednostavna jednačina y = x, u kojoj y djeluje kao zavisna varijabla, a x kao nezavisna varijabla (faktor karakteristika). U stvari, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli?

Općenito, postoje dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakteriše jednakost uslovnih varijabli. IN u ovom slučaju Ne zna se sa sigurnošću koja varijabla zavisi od druge.

Ako ne postoji jednakost između varijabli i uvjeti govore koja varijabla je eksplanatorna, a koja zavisna, onda možemo govoriti o prisutnosti veze drugog tipa. Da bi se konstruisala jednačina linearne regresije, biće potrebno saznati kakav se tip odnosa posmatra.

Vrste regresije

Danas postoji 7 različitih tipova regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednačina linearne regresije se koristi u statistici za jasno objašnjenje parametara jednačine. Izgleda kao y = c+t*x+E. Hiperbolična jednačina ima oblik regularne hiperbole y = c + m / x + E. Logaritamski linearna jednačina izražava odnos pomoću logaritamske funkcije: In y = In c + m * In x + In E.

Višestruki i nelinearni

Još dva složene vrste Regresija je višestruka i nelinearna. Jednačina višestruka regresija izražava se funkcijom y = f(x 1, x 2 ...x c) + E. U ovoj situaciji, y djeluje kao zavisna varijabla, a x djeluje kao varijabla koja objašnjava. E varijabla je stohastička i uključuje utjecaj drugih faktora u jednačini. Nelinearna jednačina regresija je pomalo kontroverzna. S jedne strane, u odnosu na indikatore koji se uzimaju u obzir, nije linearan, ali s druge strane, u ulozi indikatora ocjenjivanja je linearan.

Inverzne i uparene vrste regresija

Inverzna je vrsta funkcije u koju se treba pretvoriti linearni pogled. U najtradicionalnijim aplikativnim programima ima oblik funkcije y = 1/c + m*x+E. Jednačina parne regresije pokazuje odnos između podataka kao funkcije y = f (x) + E. Kao iu drugim jednadžbama, y ​​ovisi o x, a E je stohastički parametar.

Koncept korelacije

Ovo je indikator koji pokazuje postojanje veze između dva fenomena ili procesa. Jačina veze se izražava kao koeficijent korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator označava dostupnost povratne informacije, pozitivno - o pravoj liniji. Ako koeficijent ima vrijednost jednaku 0, onda nema veze. Kako bliža vrijednost prema 1 - što je jača veza između parametara što je bliža 0 - to je slabija.

Metode

Korelacione parametarske metode mogu proceniti snagu veze. Koriste se na osnovu procjene distribucije za proučavanje parametara koji se pridržavaju zakona normalne distribucije.

Parametri jednačine linearne regresije su neophodni za identifikaciju tipa zavisnosti, funkciju jednačine regresije i procenu indikatora izabrane formule odnosa. Korelaciono polje se koristi kao metoda identifikacije veze. Da biste to učinili, svi postojeći podaci moraju biti grafički prikazani. Svi poznati podaci moraju biti ucrtani u pravougaoni dvodimenzionalni koordinatni sistem. Ovo stvara korelaciono polje. Vrijednosti opisnog faktora su označene duž apscisne ose, dok su vrijednosti zavisnog faktora označene duž ordinatne ose. Ako postoji funkcionalni odnos između parametara, oni su poređani u obliku linije.

Ako je koeficijent korelacije ovakvih podataka manji od 30%, možemo praktično govoriti o tome potpuno odsustvo komunikacije. Ako je između 30% i 70%, onda to ukazuje na prisustvo srednje bliskih veza. 100% indikator je dokaz funkcionalne veze.

Jednačina nelinearne regresije, baš kao i linearna, mora biti dopunjena indeksom korelacije (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je kvadratni eksponent višestruka korelacija. On govori o bliskoj povezanosti prikazanog skupa indikatora sa karakteristikom koja se proučava. Takođe se može govoriti o prirodi uticaja parametara na rezultat. Jednačina višestruke regresije se procjenjuje pomoću ovog indikatora.

Da bi se izračunao indikator višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način za procjenu faktora regresije. Njegova suština je da minimizira sumu kvadrata odstupanja dobijenih kao rezultat zavisnosti faktora od funkcije.

Jednadžba linearne regresije u paru može se procijeniti pomoću takve metode. Ova vrsta jednadžbi se koristi kada se otkrije upareni linearni odnos između indikatora.

Parametri jednačine

Svaki parametar funkcije linearne regresije ima specifično značenje. Jednačina uparene linearne regresije sadrži dva parametra: c i m Parametar m pokazuje prosječnu promjenu konačnog indikatora funkcije y, pod uvjetom da se varijabla x smanji (poveća) za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomsko značenje. Jedini uticaj na funkciju je znak ispred faktora c. Ako postoji minus, onda možemo reći da je promjena rezultata spora u odnosu na faktor. Ako postoji plus, onda to ukazuje na ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost jednačine regresije može se izraziti kroz jednačinu. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje uvjeti zadatka u kojima su sve informacije grupirane po atributu x, ali za određenu grupu su naznačene odgovarajuće prosječne vrijednosti zavisnog indikatora. U ovom slučaju, prosječne vrijednosti karakteriziraju kako se indikator mijenja ovisno o x. Dakle, grupisane informacije pomažu u pronalaženju regresijske jednačine. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosječni pokazatelji su često podložni vanjskim fluktuacijama. Ove fluktuacije ne odražavaju obrazac odnosa, one samo maskiraju njegovu „buku“. Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem broja pojedinačne populacije sa odgovarajućim prosjekom, može se dobiti zbir y unutar grupe. Zatim morate zbrojiti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže izvršiti proračune sa indikatorom zbira xy. Ako su intervali mali, možemo uslovno uzeti da je indikator x za sve jedinice (unutar grupe) isti. Trebali biste ga pomnožiti sa zbirom y da biste saznali zbir proizvoda x i y. Zatim se svi iznosi sabiraju i dobije se ukupan iznos xy.

Jednačina višestruke parne regresije: procjena važnosti veze

Kao što je ranije rečeno, višestruka regresija ima funkciju oblika y = f (x 1,x 2,…,x m)+E. Najčešće se ovakva jednačina koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, te za proučavanje uzroka i vrste funkcije troškova proizvodnje. Također se aktivno koristi u širokom spektru makroekonomskih studija i proračuna, ali na nivou mikroekonomije takva se jednadžba koristi nešto rjeđe.

Osnovni zadatak višestruke regresije je da se izgradi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav uticaj ima svaki od faktora pojedinačno iu svojoj ukupnosti na indikator koji treba modelirati i njegove koeficijente. Jednačina regresije može poprimiti širok raspon vrijednosti. U ovom slučaju, za procjenu odnosa, obično se koriste dvije vrste funkcija: linearne i nelinearne.

Linearna funkcija je prikazana u obliku sljedećeg odnosa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. U ovom slučaju, a2, a m se smatraju “čistim” koeficijentom regresije. Oni su neophodni za karakterizaciju prosječne promjene parametra y sa promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilnih vrijednosti ostalih indikatora.

Nelinearne jednadžbe imaju, na primjer, oblik funkcije stepena y=ax 1 b1 x 2 b2 ...x m bm. U ovom slučaju, indikatori b 1, b 2 ..... b m nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg indikatora x za 1% i sa stabilnim indikatorom drugih faktora.

Koje faktore treba uzeti u obzir pri konstruisanju višestruke regresije

Da bi se pravilno izgradila višestruka regresija, potrebno je otkriti na koje faktore treba obratiti posebnu pažnju.

Neophodno je imati određeno razumijevanje prirode odnosa između ekonomskih faktora i onoga što se modelira. Faktori koji će se morati uključiti moraju ispunjavati sljedeće kriterije:

  • Mora biti predmet kvantitativnog mjerenja. Da bi se koristio faktor koji opisuje kvalitetu nekog objekta, u svakom slučaju mu treba dati kvantitativni oblik.
  • Ne bi trebalo postojati međusobna povezanost faktora ili funkcionalna veza. Takve radnje najčešće dovode do nepovratne posledice- sistem običnih jednačina postaje bezuslovan, a to povlači njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacionog indikatora, ne postoji način da se sazna izolovani uticaj faktora na krajnji rezultat indikatora, stoga koeficijenti postaju neinterpretljivi.

Metode izgradnje

Postoji velika količina metode i tehnike koje objašnjavaju kako se faktori mogu odabrati za jednačinu. Međutim, sve ove metode se zasnivaju na odabiru koeficijenata pomoću indikatora korelacije. Među njima su:

  • Metoda eliminacije.
  • Metoda prebacivanja.
  • Postepena regresiona analiza.

Prva metoda uključuje filtriranje svih koeficijenata iz ukupnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su se ranije koristili za jednačinu. Svaka od ovih metoda ima pravo na postojanje. Oni imaju svoje prednosti i nedostatke, ali svi mogu na svoj način riješiti pitanje eliminacije nepotrebnih indikatora. U pravilu, rezultati dobiveni svakom pojedinačnom metodom su prilično bliski.

Metode multivarijantne analize

Takve metode za određivanje faktora zasnivaju se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje oblika, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, ali se pojavila zbog razvoja komponentne metode. Sve se primjenjuju u određenim okolnostima, pod određenim uvjetima i faktorima.

U prisustvu korelacione veze Između znakova faktora i rezultata, doktori često moraju utvrditi za koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni u općenito prihvaćenu jedinicu mjerenja ili onu koju je ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako se njihova visina poveća za 1 cm.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizički razvoj.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se iz prosječne vrijednosti jedne karakteristike odredi prosječna vrijednost druge karakteristike koja je u korelaciji s prvom.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlade u prosjeku pri određenim vrijednostima srednje mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Određivanje koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se, u prosjeku, vrijednost jedne karakteristike mijenja kada se druga povezana karakteristika promijeni za određenu mjernu jedinicu.
  3. Formula regresijskog koeficijenta. R y/x = r xy x (σ y / σ x)
    gdje je R u/h - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja zaraznih i prehladnih bolesti).
    Dakle, R y/x je koeficijent regresije.
    R u/h = -0,96 x (4,6 / 8,65) = 1,8, tj. kada se srednja mjesečna temperatura zraka (x) smanji za 1 stepen, prosječan broj zaraznih i prehladnih bolesti (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Jednačina regresije. y = M y + R y/x (x - M x)
    gdje je y prosječna vrijednost karakteristike, koju treba odrediti kada se promijeni prosječna vrijednost druge karakteristike (x);
    x je poznata prosječna vrijednost druge karakteristike;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih i prehladnih bolesti (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9°, R y/x = 1,8 bolesti, M x = -7°, M y = 20 bolesti, onda je y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednačina se primjenjuje u slučaju linearnog odnosa između dvije karakteristike (x i y).

  5. Svrha regresione jednadžbe. Jednačina regresije se koristi za konstruisanje regresijske linije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jedne karakteristike ako se vrednost (x) druge karakteristike promeni. Na osnovu ovih podataka konstruiše se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature u rasponu između izračunatih vrijednosti broja prehlada.
  6. Sigma regresije (formula).
    gdje je σ Ru/h - sigma (standardna devijacija) regresije;
    σ y - standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y - standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) je jednak -0,96, tada

  7. Regresijska sigma dodjela. Daje opis mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakteriše raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada pri temperaturi zraka x 1 = -6° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Kod x 2 = -9°, prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi za konstruiranje regresijske skale, koja odražava odstupanje vrijednosti rezultirajuće karakteristike od njene prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i crtanje skale regresije
    • koeficijent regresije - R u/h;
    • jednadžba regresije - y = M y + R y/x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije koristeći formulu (vidi paragraf 3). Na primjer, potrebno je odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu). prosječna visinaće se promijeniti za 1 cm.
    • koristeći formulu jednadžbe regresije (vidi tačku 4), odredite kolika će, na primjer, tjelesna težina biti u prosjeku (y, y 2, y 3 ...) * za određenu vrijednost visine (x, x 2, x 3 . ..) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti "x".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru/h) i najveće (y + σ ru /h) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x2, x3 (odina ordinate) se prvo označavaju na grafikonu, tj. konstruiše se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Tada su u odgovarajućim tačkama označene y 1, y 2, y 3 numeričke vrijednosti sigma regresije, tj. pronađite najmanji na grafu i najveća vrijednost y 1, y 2, y 3.

  10. Praktična upotreba regresijske skale. Normativne skale i standardi se razvijaju, posebno za fizički razvoj. Koristeći standardnu ​​skalu, možete dati individualnu procjenu razvoja djece. U ovom slučaju, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry/x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Tjelesni razvoj će biti oštro disharmoničan zbog viška i nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističko istraživanje fizičkog razvoja dječaka od 5 godina, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odredite kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, konstruisati skalu regresije i grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Uvjeti problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješavanja problema
regresijska jednačina regresijska sigma regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X U σ R x/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
tjelesna masa (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije unutar izračunatih vrijednosti tjelesne težine omogućava vam da je odredite na bilo kojoj drugoj vrijednosti visine ili procjene individualni razvoj dijete. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Zdravstvo i zdravstvenu zaštitu. Udžbenik za univerzitete. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medic V.A., Yuryev V.K. Tok predavanja o javnom zdravlju i zdravstvu: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Priručnik u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kucherenko V.Z., Agarkov N.M. i drugi organizacija socijalne higijene i zdravstvene zaštite (. Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glanz. Medicinska i biološka statistika. Prevod sa engleskog - M., Praktika, 1998. - 459 str.

Regresiona analiza leži u osnovi stvaranja većine ekonometrijskih modela, koji uključuju modele procjene troškova. Za izgradnju modela vrednovanja, ova metoda se može koristiti ako su broj analoga (uporedivih objekata) i broj faktora troškova (elemenata za poređenje) međusobno povezani na sljedeći način: P> (5 -g-10) x za, one. trebalo bi da ima 5-10 puta više analoga od faktora troškova. Isti zahtjev za odnos količine podataka i broja faktora odnosi se i na druge zadatke: uspostavljanje veze između troškovnih i potrošačkih parametara objekta; obrazloženje postupka za izračunavanje korektivnih indeksa; utvrđivanje trendova cijena; uspostavljanje veze između habanja i promjena faktora utjecaja; dobijanje zavisnosti za izračunavanje standarda troškova itd. Usklađenost sa ovim zahtjevom je neophodna kako bi se smanjila vjerovatnoća rada sa uzorkom podataka koji ne zadovoljava zahtjev normalne distribucije slučajnih varijabli.

Regresijski odnos odražava samo prosječni trend promjena rezultirajuće varijable, na primjer, cijene, od promjena u jednoj ili više faktorskih varijabli, na primjer, lokacija, broj soba, površina, sprat, itd. Ovo je razlika između regresijskog odnosa i funkcionalnog odnosa, u kojem je vrijednost rezultirajuće varijable striktno definirana za datu vrijednost faktorskih varijabli.

Prisutnost regresijskog odnosa / između rezultirajućeg at i faktorske varijable x str ..., x k(faktori) ukazuje da je ovaj odnos određen ne samo uticajem odabranih faktorskih varijabli, već i uticajem varijabli, od kojih su neke generalno nepoznate, druge se ne mogu procijeniti i uzeti u obzir:

Uticaj neobračunatih varijabli prikazan je drugim članom ove jednačine ?, što se naziva greškom aproksimacije.

Razlikuju se sljedeće vrste regresijskih ovisnosti:

  • ? uparena regresija - odnos između dvije varijable (rezultant i faktor);
  • ? višestruka regresija – odnos između jedne varijable ishoda i dvije ili više faktorskih varijabli uključenih u studiju.

Glavni zadatak regresione analize je kvantitacija bliskost odnosa između varijabli (u parnoj regresiji) i više varijabli (u višestrukoj regresiji). Bliskost veze je kvantitativno izražena koeficijentom korelacije.

Upotreba regresione analize omogućava da se utvrdi obrazac uticaja glavnih faktora (hedonističkih karakteristika) na indikator koji se proučava, kako u cjelini, tako i za svaki od njih posebno. Uz pomoć regresione analize, kao metode matematičke statistike, moguće je, prvo, pronaći i opisati oblik analitičke zavisnosti rezultujuće (pretražene) varijable od faktorskih i, drugo, proceniti bliskost ovu zavisnost.

Rješavanjem prvog problema dobija se matematički regresijski model uz pomoć kojeg se zatim izračunava željeni indikator za date vrijednosti faktora. Rješavanje drugog problema nam omogućava da utvrdimo pouzdanost izračunatog rezultata.

Dakle, regresiona analiza se može definisati kao skup formalnih (matematičkih) procedura dizajniranih za merenje bliskosti, usmerenosti i analitičkog izraza oblika odnosa između rezultujućih i faktorskih varijabli, tj. Rezultat takve analize treba da bude strukturno i kvantitativno definisan statistički model u obliku:

Gdje y - prosječnu vrijednost rezultirajuće varijable (željenog indikatora, na primjer, trošak, najam, stopa kapitalizacije) po P njena zapažanja; x - vrijednost faktorske varijable (/-ti faktor troškova); Za - broj faktorskih varijabli.

Funkcija f(x l ,...,x lc), opisuje zavisnost rezultujuće varijable od faktorskih faktora naziva se regresijska jednačina (funkcija). Pojam „regresija“ (regresija (lat.) - povlačenje, povratak na nešto) povezan je sa specifičnostima jednog od specifičnih problema riješenih u fazi formiranja metode, a trenutno ne odražava cjelokupnu suštinu metode, ali nastavlja da se koristi.

Regresiona analiza u opšti slučaj uključuje sljedeće korake:

  • ? formiranje uzorka homogenih objekata i prikupljanje početnih informacija o tim objektima;
  • ? izbor glavnih faktora koji utiču na rezultujuću varijablu;
  • ? provjera uzorka za normalno korištenje X 2 ili binomni test;
  • ? prihvatanje hipoteze o obliku komunikacije;
  • ? matematička obrada podaci;
  • ? dobijanje regresijskog modela;
  • ? procjena njegovih statističkih pokazatelja;
  • ? proračuni verifikacije pomoću regresijskog modela;
  • ? analiza rezultata.

Navedeni slijed operacija odvija se kada se proučava kako upareni odnos između faktorske varijable i jedne rezultantne varijable, tako i višestruki odnos između rezultantne varijable i nekoliko faktorskih.

Upotreba regresione analize nameće određene zahtjeve za početne informacije:

  • ? statistički uzorak objekata mora biti homogen u funkcionalnom i strukturno-tehnološkom pogledu;
  • ? prilično brojni;
  • ? indikator troškova koji se proučava - rezultirajuća varijabla (cijena, trošak, troškovi) - mora biti doveden u iste uslove za svoj obračun za sve objekte u uzorku;
  • ? faktorske varijable moraju se izmjeriti dovoljno precizno;
  • ? faktorske varijable moraju biti nezavisne ili minimalno zavisne.

Zahtjevi za homogenost i potpunost uzorka su u suprotnosti: što je stroži odabir objekata na osnovu njihove homogenosti, to je uzorak manji, i obrnuto, za povećanje uzorka potrebno je uključiti objekte koji nisu mnogo slični jedan drugog.

Nakon što se prikupe podaci o grupi homogenih objekata, oni se analiziraju kako bi se ustanovio oblik veze između rezultirajućih i faktorskih varijabli u obliku teorijske regresijske linije. Proces pronalaženja teorijske regresione linije sastoji se od razumnog izbora aproksimirajuće krive i izračunavanja koeficijenata njene jednačine. Regresijska linija je glatka kriva (u određenom slučaju ravna linija) koja opisuje korištenjem matematičke funkcije opšti trend proučavana zavisnost i izglađivanje nepravilnih, slučajnih emisija od uticaja sporednih faktora.

Za prikaz uparenih regresijskih ovisnosti u zadacima procjene najčešće se koriste sljedeće funkcije: linearna - y - a 0 + ars + s snaga - y - aj&i + s indikativno - y - linearni eksponencijalni - y - a 0 + ap* + c. ovdje - e greška aproksimacije uzrokovana djelovanjem neuračunatih slučajnih faktora.

U ovim funkcijama, y ​​je rezultujuća varijabla; x - faktor varijabla (faktor); A 0 , a r a 2 - parametri regresijskog modela, koeficijenti regresije.

Linearni eksponencijalni model pripada klasi takozvanih hibridnih modela oblika:

Gdje

gdje je x (i = 1, /) - vrijednosti faktora;

b t (i = 0, /) - koeficijenti regresione jednadžbe.

U ovoj jednačini komponente A, B I Z odgovaraju troškovima pojedinačnih komponenti imovine koja se vrednuje, na primer, cena zemljišne parcele i troškovi poboljšanja, i parametar Q je uobičajeno. Namijenjen je prilagođavanju vrijednosti svih komponenti imovine koja se vrednuje zajednički faktor uticaji kao što je lokacija.

Vrijednosti faktora koji su u snazi ​​odgovarajućih koeficijenata su binarne varijable (0 ili 1). Faktori u osnovi stepena su diskretne ili kontinuirane varijable.

Faktori povezani sa koeficijentima množenja su također kontinuirani ili diskretni.

Specifikacija se u pravilu provodi empirijskim pristupom i uključuje dvije faze:

  • ? crtanje tačaka polja regresije na grafu;
  • ? grafička (vizuelna) analiza tipa moguće aproksimativne krive.

Tip krivulje regresije ne može se uvijek odabrati odmah. Da biste ga odredili, prvo nacrtajte tačke regresijskog polja na osnovu originalnih podataka. Zatim vizualno nacrtajte liniju duž položaja točaka, pokušavajući otkriti kvalitativni obrazac veze: ravnomjeran rast ili ravnomjeran pad, rast (smanjenje) s povećanjem (smanjenjem) stope dinamike, nesmetani pristup određenom nivo.

Ovaj empirijski pristup dopunjen je logičkom analizom, polazeći od već poznatih ideja o ekonomskoj i fizičkoj prirodi faktora koji se proučavaju i njihovom međusobnom uticaju.

Na primjer, poznato je da su zavisnosti rezultirajućih varijabli ekonomski pokazatelji(cijene, zakupnine) iz niza faktorskih varijabli - faktori koji formiraju cijene (udaljenost od centra naselja, područja, itd.) su nelinearne prirode, i mogu se opisati prilično striktno pomoću moći, eksponencijalnog ili kvadratne funkcije. Ali za male raspone faktorskih promjena, prihvatljivi rezultati se mogu dobiti korištenjem linearne funkcije.

Ako je, međutim, još uvijek nemoguće odmah napraviti siguran izbor bilo koje funkcije, tada se biraju dvije ili tri funkcije, izračunavaju se njihovi parametri, a zatim, koristeći odgovarajuće kriterije za bliskost veze, funkcija se konačno odabrano.

U teoriji, proces regresije za pronalaženje oblika krive se naziva specifikacija model i njegovi koeficijenti - kalibracija modeli.

Ako se utvrdi da rezultirajuća varijabla y ovisi o nekoliko faktorskih varijabli (faktora) x ( , x 2 , ..., x k, tada pribjegavaju izgradnji modela višestruke regresije. Obično se koriste tri oblika višestruke komunikacije: linearna - y - a 0 + a x x x + a^x 2 + ... + a k x k, indikativno - y - a 0 a*i a x t- a x b, snaga - y - a 0 x x ix 2 a 2. .x^ili njihove kombinacije.

Eksponencijalne funkcije i funkcije stepena su univerzalnije, jer aproksimiraju nelinearne odnose, koji su većina onih koji se proučavaju u procjeni zavisnosti. Osim toga, mogu se koristiti u procjeni objekata iu metodi statističko modeliranje u masovnoj ocjeni, te u metodi direktnog poređenja u individualnoj ocjeni pri utvrđivanju faktora korekcije.

U fazi kalibracije, parametri regresijskog modela se izračunavaju metodom najmanjih kvadrata, čija je suština da se zbroj kvadrata odstupanja izračunatih vrijednosti rezultirajuće varijable at., tj. izračunato pomoću odabrane jednadžbe spajanja, od stvarnih vrijednosti treba biti minimalno:

Vrijednosti j) (. i u. poznati su, dakle Q je funkcija samo koeficijenata jednačine. Da nađem minimum S morate uzeti parcijalne derivate Q koeficijentima jednadžbe i izjednačiti ih sa nulom:

Kao rezultat dobijamo sistem normalnih jednačina, čiji je broj jednak broju utvrđenih koeficijenata željene regresione jednačine.

Pretpostavimo da trebamo pronaći koeficijente linearna jednačina y - a 0 + ars. Zbir kvadrata odstupanja ima oblik:

/=1

Razlikujte funkciju Q po nepoznatim koeficijentima a 0 i i izjednačiti parcijalne derivate sa nulom:

Nakon transformacija dobijamo:

Gdje P - broj originalnih stvarnih vrijednosti at njih (broj analoga).

Navedena procedura za izračunavanje koeficijenata regresione jednačine je primenljiva i za nelinearne zavisnosti, ako se te zavisnosti mogu linearizovati, tj. dovesti do linearne forme koristeći promjenu varijabli. Potencijalne i eksponencijalne funkcije nakon logaritma i odgovarajuće promjene varijabli dobivaju linearni oblik. Na primjer, funkcija stepena nakon logaritma ima oblik: In y = 1p 0 +a x 1ph. Nakon zamjene varijabli Y- U y, L 0 - U i br. X- U x dobijamo linearnu funkciju

Y=A 0 + cijX,čiji se koeficijenti nalaze na gore opisani način.

Metoda najmanjih kvadrata se također koristi za izračunavanje koeficijenata modela višestruke regresije. Dakle, sistem normalnih jednačina za izračunavanje linearne funkcije sa dvije varijable Xj I x 2 nakon niza transformacija to izgleda ovako:

Obično ovaj sistem jednadžbe se rješavaju metodama linearne algebre. Množina funkcija snage dovode do linearnog oblika uzimanjem logaritma i promjenom varijabli na isti način kao funkcija para stepena.

Kada se koriste hibridni modeli, višestruki koeficijenti regresije se pronalaze pomoću numeričkih procedura metode uzastopnih aproksimacija.

Da bi se napravio konačan izbor između nekoliko regresijskih jednačina, potrebno je svaku jednačinu testirati na jačinu veze, koja se mjeri koeficijentom korelacije, varijansom i koeficijentom varijacije. Studentov i Fisherov test se također može koristiti za evaluaciju. Što je kriva veća bliskost veze, to je ona poželjnija, pod uslovom da su sve ostale jednake.

Ako se rješava problem ove klase, kada je potrebno utvrditi ovisnost indikatora troškova od faktora troškova, onda je razumljiva želja da se uzme u obzir što više utjecajnih faktora i na taj način izgradi precizniji model višestruke regresije. . Međutim, povećanje broja faktora ometaju dva objektivna ograničenja. Prvo, da bi se izgradio model višestruke regresije, potreban je mnogo veći uzorak objekata nego da se izgradi upareni model. Općenito je prihvaćeno da broj objekata u uzorku treba da bude veći od broja P faktora najmanje 5-10 puta. Iz toga slijedi da je za izgradnju modela sa tri utjecajna faktora potrebno prikupiti uzorak od približno 20 objekata sa različitim skupom vrijednosti faktora. Drugo, faktori odabrani za model u svom uticaju na indikator troškova moraju biti dovoljno nezavisni jedan od drugog. To nije lako osigurati, jer uzorak obično kombinuje predmete koji pripadaju istoj porodici, za koje postoji prirodna promjena mnogih faktora od objekta do objekta.

Kvaliteta regresijskih modela obično se provjerava korištenjem sljedećih statističkih indikatora.

Standardna devijacija greške jednadžbe regresije (greška procjene):

Gdje P - veličina uzorka (broj analoga);

Za - broj faktora (faktora troškova);

Greška, neobjašnjeno regresijska jednačina(Sl. 3.2);

u. - stvarnu vrijednost rezultirajuće varijable (na primjer, trošak); y t - izračunatu vrijednost varijable rezultata.

Ovaj indikator se također naziva standardna greška procjene (RMS greška). Na slici, tačke označavaju specifične vrijednosti uzorka, simbol označava liniju prosječnih vrijednosti uzorka, a nagnuta isprekidana linija je linija regresije.


Rice. 3.2.

Standardna devijacija greške procjene mjeri iznos odstupanja stvarnih vrijednosti y od odgovarajućih izračunatih vrijednosti at( , dobijeno pomoću regresijskog modela. Ako uzorak na kojem se model zasniva podliježe zakonu normalne distribucije, onda se može tvrditi da 68% stvarnih vrijednosti at su u dometu at ± &e od regresijske linije, a 95% je u rasponu at ± 2d e. Ovaj indikator je zgodan jer su jedinice mjerenja sg? odgovaraju mjernim jedinicama at,. U tom smislu, može se koristiti za ukazivanje na tačnost rezultata dobijenog u procesu ocjenjivanja. Na primjer, u certifikatu o vrijednosti možete naznačiti da je tržišna vrijednost dobivena korištenjem regresijskog modela V sa 95% vjerovatnoće da će biti u rasponu od (V -2d,.) prije (g + 2d s).

Koeficijent varijacije rezultirajuće varijable:

Gdje y - prosječna vrijednost rezultirajuće varijable (slika 3.2).

U regresionoj analizi, koeficijent varijacije var je standardna devijacija rezultat, izražen kao procenat prosječne vrijednosti rezultirajuće varijable. Koeficijent varijacije može poslužiti kao kriterij za prediktivne kvalitete rezultirajućeg regresijskog modela: što je manja vrijednost var, to su veći prediktivni kvaliteti modela. Upotreba koeficijenta varijacije je poželjnija od &e indikatora, jer je on relativan indikator. Kada se ovaj indikator koristi u praksi, može se preporučiti da se ne koristi model čiji koeficijent varijacije prelazi 33%, jer se u ovom slučaju ne može reći da podaci uzorka podliježu normalnom zakonu distribucije.

Koeficijent determinacije (koeficijent višestruke korelacije na kvadrat):

Ovaj indikator se koristi za analizu ukupnog kvaliteta rezultirajućeg regresijskog modela. Pokazuje koji je postotak varijacije rezultirajuće varijable objašnjen utjecajem svih faktorskih varijabli uključenih u model. Koeficijent determinacije uvijek leži u rasponu od nule do jedan. Što je vrijednost koeficijenta determinacije bliža jedinici, to je bolji model opisuje originalnu seriju podataka. Koeficijent determinacije može se predstaviti drugačije:

Evo greške objašnjene regresijskim modelom,

A - greška, neobjašnjeno

regresijski model. Sa ekonomske tačke gledišta, ovaj kriterijum nam omogućava da procenimo koliki je procenat varijacije cene objašnjen regresionom jednačinom.

Tačna granica prihvatljivosti indikatora R 2 Nemoguće je precizirati za sve slučajeve. Moraju se uzeti u obzir i veličina uzorka i smislena interpretacija jednačine. U pravilu, kada se proučavaju podaci o objektima istog tipa dobijeni u približno istom trenutku, vrijednost R 2 ne prelazi nivo od 0,6-0,7. Ako su sve greške prognoze nula, tj. kada je odnos između rezultantnih i faktorskih varijabli funkcionalan, onda R 2 =1.

Prilagođeni koeficijent determinacije:

Potreba za uvođenjem prilagođenog koeficijenta determinacije objašnjava se činjenicom da sa povećanjem broja faktora To uobičajeni koeficijent determinacije se skoro uvijek povećava, ali se broj stupnjeva slobode smanjuje (p - k- 1). Uneseno podešavanje uvijek smanjuje vrijednost R2, zbog (P - 1) > (p-k- 1). Kao rezultat, vrijednost R 2 CKOf) može čak postati negativan. To znači da je vrijednost R 2 bio blizu nule prije prilagođavanja i udio varijanse varijable objašnjen pomoću regresione jednadžbe at vrlo male.

Od dvije opcije za regresijske modele koji se razlikuju po vrijednosti prilagođenog koeficijenta determinacije, ali imaju jednako dobre druge kriterije kvaliteta, poželjnija je opcija sa većom vrijednošću prilagođenog koeficijenta determinacije. Koeficijent determinacije se ne prilagođava ako (p - k): k> 20.

Fisher koeficijent:

Ovaj kriterijum se koristi za procenu značajnosti koeficijenta determinacije. Preostali zbir kvadrata predstavlja mjeru greške predviđanja regresijom poznatih vrijednosti troškova u.. Njegovo poređenje sa regresijskim zbirom kvadrata pokazuje koliko puta regresijska zavisnost predviđa rezultat bolji od prosjeka at. Postoji tabela kritičnih vrijednosti F R Fisherov koeficijent, ovisno o broju stupnjeva slobode brojioca - Za, imenilac v 2 = p - k- 1 i nivo značaja a. Ako je izračunata vrijednost Fisherovog testa F R više vrijednost tabele, zatim hipoteza o beznačajnosti koeficijenta determinacije, tj. o neskladu između veza ugrađenih u regresionu jednačinu i onih koje stvarno postoje, s vjerovatnoćom p = 1 - a se odbacuje.

Prosječna greška aproksimacije(prosječno procentualno odstupanje) izračunava se kao prosječna relativna razlika, izražena u postocima, između stvarne i izračunate vrijednosti rezultirajuće varijable:

Kako manje vrijednosti ovog indikatora, bolji su prediktivni kvaliteti modela. Kada ovaj pokazatelj nije veći od 7%, model je vrlo precizan. Ako 8 > 15% ukazuje na nezadovoljavajuću tačnost modela.

Standardna greška koeficijenta regresije:

gdje je (/I) -1 .- dijagonalni element matrice (X G X)~ 1 k - broj faktora;

X- matrica vrijednosti faktorske varijable:

X 7 - transponovana matrica vrednosti faktorskih varijabli;

(ZhL) _| - matrica inverzna matrici.

Što su ovi pokazatelji manji za svaki koeficijent regresije, pouzdanija je procjena odgovarajućeg regresijskog koeficijenta.

Studentov test (t-statistika):

Ovaj kriterijum vam omogućava da izmerite stepen pouzdanosti (značajnosti) odnosa koji je određen datim koeficijentom regresije. Ako je izračunata vrijednost t. veća od vrijednosti u tabeli

t av, gdje v - p - k - 1 je broj stepeni slobode, onda se hipoteza da je ovaj koeficijent statistički beznačajan odbacuje sa vjerovatnoćom (100 - a)%. Postoje posebne tabele /-distribucija koje omogućavaju, na osnovu datog nivoa značaja a i broja stepeni slobode v, da se odredi kritična vrijednost kriterijum. Najčešće korištena vrijednost za a je 5%.

Multikolinearnost, tj. efekat međusobne povezanosti faktorskih varijabli dovodi do potrebe da se zadovoljimo sa ograničenim brojem njih. Ako se to ne uzme u obzir, onda možete završiti s nelogičnim modelom regresije. Da bi se izbjegao negativan učinak multikolinearnosti, koeficijenti parne korelacije se izračunavaju prije izgradnje modela višestruke regresije r xjxj između odabranih varijabli X. I X

Evo XjX; - prosječna vrijednost proizvoda dvije faktorske varijable;

XjXj- proizvod prosječnih vrijednosti dvije faktorske varijable;

Procjena varijanse faktorske varijable x..

Dvije varijable se smatraju regresijskim (tj. kolinearnim) ako je njihov koeficijent parne korelacije apsolutna vrijednost striktno više od 0,8. U ovom slučaju, bilo koja od ovih varijabli mora biti isključena iz razmatranja.

U cilju proširenja mogućnosti ekonomske analize rezultujućih regresionih modela, pros koeficijenti elastičnosti, određena formulom:

Gdje Xj- prosječna vrijednost odgovarajuće faktorske varijable;

y - prosječna vrijednost rezultirajuće varijable; a i - koeficijent regresije za odgovarajuću faktorsku varijablu.

Koeficijent elastičnosti pokazuje za koji procenat će se u prosjeku promijeniti vrijednost rezultirajuće varijable kada se faktorska varijabla promijeni za 1%, tj. kako rezultirajuća varijabla reagira na promjene faktorske varijable. Na primjer, kako reagira cijena kvadrata? m površine stana na udaljenosti od centra grada.

Sa stanovišta analize značaja određenog koeficijenta regresije, korisno je procijeniti parcijalni koeficijent determinacije:

Ovdje je procjena varijanse rezultirajućeg

varijabla. Ovaj koeficijent pokazuje u kom procentu se varijacija rezultujuće varijable objašnjava varijacijom i-te faktorske varijable uključene u regresionu jednačinu.

  • Hedonističke karakteristike se shvataju kao karakteristike predmeta koje odražavaju njegova korisna (vrijedna) svojstva sa stanovišta kupaca i prodavaca.


Novo na sajtu

>

Najpopularniji