Domov Stomatitida Proveďte regresní analýzu. Metody matematické statistiky

Proveďte regresní analýzu. Metody matematické statistiky

Regresní a korelační analýza jsou statistické výzkumné metody. Toto jsou nejběžnější způsoby, jak ukázat závislost parametru na jedné nebo více nezávislých proměnných.

Níže o konkrétních praktické příklady Podívejme se na tyto dvě mezi ekonomy velmi oblíbené analýzy. Uvedeme také příklad získání výsledků při jejich kombinování.

Regresní analýza v Excelu

Ukazuje vliv některých hodnot (nezávislých, nezávislých) na závisle proměnnou. Například jak závisí počet ekonomicky aktivního obyvatelstva na počtu podniků, velikosti mzdy a další parametry. Nebo: jak zahraniční investice, ceny energií atd. ovlivňují výši HDP.

Výsledek analýzy vám umožní zvýraznit priority. A na základě hlavních faktorů předvídat, plánovat rozvoj prioritních oblastí a činit manažerská rozhodnutí.

Regrese se děje:

  • lineární (y = a + bx);
  • parabolický (y = a + bx + cx 2);
  • exponenciální (y = a * exp(bx));
  • mocnina (y = a*x^b);
  • hyperbolický (y = b/x + a);
  • logaritmické (y = b * ln(x) + a);
  • exponenciální (y = a * b^x).

Podívejme se na příklad sestavení regresního modelu v Excelu a interpretaci výsledků. Vezměme lineární typ regrese.

Úkol. U 6 podniků byla analyzována průměrná měsíční mzda a počet odcházejících zaměstnanců. Je třeba určit závislost počtu odcházejících zaměstnanců na průměrné mzdě.

Modelka lineární regrese má následující podobu:

Y = a 0 + a 1 x 1 +…+ak x k.

Kde a jsou regresní koeficienty, x jsou ovlivňující proměnné, k je počet faktorů.

V našem příkladu je Y indikátorem odchodu zaměstnanců. Ovlivňujícím faktorem jsou mzdy (x).

Excel má vestavěné funkce, které vám pomohou vypočítat parametry lineárního regresního modelu. Ale doplněk „Analysis Package“ to udělá rychleji.

Aktivujeme výkonný analytický nástroj:

Po aktivaci bude doplněk dostupný na kartě Data.

Nyní udělejme samotnou regresní analýzu.



Nejprve věnujeme pozornost R-squared a koeficientům.

R-squared je koeficient determinace. V našem příkladu – 0,755 nebo 75,5 %. To znamená, že vypočtené parametry modelu vysvětlují 75,5 % vztahu mezi studovanými parametry. Čím vyšší je koeficient determinace, tím lepší je model. Dobré - nad 0,8. Špatná – méně než 0,5 (takovou analýzu lze stěží považovat za rozumnou). V našem příkladu – „není špatné“.

Koeficient 64,1428 ukazuje, jaké bude Y, pokud se všechny proměnné v uvažovaném modelu rovnají 0. To znamená, že hodnota analyzovaného parametru je ovlivněna i dalšími faktory, které nejsou v modelu popsány.

Koeficient -0,16285 ukazuje váhu proměnné X na Y. To znamená, že průměrná měsíční mzda v rámci tohoto modelu ovlivňuje počet odcházejících s váhou -0,16285 (to je malá míra vlivu). Znak „-“ označuje negativní dopad: čím vyšší plat, tím méně lidí skončí. Což je spravedlivé.



Korelační analýza v Excelu

Korelační analýza pomáhá určit, zda existuje vztah mezi ukazateli v jednom nebo dvou vzorcích. Například mezi dobou provozu stroje a náklady na opravy, cenou zařízení a dobou provozu, výškou a hmotností dětí atd.

Pokud existuje souvislost, pak zvýšení jednoho parametru vede ke zvýšení (pozitivní korelace) nebo snížení (negativní) druhého. Korelační analýza pomáhá analytikovi určit, zda lze hodnotu jednoho ukazatele použít k predikci možný význam další.

Korelační koeficient se značí r. Pohybuje se od +1 do -1. Klasifikace korelací pro různé oblasti bude jiný. Když je koeficient 0 lineární závislost mezi vzorky neexistuje.

Podívejme se, jak najít korelační koeficient pomocí Excelu.

K nalezení párových koeficientů se používá funkce CORREL.

Cíl: Zjistit, zda existuje vztah mezi provozní dobou soustruhu a náklady na jeho údržbu.

Umístěte kurzor do libovolné buňky a stiskněte tlačítko fx.

  1. V kategorii „Statistické“ vyberte funkci CORREL.
  2. Argument „Pole 1“ – první rozsah hodnot – provozní doba stroje: A2:A14.
  3. Argument „Pole 2“ – druhý rozsah hodnot – náklady na opravu: B2:B14. Klepněte na tlačítko OK.

Chcete-li určit typ připojení, musíte se podívat na absolutní číslo koeficientu (každý obor činnosti má svou vlastní stupnici).

Pro korelační analýza několik parametrů (více než 2), je výhodnější použít „Data Analysis“ (doplněk „Analysis Package“). Musíte vybrat korelaci ze seznamu a označit pole. Všechno.

Výsledné koeficienty se zobrazí v korelační matici. Takhle:

Korelační a regresní analýza

V praxi se tyto dvě techniky často používají společně.

Příklad:


Nyní jsou data regresní analýzy viditelná.

Hlavní účel regresní analýzy spočívá v určení analytické formy komunikace, ve které je změna efektivní charakteristiky způsobena vlivem jedné nebo více faktorových charakteristik a soubor všech ostatních faktorů, které také ovlivňují efektivní charakteristiku, jsou brány jako konstantní a průměrné hodnoty.
Problémy s regresní analýzou:
a) Ustavení formy závislosti. Pokud jde o povahu a formu vztahu mezi jevy, rozlišuje se pozitivní lineární a nelineární a negativní lineární a nelineární regrese.
b) Určení regresní funkce ve formě matematické rovnice toho či onoho typu a stanovení vlivu vysvětlujících proměnných na závisle proměnnou.
c) Hodnocení Ne známé hodnoty závislá proměnná. Pomocí regresní funkce můžete reprodukovat hodnoty závislé proměnné v intervalu zadaných hodnot vysvětlujících proměnných (tj. řešit interpolační problém) nebo vyhodnocovat průběh procesu mimo zadaný interval (tj. vyřešit extrapolační problém). Výsledkem je odhad hodnoty závislé proměnné.

Párová regrese je rovnice pro vztah mezi dvěma proměnnými y a x: , kde y je závislá proměnná (výsledný atribut); x je nezávislá vysvětlující proměnná (vlastnost-faktor).

Existují lineární a nelineární regrese.
Lineární regrese: y = a + bx + ε
Nelineární regrese jsou rozděleny do dvou tříd: regrese, které jsou nelineární s ohledem na vysvětlující proměnné zahrnuté v analýze, ale lineární s ohledem na odhadované parametry, a regrese, které jsou nelineární s ohledem na odhadované parametry.
Regrese, které jsou ve vysvětlujících proměnných nelineární:

Regrese, které jsou nelineární s ohledem na odhadované parametry: Konstrukce regresní rovnice spočívá v odhadu jejích parametrů. K odhadu parametrů regresí lineárních v parametrech použijte metodu nejmenší čtverce(MNC). Metoda nejmenších čtverců umožňuje získat takové odhady parametrů, při kterých je součet čtverců odchylek skutečných hodnot výsledné charakteristiky y od teoretických minimální, tzn.
.
Pro lineární a nelineární rovnice redukovatelné na lineární řešte další systém ohledně a a b:

Můžete použít hotové vzorce, které vyplývají z tohoto systému:

Posuzuje se těsnost souvislosti mezi zkoumanými jevy lineární koeficient párová korelace pro lineární regresi:

a korelační index - pro nelineární regresi:

Kvalita sestrojeného modelu bude hodnocena koeficientem (indexem) determinace a také průměrnou chybou aproximace.
Průměrná chyba aproximace - průměrná odchylka vypočtených hodnot od skutečných:
.
Přípustný limit hodnot není větší než 8-10%.
Průměrný koeficient pružnosti ukazuje, o kolik procent se v průměru změní výsledek y od své průměrné hodnoty, když se faktor x změní o 1 % od své průměrné hodnoty:
.

Účelem analýzy rozptylu je analyzovat rozptyl závislé proměnné:
,
kde - Celková částkačtvercové odchylky;
- součet čtverců odchylek v důsledku regrese („vysvětlené“ nebo „faktoriální“);
- zbytkový součet kvadrátů odchylek.
Podíl rozptylu vysvětleného regresí na celkovém rozptylu výsledné charakteristiky y charakterizuje koeficient (index) determinace R2:

Koeficient determinace je druhou mocninou koeficientu nebo indexu korelace.

F-test - posouzení kvality regresní rovnice - spočívá v testování hypotézy č. o statistické nevýznamnosti regresní rovnice a indikátoru blízkosti vztahu. Za tímto účelem se provede srovnání mezi skutečným F faktem a kritickými (tabulkovými) hodnotami F tabulky Fisherova F-kritéria. F fact se určí z poměru hodnot faktoru a zbytkových rozptylů vypočtených na stupeň volnosti:
,
kde n je počet jednotek populace; m je počet parametrů pro proměnné x.
F tabulka je maximální možná hodnota kritéria pod vlivem náhodných faktorů na daných stupních volnosti a hladině významnosti a. Hladina významnosti a je pravděpodobnost zamítnutí správné hypotézy za předpokladu, že je pravdivá. Obvykle se a považuje za rovné 0,05 nebo 0,01.
Pokud F tabulka< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fakt, pak není hypotéza H o zamítnuta a je uznána statistická nevýznamnost a nespolehlivost regresní rovnice.
Pro sazbu statistická významnost Pro každý indikátor jsou vypočteny regresní a korelační koeficienty, Studentův t-test a intervaly spolehlivosti. Je předložena hypotéza o náhodné povaze indikátorů, tzn. o jejich nepatrném rozdílu od nuly. Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova t-testu se provádí porovnáním jejich hodnot s velikostí náhodné chyby:
; ; .
Náhodné chyby parametrů lineární regrese a korelačního koeficientu jsou určeny vzorcem:



Porovnáním skutečných a kritických (tabulkových) hodnot t-statistiky - t table a t fact - přijímáme nebo odmítáme hypotézu H o.
Vztah mezi Fisherovým F-testem a Studentovou t-statistikou je vyjádřen rovností

Pokud t tabulka< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t je fakt, že hypotéza H o není zamítnuta a je rozpoznána náhodná povaha vzniku a, b nebo.
Pro výpočet intervalu spolehlivosti určíme maximální chybu D pro každý indikátor:
, .
Vzorce pro výpočet intervalů spolehlivosti jsou následující:
; ;
; ;
Pokud nula spadá do intervalu spolehlivosti, tzn. Pokud je spodní mez záporná a horní mez kladná, pak se odhadovaný parametr považuje za nulový, protože nemůže současně nabývat kladných i záporných hodnot.
Předpovědní hodnota je určena dosazením odpovídající (předpovědní) hodnoty do regresní rovnice. Průměrná standardní chyba prognózy se vypočítá:
,
Kde
a staví se interval spolehlivosti předpověď:
; ;
Kde .

Příklad řešení

Úkol č. 1. Pro sedm území regionu Ural v roce 199X jsou známy hodnoty dvou charakteristik.
Stůl 1.
Požadované: 1. Chcete-li charakterizovat závislost y na x, vypočítejte parametry následujících funkcí:
a) lineární;
b) výkon (nejprve musíte provést postup linearizace proměnných logaritmováním obou částí);
c) demonstrativní;
d) rovnostranná hyperbola (musíte také přijít na to, jak tento model předlinearizovat).
2. Vyhodnoťte každý model průměrná chyba aproximace a Fisherův F-test.

Řešení (Možnost č. 1)

Pro výpočet parametrů aab lineární regrese (výpočet lze provést pomocí kalkulačky).
řešit soustavu normálních rovnic pro A A b:
Na základě počátečních údajů počítáme :
y X yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Celkový 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
St. význam (celkem/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regresní rovnice: y = 76,88 - 0,35X. Se zvýšením průměrné denní mzdy o 1 rub. podíl výdajů na nákup potravinářských výrobků klesá v průměru o 0,35 procentního bodu.
Vypočítejme lineární párový korelační koeficient:

Spojení je mírné, inverzní.
Pojďme určit koeficient determinace:

12,7% odchylka ve výsledku je vysvětlena odchylkou x faktoru. Dosazení skutečných hodnot do regresní rovnice X, určíme teoretické (vypočtené) hodnoty . Pojďme najít hodnotu průměrné aproximační chyby:

V průměru se vypočítané hodnoty odchylují od skutečných o 8,1 %.
Vypočítejme F-kritérium:

od 1< F < ¥ , je třeba zvážit F -1 .
Výsledná hodnota ukazuje na nutnost přijmout hypotézu Ale ouha náhodný charakter zjištěné závislosti a statistická nevýznamnost parametrů rovnice a indikátoru těsnosti souvislosti.
1b. Sestavení výkonového modelu předchází procedura linearizace proměnných. V tomto příkladu se linearizace provádí logaritmováním obou stran rovnice:


KdeY=lg(y), X=lg(x), C=lg(a).

Pro výpočty používáme data v tabulce. 1.3.

Tabulka 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Celkový 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Průměrná hodnota 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Vypočítejme C a b:


Dostaneme lineární rovnici: .
Po provedení jeho potenciace dostaneme:

Dosazení skutečných hodnot do této rovnice X, získáme teoretické hodnoty výsledku. Pomocí nich vypočteme ukazatele: těsnost spoje - korelační index a průměrnou aproximační chybu

Výkon modelu power-law naznačuje, že je o něco lepší lineární funkce popisuje vztah.

1c. Sestrojení rovnice exponenciální křivky

předchází postup pro linearizaci proměnných logaritmováním obou stran rovnice:

Pro výpočty používáme data z tabulky.

Y X Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Celkový 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
St. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Hodnoty regresních parametrů A a Včinil:


Výsledná lineární rovnice je: . Umocněme výslednou rovnici a zapišme ji v obvyklém tvaru:

Těsnost spojení vyhodnotíme pomocí korelačního indexu:

Během studia se studenti velmi často setkávají s nejrůznějšími rovnicemi. O jedné z nich – regresní rovnici – pojednává tento článek. Tento typ rovnic se používá specificky k popisu charakteristik vztahu mezi matematickými parametry. Tenhle typ rovnosti se používají ve statistice a ekonometrii.

Definice regrese

V matematice regrese znamená určitou veličinu, která popisuje závislost průměrné hodnoty souboru dat na hodnotách jiné veličiny. Regresní rovnice ukazuje jako funkci konkrétní charakteristiky průměrnou hodnotu jiné charakteristiky. Regresní funkce má tvar jednoduchá rovnice y = x, ve kterém y působí jako závislá proměnná a x jako nezávislá proměnná (faktor rysu). Ve skutečnosti je regrese vyjádřena jako y = f (x).

Jaké jsou typy vztahů mezi proměnnými?

Obecně existují dva protichůdné typy vztahů: korelace a regrese.

První je charakterizována rovností podmíněných proměnných. V tomto případě není spolehlivě známo, která proměnná závisí na druhé.

Pokud mezi proměnnými neexistuje rovnost a podmínky říkají, která proměnná je vysvětlující a která závislá, pak můžeme mluvit o přítomnosti spojení druhého typu. Aby bylo možné sestrojit lineární regresní rovnici, bude nutné zjistit, jaký typ vztahu je pozorován.

Typy regresí

Dnes existuje 7 různých typů regrese: hyperbolická, lineární, vícenásobná, nelineární, párová, inverzní, logaritmicky lineární.

Hyperbolické, lineární a logaritmické

Rovnice lineární regrese se používá ve statistice k jasnému vysvětlení parametrů rovnice. Vypadá to jako y = c+t*x+E. Hyperbolická rovnice má tvar pravidelné hyperboly y = c + m / x + E. Logaritmicky lineární rovnice vyjadřuje vztah pomocí logaritmické funkce: In y = In c + m * In x + In E.

Vícenásobné a nelineární

Ještě dva komplexní typy Regrese je vícenásobná a nelineární. Rovnice vícenásobná regrese je vyjádřena funkcí y = f(x 1, x 2 ...x c) + E. V této situaci se y chová jako závislá proměnná a x se chová jako vysvětlující proměnná. Proměnná E je stochastická, zahrnuje vliv dalších faktorů v rovnici. Nelineární rovnice regrese je trochu kontroverzní. Na jedné straně vzhledem k uvažovaným ukazatelům není lineární, ale na druhé straně v roli hodnotících ukazatelů je lineární.

Inverzní a párové typy regresí

Inverzní je typ funkce, na kterou je třeba převést lineární pohled. V nejtradičnějších aplikačních programech má tvar funkce y = 1/c + m*x+E. Rovnice párové regrese ukazuje vztah mezi daty jako funkci y = f (x) + E. Stejně jako v jiných rovnicích závisí y na x a E je stochastický parametr.

Pojem korelace

Jedná se o indikátor demonstrující existenci vztahu mezi dvěma jevy nebo procesy. Síla vztahu je vyjádřena jako korelační koeficient. Jeho hodnota se pohybuje v intervalu [-1;+1]. Negativní indikátor označuje dostupnost zpětná vazba, pozitivní - o přímce. Pokud má koeficient hodnotu rovnou 0, pak neexistuje žádný vztah. Jak bližší hodnotu směrem k 1 - čím silnější je spojení mezi parametry, čím blíže k 0 - tím je slabší.

Metody

Korelační parametrické metody mohou posoudit sílu vztahu. Používají se na základě odhadu rozdělení ke studiu parametrů, které se řídí zákonem normálního rozdělení.

Parametry lineární regresní rovnice jsou nezbytné pro identifikaci typu závislosti, funkce regresní rovnice a vyhodnocení ukazatelů zvoleného vztahového vzorce. Korelační pole se používá jako metoda identifikace spojení. K tomu musí být všechna existující data zobrazena graficky. Všechna známá data musí být vykreslena v pravoúhlém dvourozměrném souřadnicovém systému. Tak se tvoří korelační pole. Hodnoty popisujícího faktoru jsou vyznačeny podél osy úsečky, zatímco hodnoty závislého faktoru jsou vyznačeny podél osy pořadnice. Pokud mezi parametry existuje funkční vztah, jsou seřazeny ve formě čáry.

Pokud je korelační koeficient takových dat menší než 30 %, můžeme prakticky mluvit o úplná absence komunikace. Pokud je mezi 30% a 70%, znamená to přítomnost středně blízkých spojení. Indikátor 100 % je důkazem funkčního spojení.

Nelineární regresní rovnice, stejně jako lineární, musí být doplněna o korelační index (R).

Korelace pro vícenásobnou regresi

Koeficientem determinace je čtvercový exponent vícenásobná korelace. Hovoří o úzkém vztahu prezentovaného souboru ukazatelů se studovanou charakteristikou. Může také mluvit o povaze vlivu parametrů na výsledek. Pomocí tohoto indikátoru se odhaduje rovnice vícenásobné regrese.

Pro výpočet indikátoru vícenásobné korelace je nutné vypočítat jeho index.

Metoda nejmenších čtverců

Tato metoda je způsob, jak odhadnout regresní faktory. Jeho podstatou je minimalizace součtu kvadrátů odchylek získaných v důsledku závislosti faktoru na funkci.

Pomocí takové metody lze odhadnout rovnici párové lineární regrese. Tento typ rovnic se používá, když je mezi indikátory detekován párový lineární vztah.

Parametry rovnice

Každý parametr lineární regresní funkce má specifický význam. Rovnice párové lineární regrese obsahuje dva parametry: c a m. Parametr m demonstruje průměrnou změnu konečného ukazatele funkce y za předpokladu, že proměnná x klesá (roste) o jednu konvenční jednotku. Pokud je proměnná x nula, pak je funkce rovna parametru c. Pokud proměnná x není nula, pak faktor c nemá ekonomický význam. Jediný vliv na funkci má znaménko před faktorem c. Pokud existuje mínus, pak můžeme říci, že změna výsledku je ve srovnání s faktorem pomalá. Pokud existuje plus, znamená to zrychlenou změnu výsledku.

Každý parametr, který mění hodnotu regresní rovnice, lze vyjádřit pomocí rovnice. Například faktor c má tvar c = y - mx.

Seskupená data

Existují podmínky úlohy, ve kterých jsou všechny informace seskupeny podle atributu x, ale pro určitou skupinu jsou uvedeny odpovídající průměrné hodnoty závislého ukazatele. V tomto případě průměrné hodnoty charakterizují, jak se indikátor v závislosti na x změní. Seskupené informace tak pomáhají najít regresní rovnici. Používá se jako analýza vztahů. Tato metoda má však své nevýhody. Bohužel průměrné ukazatele často podléhají externím výkyvům. Tyto výkyvy neodrážejí vzorec vztahu, pouze maskují jeho „hluk“. Průměry ukazují vzorce vztahu mnohem horší než lineární regresní rovnice. Lze je však použít jako základ pro nalezení rovnice. Vynásobením počtu jednotlivé populace odpovídajícím průměrem lze získat součet y v rámci skupiny. Dále musíte sečíst všechny přijaté částky a najít konečný ukazatel y. Trochu obtížnější je provádět výpočty s ukazatelem součtu xy. Pokud jsou intervaly malé, můžeme podmíněně brát ukazatel x pro všechny jednotky (v rámci skupiny) za stejné. Měli byste jej vynásobit součtem y, abyste zjistili součet součinů x a y. Dále se všechna množství sečtou a získá se celkové množství xy.

Rovnice vícenásobné párové regrese: posouzení důležitosti vztahu

Jak bylo diskutováno dříve, vícenásobná regrese má funkci tvaru y = f (x 1,x 2,…,x m)+E. Nejčastěji se taková rovnice používá k řešení problému nabídky a poptávky po produktu, úrokového výnosu z odkoupených akcií a ke studiu příčin a typu funkce výrobních nákladů. Aktivně se také používá v celé řadě makroekonomických studií a výpočtů, ale na mikroekonomické úrovni se tato rovnice používá o něco méně často.

Hlavním úkolem vícenásobné regrese je sestavení modelu dat obsahujícího obrovské množství informací, aby bylo možné dále určit, jaký vliv má každý z faktorů jednotlivě i jako celek na ukazatel, který je třeba modelovat, a jeho koeficienty. Regresní rovnice může nabývat nejrůznějších hodnot. V tomto případě se pro posouzení vztahu obvykle používají dva typy funkcí: lineární a nelineární.

Lineární funkce je znázorněna ve tvaru následujícího vztahu: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. V tomto případě jsou a2, a m považovány za „čisté“ regresní koeficienty. Je nutné charakterizovat průměrnou změnu parametru y se změnou (snížením nebo zvýšením) v každém odpovídajícím parametru x o jednu jednotku, s podmínkou stabilních hodnot ostatních ukazatelů.

Nelineární rovnice mají např. tvar mocninné funkce y=ax 1 b1 x 2 b2 ...x m bm. Ukazatele b 1, b 2 ..... b m se v tomto případě nazývají koeficienty elasticity, ukazují, jak se výsledek změní (o kolik %) se zvýšením (poklesem) odpovídajícího ukazatele x o 1 % a se stabilním ukazatelem ostatních faktorů.

Jaké faktory je třeba vzít v úvahu při konstrukci vícenásobné regrese

Pro správné sestavení vícenásobné regrese je nutné zjistit, kterým faktorům je třeba věnovat zvláštní pozornost.

Je nutné mít určité pochopení pro povahu vztahů mezi ekonomickými faktory a tím, co se modeluje. Faktory, které bude nutné zahrnout, musí splňovat následující kritéria:

  • Musí být podrobeno kvantitativnímu měření. Aby bylo možné použít faktor, který popisuje kvalitu předmětu, měl by mít v každém případě kvantitativní formu.
  • Neměla by existovat žádná vzájemná korelace faktorů nebo funkční vztah. Takové akce nejčastěji vedou k nevratné následky- systém obyčejných rovnic se stává nepodmíněným, a to s sebou nese jeho nespolehlivost a nejasné odhady.
  • V případě obrovského korelačního indikátoru nelze nijak zjistit izolovaný vliv faktorů na konečný výsledek indikátoru, proto se koeficienty stávají neinterpretovatelnými.

Stavební metody

Existuje velké množství metody a techniky, které vysvětlují, jak lze faktory pro rovnici vybrat. Všechny tyto metody jsou však založeny na výběru koeficientů pomocí korelačního ukazatele. Mezi ně patří:

  • Metoda eliminace.
  • Způsob přepínání.
  • Postupná regresní analýza.

První metoda zahrnuje odfiltrování všech koeficientů z celkového souboru. Druhá metoda zahrnuje zavedení mnoha dalších faktorů. No a třetí je eliminace faktorů, které byly dříve použity pro rovnici. Každá z těchto metod má právo na existenci. Mají své klady a zápory, ale všechny mohou vyřešit otázku odstranění zbytečných ukazatelů po svém. Výsledky získané každou jednotlivou metodou jsou zpravidla velmi blízké.

Metody vícerozměrné analýzy

Takové metody pro stanovení faktorů jsou založeny na zvážení jednotlivých kombinací vzájemně souvisejících charakteristik. Patří mezi ně diskriminační analýza, rozpoznávání tvaru, analýza hlavních komponent a shluková analýza. Kromě toho existuje také faktorová analýza, ale ta se objevila díky vývoji komponentní metody. Všechny platí za určitých okolností a za určitých podmínek a faktorů.

V přítomnosti korelační spojení Mezi znakem faktoru a znakem výsledku musí lékaři často stanovit, o kolik se může změnit hodnota jednoho znaku, když se druhý změní na obecně uznávanou jednotku měření nebo na jednotku stanovenou samotným výzkumníkem.

Jak se například změní tělesná hmotnost školáků 1. stupně (dívek nebo chlapců), pokud jejich výška vzroste o 1 cm?Pro tyto účely se používá metoda regresní analýzy.

K vývoji normativních měřítek a standardů se nejčastěji používá metoda regresní analýzy fyzický vývoj.

  1. Definice regrese. Regrese je funkce, která umožňuje z průměrné hodnoty jedné charakteristiky určit průměrnou hodnotu jiné charakteristiky, která je v korelaci s první.

    K tomuto účelu slouží regresní koeficient a řada dalších parametrů. Můžete například vypočítat číslo nachlazení v průměru při určitých hodnotách průměrné měsíční teploty vzduchu v období podzim-zima.

  2. Stanovení regresního koeficientu. Regresní koeficient je absolutní hodnota, o kterou se v průměru změní hodnota jedné charakteristiky, když se jiná přidružená charakteristika změní o stanovenou jednotku měření.
  3. Vzorec regresního koeficientu. R y/x = r xy x (σ y / σ x)
    kde R у/х - regresní koeficient;
    r xy - korelační koeficient mezi charakteristikami x a y;
    (σ y a σ x) - směrodatné odchylky charakteristik x a y.

    V našem příkladu;
    σ x = 4,6 (směrodatná odchylka teploty vzduchu v období podzim-zima;
    σ y = 8,65 (směrodatná odchylka počtu infekčních a nachlazení).
    R y/x je tedy regresní koeficient.
    Ru/х = -0,96 x (4,6 / 8,65) = 1,8, tzn. Při poklesu průměrné měsíční teploty vzduchu (x) o 1 stupeň se průměrný počet infekčních a nachlazení (y) v období podzim-zima změní o 1,8 případu.

  4. Regresní rovnice. y = M y + R y/x (x - M x)
    kde y je průměrná hodnota charakteristiky, která by měla být určena, když se změní průměrná hodnota jiné charakteristiky (x);
    x je známá průměrná hodnota jiné charakteristiky;
    R y/x - regresní koeficient;
    M x, M y - známé průměrné hodnoty charakteristik x a y.

    Například průměrný počet infekčních a nachlazení (y) lze zjistit bez speciálních měření při libovolné průměrné hodnotě průměrné měsíční teploty vzduchu (x). Pokud tedy x = -9°, R y/x = 1,8 onemocnění, M x = -7°, M y = 20 onemocnění, pak y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 nemocí.
    Tato rovnice se aplikuje v případě lineárního vztahu mezi dvěma charakteristikami (x a y).

  5. Účel regresní rovnice. Regresní rovnice se používá ke konstrukci regresní přímky. Ten umožňuje bez speciálních měření určit jakoukoli průměrnou hodnotu (y) jedné charakteristiky, pokud se změní hodnota (x) jiné charakteristiky. Na základě těchto údajů je sestaven graf - regresní linie, pomocí kterého lze určit průměrný počet nachlazení při libovolné hodnotě průměrné měsíční teploty v rozmezí mezi vypočtenými hodnotami počtu nachlazení.
  6. Regresní Sigma (vzorec).
    kde σ Rу/х - sigma (směrodatná odchylka) regrese;
    σ y - směrodatná odchylka charakteristiky y;
    r xy - korelační koeficient mezi charakteristikami x a y.

    Takže, pokud σ y - směrodatná odchylka počtu nachlazení = 8,65; r xy - korelační koeficient mezi počtem nachlazení (y) a průměrnou měsíční teplotou vzduchu v období podzim-zima (x) je roven - 0,96, pak

  7. Regresní sigma zadání. Uvádí popis míry diverzity výsledné charakteristiky (y).

    Například charakterizuje rozmanitost počtu nachlazení při určité hodnotě průměrné měsíční teploty vzduchu v období podzim-zima. Průměrný počet nachlazení při teplotě vzduchu x 1 = -6° se tedy může pohybovat od 15,78 onemocnění do 20,62 onemocnění.
    Při x 2 = -9° se průměrný počet nachlazení může pohybovat od 21,18 onemocnění do 26,02 onemocnění atd.

    Regresní sigma se používá ke konstrukci regresní škály, která odráží odchylku hodnot výsledné charakteristiky od její průměrné hodnoty vynesené na regresní přímce.

  8. Data potřebná k výpočtu a vykreslení regresní stupnice
    • regresní koeficient - R у/х;
    • regresní rovnice - y = M y + R y/x (x-M x);
    • regresní sigma - σ Rx/y
  9. Posloupnost výpočtů a grafické znázornění regresní škály.
    • určete regresní koeficient pomocí vzorce (viz odstavec 3). Například je nutné určit, jak moc se tělesná hmotnost v průměru (v určitém věku v závislosti na pohlaví) změní, pokud průměrná výška se změní o 1 cm.
    • pomocí vzorce regresní rovnice (viz bod 4) určete, jaká bude například průměrná tělesná hmotnost (y, y 2, y 3 ...) * pro určitou hodnotu výšky (x, x 2, x 3 . ..) .
      ________________
      * Hodnota "y" by měla být vypočtena pro alespoň tři známé hodnoty "x".

      Současně jsou známy průměrné hodnoty tělesné hmotnosti a výšky (M x a M y) pro určitý věk a pohlaví.

    • vypočítat regresní sigma se znalostí odpovídajících hodnot σ y a r xy a dosazením jejich hodnot do vzorce (viz odstavec 6).
    • na základě známých hodnot x 1, x 2, x 3 a odpovídajících průměrných hodnot y 1, y 2 y 3, stejně jako nejmenší (y - σ rу/х) a největší (y + σ rу /х) hodnoty ​​(y) sestrojí regresní stupnici.

      Pro grafické znázornění regresní škály se na grafu nejprve vyznačí hodnoty x, x2, x3 (ordinátní osa), tzn. sestrojí se regresní přímka, např. závislost tělesné hmotnosti (y) na výšce (x).

      Poté jsou v odpovídajících bodech označeny y 1, y 2, y 3 číselné hodnoty regresní sigma, tzn. najděte na grafu nejmenší a nejvyšší hodnotu y 1, y 2, y 3.

  10. Praktické využití regresní škály. Vyvíjejí se normativní stupnice a standardy, zejména pro tělesný rozvoj. Pomocí standardní stupnice můžete individuálně posoudit vývoj dětí. Fyzický vývoj je v tomto případě hodnocen jako harmonický, pokud je například tělesná hmotnost dítěte v určité výšce v rozmezí jedné sigmy regrese k průměrné vypočtené jednotce tělesné hmotnosti - (y) pro danou výšku (x) ( y ± 1 σ Ry/x).

    Fyzický vývoj je považován za disharmonický z hlediska tělesné hmotnosti, pokud je tělesná hmotnost dítěte pro určitou výšku v rámci druhé sigmy regrese: (y ± 2 σ Ry/x)

    Tělesný vývoj bude ostře disharmonický v důsledku jak nadměrné, tak nedostatečné tělesné hmotnosti, pokud tělesná hmotnost pro určitou výšku bude v rámci třetí sigma regrese (y ± 3 σ Ry/x).

Podle výsledků statistický výzkum fyzického vývoje 5letých chlapců, je známo, že jejich průměrná výška (x) je 109 cm a průměrná tělesná hmotnost (y) je 19 kg. Korelační koeficient mezi výškou a tělesnou hmotností je +0,9, standardní odchylky jsou uvedeny v tabulce.

Požadované:

  • vypočítat regresní koeficient;
  • pomocí regresní rovnice určete, jaká bude očekávaná tělesná hmotnost 5letých chlapců s výškou rovnou x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • vypočítat regresní sigma, sestrojit regresní stupnici a graficky prezentovat výsledky jejího řešení;
  • vyvodit patřičné závěry.

Podmínky problému a výsledky jeho řešení jsou uvedeny v souhrnné tabulce.

stůl 1

Podmínky problému Výsledky řešení problému
regresní rovnice regresní sigma regresní škála (očekávaná tělesná hmotnost (v kg))
M σ r xy R y/x X U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
výška (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tělesná hmotnost (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Řešení.

Závěr. Regresní škála v rámci vypočtených hodnot tělesné hmotnosti vám tedy umožňuje určit ji při jakékoli jiné hodnotě výšky nebo odhadu individuální rozvoj dítě. Chcete-li to provést, obnovte kolmici k regresní přímce.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Veřejné zdraví a zdravotnictví. Učebnice pro vysoké školy. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medik V.A., Yuryev V.K. Průběh přednášek o veřejném zdraví a zdravotnictví: 1. část. Veřejné zdraví. - M.: Medicína, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. a další Organizace sociálního lékařství a zdravotnictví (Manuál ve 2 svazcích). - Petrohrad, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. a další Organizace sociální hygieny a zdravotní péče ( Tutorial) - Moskva, 2000. - 432 s.
  6. S. Glanz. Lékařská a biologická statistika. Překlad z angličtiny - M., Praktika, 1998. - 459 s.

Regresní analýza je základem tvorby většiny ekonometrických modelů, které zahrnují modely odhadu nákladů. Pro sestavení oceňovacích modelů lze tuto metodu použít, pokud počet analogů (srovnatelných objektů) a počet nákladových faktorů (srovnávacích prvků) spolu souvisí následovně: P> (5-g-10) x Na, těch. mělo by existovat 5-10krát více analogů než nákladových faktorů. Stejný požadavek na poměr množství dat a počtu faktorů platí pro další úkoly: vytvoření spojení mezi nákladovými a spotřebitelskými parametry objektu; zdůvodnění postupu při výpočtu opravných indexů; identifikace cenových trendů; stanovení souvislosti mezi opotřebením a změnami ovlivňujících faktorů; získání závislostí pro výpočet nákladových norem atd. Splnění tohoto požadavku je nezbytné, aby se snížila pravděpodobnost práce se vzorkem dat, který nesplňuje požadavek normálního rozdělení náhodných veličin.

Regresní vztah odráží pouze průměrný trend změn výsledné proměnné, například nákladů, od změn jedné nebo více faktorových proměnných, například umístění, počtu pokojů, plochy, podlahy atd. To je rozdíl mezi regresním vztahem a funkčním, ve kterém je hodnota výsledné proměnné striktně definována pro danou hodnotu faktorových proměnných.

Přítomnost regresního vztahu / mezi výsledným na a faktorové proměnné x str ..., x k(faktory) naznačuje, že tento vztah je určen nejen vlivem vybraných faktorových proměnných, ale také vlivem proměnných, z nichž některé jsou obecně neznámé, jiné nelze posoudit a vzít v úvahu:

Vliv nezapočítaných proměnných je indikován druhým členem této rovnice ?, což se nazývá chyba aproximace.

Rozlišují se následující typy regresních závislostí:

  • ? párová regrese - vztah mezi dvěma proměnnými (výsledkem a faktorem);
  • ? vícenásobná regrese – vztah mezi jednou výslednou proměnnou a dvěma nebo více faktorovými proměnnými zahrnutými do studie.

Hlavním úkolem regresní analýzy je kvantifikace blízkost vztahu mezi proměnnými (v párové regresi) a více proměnnými (ve vícenásobné regresi). Těsnost souvislosti je kvantitativně vyjádřena korelačním koeficientem.

Použití regresní analýzy umožňuje stanovit vzorec vlivu hlavních faktorů (hédonických charakteristik) na sledovaný ukazatel, a to jak v jejich celku, tak pro každý z nich zvlášť. Využití regresní analýzy jako metody matematické statistiky je možné za prvé najít a popsat podobu analytické závislosti výsledné (hledané) proměnné na faktorových a za druhé posoudit blízkost této závislosti.

Řešením prvního problému se získá matematický regresní model, s jehož pomocí se následně vypočítá požadovaný ukazatel pro dané hodnoty faktorů. Řešení druhého problému nám umožňuje stanovit spolehlivost vypočteného výsledku.

Regresní analýzu lze tedy definovat jako soubor formálních (matematických) postupů určených k měření blízkosti, směru a analytického vyjádření formy vztahu mezi výslednými a faktorovými proměnnými, tzn. výstupem takové analýzy by měl být strukturálně a kvantitativně definovaný statistický model ve tvaru:

Kde y - průměrná hodnota výsledné proměnné (požadovaný ukazatel, např. náklady, nájemné, míra kapitalizace) tím P její pozorování; x - hodnota proměnné faktoru (/tý nákladový faktor); Komu - počet faktorových proměnných.

Funkce f(x l ,...,x lc), popisující závislost výsledné proměnné na faktorech faktoru se nazývá regresní rovnice (funkce). Pojem „regrese“ (regrese (latinsky) - ústup, návrat k něčemu) je spojen se specifiky jednoho ze specifických problémů řešených ve fázi tvorby metody a v současné době neodráží celou podstatu metody, ale nadále se používá.

Regresní analýza v obecný případ zahrnuje následující kroky:

  • ? vytvoření vzorku homogenních objektů a sběr počátečních informací o těchto objektech;
  • ? výběr hlavních faktorů ovlivňujících výslednou proměnnou;
  • ? kontrola normality vzorku pomocí X 2 nebo binomický test;
  • ? přijetí hypotézy o formě komunikace;
  • ? matematické zpracování data;
  • ? získání regresního modelu;
  • ? hodnocení jeho statistických ukazatelů;
  • ? ověřovací výpočty pomocí regresního modelu;
  • ? analýza výsledků.

Zadaná posloupnost operací se odehrává při studiu jak párového vztahu mezi faktorovou proměnnou a jednou výslednou proměnnou, tak vícenásobného vztahu mezi výslednou proměnnou a několika faktoriálovými.

Použití regresní analýzy klade určité požadavky na počáteční informace:

  • ? statistický vzorek objektů musí být funkčně i konstrukčně-technologický homogenní;
  • ? dosti četné;
  • ? zkoumaný nákladový ukazatel - výsledná proměnná (cena, náklady, výdaje) - musí být pro jeho výpočet uveden do stejných podmínek pro všechny objekty ve vzorku;
  • ? faktorové proměnné musí být měřeny dostatečně přesně;
  • ? faktorové proměnné musí být nezávislé nebo minimálně závislé.

Požadavky na homogenitu a úplnost vzorku jsou v rozporu: čím přísnější je výběr objektů na základě jejich homogenity, tím menší vzorek získáme, a naopak pro zvětšení vzorku je nutné zařadit objekty, které nejsou příliš podobné navzájem.

Poté, co byla shromážděna data o skupině homogenních objektů, jsou tyto analyzovány, aby se stanovila forma spojení mezi výslednými a faktorovými proměnnými ve formě teoretické regresní přímky. Proces hledání teoretické regresní přímky spočívá v rozumné volbě aproximační křivky a výpočtu koeficientů její rovnice. Regresní přímka je hladká křivka (v konkrétním případě přímka), která popisuje pomocí matematické funkce obecný trend studovaná závislost a vyhlazení nepravidelných, náhodných emisí vlivem vedlejších faktorů.

Pro zobrazení párových regresních závislostí v hodnotících úlohách se nejčastěji používají tyto funkce: lineární - y - 0 + ars + s Napájení - y - aj&i + s orientační - y - lineární exponenciála - y - a 0 + ap* + c. Tady - E chyba aproximace způsobená působením nezapočítaných náhodných faktorů.

V těchto funkcích je y výsledná proměnná; x - proměnná faktoru (faktor); A 0 , a r a 2 - parametry regresního modelu, regresní koeficienty.

Lineární exponenciální model patří do třídy tzv. hybridních modelů tvaru:

Kde

kde x (i = 1, /) - hodnoty faktorů;

b t (i = 0, /) - koeficienty regresní rovnice.

V této rovnici komponenty A, B A Z odpovídají ceně jednotlivých složek oceňovaného majetku, např. ceně pozemku a nákladům na zhodnocení, a parametru Q je běžné. Je navržen tak, aby upravil hodnotu všech složek oceňovaného aktiva o společný ovlivňující faktor, jako je umístění.

Hodnoty faktorů, které jsou v moci odpovídajících koeficientů, jsou binární proměnné (0 nebo 1). Faktory na základně stupně jsou diskrétní nebo spojité proměnné.

Faktory spojené s multiplikačními koeficienty jsou také spojité nebo diskrétní.

Specifikace se zpravidla provádí pomocí empirického přístupu a zahrnuje dvě fáze:

  • ? vynesení bodů regresního pole do grafu;
  • ? grafická (vizuální) analýza typu možné aproximující křivky.

Typ regresní křivky nelze vždy zvolit okamžitě. Chcete-li jej určit, nejprve vyneste body regresního pole na základě původních dat. Poté vizuálně nakreslete čáru podél polohy bodů a snažte se zjistit kvalitativní vzorec spojení: rovnoměrný růst nebo rovnoměrný pokles, růst (pokles) se zvýšením (poklesem) dynamiky, hladký přístup k určitému úroveň.

Tento empirický přístup je doplněn logickou analýzou, vycházející z již známých představ o ekonomické a fyzikální podstatě zkoumaných faktorů a jejich vzájemném ovlivňování.

Například je známo, že závislosti výsledných proměnných jsou ekonomické ukazatele(ceny, nájmy) z řady faktorových proměnných - cenotvorné faktory (vzdálenost od centra sídla, oblast atd.) mají nelineární charakter a lze je poměrně striktně popsat mocenskou, exponenciální popř. kvadratické funkce. Ale pro malé rozsahy změn faktorů lze pomocí lineární funkce získat přijatelné výsledky.

Pokud však stále není možné okamžitě s jistotou vybrat jednu funkci, vyberou se dvě nebo tři funkce, vypočtou se jejich parametry a poté se pomocí vhodných kritérií pro blízkost spojení funkce nakonec vybraný.

Teoreticky se nazývá regresní proces hledání tvaru křivky Specifikace model a jeho koeficienty - kalibrace modely.

Pokud se zjistí, že výsledná proměnná y závisí na několika faktorových proměnných (faktorech) x ( , x 2 , ..., x k, pak se uchýlí k vytvoření vícenásobného regresního modelu. Obvykle se používají tři formy vícenásobné komunikace: lineární - y - a 0 + a x x x + a^x 2 + ... + a k x k, orientační - y - a 0 a*i a x t - a x b, Napájení - y - a 0 x x ix 2 a 2. .x^nebo jejich kombinace.

Exponenciální a mocninné funkce jsou univerzálnější, protože aproximují nelineární vztahy, což je většina těch, které jsou studovány při posuzování závislostí. Kromě toho je lze použít při posuzování objektů a v metodě statistického modelování při hromadném hodnocení a v metodě přímého srovnání při individuálním hodnocení při stanovování korekčních faktorů.

Ve fázi kalibrace jsou parametry regresního modelu vypočteny metodou nejmenších čtverců, jejíž podstatou je, že součet čtverců odchylek vypočtených hodnot výsledné proměnné na., tj. vypočítané pomocí vybrané spojovací rovnice, ze skutečných hodnot by měly být minimální:

Hodnoty j) (. a u jsou tedy známé Q je funkcí pouze koeficientů rovnice. Chcete-li najít minimum S musíte vzít parciální derivace Q koeficienty rovnice a srovnejte je s nulou:

Ve výsledku získáme soustavu normálních rovnic, jejichž počet se rovná počtu určených koeficientů požadované regresní rovnice.

Předpokládejme, že potřebujeme najít koeficienty lineární rovnice y - a 0 + ars. Součet čtverců odchylek má tvar:

/=1

Diferencujte funkci Q neznámými koeficienty 0 a srovnejte parciální deriváty s nulou:

Po transformacích dostaneme:

Kde P - počet původních skutečných hodnot na(počet analogů).

Uvedený postup výpočtu koeficientů regresní rovnice je použitelný i pro nelineární závislosti, pokud lze tyto závislosti linearizovat, tzn. vést k lineární formě pomocí změny proměnných. Mocninné a exponenciální funkce po logaritmu a příslušné změně proměnných nabývají lineárního tvaru. Například mocninná funkce po logaritmu má tvar: In y = 1p 0 +a x 1ph. Po nahrazení proměnných Y- v y, L 0 - v a č. X- V x dostaneme lineární funkci

Y=A 0 + cijX, jejichž koeficienty se zjišťují výše popsaným způsobem.

Metoda nejmenších čtverců se také používá k výpočtu koeficientů vícenásobného regresního modelu. Tedy soustava normálních rovnic pro výpočet lineární funkce se dvěma proměnnými Xj A x 2 po sérii transformací to vypadá takto:

Obvykle tento systém rovnice jsou řešeny pomocí metod lineární algebry. Množný výkonová funkce vést k lineární formě logaritmováním a změnou proměnných stejným způsobem jako párová mocninná funkce.

Při použití hybridních modelů se pomocí numerických postupů metody postupných aproximací zjišťují vícenásobné regresní koeficienty.

Pro konečný výběr z několika regresních rovnic je nutné otestovat každou rovnici na sílu vztahu, která se měří korelačním koeficientem, rozptylem a variačním koeficientem. K hodnocení lze využít i studentský a Fisherův test. Čím větší je blízkost spojení křivka, tím je výhodnější, když jsou všechny ostatní věci stejné.

Pokud se řeší problém této třídy, kdy je nutné stanovit závislost nákladového ukazatele na nákladových faktorech, pak je pochopitelná snaha vzít v úvahu co nejvíce ovlivňujících faktorů a vytvořit tak přesnější vícenásobný regresní model. . Rozšiřování počtu faktorů však brání dvě objektivní omezení. Za prvé, k sestavení vícenásobného regresního modelu je zapotřebí mnohem většího vzorku objektů než k vytvoření párového modelu. Obecně se uznává, že počet objektů ve vzorku by měl převyšovat počet P faktory alespoň 5-10krát. Z toho vyplývá, že pro sestavení modelu se třemi ovlivňujícími faktory je nutné shromáždit vzorek přibližně 20 objektů s různou sadou hodnot faktorů. Za druhé, faktory zvolené pro model při jejich vlivu na nákladový ukazatel musí být na sobě dostatečně nezávislé. To není snadné zajistit, protože vzorek obvykle kombinuje objekty patřící do stejné rodiny, u kterých dochází k přirozené změně mnoha faktorů od objektu k objektu.

Kvalita regresních modelů se obvykle kontroluje pomocí následujících statistických ukazatelů.

Směrodatná odchylka chyby regresní rovnice (chyba odhadu):

Kde P - velikost vzorku (počet analogů);

Komu - počet faktorů (nákladových faktorů);

Chyba, nevysvětleno regresní rovnice(obr. 3.2);

u - skutečná hodnota výsledné proměnné (například náklady); y t - vypočítaná hodnota výsledné proměnné.

Tento indikátor se také nazývá standardní chyba odhadu (chyba RMS). Na obrázku tečky označují konkrétní hodnoty vzorku, symbol čáru průměrných hodnot vzorku a šikmá čárkovaná čára je regresní čára.


Rýže. 3.2.

Standardní odchylka chyby odhadu měří velikost odchylky skutečných hodnot y od odpovídajících vypočtených hodnot na( , získané pomocí regresního modelu. Pokud vzorek, na kterém je model založen, podléhá zákonu normálního rozdělení, pak lze tvrdit, že 68 % skutečných hodnot na jsou v dosahu na ± &E od regresní přímky a 95 % je v rozmezí na ± 2d e. Tento indikátor je vhodný, protože jednotky měření sg? odpovídat měrným jednotkám na,. V tomto ohledu jej lze použít k označení přesnosti výsledku získaného v procesu hodnocení. Například v certifikátu hodnoty můžete uvést, že tržní hodnota získaná pomocí regresního modelu PROTI s 95% pravděpodobností bude v rozmezí od (V -2d,.) před (y + 2d s).

Variační koeficient výsledné proměnné:

Kde y - průměrná hodnota výsledné proměnné (obr. 3.2).

V regresní analýze je variační koeficient var standardní odchylka výsledek, vyjádřený jako procento průměrné hodnoty výsledné proměnné. Variační koeficient může sloužit jako kritérium pro prediktivní vlastnosti výsledného regresního modelu: čím menší je hodnota var, tím vyšší jsou prediktivní vlastnosti modelu. Použití variačního koeficientu je vhodnější než ukazatel &e, protože se jedná o relativní ukazatel. Při praktickém použití tohoto ukazatele lze doporučit nepoužívat model, jehož variační koeficient přesahuje 33 %, neboť v tomto případě nelze říci, že by výběrová data podléhala zákonu normálního rozdělení.

Koeficient determinace (koeficient mnohonásobné druhé korelace):

Tento ukazatel se používá k analýze celkové kvality výsledného regresního modelu. Udává, jaké procento rozptylu ve výsledné proměnné je vysvětleno vlivem všech faktorových proměnných zahrnutých v modelu. Koeficient determinace leží vždy v rozmezí od nuly do jedné. Čím blíže je hodnota koeficientu determinace jednotce, tím lepší model popisuje původní datovou řadu. Koeficient determinace může být reprezentován různě:

Zde je chyba vysvětlená regresním modelem,

A - chyba, nevysvětleno

regresní model. Z ekonomického hlediska nám toto kritérium umožňuje posoudit, jaké procento cenových změn je vysvětleno regresní rovnicí.

Přesná hranice přijatelnosti indikátoru R 2 Není možné specifikovat pro všechny případy. Je třeba vzít v úvahu jak velikost vzorku, tak smysluplnou interpretaci rovnice. Zpravidla při studiu dat o objektech stejného typu získaných přibližně ve stejném časovém okamžiku je hodnota R 2 nepřesahuje úroveň 0,6-0,7. Pokud jsou všechny chyby prognózy nulové, tzn. když je vztah mezi výslednými a faktorovými proměnnými funkční, pak R 2 =1.

Upravený koeficient determinace:

Potřeba zavedení upraveného koeficientu determinace se vysvětluje tím, že s nárůstem počtu faktorů Na obvyklý koeficient determinace téměř vždy roste, ale počet stupňů volnosti klesá (p-k- 1). Zadaná úprava vždy snižuje hodnotu R2, protože (P - 1) > (p-k- 1). V důsledku toho hodnota R 2 CKOf) může být dokonce negativní. To znamená, že hodnota R 2 byla před úpravou blízká nule a podíl rozptylu proměnné byl vysvětlen pomocí regresní rovnice na velmi malé.

Ze dvou možností pro regresní modely, které se liší hodnotou upraveného koeficientu determinace, ale mají stejně dobrá ostatní kritéria kvality, je výhodnější varianta s vyšší hodnotou upraveného koeficientu determinace. Koeficient determinace se neupravuje, pokud (p - k): k> 20.

Fisherův koeficient:

Toto kritérium se používá k posouzení významnosti koeficientu determinace. Zbytkový součet čtverců představuje míru chyby predikce pomocí regrese známých hodnot nákladů u. Její porovnání s regresním součtem čtverců ukazuje, kolikrát regresní závislost predikuje výsledek lépe než průměr na. Existuje tabulka kritických hodnot F R Fisherův koeficient v závislosti na počtu stupňů volnosti čitatele - Komu, jmenovatel v 2 = p - k- 1 a hladina významnosti a. Pokud je vypočtená hodnota Fisherova testu F R více tabulková hodnota, dále hypotéza o nevýznamnosti koeficientu determinace, tzn. o nesouladu mezi souvislostmi vloženými do regresní rovnice a těmi, které skutečně existují, s pravděpodobností p = 1 - a je zamítnuto.

Chyba průměrné aproximace(průměrná procentuální odchylka) se vypočítá jako průměrný relativní rozdíl, vyjádřený v procentech, mezi skutečnými a vypočtenými hodnotami výsledné proměnné:

Jak menší hodnotu tohoto ukazatele, tím lepší jsou prediktivní vlastnosti modelu. Pokud tento indikátor není vyšší než 7 %, model je vysoce přesný. Li 8 > 15 % znamená neuspokojivou přesnost modelu.

Směrodatná chyba regresního koeficientu:

kde (/I) -1 .- diagonální prvek matice (X G X)~ 1 k - počet faktorů;

X- matice hodnot faktorových proměnných:

X 7 - transponovaná matice hodnot faktorových proměnných;

(ZhL) _| - matice inverzní k matici.

Čím menší jsou tyto ukazatele pro každý regresní koeficient, tím spolehlivější je odhad odpovídajícího regresního koeficientu.

Studentský test (t-statistika):

Toto kritérium umožňuje měřit míru spolehlivosti (významnosti) vztahu určeného daným regresním koeficientem. Pokud je vypočtená hodnota t. větší než tabulková hodnota

t av, kde v - p - k - 1 je počet stupňů volnosti, pak je hypotéza, že tento koeficient je statisticky nevýznamný, zamítnuta s pravděpodobností (100 - a)%. Existují speciální tabulky /-rozdělení, které umožňují na základě dané hladiny významnosti a a počtu stupňů volnosti v určit kritická hodnota kritérium. Nejčastěji používaná hodnota pro a je 5 %.

Multikolinearita, tj. působení vzájemných vztahů mezi faktorovými proměnnými vede k nutnosti spokojit se s jejich omezeným počtem. Pokud se to nebere v úvahu, můžete skončit s nelogickým regresním modelem. Aby se předešlo negativnímu efektu multikolinearity, před vytvořením vícenásobného regresního modelu se vypočítají párové korelační koeficienty. r xjxj mezi vybranými proměnnými X. A X

Tady XjX; - průměrná hodnota součinu dvou faktorových proměnných;

XjXj- součin průměrných hodnot dvou faktorových proměnných;

Odhad rozptylu faktorové proměnné x..

Má se za to, že dvě proměnné jsou vzájemně regresní (tj. kolineární), pokud je jejich párový korelační koeficient v absolutní hodnotě přísně větší než 0,8. V tomto případě musí být kterákoli z těchto proměnných vyloučena z úvahy.

Za účelem rozšíření možností ekonomické analýzy výsledných regresních modelů, průměr koeficienty pružnosti, určeno vzorcem:

Kde Xj- průměrná hodnota odpovídající faktorové proměnné;

y - průměrná hodnota výsledné proměnné; a já - regresní koeficient pro odpovídající faktorovou proměnnou.

Koeficient elasticity ukazuje, o jaké procento se v průměru změní hodnota výsledné proměnné, když se faktorová proměnná změní o 1 %, tzn. jak výsledná proměnná reaguje na změny proměnné faktoru. Jak například reaguje cena m2? m plochy bytu ve vzdálenosti od centra města.

Z hlediska analýzy významnosti konkrétního regresního koeficientu je užitečné odhadovat dílčí koeficient determinace:

Zde je odhad rozptylu výsledku

variabilní. Tento koeficient ukazuje, o kolik procent je variace ve výsledné proměnné vysvětlena variací proměnné i-tého faktoru zahrnuté v regresní rovnici.

  • Hédonické vlastnosti jsou chápány jako vlastnosti předmětu, které odrážejí jeho užitné (hodnotné) vlastnosti z pohledu kupujících a prodávajících.


Novinka na webu

>

Nejoblíbenější