Domov Dásně Jaké jsou požadavky na model regresní analýzy. Metody matematické statistiky

Jaké jsou požadavky na model regresní analýzy. Metody matematické statistiky

ZÁVĚR VÝSLEDKŮ

Tabulka 8.3a. Regresní statistika
Regresní statistika
Množné číslo R 0,998364
R-čtverec 0,99673
Normalizovaná R-kvadrát 0,996321
Standardní chyba 0,42405
Pozorování 10

Nejprve uvažujme nejlepší část výpočty uvedené v tabulce 8.3a - regresní statistika.

Hodnota R-kvadrát, nazývaná také míra jistoty, charakterizuje kvalitu výsledné regresní přímky. Tato kvalita je vyjádřena mírou korespondence mezi zdrojovými daty a regresním modelem (vypočítaná data). Míra jistoty je vždy v rámci intervalu.

Ve většině případů spadá hodnota R-squared mezi tyto hodnoty, nazývané extrémní hodnoty, tzn. mezi nulou a jedničkou.

Pokud se hodnota R-squared blíží jedné, znamená to, že sestrojený model vysvětluje téměř veškerou variabilitu příslušných proměnných. Naopak hodnota R-squared blízko nule znamená, že kvalita vytvořeného modelu je špatná.

V našem příkladu je míra jistoty 0,99673, což indikuje velmi dobrou shodu regresní přímky s původními daty.

Množné číslo R- vícenásobný korelační koeficient R - vyjadřuje míru závislosti nezávisle proměnných (X) a závislé proměnné (Y).

Násobek R se rovná odmocnina z koeficientu determinace tato veličina nabývá hodnot v rozsahu od nuly do jedné.

V jednoduché lineární regresní analýze se násobek R rovná Pearsonově korelačnímu koeficientu. Skutečně, násobek R je v našem případě roven Pearsonovu korelačnímu koeficientu z předchozího příkladu (0,998364).

Tabulka 8.3b. Regresní koeficienty
Kurzy Standardní chyba t-statistika
Y-křižovatka 2,694545455 0,33176878 8,121757129
Proměnná X1 2,305454545 0,04668634 49,38177965
* K dispozici je zkrácená verze výpočtů

Nyní zvažte střední část výpočtů, která je uvedena v tabulce 8.3b. Zde je uveden regresní koeficient b (2,305454545) a posunutí podél svislé osy, tzn. konstanta a (2,694545455).

Na základě výpočtů můžeme napsat regresní rovnici takto:

Y= x*2,305454545 + 2,694545455

Směr vztahu mezi proměnnými je určen na základě znamének (negativní nebo pozitivní) regresní koeficienty(koeficient b).

Pokud je podepsat na regresní koeficient- pozitivní, vztah mezi závisle proměnnou a nezávisle proměnnou bude kladný. V našem případě je znaménko regresního koeficientu kladné, tedy i vztah kladný.

Pokud je podepsat na regresní koeficient- negativní, vztah mezi závisle proměnnou a nezávisle proměnnou je negativní (inverzní).

V tabulce 8.3c. Jsou uvedeny výsledky odvození reziduí. Aby se tyto výsledky objevily ve zprávě, musíte při spuštění nástroje „Regrese“ aktivovat zaškrtávací políčko „Residuals“.

ODBĚR ZBYTKU

Tabulka 8.3c. Zbytky
Pozorování Předpokládaný Y Zbytky Standardní zůstatky
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomocí této části zprávy můžeme vidět odchylky každého bodu od sestrojené regresní přímky. Největší absolutní hodnota

Účelem regresní analýzy je změřit vztah mezi závislou proměnnou a jednou (párová regresní analýza) nebo více (vícenásobnými) nezávislými proměnnými. Nezávislé proměnné se také nazývají faktorové, vysvětlující, determinantní, regresorové a prediktorové proměnné.

Závislá proměnná se někdy nazývá určená, vysvětlená nebo proměnná „odpovědi“. Extrémně rozšířené použití regresní analýzy v empirických výzkumech není způsobeno pouze tím, že jde o vhodný nástroj pro testování hypotéz. Regrese, zejména vícenásobná regrese, je účinná metoda modelování a prognózování.

Principy práce s regresní analýzou začněme vysvětlovat jednodušší – párovou metodou.

Párová regresní analýza

První kroky při použití regresní analýzy budou téměř totožné s těmi, které jsme podnikli při výpočtu korelačního koeficientu. Tři hlavní podmínky účinnosti korelační analýza podle Pearsonovy metody - normální rozdělení proměnných, intervalové měření proměnných, lineární vztah mezi proměnnými - jsou relevantní i pro vícenásobnou regresi. Podle toho se v první fázi sestrojí bodové grafy, provede se statistická a popisná analýza proměnných a vypočítá se regresní přímka. Stejně jako v rámci korelační analýzy jsou pomocí metody konstruovány regresní linie nejmenší čtverce.

Abychom jasněji ilustrovali rozdíly mezi dvěma metodami analýzy dat, vraťme se k již probíranému příkladu s proměnnými „podpora SPS“ a „podíl venkovské populace“. Zdrojová data jsou totožná. Rozdíl v bodových grafech bude v tom, že při regresní analýze je správné vynést závislou proměnnou – v našem případě „podporu SPS“ na ose Y, zatímco u korelační analýzy to nevadí. Po vyčištění odlehlých hodnot vypadá bodový graf takto:

Základní myšlenkou regresní analýzy je mít obecný trend pro proměnné - ve formě regresní přímky - můžete předpovědět hodnotu závislé proměnné vzhledem k hodnotám nezávislé.

Představme si obvyklou matematickou lineární funkce. Jakákoli přímka v euklidovském prostoru může být popsána vzorcem:

kde a je konstanta, která udává posunutí podél svislé osy; b je koeficient, který určuje úhel sklonu přímky.

Znáte-li sklon a konstantu, můžete vypočítat (předpovědět) hodnotu y pro libovolné x.

Tento nejjednodušší funkce a vytvořili základ pro model regresní analýzy s výhradou, že nebudeme předpovídat hodnotu y přesně, ale v rámci určité interval spolehlivosti, tj. přibližně.

Konstanta je průsečík regresní přímky a osy y (průsečík F, ve statistických souborech obvykle označovaný jako „interceptor“). V našem příkladu s hlasováním pro Unii pravých sil bude její zaokrouhlená hodnota 10,55. Úhlový koeficient b bude přibližně -0,1 (stejně jako v korelační analýze znaménko ukazuje typ připojení - přímé nebo inverzní). Výsledný model tedy bude mít tvar SP C = -0,1 x Sel. nás. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Rozdíl mezi původní a predikovanou hodnotou se nazývá zbytek (s tímto pojmem, který je pro statistiku zásadní, jsme se již setkali při analýze kontingenčních tabulek). Takže pro případ „Adygejské republiky“ bude zbytek roven 3,92 - 5,63 = -1,71. Čím větší je modulární hodnota zbytku, tím méně úspěšná je predikovaná hodnota.

Vypočítáme předpokládané hodnoty a rezidua pro všechny případy:
Happening Sedl si. nás. díky

(originál)

díky

(předpovězeno)

Zbytky
Adygejská republika 47 3,92 5,63 -1,71 -
Altajská republika 76 5,4 2,59 2,81
Republika Baškortostán 36 6,04 6,78 -0,74
Burjatská republika 41 8,36 6,25 2,11
Dagestánská republika 59 1,22 4,37 -3,15
Ingušská republika 59 0,38 4,37 3,99
Atd.

Analýza poměru počáteční a predikované hodnoty slouží k posouzení kvality výsledného modelu a jeho prediktivní schopnosti. Jedním z hlavních ukazatelů regresní statistiky je vícenásobný korelační koeficient R - korelační koeficient mezi původními a predikovanými hodnotami závislé proměnné. V párové regresní analýze se rovná obvyklému Pearsonovu korelačnímu koeficientu mezi závislými a nezávislými proměnnými, v našem případě - 0,63. Aby bylo možné násobek R smysluplně interpretovat, musí být převeden na koeficient determinace. To se provádí stejným způsobem jako v korelační analýze - pomocí kvadratury. Koeficient determinace R-squared (R 2) ukazuje podíl variace v závislé proměnné, který je vysvětlen nezávislou proměnnou (proměnnými).

V našem případě R2 = 0,39 (0,63 2); to znamená, že proměnná „podíl venkovské populace“ vysvětluje přibližně 40 % variace v proměnné „podpora SPS“. Čím větší je koeficient determinace, tím je model kvalitnější.

Dalším ukazatelem kvality modelu je standardní chyba odhadu. Toto je míra toho, jak široce jsou body „rozptýleny“ kolem regresní přímky. Mírou rozptylu pro intervalové proměnné je standardní odchylka. V souladu s tím je standardní chyba odhadu směrodatná odchylka distribuce reziduí. Čím vyšší je jeho hodnota, tím větší je rozptyl a tím horší model. V našem případě je standardní chyba 2,18. Právě o tuto hodnotu se náš model „v průměru zmýlí“ při predikci hodnoty proměnné „podpora SPS“.

Regresní statistika také zahrnuje analýzu rozptylu. S jeho pomocí zjistíme: 1) jaký podíl variace (disperze) závislé proměnné vysvětluje nezávisle proměnná; 2) jaký podíl rozptylu závislé proměnné tvoří rezidua (nevysvětlená část); 3) jaký je poměr těchto dvou veličin (/"-poměr).Důležitá je především statistika disperze ukázkové studie- ukazuje, jak je pravděpodobné, že existuje vztah mezi nezávislými a závislými proměnnými v populace. Nicméně i pro kontinuální výzkum (jako v našem příkladu), studium výsledků analýza rozptylu neužitečný. V tomto případě ověřují, zda je zjištěný statistický vzorec způsoben shodou náhodných okolností, jak je typický pro soubor podmínek, ve kterých se zkoumaná populace nachází, tzn. není stanovena pravdivost výsledku získaného pro nějakou větší obecnou populaci, ale míra jeho pravidelnosti a osvobození od náhodných vlivů.

V našem případě jsou statistiky ANOVA následující:

SS df SLEČNA F význam
Regrese. 258,77 1,00 258,77 54,29 0.000000001
Zbytek 395,59 83,00 L,11
Celkový 654,36

Poměr F 54,29 je významný na úrovni 0,0000000001. V souladu s tím můžeme s jistotou odmítnout nulovou hypotézu (že vztah, který jsme objevili, je způsoben náhodou).

Kritérium t plní podobnou funkci, ale ve vztahu k regresním koeficientům (úhlový a F-průsečík). Pomocí kritéria / testujeme hypotézu, že v obecné populaci jsou regresní koeficienty rovny nule. V našem případě můžeme opět s jistotou zamítnout nulovou hypotézu.

Vícenásobná regresní analýza

Modelka vícenásobná regrese téměř identický s párovým regresním modelem; jediný rozdíl je v tom, že do lineární funkce je postupně zahrnuto několik nezávislých proměnných:

Y = b1X1 + b2X2 + …+ bpXp + a.

Pokud existuje více než dvě nezávislé proměnné, nejsme schopni získat vizuální představu o jejich vztahu; v tomto ohledu je vícenásobná regrese méně „vizuální“ než párová regrese. Když máte dvě nezávislé proměnné, může být užitečné zobrazit data v 3D bodovém grafu. V profesionálních statistických softwarových balíčcích (např. Statistica) existuje možnost otočit trojrozměrný graf, což vám umožní vizuálně dobře znázornit strukturu dat.

Při práci s vícenásobnou regresí, na rozdíl od párové regrese, je nutné určit algoritmus analýzy. Standardní algoritmus zahrnuje všechny dostupné prediktory v konečném regresním modelu. Algoritmus krok za krokem zahrnuje sekvenční zahrnutí (vyloučení) nezávislých proměnných na základě jejich vysvětlující „váhy“. Postupná metoda je dobrá, když existuje mnoho nezávislých proměnných; „čistí“ model od upřímně slabých prediktorů, čímž je kompaktnější a výstižnější.

Další podmínkou správnosti vícenásobné regrese (spolu s intervalem, normalitou a linearitou) je absence multikolinearity – přítomnost silných korelací mezi nezávislými proměnnými.

Interpretace vícenásobné regresní statistiky zahrnuje všechny prvky, které jsme uvažovali pro případ párové regrese. Kromě toho existují další důležité složky statistiky vícenásobné regresní analýzy.

Práci s vícenásobnou regresí ilustrujeme na příkladu testování hypotéz, které vysvětlují rozdíly v úrovni volební aktivity napříč ruskými regiony. Specifické empirické studie naznačují, že úroveň volební účasti je ovlivněna:

Národní faktor (proměnná „ruská populace“; operacionalizována jako podíl ruské populace na ustavujících entitách Ruské federace). Předpokládá se, že zvýšení podílu ruského obyvatelstva vede k poklesu volební účasti;

Urbanizační faktor (proměnná " městské obyvatelstvo"; operacionalizováno jako podíl městského obyvatelstva v jednotlivých entitách Ruské federace, s tímto faktorem jsme již pracovali v rámci korelační analýzy). Předpokládá se, že zvýšení podílu městského obyvatelstva vede i ke snížení volební účasti.

Závislá proměnná – „intenzita volební aktivity“ („aktivní“) je operacionalizována prostřednictvím údajů o průměrné volební účasti podle krajů ve federálních volbách v letech 1995 až 2003. Výchozí tabulka údajů pro dvě nezávislé a jednu závisle proměnnou bude následující:

Happening Proměnné
Aktiva. Gor. nás. Rus. nás.
Adygejská republika 64,92 53 68
Altajská republika 68,60 24 60
Burjatská republika 60,75 59 70
Dagestánská republika 79,92 41 9
Ingušská republika 75,05 41 23
Kalmycká republika 68,52 39 37
Karačajsko-čerkesská republika 66,68 44 42
republika Karelia 61,70 73 73
republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Atd. (po vyčištění emisí zůstává 83 z 88 případů)

Statistiky popisující kvalitu modelu:

1. Násobek R = 0,62; L-čtverec = 0,38. V důsledku toho národní faktor a faktor urbanizace společně vysvětlují asi 38 % variací v proměnné „volební aktivita“.

2. Průměrná chyba je 3,38. Přesně takto „průměrně špatně“ je sestrojený model při predikci úrovně volební účasti.

3. /l-poměr vysvětlené a nevysvětlené variace je 25,2 na úrovni 0,000000003. Nulová hypotéza o náhodnosti zjištěných vztahů je zamítnuta.

4. Kritérium / pro konstantní a regresní koeficienty proměnných „městská populace“ a „Ruská populace“ je významné na úrovni 0,0000001; 0,00005 respektive 0,007. Nulová hypotéza, že koeficienty jsou náhodné, je zamítnuta.

Další užitečné statistiky při analýze vztahu mezi původními a předpokládanými hodnotami závislé proměnné jsou Mahalanobisova vzdálenost a Cookova vzdálenost. První je měřítkem jedinečnosti případu (ukazuje, jak moc je kombinace hodnot všech nezávislých proměnných pro tento případ odchyluje od průměru pro všechny nezávisle proměnné současně). Druhým je míra vlivu případu. Různá pozorování mají různý vliv na sklon regresní přímky a k jejich porovnání na tomto ukazateli lze použít Cookovu vzdálenost. To může být užitečné při čištění odlehlých hodnot (odlehlé hodnoty lze považovat za příliš vlivný případ).

V našem příkladu mezi jedinečné a vlivné případy patří Dagestán.

Happening Originál

hodnoty

Předská

hodnoty

Zbytky Vzdálenost

Mahalanobis

Vzdálenost
Adygea 64,92 66,33 -1,40 0,69 0,00
Altajská republika 68,60 69.91 -1,31 6,80 0,01
Burjatská republika 60,75 65,56 -4,81 0,23 0,01
Dagestánská republika 79,92 71,01 8,91 10,57 0,44
Ingušská republika 75,05 70,21 4,84 6,73 0,08
Kalmycká republika 68,52 69,59 -1,07 4,20 0,00

Samotný regresní model má následující parametry: Průsečík Y (konstanta) = 75,99; b (horizontální) = -0,1; Kommersant (ruský nas.) = -0,06. Konečná formule.

Charakteristika kauzálních závislostí

Vztahy příčina-následek- jedná se o spojení jevů a procesů, kdy změna jednoho z nich - příčiny - vede ke změně druhého - účinku.

Znaky podle jejich významu pro studium vztahu se dělí do dvou tříd.

Známky, které způsobují změny v jiných souvisejících znameních, se nazývají faktoriál (nebo faktory).

Znamení, která se mění pod vlivem faktorových znaků jsou efektivní.

Rozlišují se tyto formy komunikace: funkční a stochastická. Funkční je vztah, ve kterém určitá hodnota faktorové charakteristiky odpovídá jedné a pouze jedné hodnotě výsledné charakteristiky. Funkční souvislost se projevuje ve všech případech pozorování a pro každou konkrétní jednotku zkoumané populace.

Funkční vztah může být reprezentován následující rovnicí:
y i = f(x i), kde: y i - výsledný znak; f(xi) - známá funkce souvislosti mezi výslednými a faktorovými charakteristikami; x i - znak faktoru.
V reálné přírodě neexistují žádná funkční spojení. Jsou to pouze abstrakce, užitečné při analýze jevů, ale zjednodušující realitu.

Stochastické (statistické nebo náhodné)spojení představuje vztah mezi veličinami, ve kterém jedna z nich reaguje na změnu jiné veličiny nebo jiných veličin změnou distribučního zákona. Jinými slovy, s tímto spojením různé významy jedna proměnná odpovídá různým distribucím jiné proměnné. Je to dáno tím, že závislá proměnná je kromě uvažovaných nezávislých ovlivněna řadou nezapočítaných nebo neřízených náhodných faktorů a také některými nevyhnutelnými chybami v měření proměnných. Vzhledem k tomu, že hodnoty závislé proměnné podléhají náhodnému rozptylu, nelze je s dostatečnou přesností předpovědět, ale lze je indikovat pouze s určitou pravděpodobností.

Vzhledem k nejednoznačnosti stochastické závislosti mezi Y a X je zajímavé zejména schéma závislosti zprůměrované na x, tzn. vzor ve změně průměrné hodnoty - podmíněné matematické očekávání Mx(Y) (matematické očekávání náhodné veličiny Y, zjištěné za předpokladu, že proměnná X nabývá hodnoty x) v závislosti na x.

Speciálním případem stochastické komunikace je korelační komunikace. Korelace(z lat. korelace- korelace, vztah). Přímá definice pojmu korelace - stochastický, pravděpodobný, možný spojení mezi dvěma (pár) nebo několika (více) náhodné proměnné.

Korelační závislost mezi dvěma proměnnými se nazývá také statistický vztah mezi těmito proměnnými, kdy každá hodnota jedné proměnné odpovídá určité průměrné hodnotě, tzn. podmíněné matematické očekávání je jiné. Korelační závislost je speciální případ stochastické závislosti, ve kterém změna hodnot faktorových charakteristik (x 1 x 2 ..., x n) má za následek změnu průměrné hodnoty výsledné charakteristiky.



Je obvyklé rozlišovat následující typy korelace:

1. Párová korelace – spojení dvou charakteristik (výsledné a faktorové nebo dvoufaktorové).

2. Parciální korelace - závislost mezi výslednou a jednou faktorovou charakteristikou s pevnou hodnotou ostatních faktorových charakteristik zahrnutých do studie.

3. Vícenásobná korelace– závislost výslednice a dvou nebo více faktorových charakteristik zahrnutých do studie.

Účel regresní analýzy

Analytickou formou reprezentace vztahů příčina-následek jsou regresní modely. Vědecká validita a popularita regresní analýzy z ní činí jeden z hlavních matematických nástrojů pro modelování studovaného jevu. Tato metoda se používá k vyhlazení experimentálních dat a získání kvantitativních odhadů komparativního vlivu různé faktory na výslednou proměnnou.

Regresní analýza je při určování analytického vyjádření vztahu, ve kterém je změna jedné hodnoty (závislé proměnné nebo výsledné charakteristiky) způsobena vlivem jedné nebo více nezávislé veličiny(faktory nebo prediktory) a soubor všech dalších faktorů, které také ovlivňují závislou hodnotu, se bere jako konstantní a průměrné hodnoty.

Cíle regresní analýzy:

Posouzení funkční závislosti podmíněné průměrné hodnoty výsledné charakteristiky y na faktorech faktoru (x 1, x 2, ..., x n);

Predikce hodnoty závislé proměnné pomocí nezávislé proměnné (proměnných).

Stanovení příspěvku jednotlivých nezávisle proměnných k variaci závislé proměnné.

Regresní analýzu nelze použít k určení, zda existuje vztah mezi proměnnými, protože přítomnost takového vztahu je nezbytným předpokladem pro aplikaci analýzy.

V regresní analýze se předem předpokládá, že mezi výslednými (U) a faktorovými charakteristikami x 1, x 2 ..., x n existují vztahy příčiny a následku.

Funkce , op Určující závislost ukazatele na parametrech se nazývá regresní rovnice (funkce) 1. Regresní rovnice ukazuje očekávanou hodnotu závislé proměnné při určitých hodnotách nezávislých proměnných.
V závislosti na počtu faktorů zahrnutých v modelu X modely se dělí na jednofaktorové (párový regresní model) a vícefaktorové (vícenásobný regresní model). Podle typu funkce se modely dělí na lineární a nelineární.

Párový regresní model

Vlivem nezapočítaných náhodných faktorů a příčin se budou jednotlivá pozorování y ve větší či menší míře odchylovat od regresní funkce f(x). V tomto případě lze rovnici pro vztah mezi dvěma proměnnými (model párové regrese) prezentovat jako:

Y=f(X) + ɛ,

kde ɛ je náhodná veličina charakterizující odchylku od regresní funkce. Tato proměnná se nazývá porucha nebo porucha (zbytková nebo chyba). V regresním modelu tedy závislá proměnná Y existuje nějaká funkce f(X) až po náhodné vyrušení ɛ.

Uvažujme klasický lineární párový regresní model (CLMPR). Ona vypadá jako

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

Kde y i– vysvětleno (výsledná, závislá, endogenní proměnná); x i– vysvětlující (prediktor, faktor, exogenní) proměnná; β0, β1– číselné koeficienty; ɛi– náhodná (stochastická) složka nebo chyba.

Základní podmínky (předpoklady, hypotézy) KLMPR:

1) x i- deterministická (nenáhodná) veličina a předpokládá se, že mezi hodnotami x i - nejsou všechny stejné.

2) Očekávaná hodnota(průměrná hodnota) poruchy ɛi rovná se nule:

М[ɛ i ]=0 (i=1,2, …, n).

3) Rozptyl rušení je konstantní pro jakékoli hodnoty i (podmínka homoskedasticity):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Poruchy pro různá pozorování nekorelují:

cov[ɛ i, ɛ j ]=M[ɛ i, ɛ j ]=0 pro i≠j,

kde cov[ɛ i , ɛ j] je kovarianční koeficient (korelační moment).

5) Poruchy jsou normálně rozložené náhodné veličiny s nulovým průměrem a rozptylem σ 2:

ɛ i ≈ N(0, σ 2).

K získání regresní rovnice stačí první čtyři premisy. Požadavek na splnění pátého předpokladu je nezbytný pro posouzení správnosti regresní rovnice a jejích parametrů.

Komentář: Zaměření na lineární vztahy je vysvětleno omezenou variací proměnných a skutečností, že ve většině případů jsou nelineární formy vztahů převáděny (logaritmováním nebo substitucí proměnných) do lineární formy pro provádění výpočtů.

Tradiční metoda nejmenší čtverce (LS)

Modelový odhad ze vzorku je rovnicí

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

kde ŷ i – teoretické (přibližné) hodnoty závislé proměnné získané z regresní rovnice; a 0 , a 1 - koeficienty (parametry) regresní rovnice (vzorové odhady koeficientů β 0, β 1).

Podle nejmenších čtverců jsou neznámé parametry a 0 , a 1 zvoleny tak, aby součet čtverců odchylek hodnot ŷ i od empirických hodnot y i (zbytkový součet čtverců) byl minimální:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

kde e i = y i - ŷ i – výběrový odhad poruchy ɛ i, nebo regresní reziduum.

Problém nastává v nalezení takových hodnot parametrů a 0 a a 1, pro které funkce Q e nabývá nejmenší hodnotu. Všimněte si, že funkce Q e = Q e (a 0 , a 1) je funkcí dvou proměnných a 0 a a 1, dokud jsme nenašli a neopravili jejich „nejlepší“ (ve smyslu metody nejmenších čtverců) hodnoty, a x i , y i jsou konstantní čísla zjištěná experimentálně.

Nezbytné podmínky extrémy (3) se nalézají přirovnáním parciálních derivací této funkce dvou proměnných k nule. Výsledkem je systém dvou lineární rovnice který se nazývá soustava normálních rovnic:

(4)

Koeficient a 1 je výběrový regresní koeficient y na x, který ukazuje, o kolik jednotek se průměrně změní proměnná y, když se proměnná x změní o jednu jednotku svého měření, tj. o změnu y na jednotku variace v x. Podepsat 1 ukazuje směr této změny. Koeficient a 0 – posun, podle (2) rovna hodnotěŷ i pro x=0 a nemusí mít smysluplnou interpretaci. Z tohoto důvodu se závislá proměnná někdy nazývá odezva.

Statistické vlastnosti odhadů regresních koeficientů:

Odhady koeficientu a 0 , a 1 jsou nezkreslené;

Rozptyl odhadů a 0 , a 1 klesá (přesnost odhadů roste) s rostoucí velikostí vzorku n;

Rozptyl odhadu sklonu a 1 s rostoucím klesá a proto je vhodné volit x i tak, aby jejich rozptyl kolem průměrné hodnoty byl velký;

Pro x¯ > 0 (což je nejvíce zajímavé) existuje negativní statistický vztah mezi a 0 a a 1 (nárůst a 1 vede k poklesu 0).

Hlavní rys regresní analýzy: s její pomocí můžete získat konkrétní informace o tom, jakou formu a povahu má vztah mezi zkoumanými proměnnými.

Posloupnost fází regresní analýzy

Podívejme se krátce na fáze regresní analýzy.

    Formulace problému. V této fázi se tvoří předběžné hypotézy o závislosti zkoumaných jevů.

    Definice závislých a nezávislých (vysvětlujících) proměnných.

    Sběr statistických dat. Data musí být shromážděna pro každou z proměnných obsažených v regresním modelu.

    Formulace hypotézy o formě spojení (jednoduché nebo vícenásobné, lineární nebo nelineární).

    Definice regresní funkce (spočívá ve výpočtu číselných hodnot parametrů regresní rovnice)

    Posouzení správnosti regresní analýzy.

    Interpretace získaných výsledků. Získané výsledky regresní analýzy jsou porovnány s předběžnými hypotézami. Posuzuje se správnost a věrohodnost získaných výsledků.

    Předpověď neznámé hodnoty závislá proměnná.

Pomocí regresní analýzy je možné řešit problém prognózování a klasifikace. Predikované hodnoty se vypočítají nahrazením hodnot vysvětlujících proměnných do regresní rovnice. Klasifikační problém je vyřešen tímto způsobem: regresní přímka rozděluje celou množinu objektů do dvou tříd a ta část množiny, kde je funkční hodnota větší než nula, patří do jedné třídy a část, kde je menší než nula. patří do jiné třídy.

Problémy s regresní analýzou

Podívejme se na hlavní úkoly regresní analýzy: stanovení formy závislosti, určení regresní funkce, odhad neznámých hodnot závislé proměnné.

Ustavení formy závislosti.

Povaha a forma vztahu mezi proměnnými mohou tvořit následující typy regrese:

    pozitivní lineární regrese(vyjádřeno rovnoměrným růstem funkce);

    pozitivní rovnoměrně rostoucí regrese;

    pozitivní rovnoměrně rostoucí regrese;

    negativní lineární regrese (vyjádřená jako rovnoměrný pokles funkce);

    negativní rovnoměrně zrychlená klesající regrese;

    negativní rovnoměrně klesající regrese.

Popsané odrůdy se však většinou nenacházejí v čistá forma, ale ve vzájemné kombinaci. V tomto případě hovoříme o kombinovaných formách regrese.

Definice regresní funkce.

Druhý úkol spočívá v identifikaci vlivu hlavních faktorů nebo příčin na závisle proměnnou, za jinak stejných podmínek a s vyloučením vlivu náhodných prvků na závislou proměnnou. Regresní funkce je definována ve formě matematické rovnice toho či onoho typu.

Odhad neznámých hodnot závislé proměnné.

Řešení tohoto problému spočívá v řešení problému jednoho z následujících typů:

    Odhad hodnot závislé proměnné v rámci uvažovaného intervalu výchozích dat, tzn. chybějící hodnoty; v tomto případě je problém interpolace vyřešen.

    Odhad budoucích hodnot závislé proměnné, tzn. nalezení hodnot mimo zadaný interval zdrojových dat; v tomto případě je problém extrapolace vyřešen.

Oba problémy jsou řešeny dosazením nalezených odhadů parametrů za hodnoty nezávislých proměnných do regresní rovnice. Výsledkem řešení rovnice je odhad hodnoty cílové (závislé) proměnné.

Podívejme se na některé předpoklady, o které se regresní analýza opírá.

Předpoklad linearity, tzn. předpokládá se, že vztah mezi uvažovanými proměnnými je lineární. V tomto příkladu jsme tedy vynesli bodový graf a byli jsme schopni vidět jasný lineární vztah. Pokud na rozptylovém diagramu proměnných vidíme jasnou absenci lineárního vztahu, tzn. Pokud existuje nelineární vztah, měly by být použity metody nelineární analýzy.

Předpoklad normality zbytky. Předpokládá, že rozložení rozdílu mezi předpokládanými a pozorovanými hodnotami je normální. Chcete-li vizuálně určit povahu distribuce, můžete použít histogramy zbytky.

Při použití regresní analýzy je třeba vzít v úvahu její hlavní omezení. Spočívá v tom, že regresní analýza nám umožňuje detekovat pouze závislosti, a nikoli souvislosti, které jsou základem těchto závislostí.

Regresní analýza umožňuje odhadnout sílu vztahu mezi proměnnými výpočtem odhadované hodnoty proměnné na základě několika známých hodnot.

Regresní rovnice.

Regresní rovnice vypadá takto: Y=a+b*X

Pomocí této rovnice je proměnná Y vyjádřena pomocí konstanty a a sklonu přímky (nebo sklonu) b, vynásobené hodnotou proměnné X. Konstanta a se také nazývá intercept term a sklon je regresní koeficient nebo B-koeficient.

Ve většině případů (pokud ne vždy) existuje určitý rozptyl pozorování vzhledem k regresní přímce.

Zbytek je odchylka jednoho bodu (pozorování) od regresní přímky (predikované hodnoty).

Chcete-li vyřešit problém regresní analýzy v MS Excel, vyberte z nabídky Servis"Analytický balíček" a nástroj pro regresní analýzu. Nastavíme vstupní intervaly X a Y. Vstupní interval Y je rozsah závislých analyzovaných dat, musí obsahovat jeden sloupec. Vstupní interval X je rozsah nezávislých dat, která je třeba analyzovat. Počet vstupních rozsahů by neměl překročit 16.

Na výstupu procedury ve výstupním rozsahu získáme report uvedený v tabulka 8.3a-8,3v.

ZÁVĚR VÝSLEDKŮ

Tabulka 8.3a. Regresní statistika

Regresní statistika

Množné číslo R

R-čtverec

Normalizovaná R-kvadrát

Standardní chyba

Pozorování

Podívejme se nejprve na horní část výpočtů uvedených v tabulka 8.3a, - regresní statistika.

Velikost R-čtverec, nazývané také míra jistoty, charakterizuje kvalitu výsledné regresní přímky. Tato kvalita je vyjádřena mírou korespondence mezi zdrojovými daty a regresním modelem (vypočítaná data). Míra jistoty je vždy v rámci intervalu.

Ve většině případů hodnota R-čtverec je mezi těmito hodnotami, nazývá se extrémní, tzn. mezi nulou a jedničkou.

Pokud je hodnota R-čtverec blízko k jednotě, to znamená, že sestrojený model vysvětluje téměř veškerou variabilitu odpovídajících proměnných. A naopak význam R-čtverec, blízká nule, znamená špatnou kvalitu zkonstruovaného modelu.

V našem příkladu je míra jistoty 0,99673, což indikuje velmi dobrou shodu regresní přímky s původními daty.

množné číslo R - vícenásobný korelační koeficient R - vyjadřuje míru závislosti nezávisle proměnných (X) a závislé proměnné (Y).

Množné číslo R se rovná druhé odmocnině koeficientu determinace; tato veličina nabývá hodnot v rozsahu od nuly do jedné.

V jednoduché lineární regresní analýze množné číslo R rovna Pearsonově korelačnímu koeficientu. Opravdu, množné číslo R v našem případě se rovná Pearsonově korelačnímu koeficientu z předchozího příkladu (0,998364).

Tabulka 8.3b. Regresní koeficienty

Kurzy

Standardní chyba

t-statistika

Y-křižovatka

Proměnná X1

* K dispozici je zkrácená verze výpočtů

Nyní zvažte střední část výpočtů uvedených v tabulka 8.3b. Zde je uveden regresní koeficient b (2,305454545) a posunutí podél svislé osy, tzn. konstanta a (2,694545455).

Na základě výpočtů můžeme napsat regresní rovnici takto:

Y= x*2,305454545 + 2,694545455

Směr vztahu mezi proměnnými je určen na základě znamének (záporných nebo kladných) regresních koeficientů (koeficient b).

Pokud je znaménko regresního koeficientu kladné, bude vztah mezi závisle proměnnou a nezávisle proměnnou kladný. V našem případě je znaménko regresního koeficientu kladné, tedy i vztah kladný.

Pokud je znaménko regresního koeficientu záporné, je vztah mezi závisle proměnnou a nezávisle proměnnou záporný (inverzní).

V tabulka 8.3c. jsou prezentovány výstupní výsledky zbytky. Aby se tyto výsledky objevily ve zprávě, musíte při spuštění nástroje „Regrese“ aktivovat zaškrtávací políčko „Residuals“.

ODBĚR ZBYTKU

Tabulka 8.3c. Zbytky

Pozorování

Předpokládaný Y

Zbytky

Standardní zůstatky

Pomocí této části zprávy můžeme vidět odchylky každého bodu od sestrojené regresní přímky. Největší absolutní hodnota zbytek v našem případě - 0,778, nejmenší - 0,043. Pro lepší interpretaci těchto dat použijeme graf původních dat a zkonstruovanou regresní přímku uvedenou v rýže. 8.3. Jak vidíte, regresní přímka je poměrně přesně „přizpůsobena“ hodnotám původních dat.

Je třeba vzít v úvahu, že uvažovaný příklad je poměrně jednoduchý a ne vždy je možné kvalitativně sestavit lineární regresní přímku.

Rýže. 8.3. Zdrojová data a regresní přímka

Problém odhadu neznámých budoucích hodnot závislé proměnné na základě známých hodnot nezávislé proměnné zůstal nezvažován, tzn. problém s předpovědí.

S regresní rovnicí se problém předpovědi redukuje na řešení rovnice Y= x*2,305454545+2,694545455 se známými hodnotami x. Jsou uvedeny výsledky predikce závislé proměnné Y o šest kroků dopředu v tabulce 8.4.

Tabulka 8.4. Výsledky prognózy proměnné Y

Y (předpovězeno)

V důsledku použití regresní analýzy v aplikaci Microsoft Excel tedy:

    sestavil regresní rovnici;

    stanovena forma vztahu a směr vztahu mezi proměnnými - pozitivní lineární regrese, která je vyjádřena rovnoměrným růstem funkce;

    stanovil směr vztahu mezi proměnnými;

    posoudil kvalitu výsledné regresní přímky;

    byli schopni vidět odchylky vypočtených dat od dat původního souboru;

    předpokládané budoucí hodnoty závislé proměnné.

Li regresní funkce definované, interpretované a odůvodněné a posouzení přesnosti regresní analýzy splňuje požadavky, lze konstruovaný model a predikované hodnoty považovat za dostatečně spolehlivé.

Takto získané predikované hodnoty jsou průměrné hodnoty, které lze očekávat.

V této práci jsme zhodnotili hlavní charakteristiky deskriptivní statistika a mezi nimi takové pojmy jako průměrná hodnota,medián,maximum,minimální a další charakteristiky variace dat.

Krátce byla diskutována i koncepce emisí. Uvažované charakteristiky se týkají tzv. explorativní analýzy dat, její závěry se nemusí vztahovat na běžnou populaci, ale pouze na vzorek dat. Explorativní analýza dat se používá k získání primárních závěrů a vytvoření hypotéz o populaci.

Diskutovány byly také základy korelační a regresní analýzy, jejich úkoly a možnosti praktického využití.

Metoda regresní analýzy se používá k určení technických a ekonomických parametrů produktů patřících do konkrétní parametrické řady za účelem vytvoření a sladění hodnotových vztahů. Tato metoda se používá k analýze a zdůvodnění úrovně a cenových poměrů produktů charakterizovaných přítomností jednoho nebo více technických a ekonomických parametrů, které odrážejí hlavní spotřebitelské vlastnosti. Regresní analýza nám umožňuje najít empirický vzorec, který popisuje závislost ceny na technických a ekonomických parametrech produktů:

P=f(X1X2,...,Xn),

kde P je hodnota jednotkové ceny produktu, rub.; (X1, X2, ... Xn) - technické a ekonomické parametry výrobků.

Metoda regresní analýzy - nejpokročilejší z používaných normativně-parametrických metod - je účinná při provádění výpočtů založených na použití moderních informační technologie a systémy. Jeho aplikace zahrnuje následující hlavní kroky:

  • stanovení klasifikačních parametrických skupin výrobků;
  • výběr parametrů, které nejvíce ovlivňují cenu produktu;
  • výběr a zdůvodnění formy souvislosti mezi změnami cen při změně parametrů;
  • konstrukce soustavy normálních rovnic a výpočet regresních koeficientů.

Základní kvalifikační skupina výrobky, jejichž cena podléhá vyrovnání, je parametrická řada, v rámci které lze výrobky sdružovat do různých provedení v závislosti na jejich aplikaci, provozních podmínkách a požadavcích atd. Při vytváření parametrických sérií lze použít automatické klasifikační metody, které umožňují produktům identifikovat jejich homogenní skupiny. Výběr technických a ekonomických parametrů se provádí na základě následujících základních požadavků:

  • vybrané parametry zahrnují parametry zaznamenané v normách a technické podmínky; kromě technických parametrů (výkon, nosnost, rychlost atd.) se používají ukazatele serializace produktu, koeficienty složitosti, unifikace atd.;
  • soubor zvolených parametrů by měl dostatečně plně charakterizovat konstrukční, technologické a provozní vlastnosti výrobků zařazených do série a mít poměrně úzkou korelaci s cenou;
  • parametry by na sobě neměly být závislé.

Pro výběr technicko-ekonomických parametrů, které významně ovlivňují cenu, je vypočítána matice párových korelačních koeficientů. Na základě velikosti korelačních koeficientů mezi parametry lze usuzovat na blízkost jejich souvislosti. Korelace blízká nule přitom ukazuje nevýznamný vliv parametru na cenu. Konečný výběr technicko-ekonomických parametrů se provádí v procesu regresní analýzy krok za krokem počítačové vybavení a odpovídající standardní programy.

V cenové praxi se používá následující sada funkcí:

lineární

P = ao + alXl + ... + antXn,

lineární výkon

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverzní logaritmus

P = a0 + a1: V X1 + ... + an: V Xn,

Napájení

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

orientační

P = e^(a1+a1X1+...+anXn)

hyperbolický

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

kde P je vyrovnání cen; X1 X2,..., Xn - hodnota technických a ekonomických parametrů výrobků řady; a0, a1 ..., аn - vypočtené koeficienty regresní rovnice.

V praktické práci na cenotvorbě lze v závislosti na formě vztahu mezi cenami a technicko-ekonomickými parametry použít další regresní rovnice. Typ funkce vazby mezi cenou a souborem technicko-ekonomických parametrů lze přednastavit nebo zvolit automaticky při počítačovém zpracování. Blízkost korelační spojení mezi cenou a souborem parametrů se posuzuje hodnotou vícenásobného korelačního koeficientu. Jeho blízkost k jedné naznačuje těsné spojení. Pomocí regresní rovnice se získají ekvalizované (vypočítané) cenové hodnoty pro produkty dané parametrické řady. Pro vyhodnocení výsledků vyrovnání se vypočítají relativní hodnoty odchylky vypočtených cenových hodnot od skutečných:

Tsr = Rf - Rr: R x 100

kde Рф, Рр - skutečné a kalkulované ceny.

Hodnota CR by neměla přesáhnout 8-10%. V případě výrazných odchylek vypočtených hodnot od skutečných je nutné vyšetřit:

  • správnost vytvoření parametrické série, protože může obsahovat produkty, které se svými parametry výrazně liší od ostatních produktů v sérii. Musí být vyloučeny;
  • správný výběr technických a ekonomických parametrů. Je možný soubor parametrů, který slabě koreluje s cenou. V tomto případě je nutné pokračovat ve vyhledávání a výběru parametrů.

Postup a metodika provádění regresní analýzy, zjištění neznámých parametrů rovnice a ekonomické hodnocení získaných výsledků jsou prováděny v souladu s požadavky matematické statistiky.



Novinka na webu

>

Nejoblíbenější