Domov Zuby moudrosti Matice párových lineárních korelačních koeficientů. Analýza matice párových korelačních koeficientů

Matice párových lineárních korelačních koeficientů. Analýza matice párových korelačních koeficientů

Zpočátku v modelu na zahrnují všechny hlavní komponenty (vypočítané hodnoty jsou uvedeny v závorkách t-kritéria):

Kvalitu modelu charakterizuje: vícenásobný koeficient determinace r = 0,517, průměrná relativní chyba aproximace = 10,4 %, zbytkový rozptyl s 2= 1,79 a F pozorovatelný = 121. Vzhledem k tomu, že F obs > F kr = 2,85 při α = 0,05, v 1 = 6, v 2= 14, regresní rovnice je významná a alespoň jeden z regresních koeficientů - β 1, β 2, β 3, β 4 - není roven nule.

Pokud význam regresní rovnice (hypotéza H 0:β 1 = β 2 = β 3 = β 4 = 0 byla kontrolována při α = 0,05, poté významnost regresních koeficientů, tzn. hypotézy H0: β j = 0 (j = 1, 2, 3, 4), by měly být testovány na hladině významnosti větší než 0,05, například při α = 0,1. Pak při α = 0,1 proti= 14 magnituda t kr = 1,76 a významné, jak vyplývá z rovnice (53.41), jsou regresní koeficienty β 1, β 2, β 3.

Vzhledem k tomu, že hlavní složky spolu nekorelují, můžeme z rovnice okamžitě odstranit všechny nevýznamné koeficienty a rovnice bude mít tvar

(53.42)

Porovnáním rovnic (53.41) a (53.42) vidíme, že bez nevýznamných hlavních složek f 4 A f 5, neovlivnily hodnoty koeficientů rovnice b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 a odpovídající t j (j = 0, 1, 2, 3).

To je způsobeno nekorelační povahou hlavních složek. Zajímavá je zde paralela regresních rovnic pro počáteční ukazatele (53.22), (53.23) a hlavní složky (53.41), (53.42).

Rovnice (53.42) je významná, protože F obs = 194 > F kr = 3,01, zjištěno při α = 0,05, v 1 = 4, v 2= 16. Koeficienty rovnice jsou také významné, protože t j > t kr . = 1,746, což odpovídá α = 0,01, proti= 16 za j= 0, 1, 2, 3. Koeficient determinace r= 0,486 znamená, že 48,6 % variace na vlivem prvních tří hlavních složek.

Rovnice (53.42) je charakterizována průměrnou relativní chybou aproximace = 9,99 % a zbytkovým rozptylem s 2 = 1,91.

Regresní rovnice na hlavních komponentách (53.42) má o něco lepší aproximační vlastnosti ve srovnání s regresním modelem (53.23) založeným na výchozích ukazatelích: r= 0,486 > r= 0,469; = 9,99% < (X) = 10,5 % a s 2 (f) = 1,91 < s 2 (x) = 1,97. Navíc v rovnici (53.42) jsou hlavní složky lineární funkce všechny počáteční ukazatele, zatímco rovnice (53.23) obsahuje pouze dvě proměnné ( x 1 A x 4). V řadě případů je nutné vzít v úvahu, že model (53.42) je obtížně interpretovatelný, protože obsahuje třetí hlavní složkou f 3, které jsme neinterpretovali a jejichž příspěvek k celkovému rozptylu výchozích ukazatelů ( x 1, ..., x 5) je pouze 8,6 %. Nicméně výjimka f 3 z rovnice (53.42) výrazně zhoršuje aproximační vlastnosti modelu: r= 0,349; = 12,4 % a s 2(F) = 2,41. Pak je vhodné zvolit rovnici (53.23) jako regresní model výnosu.

Shluková analýza

V statistický výzkum seskupování primárních dat je hlavní technikou řešení klasifikační problémy, a tedy základem pro veškerou další práci se shromážděnými informacemi.

Tradičně se tento problém řeší následovně. Z mnoha vlastností, které popisují objekt, je vybrán jeden, z pohledu výzkumníka nejinformativnější, a data jsou seskupena podle hodnot tohoto prvku. Pokud je nutné provést klasifikaci na základě několika kritérií, seřazených mezi sebou podle stupně důležitosti, pak se nejprve provede klasifikace podle první charakteristiky, poté se každá z výsledných tříd rozdělí na podtřídy podle druhé charakteristiky , atd. Většina kombinačních statistických seskupení je konstruována podobným způsobem.

V případech, kdy není možné uspořádat klasifikační charakteristiky, se používá nejjednodušší metoda vícerozměrného seskupování - vytvoření integrálního ukazatele (indexu), funkčně závislého na výchozích charakteristikách, s následnou klasifikací podle tohoto ukazatele.

Vývojem tohoto přístupu je možnost klasifikace založená na několika obecných ukazatelích (hlavních komponentách) získaných pomocí metod faktorové nebo komponentní analýzy.

Pokud existuje více znaků (počátečních nebo zobecněných), lze klasifikační problém řešit metodami shlukové analýzy, které se od ostatních vícerozměrných klasifikačních metod liší absencí trénovacích vzorků, tzn. apriorní informace o rozložení populace.

Rozdíly mezi schématy řešení klasifikačního problému jsou do značné míry určeny tím, co se rozumí pojmy „podobnost“ a „stupeň podobnosti“.

Po formulování cíle práce je přirozené pokusit se stanovit kritéria kvality, účelovou funkci, jejíž hodnoty nám umožní porovnat různá schémata klasifikace.

V ekonomickém výzkumu Objektivní funkce by měl zpravidla minimalizovat některý parametr určený na množině objektů (např. účelem klasifikace zařízení může být seskupení, které minimalizuje celkové náklady na čas a peníze na opravy).

V případech, kdy není možné formalizovat cíl úlohy, může být kritériem kvality klasifikace možnost smysluplné interpretace nalezených skupin.

Zvažme následující problém. Nechte sestavu prostudovat P objekty, z nichž každý je charakterizován k měřené znaky. Je třeba tuto totalitu rozdělit do skupin (tříd), které jsou v určitém smyslu homogenní. O charakteru distribuce přitom a priori prakticky neexistují k-rozměrný vektor X uvnitř tříd.

Skupiny získané dělením se obvykle nazývají shluky* (taxony**, obrázky), metody pro jejich nalezení se nazývají shluková analýza (respektive numerická taxonomie nebo rozpoznávání vzorů se samoučením).

* Cluster(anglicky) - skupina prvků vyznačujících se nějakou společnou vlastností.

**tahop(anglicky) - systematická skupina jakékoli kategorie.

Od samého začátku je nutné jasně pochopit, který ze dvou klasifikačních problémů má být řešen. Pokud se řeší obvyklý problém s psaním, pak se soubor pozorování rozdělí do relativně malého počtu oblastí seskupení (např. variační série v případě jednorozměrných pozorování) tak, aby prvky jedné takové oblasti byly co nejblíže k sobě.

Řešením dalšího problému je stanovení přirozené stratifikace výsledků pozorování do jasně definovaných shluků ležících v určité vzdálenosti od sebe.

Pokud má první typizační problém vždy řešení, pak se ve druhém případě může ukázat, že soubor pozorování neodhalí přirozenou stratifikaci do shluků, tzn. tvoří jeden shluk.

Ačkoli je mnoho metod shlukové analýzy zcela elementárních, většina prací, v nichž byly navrženy, pochází z minulého desetiletí. To je vysvětleno tím efektivní řešeníúlohy hledání clusteru, které vyžadují provedení velkého počtu aritmetických a logické operace, se stal možným až se vznikem a rozvojem výpočetní techniky.

Obvyklá forma reprezentace počátečních dat v problémech shlukové analýzy je matice

každý řádek představuje výsledky měření k uvažované znaky v jednom ze zkoumaných objektů. Ve specifických situacích může být zajímavé jak seskupování objektů, tak seskupování prvků. V případech, kdy rozdíl mezi těmito dvěma úlohami není významný, například při popisu některých algoritmů, budeme v tomto pojetí používat pouze termín „objekt“, včetně termínu „vlastnost“.

Matice X není jediným způsobem, jak prezentovat data v problémech shlukové analýzy. Někdy je počáteční informace uvedena ve formě čtvercové matice

živel r ij který určuje míru blízkosti i-tý předmět j-mu.

Většina algoritmů shlukové analýzy je zcela založena na matici vzdáleností (nebo blízkosti) nebo vyžaduje výpočet jejích jednotlivých prvků, takže pokud jsou data prezentována ve formě X, pak první fází řešení problému hledání shluků bude volba metody pro výpočet vzdáleností nebo blízkosti mezi objekty nebo prvky.

Poněkud snadněji se řeší otázka určení blízkosti mezi charakteristikami. Shluková analýza vlastností sleduje zpravidla stejné cíle jako faktorová analýza: identifikace skupin vzájemně propojených prvků, které odrážejí určitý aspekt studovaných objektů. Míra blízkosti je v tomto případě různá statistické koeficienty komunikace.


Související informace.


Pro stanovení míry závislosti mezi více ukazateli se používá více korelačních koeficientů. Následně jsou shrnuty do samostatné tabulky, která se nazývá korelační matice. Názvy řádků a sloupců takové matice jsou názvy parametrů, jejichž vzájemná závislost je stanovena. V průsečíku řádků a sloupců jsou umístěny odpovídající korelační koeficienty. Pojďme zjistit, jak můžete provést podobný výpočet pomocí nástrojů Excel.

Je obvyklé určovat úroveň vztahu mezi různými ukazateli následovně, v závislosti na korelačním koeficientu:

  • 0 – 0,3 – žádné spojení;
  • 0,3 – 0,5 – slabé spojení;
  • 0,5 – 0,7 – průměrné připojení;
  • 0,7 – 0,9 – vysoká;
  • 0,9 – 1 – velmi silný.

Li korelační koeficient negativní, to znamená, že vztah mezi parametry je inverzní.

K vytvoření korelační matice v Excelu použijete jeden nástroj, který je součástí balení "Analýza dat". Tak se tomu říká - "Korelace". Pojďme se naučit, jak jej lze použít k výpočtu více korelačních metrik.

Krok 1: Aktivujte balíček analýzy

Je třeba hned říci, že výchozí balíček "Analýza dat" zakázáno. Než tedy přistoupíte k postupu přímého výpočtu korelačních koeficientů, musíte jej aktivovat. Bohužel ne každý uživatel ví, jak to udělat. Proto se u této problematiky zastavíme.


Po zadané akci balíček nástrojů "Analýza dat" bude aktivován.

Fáze 2: výpočet koeficientu

Nyní můžete přejít přímo k výpočtu vícenásobného korelačního koeficientu. Pro výpočet vícenásobného korelačního koeficientu těchto faktorů použijeme na příkladu níže uvedené tabulky ukazatelů produktivity práce, poměru kapitálu a práce a poměru energie a práce v různých podnicích.


Fáze 3: analýza získaného výsledku

Nyní pojďme zjistit, jak porozumět výsledku, který jsme obdrželi v procesu zpracování dat pomocí nástroje "Korelace" PROTI program Excel.

Jak vidíme z tabulky, korelační koeficient poměru kapitál-práce (Sloupec 2) a energetickou dostupnost ( Sloupec 1) je 0,92, což odpovídá velmi silnému vztahu. Mezi produktivitou práce ( Sloupec 3) a energetickou dostupnost ( Sloupec 1) tento ukazatel je 0,72, což je vysoký stupeň závislosti. Korelační koeficient mezi produktivitou práce ( Sloupec 3) a poměr kapitálu a práce ( Sloupec 2) se rovná 0,88, což také odpovídá vysokému stupni závislosti. Můžeme tedy říci, že vztah mezi všemi zkoumanými faktory je poměrně silný.

Jak vidíte, balíček "Analýza dat" v Excelu je velmi pohodlný a poměrně snadno použitelný nástroj pro stanovení vícenásobného korelačního koeficientu. S jeho pomocí můžete vypočítat i obvyklou korelaci mezi dvěma faktory.

Podle území Jih federální okres Ruská federace poskytuje údaje za rok 2011

Území federálního okruhu

Hrubý regionální produkt, miliarda rublů, Y

Investice do stálých aktiv, miliardy rublů, X1

1. Rep. Adygea

2. Rep. Dagestánu

3. Rep. Ingušsko

4. Kabardino-Balkarská republika

5. Rep. Kalmykia

6. Karačajsko-čerkesská republika

7. Rep. Severní Osetie- Alanya

8. Krasnodarský kraj)

9. Stavropolská oblast

10. Astrachaňská oblast.

11. Volgogradská oblast.

12. Rostovská oblast.

  • 1. Vypočítejte matici párových korelačních koeficientů; hodnotit statistická významnost korelační koeficienty.
  • 2. Sestrojte pole korelace mezi efektivní charakteristikou a faktorem, který s ní nejblíže souvisí.
  • 3. Vypočítejte parametry lineární párové regrese pro každý faktor X..
  • 4. Posuďte kvalitu každého modelu pomocí koeficientu determinace, průměrné chyby aproximace a Fisherova F testu. Vyberte si nejlepší model.

bude 80 % své maximální hodnoty. Prezentujte graficky: skutečné a modelové hodnoty, předpovědní body.

  • 6. Pomocí vícenásobné regrese krok za krokem (metoda exkluze nebo metoda inkluze) sestavte model tvorby ceny bytu vlivem významných faktorů. Uveďte ekonomickou interpretaci koeficientů regresního modelu.
  • 7. Zhodnoťte kvalitu sestrojeného modelu. Zlepšila se kvalita modelu ve srovnání s jednofaktorovým modelem? Posuďte vliv významných faktorů na výsledek pomocí koeficientů pružnosti, v - a -? koeficienty

Při řešení tohoto problému provedeme výpočty a sestavíme grafy a diagramy pomocí nastavení Excel Data Analysis.

1. Vypočítejte matici párových korelačních koeficientů a vyhodnoťte statistickou významnost korelačních koeficientů

V dialogovém okně Korelace zadejte do pole Interval vstupu rozsah buněk obsahujících zdrojová data. Protože jsme vybrali i záhlaví sloupců, zaškrtneme v prvním řádku políčko Popisky.

Získali jsme následující výsledky:

Tabulka 1.1 Matice párových korelačních koeficientů

Analýza matice párových korelačních koeficientů ukazuje, že závislá proměnná Y, tedy hrubý regionální produkt, má užší vztah s X1 (investice do fixního kapitálu). Korelační koeficient je 0,936. To znamená, že 93,6 % závislé proměnné Y (hrubý regionální produkt) závisí na ukazateli X1 (investice do fixního kapitálu).

Statistickou významnost korelačních koeficientů určíme pomocí Studentova t-testu. Tabulkovou hodnotu porovnáme s vypočtenými hodnotami.

Vypočítejme tabulkovou hodnotu pomocí funkce STUDISCOVER.

t tabulka = 0,129 at pravděpodobnost spolehlivosti rovno 0,9 a stupně volnosti (n-2).

Faktor X1 je statisticky významný.

2. Vytvořme pole korelace mezi efektivním atributem (hrubý regionální produkt) a faktorem, který s ním nejblíže souvisí (investice do fixního kapitálu)

K tomu nám poslouží excelovský nástroj bodový graf.

V důsledku toho získáme korelační pole pro cenu hrubého regionálního produktu, miliardy rublů. a investice do stálých aktiv, miliardy rublů. (Obrázek 1.1.).

Obrázek 1.1

3. Vypočítejte parametry lineární párové regrese pro každý faktor X

Pro výpočet parametrů lineární párové regrese použijeme nástroj Regrese zahrnutý v nastavení Analýza dat.

V dialogovém okně Regrese zadejte do pole Vstupní interval Y adresu rozsahu buněk, které závislá proměnná představuje. V terénu

Vstupní interval X zadáme adresu rozsahu, který obsahuje hodnoty nezávislých proměnných. Vypočítejme parametry párové regrese pro faktor X.

Pro X1 jsme obdrželi následující údaje uvedené v tabulce 1.2:

Tabulka 1.2

Regresní rovnice pro závislost ceny hrubého regionálního produktu na investicích do fixního kapitálu má tvar:

4. Zhodnoťme kvalitu každého modelu pomocí koeficientu determinace, průměrné chyby aproximace a Fisherova F-testu. Pojďme určit, který model je nejlepší.

Získali jsme koeficient determinace, průměrnou chybu aproximace, jako výsledek výpočtů provedených v odstavci 3. Získané údaje jsou uvedeny v následujících tabulkách:

Údaje X1:

Tabulka 1.3a

Tabulka 1.4b

A) Koeficient determinace určuje, jaký podíl variace znaku Y je v modelu zohledněn a je způsoben vlivem faktoru X na něj. Čím větší je hodnota koeficientu determinace, tím bližší je vztah mezi vlastnosti v konstru matematický model.

Excel odkazuje na R-squared.

Na základě tohoto kritéria je nejvhodnějším modelem regresní rovnice závislosti ceny hrubého regionálního produktu na investicích do fixního kapitálu (X1).

B) Průměrnou aproximační chybu vypočítáme pomocí vzorce:

kde čitatel je součet druhých mocnin odchylky vypočtených hodnot od skutečných. V tabulkách se nachází ve sloupci SS, řádku Zbývající.

Průměrnou cenu bytu vypočítáme v Excelu pomocí funkce PRŮMĚR. = 24,18182 miliard rublů.

Při provádění ekonomických výpočtů je model považován za dostatečně přesný, pokud průměrná chyba aproximace je menší než 5 %, model je považován za přijatelný, pokud je průměrná chyba aproximace menší než 15 %.

Podle tohoto kritéria je nejvhodnější matematický model pro regresní rovnici závislosti ceny hrubého regionálního produktu na investicích do fixního kapitálu (X1).

C) F-test se používá k testování významnosti regresního modelu. K tomu je provedeno srovnání kritických (tabulkových) hodnot Fisher F testu.

Vypočtené hodnoty jsou uvedeny v tabulkách 1.4b (označeno písmenem F).

Vypočteme tabulkovou hodnotu Fisherova F testu v Excelu pomocí funkce FDIST. Vezměme pravděpodobnost rovnou 0,05. Přijato: = 4,75

Vypočtené hodnoty Fisherova F testu pro každý faktor jsou srovnatelné s tabulková hodnota:

71,02 > = 4,75 model je podle tohoto kritéria adekvátní.

Po analýze dat podle všech tří kritérií můžeme dojít k závěru, že nejlepší matematický model je sestaven pro faktor hrubého regionálního produktu, který je popsán lineární rovnicí

5. Pro vybraný model závislosti ceny hrubého regionálního produktu

Průměrnou hodnotu ukazatele budeme predikovat na hladině významnosti, pokud je predikovaná hodnota faktoru 80 % jeho maximální hodnoty. Představme si to graficky: skutečné a modelové hodnoty, předpovědní body.

Vypočítejme predikovanou hodnotu X, podle podmínky to bude 80 % maximální hodnoty.

Vypočítejme X max v Excelu pomocí funkce MAX.

0,8 *52,8 = 42,24

Abychom získali prediktivní odhady závislé proměnné, dosadíme získanou hodnotu nezávisle proměnné do lineární rovnice:

5,07+2,14*42,24 = 304,55 miliardy rublů.

Stanovme interval spolehlivosti prognózy, který bude mít následující hranice:

Vypočítat interval spolehlivosti pro predikovanou hodnotu vypočítáme odchylku od regresní přímky.

Pro párový regresní model se vypočítá hodnota odchylky:

těch. standardní chybová hodnota z tabulky 1.5a.

(Protože počet stupňů volnosti je roven jedné, bude jmenovatel roven n-2). korelační pár regresní předpověď

Pro výpočet koeficientu použijeme excelovou funkci STUDISCOVER, vezmeme pravděpodobnost rovnou 0,1 a počet stupňů volnosti 38.

Vypočteme hodnotu pomocí Excelu a dostaneme 12294.


Určíme horní a dolní hranici intervalu.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Předpokládaná hodnota = 304,55 tisíc dolarů se tedy bude pohybovat mezi spodní hranicí rovnou 277,078 tisíc dolarů. A horní limit, což je 332,022 miliardy. Třít.

Skutečné a modelové hodnoty, předpovědní body jsou graficky znázorněny na obrázku 1.2.


Obrázek 1.2

6. Pomocí vícenásobné regrese krok za krokem (eliminační metoda) sestavíme model pro tvorbu ceny hrubého regionálního produktu vlivem významných faktorů.

Na stavbu vícenásobná regrese Použijme funkci Regrese Excelu včetně všech faktorů. Získáme tak výsledkové tabulky, ze kterých potřebujeme Studentův t-test.

Tabulka 1.8a

Tabulka 1.8b

Tabulka 1.8c.

Dostaneme model jako:

Protože< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Zvolme nejmenší absolutní hodnotu Studentova t-testu, je rovna 8,427, porovnejme s tabulkovou hodnotou, kterou vypočítáme v Excelu, vezmeme hladinu významnosti rovnou 0,10, počet stupňů volnosti n-m-1= 12-4=8:=1,8595

Protože 8.427>1.8595 by měl být model považován za adekvátní.

7. Pro hodnocení významný faktor získaný matematický model, vypočítat koeficienty pružnosti a - koeficienty

Koeficient elasticity ukazuje, o jaké procento se změní efektivní atribut, když se atribut faktoru změní o 1 %:

EX4 = 2,137 * (10,69/24,182) = 0,94 %

To znamená, že při zvýšení investice do fixního kapitálu o 1 % se náklady v průměru zvýší o 0,94 %.

Koeficient ukazuje, o jakou část směrodatné odchylky se změní průměrná hodnota závislé proměnné při změně nezávisle proměnné o jednu směrodatnou odchylku.

2,137* (14.736/33,632) = 0,936.

Data směrodatné odchylky jsou převzata z tabulek získaných pomocí nástroje Descriptive Statistics.

Tabulka 1.11 Popisná statistika (Y)

Tabulka 1.12 Popisná statistika (X4)

Koeficient určuje podíl vlivu faktoru na celkovém vlivu všech faktorů:

Pro výpočet párových korelačních koeficientů vypočítáme matici párových korelačních koeficientů v Excelu pomocí nástroje Korelace v nastavení Data Analysis.

Tabulka 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Závěr: Ze získaných výpočtů můžeme usoudit, že efektivní atribut Y (hrubý regionální produkt) má velkou závislost na faktoru X1 (investice do fixního kapitálu) (o 100 %).

Bibliografie

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrie. Kurz pro začátečníky. Tutorial. 2. vyd. - M.: Delo, 1998. - str. 69-74.
  • 2. Workshop z ekonometrie: Učebnice / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko a kol., 2002. - str. 49 - 105.
  • 3. Dougherty K. Úvod do ekonometrie: Přel. z angličtiny - M.: INFRA-M, 1999. - XIV, str. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Aplikovaná matematika a základy ekonometrie. -1998., str. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Ekonometrie. -2007. od 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analýza matice párových korelačních koeficientů ukazuje, že efektivní indikátor nejvíce souvisí s indikátorem X(4) - množství spotřebovaného hnojiva na 1 hektar ().

Souvislost mezi atributy-argumenty je přitom docela těsná. Existuje tedy prakticky funkční vztah mezi počtem kolových traktorů ( X(1)) a počet nástrojů pro povrchové zpracování půdy .

Přítomnost multikolinearity je také indikována korelačními koeficienty a . Vzhledem k úzkému vztahu mezi ukazateli X (1) , X(2) a X(3), pouze jeden z nich může být zahrnut do modelu výnosové regrese.

Chcete-li demonstrovat negativní dopad multikolinearity, zvažte regresní model výnosu, včetně všech vstupních ukazatelů:

F obs = 121.

Hodnoty opravených odhadů směrodatných odchylek odhadů koeficientů rovnice jsou uvedeny v závorkách .

Pod regresní rovnicí jsou uvedeny následující parametry přiměřenosti: vícenásobný koeficient determinace; opravený odhad zbytkového rozptylu, průměrné relativní chyby aproximace a vypočtená hodnota kritéria F obs = 121.

Regresní rovnice je významná, protože F obs = 121 > F kp = 2,85 zjištěno z tabulky F-rozdělení při a=0,05; ni = 6 an2 = 14.

Z toho vyplývá, že Q¹0, tzn. a alespoň jeden z koeficientů rovnice q j (j= 0, 1, 2, ..., 5) není nula.

Pro ověření hypotézy o významnosti jednotlivých regresních koeficientů H0 platí: q j =0, kde j=1,2,3,4,5, porov kritická hodnota t kp = 2,14, zjištěno z tabulky t-rozdělení na hladině významnosti a=2 Q=0,05 a počet stupňů volnosti n=14, s vypočtenou hodnotou . Z rovnice vyplývá, že regresní koeficient je statisticky významný pouze při X(4) od ½ t 4 ½ = 2,90 > t kp = 2,14.



Nepřizpůsobitelné ekonomickému výkladu negativní znamení regresní koeficienty při X(1) a X(5) . Ze záporných hodnot koeficientů vyplývá, že nárůst saturace zemědělství kolovými traktory ( X(1)) a přípravky na ochranu rostlin ( X(5) má negativní vliv na výnos. Výsledná regresní rovnice je proto nepřijatelná.

K získání regresní rovnice s významnými koeficienty použijeme krok za krokem algoritmus regresní analýza. Zpočátku používáme krokový algoritmus s eliminací proměnných.

Vynechme proměnnou z modelu X(1) , což odpovídá minimu absolutní hodnota hodnota ½ t 1 ½ = 0,01. Pro zbývající proměnné opět sestrojíme regresní rovnici:

Výsledná rovnice je významná, protože F pozorováno = 155 > F kp = 2,90, zjištěno na hladině významnosti a=0,05 a počtech stupňů volnosti n 1 =5 a n 2 =15 dle tabulky F-distribuce, tzn. vektor q¹0. Avšak pouze regresní koeficient při X(4) . Odhadované hodnoty ½ t j ½ pro ostatní koeficienty je menší t kr = 2,131, zjištěno z tabulky t-rozdělení při a=2 Q= 0,05 an = 15.

Vyloučením proměnné z modelu X(3) , která odpovídá minimální hodnotě t 3 = 0,35 a dostaneme regresní rovnici:

(2.9)

Ve výsledné rovnici je koeficient at X(5) . Vyloučením X(5) dostaneme regresní rovnici:

(2.10)

Máme významná rovnice regrese s významnými a interpretovatelnými koeficienty.

Výsledná rovnice však není jediným „dobrým“ a nikoli „nejlepším“ výnosovým modelem v našem příkladu.

Pojďme si to ukázat v podmínce multikolinearity je efektivnější postupný algoritmus se zahrnutím proměnných. První krok ve výnosovém modelu y včetně proměnné X(4) , který má nejvyšší korelační koeficient s y, vysvětleno proměnnou - r(y,X(4)) = 0,58. Ve druhém kroku včetně rovnice spolu s X(4) proměnné X(1) nebo X(3), získáme modely, které z ekonomických důvodů a statistických charakteristik přesahují (2.10):

(2.11)

(2.12)

Zahrnutí kterékoli ze tří zbývajících proměnných do rovnice zhoršuje její vlastnosti. Viz například rovnice (2.9).

Máme tedy tři „dobré“ výnosové modely, z nichž si z ekonomických a statistických důvodů musíme jeden vybrat.

Podle statistických kritérií je nejvhodnější model (2.11). Odpovídá minimálním hodnotám zbytkového rozptylu = 2,26 a průměrné relativní chybě aproximace resp. nejvyšší hodnoty a F obs = 273.

Nějaký nejhorší výkon model (2.12) má adekvátnost a poté model (2.10).

Nyní vybereme nejlepší z modelů (2.11) a (2.12). Tyto modely se od sebe liší z hlediska proměnných X(1) a X(3) . Ve výnosových modelech však proměnná X(1) (počet kolových traktorů na 100 ha) je výhodnější než variabilní X(3) (počet strojů na povrchové zpracování půdy na 100 ha), který je do jisté míry sekundární (nebo odvozený od X (1)).

V tomto ohledu by měl být z ekonomických důvodů upřednostněn model (2.12). Po implementaci algoritmu postupné regresní analýzy se zahrnutím proměnných a při zohlednění skutečnosti, že do rovnice by měla vstupovat pouze jedna ze tří souvisejících proměnných ( X (1) , X(2) popř X(3)) vyberte konečnou regresní rovnici:

Rovnice je významná při a=0,05, protože F obs = 266 > F kp = 3,20, zjištěno z tabulky F-distribuce na a= Q=0,05; ni = 3 an2 = 17. Všechny regresní koeficienty v rovnici ½ jsou také významné t j½> t kp(a=2 Q=0,05; n=17)=2,11. Regresní koeficient q 1 by měl být z ekonomických důvodů považován za významný (q 1 ¹0). t 1 = 2,09 jen o něco méně t kp = 2,11.

Z regresní rovnice vyplývá, že zvýšení počtu traktorů o jeden na 100 hektarů orné půdy (při pevné hodnotě X(4)) vede ke zvýšení výnosů zrna v průměru o 0,345 c/ha.

Přibližný výpočet koeficientů pružnosti e 1 »0,068 a e 2 »0,161 ukazuje, že s rostoucími ukazateli X(1) a X(4) o 1 %, výnos zrna se zvyšuje v průměru o 0,068 % a 0,161 %.

Vícenásobný koeficient určení ukazuje, že pouze 46,9 % variace výnosu je vysvětleno indikátory zahrnutými v modelu ( X(1) a X(4), tedy nasycení rostlinné výroby traktory a hnojivy. Zbytek variace je způsoben působením nezapočítaných faktorů ( X (2) , X (3) , X(5), povětrnostní podmínky atd.). Průměrná relativní chyba aproximace charakterizuje adekvátnost modelu a také hodnotu zbytkového rozptylu. Při interpretaci regresní rovnice jsou zajímavé hodnoty relativní chyby aproximace . Připomeňme, že - modelová hodnota efektivního ukazatele charakterizuje průměrnou hodnotu výnosu za celek posuzovaných regionů za předpokladu, že hodnoty vysvětlujících proměnných X(1) a X(4) jsou stanoveny na stejné úrovni, tj X (1) = x i(1) a X (4) = x i(4) . Poté podle hodnot d i Můžete porovnávat regiony podle výnosu. Oblasti, kterým odpovídají hodnoty d i>0, mají nadprůměrný výnos a d i<0 - ниже среднего.

V našem příkladu je z hlediska výnosu rostlinná výroba nejúčinnější na ploše odpovídající d 7 =28 %, kde výnos je o 28 % vyšší než krajský průměr a nejméně efektivní je v oblasti s d 20 =-27,3%.


Úkoly a cvičení

2.1. Z běžné populace ( y, X (1) , ..., X(p)), kde y má zákon normálního rozdělení s podmíněným matematickým očekáváním a rozptylem s 2, náhodný výběr n, nech to být ( y i, x i (1) , ..., x i(p)) - výsledek i pozorování ( i=1, 2, ..., n). Určete: a) matematické očekávání odhadu vektoru metodou nejmenších čtverců q; b) kovarianční matice odhadu vektoru metodou nejmenších čtverců q; c) matematické očekávání hodnocení.

2.2. Podle podmínek úlohy 2.1 najděte matematické očekávání součtu kvadrátů odchylek v důsledku regrese, tzn. EQ R, Kde

.

2.3. Podle podmínek úlohy 2.1 určete matematické očekávání součtu kvadrátů odchylek způsobených zbytkovou variací vzhledem k regresním přímkám, tzn. EQ ost, kde

2.4. Dokažte, že když je splněna hypotéza H 0: q=0 statistika

má F-rozdělení se stupni volnosti n 1 =p+1 a n 2 =n-p-1.

2.5. Dokažte, že při splnění hypotézy H 0: q j =0 má statistika t-rozdělení s počtem stupňů volnosti n=n-p-1.

2.6. Na základě údajů (tabulka 2.3) o závislosti smrštění krmného chleba ( y) na dobu skladování ( X) najít bodový odhad podmíněného očekávání za předpokladu, že obecná regresní rovnice je lineární.

Tabulka 2.3.

Požadováno: a) najít odhady zbytkového rozptylu s 2 za předpokladu, že obecná regresní rovnice má tvar ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotéza Ho: q=0; c) se spolehlivostí g=0,9 určete intervalové odhady parametrů q 0, q 1; d) se spolehlivostí g=0,95 určete intervalový odhad podmíněného matematického očekávání at X 0 = 6; e) určete při g=0,95 interval spolehlivosti predikce v bodě X=12.

2.7. Na základě údajů o dynamice tempa růstu cen akcií za 5 měsíců uvedených v tabulce. 2.4.

Tabulka 2.4.

měsíce ( X)
y (%)

a za předpokladu, že obecná regresní rovnice má tvar , je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,01 významnost regresního koeficientu, tzn. hypotézy H 0: q 1 = 0;

c) se spolehlivostí g=0,95 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,9 stanovte intervalový odhad podmíněného matematického očekávání at X 0 = 4; e) určete při g=0,9 interval spolehlivosti predikce v bodě X=5.

2.8. Výsledky studia dynamiky přírůstku hmotnosti mladých zvířat jsou uvedeny v tabulce 2.5.

Tabulka 2.5.

Za předpokladu, že obecná regresní rovnice je lineární, je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotézy Ho: q=0;

c) se spolehlivostí g=0,8 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,98 určete a porovnejte intervalové odhady podmíněného matematického očekávání při X 0 = 3 a X 1 =6;

e) určete při g=0,98 interval spolehlivosti predikce v bodě X=8.

2.9. Náklady ( y) jeden výtisk knihy v závislosti na nákladu ( X) (tis. výtisků) charakterizují údaje shromážděné vydavatelstvím (tabulka 2.6). Určete odhady nejmenších čtverců a parametry hyperbolické regresní rovnice se spolehlivostí g=0,9, sestrojte intervaly spolehlivosti pro parametry q 0 a q 1, stejně jako podmíněné očekávání při X=10.

Tabulka 2.6.

Určete odhady a parametry regresní rovnice tvaru , otestujte hypotézu H 0 při a = 0,05: q 1 = 0 a sestrojte intervaly spolehlivosti se spolehlivostí g = 0,9 pro parametry q 0 a q 1 a podmíněné matematické očekávání při X=20.

2.11. V tabulce 2.8 uvedl údaje o tempech růstu (%) následujících makroekonomických ukazatelů n=10 rozvinutých zemí světa za rok 1992: HNP - X(1) , průmyslová výroba - X(2) , cenový index - X (3) .

Tabulka 2.8.

země x a parametry regresní rovnice, odhad reziduálního rozptylu; b) zkontrolujte při a=0,05 významnost regresního koeficientu, tzn. H°: qi=0; c) se spolehlivostí g=0,9 najděte intervalové odhady q 0 a q 1; d) najděte při g=0,95 interval spolehlivosti pro bod X 0 =x i, Kde i=5; e) porovnejte statistické charakteristiky regresních rovnic: 1, 2 a 3.

2.12. Vyřešte problém 2.11 pomocí ( na) index X(1) a pro vysvětlení ( X) proměnná X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika a základy ekonometrie: Učebnice. M., UNITY, 1998 (2. vydání 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika v úlohách a cvičeních: Učebnice. M. JEDNOTA - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Výzkum závislosti. M., Finance a statistika, 1985, 487 s.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Klasifikace a redukce rozměrů. M., Finance a statistika, 1989, 607 s.;

5. Johnston J. Ekonometrické metody, M.: Statistika, 1980, 446 s.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Vícerozměrné statistické metody. M., Finance a statistika, 2000;

7. Mkhitaryan V.S., Troshin L.I. Studium závislostí pomocí korelačních a regresních metod. M., MESI, 1995, 120 stran;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Vícerozměrné statistické metody v ekonomii. M., MESI, 1995, 149 s.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Matematická statistika pro obchodníky a manažery. M., MESI, 2000, 140 stran;

10. Lukashin Yu.I. Regresní a adaptivní předpovědní metody: Učebnice, M., MESI, 1997.

11. Lukashin Yu.I. Adaptivní metody krátkodobého předpovídání. - M., Statistika, 1979.


APLIKACE


Příloha 1. Možnosti úloh pro samostatný počítačový výzkum.

Faktory, které jsou kolineární...

Řešení:

Tyto dvě proměnné jsou považovány za jasně kolineární, tzn. jsou v lineárním vztahu mezi sebou, jestliže . V našem modelu je pouze koeficient párové lineární regrese mezi faktory a větší než 0,7. , což znamená, že faktory jsou kolineární.

4. V modelu vícenásobné regrese se determinant matice párových korelačních koeficientů mezi faktory blíží nule. To znamená, že faktory a...

multikolineární

nezávislý

kvantifikovatelné

Řešení:

Pro posouzení multikolinearity faktorů lze použít determinant matice párových korelačních koeficientů mezi faktory. Pokud faktory spolu nekorelují, pak by matice párových korelačních koeficientů mezi faktory byla jednotková. Protože všechny nediagonální prvky by se rovnalo nule.
, protože = = a = = =0.
Pokud existuje úplný lineární vztah mezi faktory a všechny párové korelační koeficienty jsou rovny jedné, pak je determinant takové matice roven nule.


Čím blíže k nule je determinant mezifaktorové korelační matice, tím silnější je multikolinearita faktorů a tím nespolehlivější jsou výsledky vícenásobné regrese. A naopak, čím blíže je determinant mezifaktorové korelační matice jedné, tím menší je multikolinearita faktorů.

5. Pro ekonometrický model lineární vícenásobné regresní rovnice tvaru, matice párových lineárních korelačních koeficientů ( y- závislá proměnná; x (1),x (2), x (3), x (4)– nezávislé proměnné):


Kolineární (úzce související) nezávislé (vysvětlující) proměnné nejsou

x(2) A x (3)

x (1) A x (3)

x (1) A x (4)

x(2) A x (4)

Řešení:

Při konstrukci vícenásobného regresního modelu je nutné vyloučit možnost existence těsného lineárního vztahu mezi nezávislými (vysvětlujícími) proměnnými, což vede k problému multikolinearity. V tomto případě jsou lineární korelační koeficienty kontrolovány pro každou dvojici nezávislých (vysvětlujících) proměnných. Tyto hodnoty se odrážejí v matici párových lineárních korelačních koeficientů. Předpokládá se, že přítomnost párových korelačních koeficientů mezi vysvětlujícími proměnnými přesahujícími 0,7 v absolutní hodnotě odráží úzký vztah mezi těmito proměnnými (těsnost vztahu s proměnnou y v tomto případě nepřipadá v úvahu). Takové nezávislé proměnné se nazývají kolineární. Pokud hodnota párového korelačního koeficientu mezi vysvětlujícími proměnnými nepřesáhne 0,7 v absolutní hodnotě, pak tyto vysvětlující proměnné nejsou kolineární. Uvažujme hodnoty párových mezifaktorových korelačních koeficientů: mezi x (1) A x(2) hodnota je 0,45; mezi x (1) A x (3)– rovná se 0,82; mezi x (1) A x (4)– rovná se 0,94; mezi x(2) A x (3)– rovna 0,3; mezi x(2) A x (4)– rovná se 0,7; mezi x (3) A x (4)– rovná se 0,12. Hodnoty , , tedy nepřesahují 0,7. Proto kolineární nejsou faktory x (1) A x(2), x(2) A x (3), x (3) A x (4). Z posledních uvedených dvojic obsahují možnosti odpovědí dvojici x(2) A x (3)– to je správná odpověď. Pro ostatní páry: x (1 A x (3), x (1) A x (4), x(2) A x (4)– hodnoty párových mezifaktorových korelačních koeficientů přesahují 0,7 a tyto faktory jsou kolineární.

Téma 3: Falešné proměnné

1. Je uvedena tabulka výchozích dat pro konstrukci ekonometrického regresního modelu:

Falešné proměnné nejsou

pracovní zkušenost

produktivitu práce

úroveň vzdělání

kvalifikační úroveň zaměstnance

Řešení:

Při konstrukci regresního modelu může nastat situace, kdy je nutné do rovnice zahrnout kromě kvantitativních proměnných i proměnné, které odrážejí některé atributové charakteristiky (pohlaví, vzdělání, region apod.). Tyto druhy kvalitativních proměnných se nazývají „fiktivní“ proměnné. Pro konstrukci modelu specifikovaného ve zadání úkolu jsou použity fiktivní proměnné: úroveň vzdělání a úroveň dovedností zaměstnance. Další proměnné nejsou fiktivní, z navržených variant se jedná o délku služby a produktivitu práce.

2. Při studiu závislosti spotřeby masa na výši příjmu a pohlaví konzumenta lze doporučit...

použijte fiktivní proměnnou – pohlaví spotřebitele

rozdělit populaci na dvě části: na konzumenty ženského pohlaví a na konzumenty mužské

použijte fiktivní proměnnou – úroveň příjmu

vyloučit z úvahy pohlaví spotřebitele, protože tento faktor nelze kvantitativně měřit

Řešení:

Při konstrukci regresního modelu může nastat situace, kdy je nutné do rovnice zahrnout kromě kvantitativních proměnných i proměnné, které odrážejí některé atributové charakteristiky (pohlaví, vzdělání, region apod.). Tyto druhy kvalitativních proměnných se nazývají „fiktivní“ proměnné. Odrážejí heterogenitu sledované statistické populace a používají se pro lepší modelování závislostí v takto heterogenních objektech pozorování. Při modelování jednotlivých závislostí pro heterogenní data lze využít i metodu rozdělení celé kolekce heterogenních dat do více samostatných kolekcí, jejichž počet se rovná počtu stavů dummy proměnné. Správné možnosti odpovědi jsou tedy: „použijte fiktivní proměnnou – pohlaví spotřebitele“ a „rozdělte populaci na dvě: pro spotřebitelky a pro spotřebitele mužské“.

3. Studujeme závislost ceny bytu ( na) z jejího obytného prostoru ( X) a typ domu. Model obsahuje fiktivní proměnné odrážející uvažované typy domů: monolitický, panelový, cihlový. Byla získána regresní rovnice: ,
Kde ,
Konkrétní regresní rovnice pro cihly a monolitické prvky jsou ...

pro typ domu cihla

pro typ domu monolitický

pro typ domu cihla

pro typ domu monolitický

Řešení:

Je nutné zjistit konkrétní regresní rovnici pro zděné a monolitické domy. Pro cihlový dům jsou hodnoty fiktivních proměnných následující: , . Rovnice bude mít tvar: nebo pro typ domu: zděný.
Pro monolitický dům jsou hodnoty fiktivních proměnných následující: , . Rovnice bude mít tvar
nebo pro typ domu monolitický.



Novinka na webu

>

Nejoblíbenější