Domov Prevence Matice párových lineárních korelačních koeficientů. Konstrukce matice párových korelačních koeficientů

Matice párových lineárních korelačních koeficientů. Konstrukce matice párových korelačních koeficientů

Zpočátku v modelu na zahrnují všechny hlavní komponenty (vypočítané hodnoty jsou uvedeny v závorkách t-kritéria):

Kvalitu modelu charakterizuje: vícenásobný koeficient determinace r = 0,517, průměrná relativní chyba aproximace = 10,4 %, zbytkový rozptyl s 2= 1,79 a F pozorovatelný = 121. Vzhledem k tomu, že F obs > F kr = 2,85 při α = 0,05, v 1 = 6, v 2= 14, regresní rovnice je významná a alespoň jeden z regresních koeficientů - β 1, β 2, β 3, β 4 - není roven nule.

Pokud význam regresní rovnice (hypotéza H 0:β 1 = β 2 = β 3 = β 4 = 0 byla kontrolována při α = 0,05, poté významnost regresních koeficientů, tzn. hypotézy H0: β j = 0 (j = 1, 2, 3, 4), by měly být testovány na hladině významnosti větší než 0,05, například při α = 0,1. Pak při α = 0,1 proti= 14 magnituda t kr = 1,76 a významné, jak vyplývá z rovnice (53.41), jsou regresní koeficienty β 1, β 2, β 3.

Vzhledem k tomu, že hlavní složky spolu nekorelují, můžeme z rovnice okamžitě odstranit všechny nevýznamné koeficienty a rovnice bude mít tvar

(53.42)

Porovnáním rovnic (53.41) a (53.42) vidíme, že bez nevýznamných hlavních složek f 4 A f 5, neovlivnil hodnoty koeficientů rovnice b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 a odpovídající t j (j = 0, 1, 2, 3).

To je způsobeno nekorelační povahou hlavních složek. Zajímavá je zde paralela regresních rovnic pro počáteční ukazatele (53.22), (53.23) a hlavní složky (53.41), (53.42).

Rovnice (53.42) je významná, protože F obs = 194 > F kr = 3,01, zjištěno při α = 0,05, v 1 = 4, v 2= 16. Koeficienty rovnice jsou také významné, protože t j > t kr . = 1,746, což odpovídá α = 0,01, proti= 16 za j= 0, 1, 2, 3. Koeficient determinace r= 0,486 znamená, že 48,6 % variace na vlivem prvních tří hlavních složek.

Rovnice (53.42) je charakterizována průměrnou relativní chybou aproximace = 9,99 % a zbytkovým rozptylem s 2 = 1,91.

Regresní rovnice na hlavních komponentách (53.42) má podle výchozích ukazatelů o něco lepší aproximační vlastnosti ve srovnání s regresním modelem (53.23): r= 0,486 > r= 0,469; = 9,99% < (X) = 10,5 % a s 2 (f) = 1,91 < s2(x) = 1,97. Navíc v rovnici (53.42) jsou hlavní složky lineární funkce všechny počáteční ukazatele, zatímco rovnice (53.23) obsahuje pouze dvě proměnné ( x 1 A x 4). V řadě případů je nutné vzít v úvahu, že model (53.42) je obtížně interpretovatelný, protože obsahuje třetí hlavní složkou f 3, které jsme neinterpretovali a jejichž příspěvek k celkovému rozptylu výchozích ukazatelů ( x 1, ..., x 5) je pouze 8,6 %. Nicméně výjimka f 3 z rovnice (53.42) výrazně zhoršuje aproximační vlastnosti modelu: r= 0,349; = 12,4 % a s 2(F) = 2,41. Potom je vhodné zvolit rovnici (53.23) jako regresní model výnosu.

Shluková analýza

V statistický výzkum seskupování primárních dat je hlavní rozhodovací technikou klasifikační problémy, a tedy základem pro veškerou další práci se shromážděnými informacemi.

Tradičně se tento problém řeší následovně. Z mnoha vlastností, které popisují objekt, je vybrán jeden, z pohledu výzkumníka nejinformativnější, a data jsou seskupena podle hodnot tohoto prvku. Pokud je nutné provést klasifikaci na základě několika kritérií, seřazených mezi sebou podle stupně důležitosti, pak se nejprve provede klasifikace podle první charakteristiky, poté se každá z výsledných tříd rozdělí na podtřídy podle druhé charakteristiky , atd. Většina kombinačních statistických seskupení je konstruována podobným způsobem.

V případech, kdy není možné uspořádat klasifikační charakteristiky, se používá nejjednodušší metoda vícerozměrného seskupování - vytvoření integrálního ukazatele (indexu), funkčně závislého na výchozích charakteristikách, s následnou klasifikací podle tohoto ukazatele.

Vývojem tohoto přístupu je možnost klasifikace založená na několika obecných ukazatelích (hlavních komponentách) získaných pomocí metod faktorové nebo komponentní analýzy.

Pokud existuje více znaků (počátečních nebo zobecněných), lze klasifikační problém řešit metodami shlukové analýzy, které se od ostatních vícerozměrných klasifikačních metod liší absencí trénovacích vzorků, tzn. apriorní informace o rozložení populace.

Rozdíly mezi schématy řešení klasifikačního problému jsou do značné míry určeny tím, co se rozumí pojmy „podobnost“ a „stupeň podobnosti“.

Po formulování cíle práce je přirozené pokusit se stanovit kritéria kvality, účelovou funkci, jejíž hodnoty nám umožní porovnat různá schémata klasifikací.

V ekonomickém výzkumu Objektivní funkce by měl zpravidla minimalizovat některý parametr určený na množině objektů (např. účelem klasifikace zařízení může být seskupení, které minimalizuje celkové náklady na čas a peníze na opravy).

V případech, kdy není možné formalizovat cíl úlohy, může být kritériem kvality klasifikace možnost smysluplné interpretace nalezených skupin.

Zvažme následující problém. Nechte sestavu prostudovat P objekty, z nichž každý je charakterizován k měřené charakteristiky. Je třeba tuto totalitu rozdělit do skupin (tříd), které jsou v určitém smyslu homogenní. O charakteru distribuce přitom prakticky neexistují apriorní informace k-rozměrný vektor X uvnitř tříd.

Skupiny získané dělením se obvykle nazývají shluky* (taxony**, obrázky), metody pro jejich nalezení se nazývají shluková analýza (respektive numerická taxonomie nebo rozpoznávání vzorů se samoučením).

* Cluster(anglicky) - skupina prvků vyznačujících se nějakou společnou vlastností.

**tahop(anglicky) - systematická skupina jakékoli kategorie.

Od samého začátku je nutné jasně pochopit, který ze dvou klasifikačních problémů má být řešen. Pokud se řeší obvyklý problém s psaním, pak se soubor pozorování rozdělí do relativně malého počtu oblastí seskupení (např. variační série v případě jednorozměrných pozorování) tak, aby prvky jedné takové oblasti byly co nejblíže k sobě.

Řešením dalšího problému je určení přirozené stratifikace výsledků pozorování do jasně definovaných shluků ležících v určité vzdálenosti od sebe.

Pokud má první typizační problém vždy řešení, pak se ve druhém případě může ukázat, že soubor pozorování neodhalí přirozenou stratifikaci do shluků, tzn. tvoří jeden shluk.

Ačkoli je mnoho metod shlukové analýzy zcela elementárních, většina prací, v nichž byly navrženy, pochází z minulého desetiletí. To je vysvětleno tím efektivní řešeníúlohy hledání clusteru, které vyžadují provedení velkého počtu aritmetických a logické operace, se stal možným až se vznikem a rozvojem výpočetní techniky.

Obvyklá forma reprezentace počátečních dat v problémech shlukové analýzy je matice

každý řádek představuje výsledky měření k uvažované znaky v jednom ze zkoumaných objektů. Ve specifických situacích může být zajímavé jak seskupování objektů, tak seskupování prvků. V případech, kdy rozdíl mezi těmito dvěma úlohami není významný, například při popisu některých algoritmů, budeme v tomto pojetí používat pouze termín „objekt“, včetně termínu „vlastnost“.

Matice X není jediným způsobem, jak prezentovat data v problémech shlukové analýzy. Někdy je počáteční informace uvedena ve formě čtvercové matice

živel r ij která určuje míru blízkosti i-tý předmět j-mu.

Většina algoritmů shlukové analýzy je zcela založena na matici vzdáleností (nebo blízkosti) nebo vyžaduje výpočet jejích jednotlivých prvků, takže pokud jsou data prezentována ve formě X, pak první fází řešení problému hledání shluků bude volba metody pro výpočet vzdáleností nebo blízkosti mezi objekty nebo prvky.

Poněkud snadněji se řeší otázka určení blízkosti mezi charakteristikami. Shluková analýza vlastností sleduje zpravidla stejné cíle jako faktorová analýza: identifikace skupin vzájemně propojených prvků, které odrážejí určitý aspekt studovaných objektů. Míra blízkosti je v tomto případě různá statistické koeficienty komunikace.


Související informace.


Faktory, které jsou kolineární...

A kolineární.

4. V modelu vícenásobná regrese determinant matice párových korelačních koeficientů mezi faktory a je blízký nule. To znamená, že faktory a ... multikolinearita faktorů.

5. Pro ekonometrický model lineární rovnice vícenásobná regrese typu byla zkonstruována matice párových koeficientů lineární korelace (y- závislá proměnná; x (1),x (2), x (3), x (4)– nezávislé proměnné):


Kolineární (úzce související) nezávislé (vysvětlující) proměnné nejsoux(2) A x(3)

1. Je uvedena tabulka výchozích dat pro konstrukci ekonometrického regresního modelu:

Falešné proměnné nejsou

pracovní zkušenost

produktivitu práce

2. Při studiu závislosti spotřeby masa na výši příjmu a pohlaví konzumenta můžeme doporučit...

použijte fiktivní proměnnou – pohlaví spotřebitele

rozdělit populaci na dvě části: na konzumenty ženského pohlaví a na konzumenty mužské

3. Studujeme závislost ceny bytu ( na) z jejího obytného prostoru ( X) a typ domu. Model obsahuje fiktivní proměnné odrážející uvažované typy domů: monolitický, panelový, cihlový. Byla získána regresní rovnice: ,
Kde ,
Konkrétní regresní rovnice pro cihly a monolitické prvky jsou ...

pro typ domu cihla

pro typ domu monolitický

4. Při analýze průmyslové podniky ve třech regionech (Republika Mari El, Republika Chuvashia, Republika Tatarstán) byly sestrojeny tři parciální regresní rovnice:

pro republiku Mari El;

pro Čuvašskou republiku;

pro republiku Tatarstán.

Zadejte typ fiktivních proměnných a rovnici s fiktivními proměnnými, která zobecňuje tři parciální regresní rovnice.

5. V ekonometrii je fiktivní proměnná považována za...

proměnná, která nabývá hodnot 0 a 1

popisující kvalitativní charakteristiku kvantitativním způsobem

1. Pro regresní model závislosti průměrného peněžního příjmu obyvatelstva na hlavu (rub., na) z objemu hrubého regionálního produktu (tis. rublů, x 1) a míra nezaměstnanosti v předmětu (%, x 2) je získána rovnice. Hodnota regresního koeficientu pro proměnnou x 2 ukazuje, že když se míra nezaměstnanosti změní o 1 %, průměrný peněžní příjem na hlavu ______ rublů při konstantní hodnotě hrubého regionálního produktu.

se změní na (-1,67)

2. V lineární vícenásobné regresní rovnici: , kde jsou náklady na dlouhodobý majetek (tisíc rublů); – počet zaměstnanců (tis. osob); y- hlasitost průmyslová produkce(tisíc rublů) parametr s proměnnou x 1, rovna 10,8, znamená, že při nárůstu objemu stálých aktiv o _____ se objem průmyslové výroby _____ při konstantním počtu zaměstnanců.


za 1 tisíc rublů. ... se zvýší o 10,8 tisíc rublů.

3. Je známo, že podíl zbytkového rozptylu závislé proměnné na jejím celkovém rozptylu je 0,2. Potom je hodnota koeficientu determinace ... 0,8

4. Byl sestrojen ekonometrický model pro závislost zisku na prodej jednotky produkce (rub., na) z hodnoty pracovní kapitál podniky (tisíc rublů, x 1): . Proto, průměrná velikost zisk z prodeje, který nezávisí na objemu pracovního kapitálu podniku, je _____ rublů. 10,75

5. F-statistika se vypočítá jako poměr ______ rozptylu k ________ rozptylu, vypočtený na stupeň volnosti. faktoriál...zbytkový

1. Pro model ekonometrické regresní rovnice je chyba modelu definována jako ______ mezi skutečnou hodnotou závislé proměnné a její odhadovanou hodnotou. Rozdíl

2. Množství se nazývá... náhodná složka

3. V ekonometrickém modelu regresní rovnice odchylka skutečné hodnoty závislé proměnné od její vypočtené hodnoty charakterizuje ... chybu modelu

4. Je známo, že podíl vysvětleného rozptylu na celkovém rozptylu je 0,2. Potom je hodnota koeficientu determinace ... 0,2

5. S metodou nejmenší čtverce parametry párové rovnice lineární regrese jsou určeny z podmínky ______ zůstatků. minimalizace součtu čtverců

1. K detekci autokorelace v reziduích použijte...

Durbin-Watsonovy statistiky

2. Je známo, že autokorelační koeficient reziduí prvního řádu rovná -0,3. Také jsou uvedeny kritické hodnoty statistiky Durbin–Watson pro daný počet parametrů s neznámým počtem pozorování, . Na základě těchto charakteristik můžeme dojít k závěru, že...neexistuje žádná autokorelace reziduí

1. Vypočítejte matici párových korelačních koeficientů; analyzovat blízkost a směr spojení výsledné charakteristiky Y s každým faktorem X; odhad statistická významnost korelační koeficienty r(Y,X i); vyberte nejinformativnější faktor.

2. Sestavte párový regresní model s nejvíce informativním faktorem; uveďte ekonomickou interpretaci regresního koeficientu.

3. Posuďte kvalitu modelu pomocí průměrné relativní chyby aproximace, koeficientu determinace a Fisherova F testu (akceptujte hladinu významnosti α=0,05).

4. S pravděpodobností spolehlivosti γ=80 % předpovězte průměrnou hodnotu ukazatele Y(předpovědní hodnoty faktorů jsou uvedeny v příloze 6). Prezentujte graficky skutečné a modelové hodnoty Y, předpovídání výsledků.

5. Pomocí metody inkluze sestavte dvoufaktorové modely, ponechte v nich nejinformativnější faktor; vytvořit třífaktorový model s úplný seznam faktory.

6. Vyberte nejlepší z vytvořených více modelů. Uveďte ekonomický výklad jeho koeficientů.

7. Zkontrolujte význam vícenásobných regresních koeficientů pomocí t–Studentský test (akceptujte hladinu významnosti α=0,05). Zlepšila se kvalita vícenásobného modelu ve srovnání se spárovaným modelem?

8. Posuďte vliv faktorů na výsledek pomocí koeficientů pružnosti, koeficientů beta a delta.

Úkol 2. Modelování jednorozměrné časové řady

Příloha 7 ukazuje časové řady Y(t) socioekonomické ukazatele pro oblast Altaj za období 2000 až 2011. Je třeba prostudovat dynamiku ukazatele odpovídající variantě úkolu.

Volba Označení, název, měrná jednotka ukazatele
Y1 Průměrné spotřebitelské výdaje na hlavu (za měsíc), rub.
Y2 Emise znečišťujících látek do atmosférický vzduch, tisíc tun
Y3 Průměrné ceny na sekundárním trhu s bydlením (na konci roku za metr čtvereční celkové plochy), rub.
Y4 Hlasitost placené služby na obyvatele, rub
Y5 Průměrný roční počet osob zaměstnaných v ekonomice tisíc osob
Y6 Počet vlastních osobních automobilů na 1000 obyvatel (ke konci roku), jednotek
Y7 Průměrný peněžní příjem na hlavu (za měsíc), rub.
Y8 Index spotřebitelských cen (prosinec ve srovnání s prosincem předchozího roku), %
Y9 Investice do dlouhodobého majetku (ve skutečných cenách), miliony rublů
Y10 Maloobchodní obrat na hlavu (ve skutečných cenách), rublech


Zakázka

1. Sestrojte model lineární časové řady, jehož parametry lze odhadnout metodou nejmenších čtverců. Vysvětlete význam regresního koeficientu.

2. Posuďte přiměřenost sestrojeného modelu pomocí vlastností náhodnosti, nezávislosti a souladu reziduální složky se zákonem normálního rozdělení.

3. Posuďte přesnost modelu na základě použití průměrné relativní chyby aproximace.

4. Předpovězte uvažovaný ukazatel na rok dopředu (interval předpovědi vypočtěte na pravděpodobnost spolehlivosti 70%).

5. Prezentujte graficky skutečné hodnoty indikátoru, výsledky modelování a prognózování.

6. Vypočítejte parametry logaritmických, polynomických (polynom 2. stupně), mocninných, exponenciálních a hyperbolických trendů. Na základě grafického obrázku a hodnoty determinačního indexu vyberte nejvíce vhodný vzhled trend.

7. Pomocí nejlepšího nelineárního modelu vytvořte bodovou předpověď daného ukazatele na rok dopředu. Získaný výsledek porovnejte s intervalem předpovědi spolehlivosti vytvořeným pomocí lineárního modelu.

PŘÍKLAD

Popravy zkušební práce

Problém 1

Firma se zabývá prodejem ojetých vozů. Názvy indikátorů a výchozí data pro ekonometrické modelování jsou uvedeny v tabulce:

Prodejní cena tis.e. ( Y) Cena nového vozu tis. ( X1) Životnost, roky ( X2) Levostranné řízení - 1, pravostranné řízení - 0, ( X3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Požadované:

1. Vypočítejte matici párových korelačních koeficientů; analyzovat blízkost a směr spojení mezi výslednou charakteristikou Y a každým z faktorů X; vyhodnotit statistickou významnost korelačních koeficientů r(Y, X i); vyberte nejinformativnější faktor.

Používáme Excel (Data / Analýza dat / KORELACE):

Získáme matici párových korelačních koeficientů mezi všemi dostupnými proměnnými:

U X1 X2 X3
U
X1 0,910987
X2 -0,4156 -0,2603
X3 0,190785 0,221927 -0,30308

Pojďme analyzovat korelační koeficienty mezi výslednou charakteristikou Y a každý z faktorů X j:

> 0 tedy mezi proměnnými Y A X 1 existuje přímá úměra: čím vyšší je cena nového vozu, tím vyšší je prodejní cena.

> 0,7 – tato závislost je blízká.

< 0, значит, между переменными Y A X 2 pozorováno

inverzní korelace: prodejní cena je u aut nižší

mobilní telefony s dlouhou životností.

– tato závislost je střední, blíže až slabá.

> 0, což znamená mezi proměnnými Y A X 3 existuje přímá úměra: prodejní cena je vyšší u vozů s levostranným řízením.

< 0,4 – эта зависимость слабая.

Pro kontrolu významnosti nalezených korelačních koeficientů používáme Studentův test.

Pro každý korelační koeficient pojďme počítat t-statistika podle vzorce a zadejte výsledky výpočtu do dalšího sloupce korelační tabulky:

U X1 X2 X3 t-statistiky
U
X1 0,910987 7,651524603
X2 -0,4156 -0,2603 1,582847988
X3 0,190785 0,221927 -0,30308 0,673265587

Podle tabulky kritických bodů Studentova rozdělení na hladině významnosti a počet stupňů volnosti, které definujeme kritická hodnota(Příloha 1, nebo funkce STUDARASTER).Y a životnost X 2 je spolehlivý.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y a polohu volantu X 3 je spolehlivý.

Mezi prodejní cenou je tedy pozorován nejtěsnější a nejvýznamnější vztah Y a cena nového vozu X 1; faktor X 1 je nejinformativnější.

y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analýza matice párových korelačních koeficientů ukazuje, že efektivní indikátor nejvíce souvisí s indikátorem X(4) - množství spotřebovaného hnojiva na 1 hektar ().

Souvislost mezi atributy-argumenty je přitom docela těsná. Existuje tedy prakticky funkční vztah mezi počtem kolových traktorů ( X(1)) a počet nástrojů pro povrchové zpracování půdy .

Přítomnost multikolinearity je také indikována korelačními koeficienty a . Vzhledem k úzkému vztahu mezi ukazateli X (1) , X(2) a X(3), v regresní model Do výnosu může vstoupit pouze jeden z nich.

Chcete-li demonstrovat negativní dopad multikolinearity, zvažte regresní model výnosu, včetně všech vstupních ukazatelů:

F obs = 121.

Hodnoty opravených odhadů směrodatných odchylek odhadů koeficientů rovnice jsou uvedeny v závorkách .

Pod regresní rovnicí jsou uvedeny následující parametry přiměřenosti: vícenásobný koeficient determinace; opravený odhad zbytkového rozptylu, průměrné relativní chyby aproximace a vypočtená hodnota kritéria F obs = 121.

Regresní rovnice je významná, protože F obs = 121 > F kp = 2,85 zjištěno z tabulky F-rozdělení při a=0,05; ni = 6 an2 = 14.

Z toho vyplývá, že Q¹0, tzn. a alespoň jeden z koeficientů rovnice q j (j= 0, 1, 2, ..., 5) se nerovná nule.

Pro ověření hypotézy o významnosti jednotlivých regresních koeficientů H0 platí: q j =0, kde j=1,2,3,4,5, porovnejte kritickou hodnotu t kp = 2,14, zjištěno z tabulky t-rozdělení na hladině významnosti a=2 Q=0,05 a počet stupňů volnosti n=14, s vypočtenou hodnotou . Z rovnice vyplývá, že regresní koeficient je statisticky významný pouze tehdy, když X(4) od ½ t 4½=2,90 > t kp = 2,14.



Nepřizpůsobitelné ekonomickému výkladu negativní znamení regresní koeficienty při X(1) a X(5) . Ze záporných hodnot koeficientů vyplývá, že nárůst saturace zemědělství kolovými traktory ( X(1)) a rostlinolékařské přípravky ( X(5) má negativní vliv na výnos. Výsledná regresní rovnice je proto nepřijatelná.

K získání regresní rovnice s významnými koeficienty použijeme krok za krokem algoritmus regresní analýza. Zpočátku používáme krokový algoritmus s eliminací proměnných.

Vynechme proměnnou z modelu X(1) , což odpovídá minimu absolutní hodnota hodnota ½ t 1 ½ = 0,01. Pro zbývající proměnné opět sestrojíme regresní rovnici:

Výsledná rovnice je významná, protože F pozorováno = 155 > F kp = 2,90, zjištěno na hladině významnosti a=0,05 a počtech stupňů volnosti n 1 =5 a n 2 =15 dle tabulky F-distribuce, tzn. vektor q¹0. Avšak pouze regresní koeficient při X(4) . Odhadované hodnoty ½ t j ½ pro ostatní koeficienty je menší t kr = 2,131, zjištěno z tabulky t-rozdělení při a=2 Q= 0,05 an = 15.

Vyloučením proměnné z modelu X(3) , která odpovídá minimální hodnotě t 3 = 0,35 a dostaneme regresní rovnici:

(2.9)

Ve výsledné rovnici je koeficient at X(5) . Vyloučením X(5) dostaneme regresní rovnici:

(2.10)

Máme významná rovnice regrese s významnými a interpretovatelnými koeficienty.

Výsledná rovnice však není jediným „dobrým“ a nikoli „nejlepším“ výnosovým modelem v našem příkladu.

Pojďme si to ukázat v podmínce multikolinearity je efektivnější postupný algoritmus se zahrnutím proměnných. První krok ve výnosovém modelu y včetně proměnné X(4) , který má nejvyšší korelační koeficient s y, vysvětleno proměnnou - r(y,X(4)) = 0,58. Ve druhém kroku včetně rovnice spolu s X(4) proměnné X(1) nebo X(3), získáme modely, které z ekonomických důvodů a statistických charakteristik přesahují (2.10):

(2.11)

(2.12)

Zahrnutí kterékoli ze tří zbývajících proměnných do rovnice zhoršuje její vlastnosti. Viz např. rovnice (2.9).

Máme tedy tři „dobré“ výnosové modely, z nichž si z ekonomických a statistických důvodů musíme jeden vybrat.

Podle statistická kritéria nejvhodnější model je (2.11). Odpovídá minimálním hodnotám zbytkového rozptylu = 2,26 a průměrné relativní chybě aproximace a nejvyšší hodnoty a F obs = 273.

Nějaký nejhorší výkon model (2.12) má adekvátnost a poté model (2.10).

Nyní vybereme nejlepší z modelů (2.11) a (2.12). Tyto modely se od sebe liší z hlediska proměnných X(1) a X(3) . Ve výnosových modelech však proměnná X(1) (počet kolových traktorů na 100 ha) je výhodnější než variabilní X(3) (počet strojů na povrchové zpracování půdy na 100 ha), který je do jisté míry sekundární (nebo odvozený od X (1)).

V tomto ohledu by měl být z ekonomických důvodů upřednostněn model (2.12). Po implementaci algoritmu postupné regresní analýzy se zahrnutím proměnných a při zohlednění skutečnosti, že do rovnice by měla vstupovat pouze jedna ze tří souvisejících proměnných ( X (1) , X(2) popř X(3)) vyberte konečnou regresní rovnici:

Rovnice je významná při a=0,05, protože F obs = 266 > F kp = 3,20, zjištěno z tabulky F-distribuce na a= Q=0,05; ni = 3 an2 = 17. Všechny regresní koeficienty v rovnici ½ jsou také významné t j½> t kp(a=2 Q=0,05; n=17)=2,11. Regresní koeficient q 1 by měl být z ekonomických důvodů považován za významný (q 1 ¹0). t 1 = 2,09 jen o něco méně t kp = 2,11.

Z regresní rovnice vyplývá, že zvýšení počtu traktorů o jeden na 100 hektarů orné půdy (při pevné hodnotě X(4)) vede ke zvýšení výnosů zrna v průměru o 0,345 c/ha.

Přibližný výpočet koeficientů pružnosti e 1 »0,068 a e 2 »0,161 ukazuje, že s rostoucími ukazateli X(1) a X(4) o 1 %, výnos zrna se zvyšuje v průměru o 0,068 % a 0,161 %.

Vícenásobný koeficient určení ukazuje, že pouze 46,9 % variace výnosu je vysvětleno indikátory zahrnutými v modelu ( X(1) a X(4), tedy nasycení rostlinné výroby traktory a hnojivy. Zbytek variace je způsoben působením nezapočítaných faktorů ( X (2) , X (3) , X(5), povětrnostní podmínky atd.). Průměrná relativní chyba aproximace charakterizuje adekvátnost modelu a také hodnotu zbytkového rozptylu. Při interpretaci regresní rovnice jsou zajímavé hodnoty relativních chyb aproximace . Připomeňme, že - modelová hodnota efektivního ukazatele charakterizuje průměrnou hodnotu výnosu za celek posuzovaných regionů za předpokladu, že hodnoty vysvětlujících proměnných X(1) a X(4) jsou stanoveny na stejné úrovni, tj X (1) = x i(1) a X (4) = x i(4) . Poté podle hodnot d i Můžete porovnávat regiony podle výnosu. Oblasti, kterým odpovídají hodnoty d i>0, mají nadprůměrný výnos a d i<0 - ниже среднего.

V našem příkladu je z hlediska výnosu nejúčinnější rostlinná produkce prováděna na ploše odpovídající d 7 =28 %, kde výnos je o 28 % vyšší než krajský průměr a nejméně efektivní je v oblasti s d 20 =-27,3%.


Úkoly a cvičení

2.1. Z běžné populace ( y, X (1) , ..., X(p)), kde y má zákon normálního rozdělení s podmíněným matematickým očekáváním a rozptylem s 2, byl odebrán náhodný vzorek objemu n, nech to být ( y i, x i (1) , ..., x i(p)) - výsledek i pozorování ( i=1, 2, ..., n). Určete: a) matematické očekávání odhadu vektoru metodou nejmenších čtverců q; b) kovarianční matice odhadu vektoru metodou nejmenších čtverců q; c) matematické očekávání hodnocení.

2.2. Podle podmínek úlohy 2.1 najděte matematické očekávání součtu kvadrátů odchylek v důsledku regrese, tzn. EQ R, Kde

.

2.3. Podle podmínek úlohy 2.1 určete matematické očekávání součtu kvadrátů odchylek způsobených zbytkovou variací vzhledem k regresním přímkám, tzn. EQ ost, kde

2.4. Dokažte, že když je splněna hypotéza H 0: q=0 statistika

má F-rozdělení se stupni volnosti n 1 =p+1 a n 2 =n-p-1.

2.5. Dokažte, že při splnění hypotézy H 0: q j =0 má statistika t-rozdělení s počtem stupňů volnosti n=n-p-1.

2.6. Na základě údajů (tabulka 2.3) o závislosti smrštění krmného chleba ( y) na dobu skladování ( X) najít bodový odhad podmíněného očekávání za předpokladu, že obecná regresní rovnice je lineární.

Tabulka 2.3.

Požadováno: a) najít odhady zbytkového rozptylu s 2 za předpokladu, že obecná regresní rovnice má tvar ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotéza Ho: q=0; c) se spolehlivostí g=0,9 určete intervalové odhady parametrů q 0, q 1; d) se spolehlivostí g=0,95 určete intervalový odhad podmíněného matematického očekávání at X 0 = 6; e) určete při g=0,95 interval spolehlivosti predikce v bodě X=12.

2.7. Na základě údajů o dynamice tempa růstu cen akcií za 5 měsíců uvedených v tabulce. 2.4.

Tabulka 2.4.

měsíce ( X)
y (%)

a za předpokladu, že obecná regresní rovnice má tvar , je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,01 významnost regresního koeficientu, tzn. hypotézy H 0: q 1 = 0;

c) se spolehlivostí g=0,95 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,9 stanovte intervalový odhad podmíněného matematického očekávání at X 0 = 4; e) určete při g=0,9 interval spolehlivosti predikce v bodě X=5.

2.8. Výsledky studia dynamiky přírůstku hmotnosti mladých zvířat jsou uvedeny v tabulce 2.5.

Tabulka 2.5.

Za předpokladu, že obecná regresní rovnice je lineární, je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotézy Ho: q=0;

c) se spolehlivostí g=0,8 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,98 určete a porovnejte intervalové odhady podmíněného matematického očekávání při X 0 = 3 a X 1 =6;

e) určete při g=0,98 interval spolehlivosti predikce v bodě X=8.

2.9. Náklady ( y) jeden výtisk knihy v závislosti na nákladu ( X) (tis. výtisků) charakterizují údaje shromážděné vydavatelstvím (tabulka 2.6). Určete odhad nejmenších čtverců a parametry hyperbolické regresní rovnice, sestrojte se spolehlivostí g=0,9 intervaly spolehlivosti pro parametry q 0 a q 1, stejně jako podmíněné matematické očekávání at X=10.

Tabulka 2.6.

Určete odhady a parametry regresní rovnice tvaru , otestujte hypotézu H 0 při a = 0,05: q 1 = 0 a sestrojte intervaly spolehlivosti se spolehlivostí g = 0,9 pro parametry q 0 a q 1 a podmíněné matematické očekávání při X=20.

2.11. V tabulce 2.8 uvedl údaje o tempech růstu (%) následujících makroekonomických ukazatelů n=10 rozvinutých zemí světa za rok 1992: HNP - X(1) , průmyslová výroba - X(2) , cenový index - X (3) .

Tabulka 2.8.

země x a parametry regresní rovnice, odhad reziduálního rozptylu; b) zkontrolujte při a=0,05 významnost regresního koeficientu, tzn. H°: qi=0; c) se spolehlivostí g=0,9 najděte intervalové odhady q 0 a q 1; d) najděte při g=0,95 interval spolehlivosti pro daný bod X 0 =x i, Kde i=5; e) porovnejte statistické charakteristiky regresních rovnic: 1, 2 a 3.

2.12. Vyřešte problém 2.11 pomocí ( na) index X(1) a pro vysvětlení ( X) proměnná X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika a základy ekonometrie: Učebnice. M., UNITY, 1998 (2. vydání 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika v úlohách a cvičeních: Učebnice. M. JEDNOTA - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Výzkum závislosti. M., Finance a statistika, 1985, 487 s.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Klasifikace a redukce rozměrů. M., Finance a statistika, 1989, 607 s.;

5. Johnston J. Ekonometrické metody, M.: Statistika, 1980, 446 s.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Vícerozměrné statistické metody. M., Finance a statistika, 2000;

7. Mkhitaryan V.S., Troshin L.I. Studium závislostí pomocí korelačních a regresních metod. M., MESI, 1995, 120 stran;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Vícerozměrné statistické metody v ekonomii. M., MESI, 1995, 149 s.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Matematická statistika pro obchodníky a manažery. M., MESI, 2000, 140 stran;

10. Lukashin Yu.I. Regresní a adaptivní předpovědní metody: Učebnice, M., MESI, 1997.

11. Lukashin Yu.I. Adaptivní metody krátkodobého předpovídání. - M., Statistika, 1979.


APLIKACE


Příloha 1. Možnosti úloh pro samostatný počítačový výzkum.

Matice párových korelačních koeficientů je matice, jejíž prvky jsou párové korelační koeficienty. Například pro tři proměnné tato matice vypadá takto:
- yx 1x 2x 3
y1 r yx1r yx2r yx3
x 1r x1y1 r x1x2r x 1 x 3
x 2r x2yr x2x11 r x2x3
x 3rx3yr x 3 x 1r x 3 x 21

Do pole vložte matici párových koeficientů.

Příklad. Podle údajů ze 154 zemědělských podniků v regionu Kemerovo v roce 2003 prostudujte efektivitu produkce obilí (tabulka 13).

  1. Určete faktory utvářející rentabilitu obilí v zemědělských podnicích v roce 2003.
  2. Sestrojte matici párových korelačních koeficientů. Určete, které faktory jsou multikolineární.
  3. Sestrojte regresní rovnici charakterizující závislost rentability obilí na všech faktorech.
  4. Posuďte význam výsledné regresní rovnice. Jaké faktory významně ovlivňují tvorbu rentability zrna v tomto modelu?
  5. Zhodnoťte rentabilitu produkce obilí v zemědělském podniku č. 3.

Řešení pomocí kalkulačky získáme vícenásobnou regresní rovnici:

1. Odhad regresní rovnice.
Stanovme vektor odhadů regresních koeficientů. Podle metody nejmenších čtverců se vektor získá z výrazu:
s = (X T X) -1 X T Y
Matice X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Matice Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Matrix X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Násobit matice, (X T X)
Najděte determinant det(X T X) T = 34,35
Najděte inverzní matici (X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Vektor odhadů regresního koeficientu je roven
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Regresní rovnice (odhad regresní rovnice)
Y = 0,1565 + 0,3375 x 1 + 0,0043 x 2 + 0,2986 x 3

Matice párových korelačních koeficientů

Počet pozorování je n = 22. Počet nezávislých proměnných v modelu je přesně 3 a počet regresorů zohledňující jednotkový vektor se rovná počtu neznámých koeficientů. Při zohlednění znaménka Y se rozměr matice rovná 5. Matice nezávislých proměnných X má rozměr (22 x 5). Matice X T X se určí přímým násobením nebo následujícími předem vypočítanými součty.
Matice tvořená Y a X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Transponovaná matice.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Matice A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Výsledná matice má následující shodu:

Pojďme najít párové korelační koeficienty.
Pro y a x 1

Průměrné hodnoty



Disperze





Korelační koeficient

Pro y a x 2
Rovnice je y = ax + b
Průměrné hodnoty



Disperze


Standardní odchylka


Korelační koeficient

Pro y a x 3
Rovnice je y = ax + b
Průměrné hodnoty



Disperze


Standardní odchylka


Korelační koeficient

Pro x 1 a x 2
Rovnice je y = ax + b
Průměrné hodnoty



Disperze


Standardní odchylka


Korelační koeficient

Pro x 1 a x 3
Rovnice je y = ax + b
Průměrné hodnoty



Disperze


Standardní odchylka


Korelační koeficient

Pro x 2 a x 3
Rovnice je y = ax + b
Průměrné hodnoty



Disperze


Standardní odchylka


Korelační koeficient

Matice párových korelačních koeficientů.
- y x 1 x 2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x 2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Analýza prvního řádku této matice umožňuje výběr faktorových charakteristik, které lze zahrnout do modelu vícenásobné korelace. Charakteristiky faktorů, pro které r yxi< 0.5 исключают из модели.
Kolinearita je vztah mezi faktory. Jako kritérium pro multikolinearitu lze přijmout následující nerovnosti:
r(x j y) > r (x k x j); r(x k y) > r(x k x j).
Pokud není splněna jedna z nerovnic, pak je vyloučen parametr x k nebo x j, jehož souvislost s výsledným ukazatelem Y je nejméně těsná.
3. Analýza parametrů regresní rovnice.
Přejděme ke statistické analýze výsledné regresní rovnice: kontrola významnosti rovnice a jejích koeficientů, studium absolutních a relativních chyb aproximace
Pro nezkreslený odhad rozptylu provádíme následující výpočty:
Nezaujatá chyba e = Y - X*s ( absolutní chyba přiblížení)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
Nezaujatý odhad rozptylu je

Školní známka standardní odchylka rovná

Najděte odhad kovarianční matice vektoru k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Rozptyl parametrů modelu určuje vztah S 2 i = K ii, tzn. to jsou prvky ležící na hlavní diagonále
Pro rozšíření možností smysluplné analýzy regresního modelu se používají parciální koeficienty elasticity, které jsou určeny vzorcem:


Parciální koeficient pružnosti E 1< 1. Следовательно, его влияние на результативный признак Y незначительно.

Parciální koeficient pružnosti E 2< 1. Следовательно, его влияние на результативный признак Y незначительно.

Parciální koeficient pružnosti E 3< 1. Следовательно, его влияние на результативный признак Y незначительно.
Blízkost společného vlivu faktorů na výsledek se posuzuje indexem vícenásobné korelace (od 0 do 1)

Vztah mezi znakem Y a faktory X je mírný
Koeficient determinace
R2 = 0,622 = 0,38
těch. v 38,0855 % případů vedou změny x ke změnám y. Jinými slovy, přesnost výběru regresní rovnice je průměrná
Význam korelačního koeficientu

Pomocí Studentovy tabulky najdeme Ttable
T tabulka (n-m-1;a) = (18;0,05) = 1,734
Protože Tob > Ttabl zamítáme hypotézu, že korelační koeficient je roven 0. Jinými slovy, korelační koeficient je statisticky významný
Intervalový odhad pro korelační koeficient (interval spolehlivosti)

Interval spolehlivosti pro korelační koeficient
r(0,3882;0,846)
5. Testování hypotéz týkajících se koeficientů regresní rovnice (testování významnosti parametrů vícenásobné regresní rovnice).
1) t-statistika


Statistická významnost regresního koeficientu b 0 není potvrzena

Statistická významnost regresního koeficientu b 1 není potvrzena

Statistická významnost regresního koeficientu b 2 není potvrzena

Statistická významnost regresního koeficientu b 3 není potvrzena
Interval spolehlivosti pro koeficienty regresní rovnice
Stanovme intervaly spolehlivosti regresních koeficientů, které budou se spolehlivostí 95 % následující:
(b i - t i S i; b i + t i S i)
b 0: (-0,7348; 1,0478)
b 1: (-2,9781;3,6531)
b 2: (-0,4466;0,4553)
b 3: (-4,8459;5,4431)

2) F-statistika. Fisherovo kritérium


Fkp = 2,93
Protože F< Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Kontrola přítomnosti heteroskedasticity pomocí grafické analýzy reziduí.
V tomto případě jsou hodnoty vysvětlující proměnné Xi vyneseny podél osy úsečky a druhé mocniny odchylky ei2 jsou vyneseny podél osy pořadnice.

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02


Novinka na webu

>

Nejoblíbenější