Domov Zuby moudrosti Požadováno na základě analýzy matice párových koeficientů. Sestrojte matici párových korelačních koeficientů

Požadováno na základě analýzy matice párových koeficientů. Sestrojte matici párových korelačních koeficientů

Úkol 2

1. Sestrojte matici párových korelačních koeficientů. Zkontrolujte multikolinearitu. Zdůvodněte výběr faktorů v modelu.

2. Sestrojte vícenásobnou regresní rovnici v lineárním tvaru s vybranými faktory.

3. Posuďte statistickou významnost regresní rovnice a jejích parametrů pomocí Fisherova a Studentova testu.

4. Sestrojte regresní rovnici pomocí statistiky významné faktory. Kvalitu regresní rovnice posuďte pomocí koeficientu determinace R2. Vyhodnoťte přesnost sestrojeného modelu.

5. Vyhodnoťte prognózu objemu výroby, pokud jsou prognózované hodnoty faktorů 75 % jejich maximálních hodnot.

Problémové stavy (možnost 21)

Podle údajů uvedených v tabulce 1 (n = 17) studujeme závislost objemu produkce Y (mil. rublů) na následující faktory(proměnné):

X 1 – počet pracovníků průmyslové výroby, osob.

X 2 – průměrné roční náklady na dlouhodobý majetek, miliony rublů.

X 3 – odpisy dlouhodobého majetku, %

X 4 – napájení, kWh.

X 5 – technické vybavení jednoho pracovníka, milion rublů.

X 6 – produkce obchodovatelných výrobků na pracovníka, rub.

Tabulka 1. Údaje o uvolnění produktu

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Sestrojte matici párových korelačních koeficientů. Zkontrolujte multikolinearitu. Zdůvodněte výběr faktorů v modelu

Tabulka 2 ukazuje matice párových korelačních koeficientů pro všechny proměnné zahrnuté do úvahy. Matrice byla získána pomocí nástroje Korelace z balíčku Analýza dat PROTI Vynikat.

Tabulka 2. Matice párových korelačních koeficientů

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Vizuální analýza matice umožňuje stanovit:

1) U má poměrně vysoké párové korelace s proměnnými X1, X2 (>0,5) a nízké s proměnnými X3,X4,X5,X6 (<0,5);

2) Analytické proměnné X1, X2 vykazují poměrně vysoké párové korelace, což vyžaduje kontrolu faktorů na přítomnost multikolinearity mezi nimi. Navíc jednou z podmínek klasického regresního modelu je předpoklad nezávislosti vysvětlujících proměnných.

Abychom identifikovali multikolinearitu faktorů, provádíme Farrar-Glouberův test faktorem X1, X2, X3, X4, X5, X6.

Kontrola Farrar-Glouberova testu na multikolinearitu faktorů zahrnuje několik fází.

1) Kontrola multikolinearity celého pole proměnných .

Jednou z podmínek klasického regresního modelu je předpoklad nezávislosti vysvětlujících proměnných. Pro identifikaci multikolinearity mezi faktory se matice mezifaktorových korelací R vypočítá pomocí Data Analysis Package (tabulka 3).

Tabulka 3. Matice mezifaktorových korelací R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Mezi faktory X1 a X2, X5 a X4, X6 a X5 existuje silná závislost (>0,5).

Determinant det (R) = 0,001488 se vypočítá pomocí funkce MOPRED. Determinant matice R má tendenci k nule, což nám umožňuje učinit předpoklad o obecné multikolinearitě faktorů.

2) Kontrola multikolinearity každé proměnné s jinými proměnnými:

· Vypočítejme inverzní matici R -1 pomocí excelovské funkce MOBR (tabulka 4):

Tabulka 4. inverzní matice R-1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Výpočet F-kritérií, kde jsou diagonální prvky matice, n=17, k = 6 (tabulka 5).

Tabulka 5. Hodnoty F-testu

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Skutečné hodnoty F-testu jsou porovnány s tabulkovou hodnotou F tabulka = 3,21(FDIST(0,05;6;10)) s n1= 6 an2 = n - k – 1=17-6-1=10 stupňů volnosti a hladinou významnosti α=0,05, kde k je počet faktorů.

· Hodnoty F-kritéria pro faktory X1 a X2 jsou vyšší než hodnoty uvedené v tabulce, což ukazuje na přítomnost multikolinearity mezi těmito faktory. Faktor X3 má nejmenší vliv na celkovou multikolinearitu faktorů.

3) Kontrola multikolinearity každé dvojice proměnných

· Vypočítejme parciální korelační koeficienty pomocí vzorce , kde jsou prvky matice (tabulka 6)

Tabulka 6. Matice parciálních korelačních koeficientů

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Výpočet t-kritéria podle vzorce (Tabulka 7)

n - počet údajů = 17

K - počet faktorů = 6

Tabulka 7.t-testy pro parciální korelační koeficienty

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t tabulka = STUDARSOBR(0,05;10) = 2,23

Skutečné hodnoty t-testů jsou porovnány s tabulkovou hodnotou se stupni volnosti n-k-1 = 17-6-1=10 a hladinou významnosti α=0,05;

t21 > ttable

t54 > ttable

Z tabulek 6 a 7 je zřejmé, že dvě dvojice faktorů X1 a X2, X4 a X5 mají vysokou statisticky významnou parciální korelaci, to znamená, že jsou multikolineární. Abyste se zbavili multikolinearity, můžete vyloučit jednu z proměnných kolineárního páru. V páru X1 a X2 necháme X2, v páru X4 a X5 necháme X5.

V důsledku kontroly Farrar-Glouberova testu tedy zůstávají následující faktory: X2, X3, X5, X6.

Dokončení procedur korelační analýza, je vhodné podívat se na dílčí korelace vybraných faktorů s výsledkem Y.

Vytvořme matici párových korelačních koeficientů na základě dat v tabulce 8.

Tabulka 8. Výstupní data produktu s vybranými faktory X2, X3, X5, X6.

Pozorování č. Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Poslední sloupec tabulky 9 uvádí hodnoty t-testu pro sloupec Y.

Tabulka 9. Matice parciálních korelačních koeficientů s výsledkem Y

Y X2 X3 X5 X6 t kritérium (t tabulka (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Z tabulky 9 je zřejmé, že proměnná Y má vysokou a zároveň statisticky významnou dílčí korelaci s faktor X2.

y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analýza matice párových korelačních koeficientů ukazuje, že efektivní indikátor nejvíce souvisí s indikátorem X(4) - množství spotřebovaného hnojiva na 1 hektar ().

Souvislost mezi atributy-argumenty je přitom docela těsná. Existuje tedy prakticky funkční vztah mezi počtem kolových traktorů ( X(1)) a počet nástrojů pro povrchové zpracování půdy .

Přítomnost multikolinearity je také indikována korelačními koeficienty a . Vzhledem k úzkému vztahu mezi ukazateli X (1) , X(2) a X(3), pouze jeden z nich může být zahrnut do modelu výnosové regrese.

Chcete-li demonstrovat negativní dopad multikolinearity, zvažte regresní model výnosu, včetně všech vstupních ukazatelů:

F obs = 121.

Hodnoty opravených odhadů směrodatných odchylek odhadů koeficientů rovnice jsou uvedeny v závorkách .

Pod regresní rovnicí jsou uvedeny následující parametry přiměřenosti: vícenásobný koeficient odhodlání; opravený odhad zbytkového rozptylu, průměr relativní chyba aproximace a vypočtená hodnota kritéria F obs = 121.

Regresní rovnice je významná, protože F obs = 121 > F kp = 2,85 zjištěno z tabulky F-rozdělení při a=0,05; ni = 6 an2 = 14.

Z toho vyplývá, že Q¹0, tzn. a alespoň jeden z koeficientů rovnice q j (j= 0, 1, 2, ..., 5) není nula.

Pro ověření hypotézy o významnosti jednotlivých regresních koeficientů H0 platí: q j =0, kde j=1,2,3,4,5, porov kritická hodnota t kp = 2,14, zjištěno z tabulky t-rozdělení na hladině významnosti a=2 Q=0,05 a počet stupňů volnosti n=14, s vypočtenou hodnotou . Z rovnice vyplývá, že regresní koeficient je statisticky významný pouze při X(4) od ½ t 4 ½ = 2,90 > t kp = 2,14.



Nepřizpůsobitelné ekonomickému výkladu negativní znamení regresní koeficienty při X(1) a X(5) . Ze záporných hodnot koeficientů vyplývá, že nárůst saturace zemědělství kolovými traktory ( X(1)) a přípravky na ochranu rostlin ( X(5) má negativní vliv na výnos. Výsledná regresní rovnice je proto nepřijatelná.

K získání regresní rovnice s významnými koeficienty použijeme krok za krokem algoritmus regresní analýza. Zpočátku používáme krokový algoritmus s eliminací proměnných.

Vynechme proměnnou z modelu X(1) , což odpovídá minimální absolutní hodnotě ½ t 1 ½ = 0,01. Pro zbývající proměnné opět sestrojíme regresní rovnici:

Výsledná rovnice je významná, protože F pozorováno = 155 > F kp = 2,90, zjištěno na hladině významnosti a=0,05 a počtech stupňů volnosti n 1 =5 a n 2 =15 dle tabulky F-distribuce, tzn. vektor q¹0. Avšak pouze regresní koeficient při X(4) . Odhadované hodnoty ½ t j ½ pro ostatní koeficienty je menší t kr = 2,131, zjištěno z tabulky t-rozdělení při a=2 Q= 0,05 an = 15.

Vyloučením proměnné z modelu X(3) , která odpovídá minimální hodnotě t 3 = 0,35 a dostaneme regresní rovnici:

(2.9)

Ve výsledné rovnici je koeficient at X(5) . Vyloučením X(5) dostaneme regresní rovnici:

(2.10)

Máme významná rovnice regrese s významnými a interpretovatelnými koeficienty.

Výsledná rovnice však není jediným „dobrým“ a nikoli „nejlepším“ výnosovým modelem v našem příkladu.

Pojďme si to ukázat v podmínce multikolinearity je efektivnější postupný algoritmus se zahrnutím proměnných. První krok ve výnosovém modelu y včetně proměnné X(4) , který má nejvyšší korelační koeficient s y, vysvětleno proměnnou - r(y,X(4)) = 0,58. Ve druhém kroku včetně rovnice spolu s X(4) proměnné X(1) nebo X(3), získáme modely, které z ekonomických důvodů a statistických charakteristik přesahují (2.10):

(2.11)

(2.12)

Zahrnutí kterékoli ze tří zbývajících proměnných do rovnice zhoršuje její vlastnosti. Viz například rovnice (2.9).

Máme tedy tři „dobré“ výnosové modely, z nichž si z ekonomických a statistických důvodů musíme jeden vybrat.

Podle statistická kritéria nejvhodnější model je (2.11). Odpovídá minimálním hodnotám zbytkového rozptylu = 2,26 a průměrné relativní chybě aproximace resp. nejvyšší hodnoty a F obs = 273.

Nějaký nejhorší výkon model (2.12) má adekvátnost a poté model (2.10).

Nyní vybereme nejlepší z modelů (2.11) a (2.12). Tyto modely se od sebe liší z hlediska proměnných X(1) a X(3) . Ve výnosových modelech však proměnná X(1) (počet kolových traktorů na 100 ha) je výhodnější než variabilní X(3) (počet strojů na povrchové zpracování půdy na 100 ha), který je do jisté míry sekundární (nebo odvozený od X (1)).

V tomto ohledu by měl být z ekonomických důvodů upřednostněn model (2.12). Po implementaci algoritmu postupné regresní analýzy se zahrnutím proměnných a při zohlednění skutečnosti, že do rovnice by měla vstupovat pouze jedna ze tří souvisejících proměnných ( X (1) , X(2) popř X(3)) vyberte konečnou regresní rovnici:

Rovnice je významná při a=0,05, protože F obs = 266 > F kp = 3,20, zjištěno z tabulky F-distribuce na a= Q=0,05; ni = 3 an2 = 17. Všechny regresní koeficienty v rovnici ½ jsou také významné t j½> t kp(a=2 Q=0,05; n=17)=2,11. Regresní koeficient q 1 by měl být z ekonomických důvodů považován za významný (q 1 ¹0). t 1 = 2,09 jen o něco méně t kp = 2,11.

Z regresní rovnice vyplývá, že zvýšení počtu traktorů o jeden na 100 hektarů orné půdy (při pevné hodnotě X(4)) vede ke zvýšení výnosů zrna v průměru o 0,345 c/ha.

Přibližný výpočet koeficientů pružnosti e 1 »0,068 a e 2 »0,161 ukazuje, že s rostoucími ukazateli X(1) a X(4) o 1 %, výnos zrna se zvyšuje v průměru o 0,068 % a 0,161 %.

Vícenásobný koeficient determinace ukazuje, že pouze 46,9 % variace výnosu je vysvětleno indikátory zahrnutými v modelu ( X(1) a X(4), tedy nasycení rostlinné výroby traktory a hnojivy. Zbytek variace je způsoben působením nezapočítaných faktorů ( X (2) , X (3) , X(5), povětrnostní podmínky atd.). Průměrná relativní chyba aproximace charakterizuje adekvátnost modelu a také hodnotu zbytkového rozptylu. Při interpretaci regresní rovnice jsou zajímavé hodnoty relativních chyb aproximace . Připomeňme, že - modelová hodnota efektivního ukazatele charakterizuje průměrnou hodnotu výnosu za celek posuzovaných regionů za předpokladu, že hodnoty vysvětlujících proměnných X(1) a X(4) jsou stanoveny na stejné úrovni, tj X (1) = x i(1) a X (4) = x i(4) . Poté podle hodnot d i Můžete porovnávat regiony podle výnosu. Oblasti, kterým odpovídají hodnoty d i>0, mají nadprůměrný výnos a d i<0 - ниже среднего.

V našem příkladu je z hlediska výnosu rostlinná výroba nejúčinnější na ploše odpovídající d 7 =28 %, kde výnos je o 28 % vyšší než krajský průměr a nejméně efektivní je v oblasti s d 20 =-27,3%.


Úkoly a cvičení

2.1. Z běžné populace ( y, X (1) , ..., X(p)), kde y má zákon normálního rozdělení s podmíněným matematickým očekáváním a rozptylem s 2, náhodný výběr n, nech to být ( y i, x i (1) , ..., x i(p)) - výsledek i pozorování ( i=1, 2, ..., n). Určete: a) matematické očekávání odhadu vektoru metodou nejmenších čtverců q; b) kovarianční matice odhadu vektoru metodou nejmenších čtverců q; c) matematické očekávání hodnocení.

2.2. Podle podmínek úlohy 2.1 najděte matematické očekávání součtu kvadrátů odchylek v důsledku regrese, tzn. EQ R, Kde

.

2.3. Podle podmínek úlohy 2.1 určete matematické očekávání součtu kvadrátů odchylek způsobených zbytkovou variací vzhledem k regresním přímkám, tzn. EQ ost, kde

2.4. Dokažte, že když je splněna hypotéza H 0: q=0 statistika

má F-rozdělení se stupni volnosti n 1 =p+1 a n 2 =n-p-1.

2.5. Dokažte, že při splnění hypotézy H 0: q j =0 má statistika t-rozdělení s počtem stupňů volnosti n=n-p-1.

2.6. Na základě údajů (tabulka 2.3) o závislosti smrštění krmného chleba ( y) na dobu skladování ( X) najděte bodový odhad podmíněného matematické očekávání za předpokladu, že obecná regresní rovnice je lineární.

Tabulka 2.3.

Požadováno: a) najít odhady zbytkového rozptylu s 2 za předpokladu, že obecná regresní rovnice má tvar ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotéza Ho: q=0; c) se spolehlivostí g=0,9 určete intervalové odhady parametrů q 0, q 1; d) se spolehlivostí g=0,95 určete intervalový odhad podmíněného matematického očekávání at X 0 = 6; e) stanovit při g=0,95 interval spolehlivosti předpovědi na místě X=12.

2.7. Na základě údajů o dynamice tempa růstu cen akcií za 5 měsíců uvedených v tabulce. 2.4.

Tabulka 2.4.

měsíce ( X)
y (%)

a za předpokladu, že obecná regresní rovnice má tvar , je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,01 významnost regresního koeficientu, tzn. hypotézy H 0: q 1 = 0;

c) se spolehlivostí g=0,95 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,9 stanovte intervalový odhad podmíněného matematického očekávání at X 0 = 4; e) určete při g=0,9 interval spolehlivosti predikce v bodě X=5.

2.8. Výsledky studia dynamiky přírůstku hmotnosti mladých zvířat jsou uvedeny v tabulce 2.5.

Tabulka 2.5.

Za předpokladu, že obecná regresní rovnice je lineární, je nutné: a) stanovit odhady jak parametrů regresní rovnice, tak i zbytkového rozptylu s 2 ; b) zkontrolujte při a=0,05 významnost regresní rovnice, tzn. hypotézy Ho: q=0;

c) se spolehlivostí g=0,8 najděte intervalové odhady parametrů q 0 a q 1; d) se spolehlivostí g=0,98 určete a porovnejte intervalové odhady podmíněného matematického očekávání při X 0 = 3 a X 1 =6;

e) určete při g=0,98 interval spolehlivosti predikce v bodě X=8.

2.9. Náklady ( y) jeden výtisk knihy v závislosti na nákladu ( X) (tis. výtisků) charakterizují údaje shromážděné vydavatelstvím (tabulka 2.6). Určete odhady nejmenších čtverců a parametry hyperbolické regresní rovnice se spolehlivostí g=0,9, sestrojte intervaly spolehlivosti pro parametry q 0 a q 1, stejně jako podmíněné očekávání při X=10.

Tabulka 2.6.

Určete odhady a parametry regresní rovnice tvaru , otestujte hypotézu H 0 při a = 0,05: q 1 = 0 a sestrojte intervaly spolehlivosti se spolehlivostí g = 0,9 pro parametry q 0 a q 1 a podmíněné matematické očekávání při X=20.

2.11. V tabulce 2.8 uvedl údaje o tempech růstu (%) následujících makroekonomických ukazatelů n=10 rozvinutých zemí světa za rok 1992: HNP - X(1) , průmyslová výroba - X(2) , cenový index - X (3) .

Tabulka 2.8.

země x a parametry regresní rovnice, odhad reziduálního rozptylu; b) zkontrolujte při a=0,05 významnost regresního koeficientu, tzn. H°: qi=0; c) se spolehlivostí g=0,9 najděte intervalové odhady q 0 a q 1; d) najděte při g=0,95 interval spolehlivosti pro bod X 0 =x i, Kde i=5; e) porovnejte statistické charakteristiky regresních rovnic: 1, 2 a 3.

2.12. Vyřešte problém 2.11 pomocí ( na) index X(1) a pro vysvětlení ( X) proměnná X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika a základy ekonometrie: Učebnice. M., UNITY, 1998 (2. vydání 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika v úlohách a cvičeních: Učebnice. M. JEDNOTA - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Výzkum závislosti. M., Finance a statistika, 1985, 487 s.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Aplikovaná statistika. Klasifikace a redukce rozměrů. M., Finance a statistika, 1989, 607 s.;

5. Johnston J. Ekonometrické metody, M.: Statistika, 1980, 446 s.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Vícerozměrné statistické metody. M., Finance a statistika, 2000;

7. Mkhitaryan V.S., Troshin L.I. Studium závislostí pomocí korelačních a regresních metod. M., MESI, 1995, 120 stran;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Vícerozměrné statistické metody v ekonomii. M., MESI, 1995, 149 s.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Matematická statistika pro obchodníky a manažery. M., MESI, 2000, 140 stran;

10. Lukashin Yu.I. Regresní a adaptivní předpovědní metody: Učebnice, M., MESI, 1997.

11. Lukashin Yu.I. Adaptivní metody krátkodobého předpovídání. - M., Statistika, 1979.


APLIKACE


Příloha 1. Možnosti úloh pro samostatný počítačový výzkum.

MOŽNOST 5

Závislost průměrné délky života na několika faktorech je studována podle údajů za rok 1995 uvedených v tabulce. 5.

Tabulka 5

Mosambik

……………………………………………………………………………………..

Švýcarsko

Označení použitá v tabulce:

· Y-- průměrná délka života při narození, roky;

· X 1 -- HDP v paritách kupní síla;

· X 2 -- řetěz míra růstu populace, %;

· X 3 -- řetěz míra růstu pracovní síly, %;

· X 4 -- kojenecká úmrtnost, % .

Požadované:

1. Sestavte matici párových korelačních koeficientů mezi všemi studovanými proměnnými a identifikujte kolineární faktory.

2. Sestrojte regresní rovnici, která neobsahuje kolineární faktory. Zkontrolujte statistickou významnost rovnice a jejích koeficientů.

3. Sestrojte regresní rovnici obsahující pouze statisticky významné a informativní faktory. Zkontrolujte statistickou významnost rovnice a jejích koeficientů.

Body 4 - 6 odkazují na regresní rovnici vytvořenou při provádění bodu 3.

4. Posuďte kvalitu a přesnost regresní rovnice.

5. Uveďte ekonomickou interpretaci koeficientů regresní rovnice a srovnávací posouzení síly vlivu faktorů na výslednou proměnnou. Y.

6. Vypočítejte předpokládanou hodnotu výsledné proměnné Y, pokud jsou predikované hodnoty faktorů 75 % jejich maximálních hodnot. Sestrojte interval spolehlivosti pro předpověď skutečné hodnoty Y s 80% spolehlivostí.

Řešení. K vyřešení problému se používá tabulkový procesor EXCEL.

1. Pomocí doplňku „Analýza dat… Korelace“ vytvoříme matici párových korelačních koeficientů mezi všemi zkoumanými proměnnými (menu „Nástroje“ „Analýza dat…“ „Korelace“). Na Obr. Panel korelační analýzy s vyplněnými poli ukazuje obrázek 1. Chcete-li zkopírovat snímek okna do datové schránky WINDOWS, použijte kombinaci kláves Alt+Print Screen (na některých klávesnicích - Alt+PrtSc). Výsledky korelační analýzy jsou uvedeny v příloze. 2 a přenesen na stůl. 1.

rýže. 1. Panel korelační analýzy

stůl 1

Matice párových korelačních koeficientů

Analýza mezifaktorové korelačních koeficientů ukazuje, že hodnotu 0,8 převyšuje v absolutní hodnotě korelační koeficient mezi dvojicí faktorů X 2 -X 3 (tučně). Faktory X 2 -X 3 jsou tedy rozpoznány jako kolineární.

2. Jak bylo ukázáno v odstavci 1, faktory X2-X3 jsou kolineární, což znamená, že se ve skutečnosti navzájem duplikují a jejich současné zahrnutí do modelu povede k nesprávné interpretaci odpovídajících regresních koeficientů. Je vidět, že faktor X2 má větší korelační koeficient s výsledkem Y než faktor X3: ry,x2=0,72516; ry,x3=0,53397; |ry,x2|>|ry,x3| (viz tabulka 1). To ukazuje na silnější vliv faktoru X2 na změnu Y. Faktor X3 je tedy vyloučen z úvahy.

Pro sestavení regresní rovnice se použijí hodnoty proměnných ( Y,X 1 , X 2 , X 4) zkopírujte jej do prázdného listu ( adj. 3). Sestavíme regresní rovnici pomocí doplňku „ Analýza dat...Regrese" (Jídelní lístek " Servis" « Analýza dat…» « Regrese"). Panel regresní analýzy s vyplněnými poli je zobrazen v rýže. 2.

Výsledky regresní analýzy jsou uvedeny v adj. 4 a přestěhoval se do stůl 2. Regresní rovnice má tvar (viz „ šance" PROTI stůl 2):

y = 75,44 + 0,0447? x 1 - 0,0453? x 2 - 0,24? x 4

Regresní rovnice je považována za statisticky významnou, protože pravděpodobnost jejího náhodného vytvoření ve formě, ve které byla získána, je 1,04571?10-45 (viz. "Význam F" PROTI stůl 2), což je výrazně nižší než přijatá hladina významnosti =0,05.

Pravděpodobnost náhodného vytvoření koeficientů pro faktor X 1 pod přijatelnou hladinou významnosti =0,05 (viz „ P-hodnota" PROTI stůl 2), což naznačuje statistická významnost koeficienty a významný vliv těchto faktorů na změnu ročního zisku Y.

Pravděpodobnost náhodné tvorby koeficientů pro faktory X 2 a X 4 překračuje přijatou hladinu významnosti =0,05 (viz „ P-hodnota" PROTI stůl 2), a tyto koeficienty nejsou považovány za statisticky významné.

rýže. 2. Panel modelové regresní analýzy Y(X 1 ,X 2 ,X 4 )

tabulka 2

Y(X 1 , X 2 , X 4 )

Analýza rozptylu

Význam F

Regrese

Regresní rovnice

Kurzy

Standardní chyba

t-statistika

P-hodnota

Dolních 95 %

Nejlepších 95 %

Dolních 95,0 %

Nejlepších 95,0 %

Y-průsečík

3. Na základě výsledků kontroly statistické významnosti koeficientů regresní rovnice provedené v předchozím odstavci sestavujeme nový regresní model obsahující pouze informativní faktory, mezi které patří:

· faktory, jejichž koeficienty jsou statisticky významné;

faktory, jejichž koeficienty t _statistics přesahuje jednu v absolutní hodnotě (jinými slovy, absolutní hodnota koeficient je větší než jeho standardní chyba).

Do první skupiny patří faktor X 1 až 2 je faktor X 4. Faktor X 2 je vyloučen z úvahy jako neinformativní a konečný regresní model bude obsahovat faktory X 1 , X 4 .

Chcete-li sestavit regresní rovnici, zkopírujte hodnoty použitých proměnných do prázdného listu ( adj. 5) a provést regresní analýzu ( rýže. 3). Jeho výsledky jsou uvedeny v adj. 6 a přestěhoval se do stůl 3. Regresní rovnice je:

y = 75,38278 + 0,044918? x 1 - 0,24031? x 4

(cm. " šance" PROTI tabulka 3).

rýže. 3. Panel modelové regresní analýzy Y(X 1 , X 4 )

Tabulka 3

Výsledky regresní analýzy modelu Y(X 1 , X 4 )

Regresní statistika

Množné číslo R

R-čtverec

Normalizovaná R-kvadrát

Standardní chyba

Pozorování

Analýza rozptylu

Význam F

Regrese

Regresní rovnice

Kurzy

Standardní chyba

t-statistika

P-hodnota

Y-průsečík

Regresní rovnice je statisticky významná: pravděpodobnost jejího náhodného vzniku je pod přijatelnou hladinou významnosti = 0,05 (viz „ Význam F" PROTI tabulka 3).

Koeficient pro faktor je rovněž považován za statisticky významný X 1 pravděpodobnost jeho náhodného vzniku je pod přijatelnou hladinou významnosti = 0,05 (viz „ P-hodnota" PROTI stůl 3). To ukazuje na významný vliv HDP v paritě kupní síly X 1 za změnu ročního zisku Y.

Faktorový koeficient X 4 (roční kojenecká úmrtnost) není statisticky významná. Tento faktor však lze stále považovat za informativní, protože t _statistika jeho koeficientu převyšuje modulo jednotky, i když další závěry týkající se faktoru X 4 je třeba zacházet s určitou opatrností.

4. Zhodnoťme kvalitu a přesnost poslední regresní rovnice pomocí některých statistických charakteristik získaných během regresní analýzy (viz „ Regresní statistika» v tabulce. 3):

vícenásobný koeficient determinace

R2 = _ i=1 ____________ =0.946576

R 2 = ukazuje, že regresní model vysvětluje 94,7 % variací průměrné délky života při narození Y a tato variace je způsobena změnami faktorů zahrnutých v regresním modelu X 1 , X 4 ;

standardní chyba regrese

ukazuje, že hodnoty průměrné délky života při narození predikované regresní rovnicí Y se liší od skutečných hodnot v průměru o 2,252208 let.

Průměrná relativní chyba aproximace je určena přibližným vzorcem:

Erel? 0,8? -- ? 100 % = 0,8? 2,252208/66,9 ? 100 %? 2.7

kde tisíc rub. - průměrná délka života (určeno pomocí vestavěné funkce " PRŮMĚRNÝ»; adj. 1).

E rel ukazuje, že hodnoty ročního zisku predikované regresní rovnicí Y se od skutečných hodnot liší v průměru o 2,7 %. Model má vysokou přesnost (at - přesnost modelu je vysoká, at - dobrá, at - uspokojivá, at - neuspokojivá).

5. Pro ekonomickou interpretaci koeficientů regresní rovnice sestavíme průměrné hodnoty a směrodatné odchylky proměnné ve zdrojových datech (tabulka 4). Průměrné hodnoty byly stanoveny pomocí vestavěné funkce "PRŮMĚR", směrodatné odchylky - pomocí vestavěné funkce "STANDARDNÍ ODCHYLKA" (viz Příloha 1).

Vícenásobná regrese není výsledkem transformace rovnice:

-
;

-
.

Linearizace zahrnuje postup...

- přivedení vícenásobné regresní rovnice na párovou;

+ duchové Ne lineární rovnice na lineární pohled;

- převedení lineární rovnice do nelineárního tvaru;

- přivedení nelineární rovnice vzhledem k parametrům na rovnici, která je lineární vzhledem k výsledku.

Zbytek se nemění;

Počet pozorování klesá

V standardizovaná rovnice více regresních proměnných jsou:

Počáteční proměnné;

Standardizované parametry;

Střední hodnoty původních proměnných;

Standardizované proměnné.

Jedna z metod zadání číselné hodnoty je fiktivní proměnná. . .

+– pořadí;

Zarovnání číselných hodnot ve vzestupném pořadí;

Zarovnat číselné hodnoty v sestupném pořadí;

Zjištění průměrné hodnoty.

Matice párových korelačních koeficientů zobrazuje hodnoty párových koeficientů lineární korelace mezi. . . .

Proměnné;

Parametry;

Parametry a proměnné;

Proměnné a náhodné faktory.

Metoda pro odhad parametrů modelů s heteroskedastickými rezidui se nazývá ____________ metoda nejmenší čtverce:

Obyčejný;

Nepřímý;

Zobecněné;

Minimální.

Je dána regresní rovnice. Určete specifikaci modelu.

Polynomiální párová regresní rovnice;

Lineární jednoduchá regresní rovnice;

Polynomiální vícenásobná regresní rovnice;

Lineární vícenásobná regresní rovnice.

Ve standardizované rovnici je volný termín....

rovná se 1;

Rovná se koeficientu vícenásobného určení;

rovná se vícenásobnému korelačnímu koeficientu;

Chybí.

V modelu vícenásobné regrese jsou jako fiktivní proměnné zahrnuty následující faktory:

Mít pravděpodobnostní hodnoty;

S kvantitativními hodnotami;

Nemít žádné kvalitativní hodnoty;

Bez kvantitativních hodnot.

Faktory v ekonometrickém modelu jsou kolineární, pokud koeficient...

Korelace mezi nimi v absolutní hodnotě je větší než 0,7;

Modul determinace mezi nimi je větší než 0,7;

Modul determinace mezi nimi je menší než 0,7;

Zobecněná metoda nejmenších čtverců se od obvyklé OLS liší tím, že při použití OLS...

Transformováno základní úrovně proměnné;

Zbytek se nemění;

Zbytky jsou nastaveny na nulu;

Počet pozorování klesá.

Velikost vzorku je určena...

Číselné hodnotu proměnných, vybraný pro vzorek;

Objem běžné populace;

Počet parametrů pro nezávislé proměnné;

Počet proměnných výsledku.

11. Vícenásobná regrese není výsledkem transformace rovnice:

+-
;

-
;

-
.

Počáteční hodnoty fiktivních proměnných předpokládají hodnoty...

Vysoká kvalita;

Kvantitativně měřitelné;

Stejný;

Významy.

Zobecněné nejmenší čtverce zahrnují...

Transformace proměnných;

Přechod od vícenásobné regrese k párové regresi;

Linearizace regresní rovnice;

Dvoustupňová aplikace metody nejmenších čtverců.

Rovnice lineární vícenásobné regrese má tvar . Určete, který faktor nebo :

+- , protože 3,7>2,5;

Mají stejný dopad;

- od 2,5>-3,7;

Pomocí této rovnice není možné odpovědět na položenou otázku, protože regresní koeficienty jsou navzájem nesrovnatelné.

Zahrnutí faktoru do modelu je vhodné, pokud je regresní koeficient pro tento faktor ...

Nula;

Bezvýznamný;

Nezbytný;

Nedůležité.

Co se změní při použití zobecněné metody nejmenších čtverců?

Standardizované regresní koeficienty;

Rozptyl výsledné charakteristiky;

Počáteční úrovně proměnných;

Rozptyl faktorové charakteristiky.

Provádí se studie závislosti výkonu zaměstnance podniku na řadě faktorů. Příkladem fiktivní proměnné v tomto modelu by byl ______ zaměstnanec.

Stáří;

úroveň vzdělání;

Mzda.

Přechod z bodového odhadu na intervalový je možný, pokud jsou odhady:

Efektivní a insolventní;

Neefektivní a bohatý;

Efektivní a nezaujatý;

Bohatí a vysídlení.

Matice párových korelačních koeficientů je konstruována pro identifikaci kolineárních a multikolineárních...

Parametry;

Náhodné faktory;

Významné faktory;

Výsledek.

Na základě transformace proměnných pomocí zobecněné metody nejmenších čtverců získáme novou regresní rovnici, která je:

Vážená regrese, ve které se proměnné berou s váhami
;

;

Nelineární regrese, ve které se proměnné berou s váhami
;

Vážená regrese, ve které se proměnné berou s váhami .

Pokud je vypočítaná hodnota Fisherova kritéria menší tabulková hodnota, pak hypotéza o statistické nevýznamnosti rovnice ...

Odmítnuto;

Bezvýznamný;

Přijato;

Irelevantní.

Pokud jsou faktory zahrnuty v modelu jako produkt, pak se model nazývá:

Celkový;

Derivát;

Přísada;

Multiplikativní.

Regresní rovnice, která spojuje výslednou charakteristiku s jedním z faktorů s hodnotami jiných proměnných fixovaných na průměrné úrovni, se nazývá:

Násobek;

Nezbytný;

Soukromý;

Nedůležité.

Pokud jde o počet faktorů zahrnutých v regresní rovnici, existují ...

Lineární a nelineární regrese;

Přímá a nepřímá regrese;

Jednoduchá a vícenásobná regrese;

Vícenásobná a vícerozměrná regrese.

Požadavek na regresní rovnice, jejichž parametry lze nalézt pomocí nejmenších čtverců, je:

Charakteristické hodnoty faktoru rovné nule4

Nelinearita parametrů;

Rovnost středních hodnot výsledné proměnné na nulu;

Linearita parametrů.

Metodu nejmenších čtverců nelze použít pro...

Lineární párové regresní rovnice;

Polynomiální vícenásobné regresní rovnice;

Rovnice, které jsou v odhadovaných parametrech nelineární;

Lineární vícenásobné regresní rovnice.

Když jsou do modelu zahrnuty fiktivní proměnné, jsou přiřazeny...

hodnoty null;

Číselné štítky;

Stejné hodnoty;

Kvalitní značky.

Pokud mezi ekonomické ukazatele existuje nelineární vztah, pak...

Není praktické používat specifikaci nelineární regresní rovnice;

Je vhodné použít specifikaci nelineární regresní rovnice;

Je vhodné použít specifikaci lineární párové regresní rovnice;

Do modelu je nutné zahrnout další faktory a použít lineární vícenásobnou regresní rovnici.

Výsledkem linearizace polynomických rovnic je...

Nelineární párové regresní rovnice;

Lineární párové regresní rovnice;

Nelineární vícenásobné regresní rovnice;

Lineární vícenásobné regresní rovnice.

Ve standardizované vícenásobné regresní rovnici
0,3;
-2.1. Určete, který faktor nebo má silnější vliv na :

+- , protože 2,1>0,3;

Pomocí této rovnice není možné odpovědět na položenou otázku, protože hodnoty „čistých“ regresních koeficientů nejsou známy;

- od 0,3>-2,1;

Pomocí této rovnice není možné odpovědět na položenou otázku, protože standardizované koeficienty jsou vzájemně nesrovnatelné.

Faktorový rovnice proměnné Vícenásobná regrese, převedená z kvalitativní na kvantitativní, se nazývá...

Abnormální;

Násobek;

Spárovaný;

Fiktivní.

Odhady parametrů lineární vícenásobné regresní rovnice lze nalézt pomocí metody:

střední čtverce;

Největší čtverce;

Normální čtverce;

Nejmenší čtverce.

Hlavním požadavkem na faktory zahrnuté do vícenásobného regresního modelu je:

Nedostatek vztahu mezi výsledkem a faktorem;

Nedostatek vztahu mezi faktory;

Absence lineárního vztahu mezi faktory;

Přítomnost úzkého vztahu mezi faktory.

Falešné proměnné jsou zahrnuty do vícenásobné regresní rovnice, aby zohlednily vliv charakteristik na výsledek...

kvalitativní povaha;

Kvantitativní povahy;

Nepodstatné;

Náhodné v přírodě.

Z dvojice kolineárních faktorů ekonometrický model zahrnuje faktor

Což při dostatečně těsném spojení s výsledkem má největší spojení s dalšími faktory;

Což při absenci souvislosti s výsledkem má maximální souvislost s ostatními faktory;

Která při absenci souvislosti s výsledkem má nejmenší souvislost s ostatními faktory;

Což s celkem úzkou vazbou na výsledek má menší souvislost s ostatními faktory.

Heteroscedasticita znamená...

Stálost rozptylu zbytků bez ohledu na hodnotu faktoru;

Závislost matematického očekávání reziduí na hodnotě faktoru;

Závislost rozptylu reziduí na hodnotě faktoru;

Nezávislost matematického očekávání reziduí na hodnotě faktoru.

Velikost zbytkového rozptylu, když je do modelu zahrnut významný faktor:

Nezmění se;

Zvýší se;

Bude se rovnat nule;

Sníží se.

Pokud specifikace modelu odráží nelineární formu závislosti mezi ekonomickými ukazateli, pak je rovnice nelineární...

Regrese;

Stanovení;

Korelace;

Přibližné hodnoty.

Studuje se závislost, která je charakterizována lineární vícenásobnou regresní rovnicí. Pro rovnici je vypočtena hodnota blízkosti vztahu mezi výslednou proměnnou a množinou faktorů. Jako tento ukazatel byl použit vícenásobný koeficient...

Korelace;

Pružnost;

Regrese;

Stanovení.

Je konstruován model závislosti poptávky na řadě faktorů. Falešná proměnná v této vícenásobné regresní rovnici není zákazník _________.

Rodinný stav;

úroveň vzdělání;

U významného parametru je vypočtená hodnota Studentova testu...

Více než tabulková hodnota kritéria;

rovná se nule;

Ne více než tabulková hodnota Studentova testu;

Menší než tabulková hodnota kritéria.

Systém OLS vytvořený pro odhad parametrů lineární vícenásobné regresní rovnice lze vyřešit...

metoda klouzavého průměru;

Metoda determinantů;

Metoda prvního rozdílu;

Simplexní metoda.

Ukazatel charakterizující, o kolik sigma se změní průměrný výsledek, když se odpovídající faktor změní o jedno sigma, přičemž úroveň ostatních faktorů zůstane nezměněna, se nazývá ____________regresní koeficient

standardizované;

Normalizované;

Zarovnaný;

Na střed.

Multikolinearita faktorů v ekonometrickém modelu implikuje...

Dostupnost není lineární závislost mezi dvěma faktory;

Přítomnost lineárního vztahu mezi více než dvěma faktory;

Žádná závislost mezi faktory;

Přítomnost lineárního vztahu mezi dvěma faktory.

Zobecněné nejmenší čtverce se nepoužívají pro modely s _______ rezidui.

Autokorelované a heteroskedastické;

homoskedastický;

Heteroscedastic;

Autokorelace.

Metoda pro přiřazování číselných hodnot fiktivním proměnným není:

V rozsahu;

Přidělování digitálních značek;

Zjištění průměrné hodnoty;

Přiřazování kvantitativních hodnot.

Normálně distribuované zbytky;

Homoscedastické zbytky;

Autokorelace reziduí;

Autokorelace výsledného znaku.

Výběr faktorů do vícenásobného regresního modelu pomocí inkluzní metody je založen na porovnání hodnot ...

Celkový rozptyl před a po zahrnutí faktoru do modelu;

Zbytkový rozptyl před a po zahrnutí náhodných faktorů do modelu;

Odchylky před a po zahrnutí výsledku do modelu;

Reziduální rozptyl před a po zahrnutí faktorového modelu.

Zobecněná metoda nejmenších čtverců se používá k úpravě...

Parametry rovnice nelineární regrese;

Přesnost stanovení vícenásobného korelačního koeficientu;

Autokorelace mezi nezávislými proměnnými;

Heteroscedasticita reziduí v regresní rovnici.

Po aplikaci zobecněné metody nejmenších čtverců je možné se vyhnout _________ reziduím

heteroskedasticita;

Normální distribuce;

Součet se rovná nule;

Náhodné v přírodě.

Falešné proměnné jsou zahrnuty v ____________regresních rovnicích

Náhodný;

parní lázeň;

Nepřímý;

Násobek.

Interakce faktorů v ekonometrickém modelu znamená, že...

Vliv faktorů na výslednou charakteristiku závisí na hodnotách jiného nekolineárního faktoru;

Vliv faktorů na výslednou charakteristiku se od určité úrovně hodnot faktorů zvyšuje;

Faktory duplikují vzájemný vliv na výsledek;

Vliv jednoho z faktorů na výslednou charakteristiku nezávisí na hodnotách druhého faktoru.

Téma vícenásobná regrese (problémy)

Regresní rovnice založená na 15 pozorováních má tvar:

Chybějící hodnoty a interval spolehlivosti pro

s pravděpodobností 0,99 se rovnají:

Regresní rovnice založená na 20 pozorováních má tvar:

s pravděpodobností 0,9 se rovnají:

Regresní rovnice založená na 16 pozorováních má tvar:

Chybějící hodnoty a interval spolehlivosti pro s pravděpodobností 0,99 se rovnají:

Regresní rovnice ve standardizovaném tvaru je:

Parciální koeficienty elasticity se rovnají:

Standardizovaná regresní rovnice je:

Parciální koeficienty elasticity se rovnají:

Standardizovaná regresní rovnice je:

Parciální koeficienty elasticity se rovnají:

Standardizovaná regresní rovnice je:

Parciální koeficienty elasticity se rovnají:

Standardizovaná regresní rovnice je:

Parciální koeficienty elasticity se rovnají:

Pro 18 pozorování byly získány následující údaje:

;
;
;
;

jsou rovny:

Pro 17 pozorování byly získány následující údaje:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

Následující údaje byly získány z 22 pozorování:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

Následující údaje byly získány z 25 pozorování:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

Následující údaje byly získány z 24 pozorování:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

Pro 28 pozorování byly získány následující údaje:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

Pro 26 pozorování byly získány následující údaje:

;
;
;
;

Hodnoty upraveného koeficientu determinace, dílčích koeficientů pružnosti a parametru jsou rovny:

V regresní rovnici:

Obnovit chybějící vlastnosti; vytvořit interval spolehlivosti s pravděpodobností 0,95 ifn=12

Z 1 (t)

Z 2 (t)

t

y(t)

Z 1 (t)

Z 2 (t)

t

y(t)

Hlavním úkolem při výběru faktorů zahrnutých do korelačního modelu je zavést do analýzy všechny hlavní faktory ovlivňující úroveň studovaného jevu. Zavádění velkého množství faktorů do modelu je však nepraktické, správnější je vybrat pouze relativně malý počet hlavních faktorů, které jsou pravděpodobně v korelaci s vybraným funkčním ukazatelem.

To lze provést pomocí tzv. dvoustupňového výběru. V souladu s ní jsou do modelu zahrnuty všechny předem zvolené faktory. Mezi nimi jsou pak na základě speciálního kvantitativního posouzení a dodatečné kvalitativní analýzy identifikovány nevýznamně ovlivňující faktory, které jsou postupně vyřazovány, dokud nezůstanou ty, u nichž lze tvrdit, že dostupný statistický materiál je v souladu s hypotézou o jejich společném významný vliv na závisle proměnnou se zvolenou formou spojení.

Dvoustupňový výběr se nejuceleněji projevil v technice tzv. vícekrokové regresní analýzy, kdy k eliminaci nedůležitých faktorů dochází na základě ukazatelů jejich významnosti, zejména na základě hodnoty t f - vypočtená hodnota Studentova testu.

Vypočítejme t f pomocí nalezených párových korelačních koeficientů a porovnejme je s t kritickým pro 5% hladinu významnosti (oboustranná) a 18 stupňů volnosti (ν = n-2).

kde r je hodnota párového korelačního koeficientu;

n – počet pozorování (n=20)

Při porovnávání t f pro každý koeficient s t kr = 2,101 zjistíme, že nalezené koeficienty jsou považovány za významné, protože t f > t kr.

t f pro r yx 1 = 2, 5599 ;

t f pro r yx 2 = 7,064206 ;

t f pro r yx 3 = 2,40218 ;

t f pro r x1 x 2 = 4,338906 ;

t f pro r x1 x 3 = 15,35065;

t f pro r x2 x 3 = 4,749981

Při výběru faktorů, které mají být zahrnuty do analýzy, jsou na ně kladeny specifické požadavky. Ukazatele vyjadřující tyto faktory musí být především kvantitativně měřitelné.

Faktory zahrnuté v modelu by neměly být ve vzájemném funkčním nebo úzkém vztahu. Přítomnost takových vztahů je charakterizována multikolinearitou.

Multikolinearita naznačuje, že některé faktory charakterizují jeden a tentýž aspekt studovaného jevu. Proto je jejich současné zahrnutí do modelu nevhodné, protože se do určité míry duplikují. Pokud mluvčí nepředpokládají žádné zvláštní předpoklady ve prospěch jednoho z těchto faktorů, měl by se dát přednost tomu, který se vyznačuje velkým párovým (nebo částečným) korelačním koeficientem.

Předpokládá se, že maximální hodnota korelačního koeficientu mezi dvěma faktory je 0,8.

Multikolinearita obvykle vede k degeneraci matice proměnných a následně k tomu, že hlavní determinant klesá svou hodnotu a v limitu se blíží nule. Odhady koeficientů regresní rovnice se stávají vysoce závislými na přesnosti nalezení zdrojových dat a jejich hodnoty se prudce mění, když se mění počet pozorování.



Novinka na webu

>

Nejoblíbenější