Domov Ústní dutina Korelační koeficienty. Vícenásobný korelační koeficient a koeficient determinace

Korelační koeficienty. Vícenásobný korelační koeficient a koeficient determinace


  1. Zhodnoťte kvalitu postaveného modelu. Zlepšila se kvalita modelu ve srovnání s jednofaktorovým modelem? Poskytněte posouzení dopadu významné faktory na výsledku pomocí koeficientů pružnosti, - a -koeficientů.
Pro posouzení kvality zvoleného vícenásobného modelu (6), podobně jako v odstavci 1.4 tohoto problému, použijeme koeficient determinace R- čtvercový, střední relativní chyba přiblížení a F- Fisherovo kritérium.

Koeficient determinace R-kvadrát bude převzat z výsledků „Regrese“ (tabulka „Statistika regrese“ pro model (6)).

V důsledku toho kolísání (změna) ceny bytu Y Podle této rovnice je 76,77 % vysvětleno variací města regionu X 1 , počet pokojů v bytě X 2 a životní prostor X 4 .

Používáme původní data Y i a rezidua nalezená nástrojem Regrese (tabulka „Výstup zbytku“ pro model (6)). Vypočítejme relativní chyby a najdeme průměrnou hodnotu
.

ODBĚR ZBYTKU


Pozorování

Předpokládaný Y

Zbytky

Rel. chyba

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Průměrný

101,2375

22,51770962

Pomocí sloupce relativních chyb zjistíme průměrnou hodnotu =22.51% (pomocí funkce AVERAGE).

Srovnání ukazuje, že 22,51 % > 7 %. V důsledku toho je přesnost modelu neuspokojivá.

Používáním F – Fisherovo kritérium Pojďme si ověřit význam modelu jako celku. Za tímto účelem budeme zapisovat z výsledků použití nástroje „Regrese“ (tabulka „analýza rozptylu“ pro model (6)) F= 39,6702.

Pomocí funkce FRIST zjistíme hodnotu F kr =3.252 pro hladinu významnosti α = 5 % a počty stupňů volnosti k 1 = 2 , k 2 = 37 .

F> F kr, proto je významná rovnice modelu (6), její použití je vhodné, závislá proměnná Y je poměrně dobře popsána faktorovými proměnnými zahrnutými v modelu (6) X 1 , X 2. A X 4 .

Dodatečně pomocí t –Studentský t test Ověřme si význam jednotlivých koeficientů modelu.

t–Statistiky pro koeficienty regresní rovnice jsou uvedeny ve výsledcích nástroje „Regrese“. Pro vybraný model (6) byly získány následující hodnoty:


Kurzy

Standardní chyba

t-statistika

P-hodnota

Spodních 95 %

Nejlepších 95 %

Dolních 95,0 %

Nejlepších 95,0 %

Y-křižovatka

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Kritická hodnota t kr zjištěno pro hladinu významnosti α=5 % a počet stupňů volnosti k=40–2–1=37 . t kr =2.026 (funkce STUDAR).

Pro volné kurzy α =–5.643 statistika definována
, t kr Proto volný koeficient není významný a může být z modelu vyloučen.

Pro regresní koeficient β 1 =6.859 statistika definována
, β 1 není významný, lze jej i faktor krajského města z modelu odstranit.

Pro regresní koeficient β 2 =-1,985 statistika definována
, t kr tedy regresní koeficient β 2 není významný, lze jej a faktor počtu místností v bytě z modelu vyloučit.

Pro regresní koeficient β 4 =2.591 statistika definována
, >t cr tedy regresní koeficient β 4 je významný, lze jej a faktor obytné plochy bytu v modelu zachovat.

Závěry o významnosti modelových koeficientů jsou učiněny na hladině významnosti α=5 %. Při pohledu na sloupec P-hodnota si všimneme, že volný koeficient α lze považovat za významné na úrovni 0,64 = 64 %; regresní koeficient β 1 – na úrovni 0,46 = 46 %; regresní koeficient β 2 – na úrovni 0,8 = 80 %; a regresní koeficient β 4 – na úrovni 2,27E-06= 2,26691790951854E-06 = 0,0000002 %.

Když jsou do rovnice přidány nové faktorové proměnné, koeficient determinace se automaticky zvýší R 2 a snižuje se průměrná chyba aproximace, i když to ne vždy zlepší kvalitu modelu. Proto pro srovnání kvality modelu (3) a vybraného vícenásobného modelu (6) používáme normalizované koeficienty determinace.

Tedy při přidání faktoru „město regionu“ do regresní rovnice X 1 a faktor „počet pokojů v bytě“ X 2 došlo ke zhoršení kvality modelu, což hovoří ve prospěch odstranění faktorů X 1 a X 2 z modelu.

Proveďme další výpočty.

Průměrné koeficienty pružnosti v případě lineárního modelu jsou určeny vzorcem
.

Pomocí funkce AVERAGE zjistíme: S Y, s nárůstem pouze faktoru X 4 pro jednoho z jeho standardní odchylka– zvyšuje se o 0,914 S Y

Delta koeficienty jsou určeny vzorci
.

Pojďme najít párové korelační koeficienty pomocí nástroje "Correlation" balíčku "Data Analysis" v Excelu.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Koeficient determinace byl stanoven dříve a je roven 0,7677.

Pojďme vypočítat delta koeficienty:

;

Od Δ 1 1 A X 2 vybrány nesprávně a je třeba je z modelu odstranit. To znamená, že podle rovnice výsledného lineárního třífaktorového modelu se změní výsledný faktor Y(ceny bytů) je ze 104 % vysvětleno vlivem faktoru X 4 (obytná plocha bytu), o 4 % ovlivněna faktorem X 2 (počet pokojů), o 0,0859 % ovlivněno faktorem X 1 (město regionu).

Regresní analýza je statistická výzkumná metoda, která umožňuje ukázat závislost určitého parametru na jedné nebo více nezávislých proměnných. V předpočítačové době bylo jeho použití poměrně obtížné, zejména pokud šlo o velké objemy dat. Dnes, když jste se naučili vytvářet regresi v Excelu, můžete vyřešit složité statistické problémy za pár minut. Níže uvádíme konkrétní příklady z oblasti ekonomie.

Typy regrese

Tento pojem sám byl zaveden do matematiky v roce 1886. Regrese se děje:

  • lineární;
  • parabolický;
  • usedlý;
  • exponenciální;
  • hyperbolický;
  • demonstrativní;
  • logaritmický.

Příklad 1

Uvažujme problém stanovení závislosti počtu odcházejících členů týmu na průměrné mzdě v 6 průmyslových podnicích.

Úkol. U šesti podniků jsme analyzovali průměr měsíčně mzdy a počet zaměstnanců, kteří odešli z důvodu na přání. V tabulkové podobě máme:

Počet lidí, kteří skončili

Plat

30 000 rublů

35 000 rublů

40 000 rublů

45 000 rublů

50 000 rublů

55 000 rublů

60 000 rublů

Pro úlohu stanovení závislosti počtu odcházejících pracovníků na průměrné mzdě v 6 podnicích má regresní model tvar rovnice Y = a 0 + a 1 x 1 +...+a k x k, kde x i je ovlivňující proměnné, a i jsou regresní koeficienty a k je počet faktorů.

U tohoto problému je Y ukazatelem odcházejících zaměstnanců a ovlivňujícím faktorem je mzda, kterou označujeme X.

Využití možností tabulkového procesoru Excel

Regresní analýze v Excelu musí předcházet aplikace vestavěných funkcí na existující tabulková data. Pro tyto účely je však lepší použít velmi užitečný doplněk „Analysis Pack“. K jeho aktivaci potřebujete:

  • na kartě „Soubor“ přejděte do části „Možnosti“;
  • v okně, které se otevře, vyberte řádek „Doplňky“;
  • klikněte na tlačítko „Přejít“ umístěné níže, vpravo od řádku „Správa“;
  • zaškrtněte políčko vedle názvu „Analytický balíček“ a potvrďte své akce kliknutím na „OK“.

Pokud je vše provedeno správně, zobrazí se požadované tlačítko na pravé straně karty „Data“, která se nachází nad pracovním listem aplikace Excel.

v Excelu

Nyní, když máme po ruce všechny potřebné virtuální nástroje k provádění ekonometrických výpočtů, můžeme začít řešit náš problém. Pro tohle:

  • Klikněte na tlačítko „Analýza dat“;
  • v okně, které se otevře, klikněte na tlačítko „Regrese“;
  • na zobrazené kartě zadejte rozsah hodnot pro Y (počet odcházejících zaměstnanců) a pro X (jejich platy);
  • Naše akce potvrdíme stisknutím tlačítka „OK“.

Výsledkem je, že program automaticky vyplní novou tabulku daty regresní analýzy. Poznámka! Excel umožňuje ručně nastavit umístění, které pro tento účel preferujete. Může to být například stejný list, kde jsou umístěny hodnoty Y a X, nebo dokonce nový sešit speciálně navržený pro ukládání takových dat.

Analýza výsledků regrese pro R-kvadrát

V Excelu mají data získaná při zpracování dat v uvažovaném příkladu tvar:

Nejprve byste měli věnovat pozornost hodnotě R-squared. Představuje koeficient determinace. V tomto příkladu R-kvadrát = 0,755 (75,5 %), tj. vypočtené parametry modelu vysvětlují vztah mezi uvažovanými parametry ze 75,5 %. Čím vyšší je hodnota koeficientu determinace, tím je zvolený model vhodnější pro konkrétní úlohu. Za správný popis reálné situace se považuje, když je hodnota R-kvadrátu nad 0,8. Pokud R-kvadrát<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analýza šancí

Číslo 64,1428 ukazuje, jaká bude hodnota Y, pokud se všechny proměnné xi v modelu, o kterém uvažujeme, vynulují. Jinými slovy, lze tvrdit, že hodnotu analyzovaného parametru ovlivňují i ​​další faktory, které nejsou popsány v konkrétním modelu.

Další koeficient -0,16285 umístěný v buňce B18 ukazuje váhu vlivu proměnné X na Y. To znamená, že průměrná měsíční mzda zaměstnanců v rámci uvažovaného modelu ovlivňuje počet odcházejících s váhou -0,16285, tzn. míra jeho vlivu je zcela malá. Znaménko "-" znamená, že koeficient je záporný. To je zřejmé, protože každý ví, že čím vyšší je plat v podniku, tím méně lidí vyjadřuje přání ukončit pracovní smlouvu nebo ukončit pracovní poměr.

Vícenásobná regrese

Tento termín odkazuje na vztahovou rovnici s několika nezávislými proměnnými ve tvaru:

y=f(x 1 +x 2 +…x m) + ε, kde y je výsledná charakteristika (závislá proměnná) a x 1, x 2,…x m jsou faktorové charakteristiky (nezávislé proměnné).

Odhad parametrů

U vícenásobné regrese (MR) se provádí pomocí metody nejmenší čtverce(MNC). Pro lineární rovnice tvaru Y = a + b 1 x 1 +…+b m x m + ε sestrojíme soustavu normálních rovnic (viz níže)

Abyste pochopili princip metody, zvažte dvoufaktorový případ. Pak máme situaci popsanou vzorcem

Odtud dostáváme:

kde σ je rozptyl odpovídajícího znaku vyjádřený v indexu.

OLS je použitelný pro rovnici MR na standardizovaném měřítku. V tomto případě dostaneme rovnici:

kde t y, t x 1, … t xm jsou standardizované proměnné, pro které jsou průměrné hodnoty rovny 0; β i jsou standardizované regresní koeficienty a směrodatná odchylka je 1.

Vezměte prosím na vědomí, že všechny β i in v tomto případě jsou specifikovány jako standardizované a centralizované, proto je jejich vzájemné srovnání považováno za správné a přijatelné. Kromě toho je obvyklé vyloučit faktory vyřazením těch s nejnižšími hodnotami βi.

Problém s lineární regresní rovnicí

Předpokládejme, že máme tabulku dynamiky cen pro konkrétní produkt N za posledních 8 měsíců. Je nutné rozhodnout o vhodnosti nákupu šarže za cenu 1850 rublů/t.

číslo měsíce

název měsíce

cena produktu N

1750 rublů za tunu

1755 rublů za tunu

1767 rublů za tunu

1760 rublů za tunu

1770 rublů za tunu

1790 rublů za tunu

1810 rublů za tunu

1840 rublů za tunu

Chcete-li tento problém vyřešit v tabulkovém procesoru Excel, musíte použít nástroj „Analýza dat“, který je již znám z výše uvedeného příkladu. Dále vyberte sekci „Regrese“ a nastavte parametry. Je třeba pamatovat na to, že v poli „Interval vstupu Y“ je třeba zadat rozsah hodnot pro závislou proměnnou (v tomto případě ceny zboží v konkrétních měsících roku) a v poli „Interval vstupu X“ - pro nezávislou proměnnou (číslo měsíce). Potvrďte akci kliknutím na „OK“. Na novém listu (pokud je to uvedeno) získáme data pro regresi.

Pomocí nich sestrojíme lineární rovnici tvaru y=ax+b, kde parametry a a b jsou koeficienty úsečky s názvem čísla měsíce a koeficienty a úsečky „Y-průsečík“ z listu s výsledky regresní analýza. Rovnice lineární regrese (LR) pro úlohu 3 je tedy zapsána jako:

Cena produktu N = 11,714* číslo měsíce + 1727,54.

nebo v algebraickém zápisu

y = 11,714 x + 1727,54

Analýza výsledků

Pro rozhodnutí, zda je výsledná lineární regresní rovnice adekvátní, se používají koeficienty vícenásobné korelace (MCC) a stanovení, dále Fisherův test a Studentův t test. V excelové tabulce s výsledky regrese se nazývají více R, R-statistika, F-statistika a t-statistika.

KMC R umožňuje posoudit blízkost pravděpodobnostního vztahu mezi nezávislými a závislými proměnnými. Jeho vysoká hodnota ukazuje na poměrně silnou vazbu mezi proměnnými „Počet měsíce“ a „Cena produktu N v rublech za 1 tunu“. Povaha tohoto vztahu však zůstává neznámá.

Druhá mocnina koeficientu determinace R2 (RI) je číselnou charakteristikou podílu celkového rozptylu a ukazuje rozptyl té které části experimentálních dat, tzn. hodnoty závislé proměnné odpovídají lineární regresní rovnici. V uvažovaném problému je tato hodnota rovna 84,8 %, tj. statistická data jsou s vysokou mírou přesnosti popsána výsledným SD.

F-statistika, nazývaná také Fisherův test, se používá k hodnocení významnosti lineárního vztahu, vyvracejícího nebo potvrzujícího hypotézu o jeho existenci.

(Studentův test) pomáhá vyhodnotit významnost koeficientu s neznámým nebo volným členem lineárního vztahu. Pokud je hodnota t-testu > t cr, pak hypotéza o nevýznamnosti volného členu lineární rovnice odmítl.

V uvažované úloze pro volný termín bylo pomocí nástrojů Excelu získáno, že t = 169,20903 a p = 2,89E-12, tj. máme nulovou pravděpodobnost, že správná hypotéza o nevýznamnosti volného termínu bude zamítnuta. . Pro koeficient pro neznámou t=5,79405 a p=0,001158. Jinými slovy, pravděpodobnost, že bude zamítnuta správná hypotéza o nevýznamnosti koeficientu pro neznámou, je 0,12 %.

Lze tedy tvrdit, že výsledná lineární regresní rovnice je adekvátní.

Problém proveditelnosti nákupu balíku akcií

Vícenásobná regrese v Excelu se provádí pomocí stejného nástroje pro analýzu dat. Podívejme se na konkrétní aplikační problém.

O vhodnosti koupě 20% podílu v MMM as musí rozhodnout vedení společnosti NNN. Cena balíčku (SP) je 70 milionů amerických dolarů. Specialisté NNN shromáždili data o podobných transakcích. Bylo rozhodnuto ohodnotit hodnotu balíku akcií podle takových parametrů, vyjádřených v milionech amerických dolarů, jako:

  • závazky (VK);
  • roční objem obratu (VO);
  • pohledávky (VD);
  • náklady na fixní aktiva (COF).

Dále se používá parametr nedoplatků na mzdách podniku (V3 P) v tisících amerických dolarů.

Řešení pomocí tabulkového procesoru Excel

Nejprve je potřeba vytvořit tabulku zdrojových dat. Vypadá to takto:

  • vyvolejte okno „Analýza dat“;
  • vyberte sekci „Regrese“;
  • Do pole „Interval vstupu Y“ zadejte rozsah hodnot závislých proměnných ze sloupce G;
  • Klikněte na ikonu s červenou šipkou vpravo od okna „Input interval X“ a zvýrazněte rozsah všech hodnot ze sloupců B, C, D, F na listu.

Označte položku „Nový list“ a klikněte na „OK“.

Získejte regresní analýzu pro daný problém.

Studium výsledků a závěrů

„Shromáždíme“ regresní rovnici ze zaokrouhlených dat uvedených výše v tabulce Excel:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Ve známější matematické formě to lze napsat jako:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Údaje pro MMM JSC jsou uvedeny v tabulce:

Pokud je dosadíme do regresní rovnice, dostaneme číslo 64,72 milionů amerických dolarů. To znamená, že akcie MMM JSC se nevyplatí kupovat, protože jejich hodnota 70 milionů amerických dolarů je značně nadsazená.

Jak vidíte, použití excelové tabulky a regresní rovnice umožnilo učinit informované rozhodnutí o proveditelnosti velmi specifické transakce.

Nyní víte, co je regrese. Výše uvedené příklady Excelu vám pomohou vyřešit praktické problémy v oblasti ekonometrie.

Při studiu složitých jevů je nutné vzít v úvahu více než dva náhodné faktory. Správné pochopení povahy vztahu mezi těmito faktory lze získat pouze tehdy, pokud jsou všechny uvažované náhodné faktory zkoumány najednou. Společné studium tří nebo více náhodných faktorů umožní výzkumníkovi stanovit více či méně rozumné předpoklady o kauzálních závislostech mezi zkoumanými jevy. Jednoduchá forma vícenásobného vztahu je lineární vztah mezi třemi charakteristikami. Náhodné faktory se označují jako X 1 , X 2 a X 3. Párové korelační koeficienty mezi X 1 a X 2 je označen jako r 12, respektive mezi X 1 a X 3 - r 12, mezi X 2 a X 3 - r 23. Jako míra blízkosti lineárního vztahu mezi třemi charakteristikami se používají vícenásobné korelační koeficienty, označované R 1 až 23, R 2 až 13, R 3 až 12 a parciální korelační koeficienty, značené r 12.3 , r 13.2 , r 23.1 .

Vícenásobný korelační koeficient R 1,23 tří faktorů je indikátorem blízkosti lineárního vztahu mezi jedním z faktorů (index před bodem) a kombinací dvou dalších faktorů (indexy za bodem).

Hodnoty koeficientu R jsou vždy v rozsahu od 0 do 1. Jak se R blíží k jedničce, míra lineárního vztahu mezi třemi charakteristikami se zvyšuje.

Mezi vícenásobným korelačním koeficientem, kupř. R 2 až 13 a dva párové korelační koeficienty r 12 a r 23 existuje vztah: každý z párových koeficientů nemůže překročit absolutní hodnota R 2 až 13.

Vzorce pro výpočet vícenásobných korelačních koeficientů, když známé hodnoty párové korelační koeficienty r 12, r 13 a r 23 mají tvar:

Kvadrát vícenásobný korelační koeficient R 2 se nazývá koeficient vícenásobného určení. Ukazuje podíl variací v závislé proměnné pod vlivem studovaných faktorů.

Význam vícenásobné korelace se posuzuje podle F-kritérium:

n – velikost vzorku; k – množství faktorů. V našem případě k = 3.

nulová hypotéza o rovnosti vícenásobného korelačního koeficientu v populaci k nule ( h o:r=0) je přijato, pokud F F<f t, a je odmítnut, pokud
F f ³ F T.

teoretickou hodnotu F-určují se kritéria pro proti 1 = k- 1 a proti 2 = n - k stupně volnosti a přijatá hladina významnosti a (Příloha 1).

Příklad výpočtu vícenásobného korelačního koeficientu. Při studiu vztahu mezi faktory byly získány párové korelační koeficienty ( n =15): r 12 = = 0,6; g13 = 0,3; r 23 = - 0,2.

Je potřeba zjistit závislost vlastnosti X 2 od znamení X 1 a X 3, tedy vypočítejte vícenásobný korelační koeficient:

Tabulková hodnota F-kritéria s n 1 = 2 an 2 = 15 – 3 = 12 stupňů volnosti s a = 0,05 F 0,05 = 3,89 a při a = 0,01 F 0,01 = 6,93.

Tedy vztah mezi znaky R 2,13 = 0,74 je významné při
1% hladina významnosti F f > F 0,01 .

Soudě podle koeficientu vícenásobného určení R 2 = (0,74) 2 = 0,55, variace znaku X 2 je z 55 % spojeno s účinkem studovaných faktorů a 45 % variace (1-R 2) nelze vysvětlit vlivem těchto proměnných.

Soukromé lineární korelace

Parciální korelační koeficient je indikátor, který měří stupeň konjugace dvou charakteristik.

Matematická statistika vám umožňuje stanovit korelaci mezi dvěma charakteristikami s konstantní hodnotou třetí, aniž byste museli provádět speciální experiment, ale pomocí párových korelačních koeficientů. r 12 , r 13 , r 23 .

Dílčí korelační koeficienty se počítají pomocí vzorců:

Čísla před tečkou označují, které rysy je vztah studován, a číslo za tečkou udává vliv toho, který rys je vyloučen (eliminován). Kritérium chyby a významnosti pro částečnou korelaci se určuje pomocí stejných vzorců jako pro párovou korelaci:

.

Teoretická hodnota t- je stanoveno kritérium proti = n– 2 stupně volnosti a přijatá hladina významnosti a (Příloha 1).

Nulová hypotéza, že parciální korelační koeficient v populaci je roven nule ( H o: r= 0) je přijato, pokud t F< t t, a je odmítnut, pokud
t f ³ t T.

Dílčí koeficienty mohou nabývat hodnot mezi -1 a +1. Soukromé koeficienty determinace zjištěné umocněním parciálních korelačních koeficientů:

D 12.3 = r 212-3; d 13.2 = r 213-2; d 23 1 = r 223-1.

Zjištění míry dílčího vlivu jednotlivých faktorů na efektivní vlastnost při vyloučení (eliminaci) její souvislosti s jinými vlastnostmi, které tuto korelaci zkreslují, je často velmi zajímavé. Někdy se stává, že při konstantní hodnotě eliminované charakteristiky nelze zaznamenat její statistický vliv na variabilitu ostatních charakteristik. Abyste pochopili techniku ​​výpočtu parciálního korelačního koeficientu, zvažte příklad. Jsou tři možnosti X, Y A Z. Pro velikost vzorku n= je stanoveno 180 párových korelačních koeficientů

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Určíme parciální korelační koeficienty:

Parciální korelační koeficient mezi parametrem X A Y Z (r xyּz = 0,720) ukazuje, že pouze malá část vztahu mezi těmito charakteristikami v celkové korelaci ( r xy= 0,799) je způsobeno vlivem třetí charakteristiky ( Z). Obdobný závěr je třeba učinit u parciálního korelačního koeficientu mezi parametrem X a parametr Z s konstantní hodnotou parametru Y (r X zα = 0,318 a r xz= 0,57). Proti, dílčí koeficient korelace mezi parametry Y A Z s konstantní hodnotou parametru X r yz ּ X= 0,105 se výrazně liší od obecný koeficient korelace r y z = 0,507. Z toho je zřejmé, že pokud vyberete objekty se stejnou hodnotou parametru X, pak vztah mezi znaky Y A Z budou mít velmi slabou, protože významná část tohoto vztahu je způsobena změnami v parametru X.

Za určitých okolností může mít parciální korelační koeficient opačné znaménko než párový.

Například při studiu vztahu mezi charakteristikami X, Y A Z- byly získány párové korelační koeficienty (s n = 100): r xy = 0,6; r X z= 0,9;
r y z = 0,4.

Dílčí korelační koeficienty bez vlivu třetí charakteristiky:

Z příkladu je zřejmé, že hodnoty párový koeficient a parciální korelační koeficient se liší znaménkem.

Metoda parciální korelace umožňuje vypočítat koeficient parciální korelace druhého řádu. Tento koeficient udává vztah mezi první a druhou charakteristikou s konstantní hodnotou třetí a čtvrté. Stanovení dílčího koeficientu druhého řádu je založeno na dílčích koeficientech prvního řádu pomocí vzorce:

Kde r 12 . 4 , r 13–4, r 23 ּ4 - parciální koeficienty, jejichž hodnota je určena vzorcem parciálního koeficientu pomocí párových korelačních koeficientů r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

7.1. Lineární regresní analýza spočívá v přizpůsobení grafu množině pozorování pomocí metody nejmenších čtverců. Regresní analýza nám umožňuje vytvořit funkční vztah mezi některými náhodná proměnná Y a nějaké ovlivňování Y hodnoty X. Tato závislost se nazývá regresní rovnice. Existují jednoduché ( y=m*x+b) a množné číslo ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) regrese lineárního a nelineárního typu.
K posouzení míry souvislosti mezi veličinami se používá Pearsonův R vícenásobný korelační koeficient(korelační poměr), který může nabývat hodnot od 0 do 1. R=0, pokud mezi veličinami není žádný vztah, a R=1, pokud mezi veličinami existuje funkční spojení. Ve většině případů R nabývá středních hodnot od 0 do 1. Hodnota R 2 volal koeficient determinace.
Úkolem konstrukce regresní závislosti je najít vektor koeficientů M vícenásobný lineární regresní model, ve kterém koeficient R nabývá maximální hodnoty.
K posouzení významnosti R platí Fisherův F test, vypočítá se podle vzorce:

Kde n– počet experimentů; k– počet modelových koeficientů. Li F některé převyšuje kritická hodnota pro data n A k a přijal pravděpodobnost spolehlivosti, pak hodnotu R považovány za významné.

7.2. Nástroj Regrese z Balíček analýzy umožňuje vypočítat následující údaje:

· šance lineární funkce regrese– metoda nejmenších čtverců; typ regresní funkce je určen strukturou zdrojových dat;

· koeficient determinace a související veličiny(stůl Regresní statistika);

· tabulka rozptylu a statistika kritérií pro testování významnosti regrese(stůl Analýza rozptylu );

· směrodatná odchylka a její další statistické charakteristiky pro každý regresní koeficient, což vám umožňuje kontrolovat významnost tohoto koeficientu a stavět pro něj intervaly spolehlivosti;

· hodnoty regresní funkce a rezidua– rozdíly mezi počátečními hodnotami proměnné Y a vypočítané hodnoty regresní funkce (tabulka Stažení rovnováhy);

· pravděpodobnosti odpovídající hodnotám proměnné Y uspořádané vzestupně(stůl Pravděpodobnostní výstup).

7.3. Volejte nástroj pro výběr přes Data > Analýza dat > Regrese.

7.4. V terénu Interval vstupu Y zadejte adresu rozsahu obsahujícího hodnoty závislé proměnné Y. Rozsah se musí skládat z jednoho sloupce.
V terénu Interval vstupu X zadejte adresu rozsahu obsahujícího hodnoty proměnné X. Rozsah se musí skládat z jednoho nebo více sloupců, maximálně však 16 sloupců. Pokud je uvedeno v polích Interval vstupu Y A Interval vstupu X rozsahy zahrnují záhlaví sloupců, pak musíte zaškrtnout políčko Tagy– tyto hlavičky budou použity ve výstupních tabulkách generovaných nástrojem Regrese.
Zaškrtávací políčko možnosti Konstanta - nula by měla být stanovena, pokud má regresní rovnice konstantu b je nuceně rovna nule.
Volba Úroveň spolehlivosti se nastavuje, když je nutné sestrojit intervaly spolehlivosti pro regresní koeficienty s hladinou spolehlivosti jinou než 0,95, která se standardně používá. Po zaškrtnutí políčka volby Úroveň spolehlivosti Zpřístupní se vstupní pole, do kterého se zadá nová hodnota úrovně spolehlivosti.
V oblasti Zbytky Existují čtyři možnosti: Zbytky, Standardizované váhy, Graf bilance A Harmonogram výběru. Pokud je nainstalován alespoň jeden z nich, tabulka se zobrazí ve výsledcích výstupu Stažení rovnováhy, který zobrazí hodnoty regresní funkce a rezidua - rozdíly mezi počátečními hodnotami proměnné Y a vypočtenými hodnotami regresní funkce. V oblasti Normální pravděpodobnost Existuje jedna možnost – ; jeho instalace vygeneruje ve výstupních výsledcích tabulku Pravděpodobnostní výstup a vede ke konstrukci odpovídajícího grafu.


7.5. Nastavte parametry podle obrázku. Ujistěte se, že hodnota Y je první proměnná (včetně buňky s názvem) a hodnota X jsou další dvě proměnné (včetně buněk s názvy). Klikněte OK.

7.6. Ve stole Regresní statistika Jsou uvedeny následující údaje.

Množné číslo R– kořen koeficientu determinace R 2 uvedený na dalším řádku. Jiný název pro tento ukazatel je index korelace neboli vícenásobný korelační koeficient.

R-čtverec– koeficient determinace R 2 ; počítáno jako poměr regresní součet čtverců(buňka C12) do celkový součet čtverců(buňka C14).

Normalizovaná R-kvadrát vypočítané podle vzorce

kde n je počet hodnot proměnné Y, k je počet sloupců ve vstupním intervalu proměnné X.

Standardní chyba– kořen zbytkového rozptylu (buňka D13).

Pozorování– počet hodnot proměnné Y.

7.7. V Disperzní stůl ve sloupci SS ve sloupci jsou uvedeny součty čtverců df– počet stupňů volnosti. ve sloupci SLEČNA– disperze. V souladu Regrese ve sloupci F Hodnota statistiky kritéria byla vypočtena pro testování významnosti regrese. Tato hodnota se vypočítá jako poměr regresního rozptylu k reziduálnímu rozptylu (buňky D12 a D13). Ve sloupci Význam F vypočítá se pravděpodobnost získané hodnoty statistiky kritéria. Pokud je tato pravděpodobnost menší než např. 0,05 (daná hladina významnosti), pak se hypotéza o nevýznamnosti regrese (tj. hypotéza, že všechny koeficienty regresní funkce jsou rovny nule) zamítne a regrese se zamítne. považovány za významné. V tomto příkladu není regrese významná.

7.8. V následující tabulce ve sloupci Kurzy, jsou zapsány vypočtené hodnoty koeficientů regresní funkce, zatímco v řádku Y-křižovatka je zapsána hodnota volného termínu b. Ve sloupci Standardní chyba Byly vypočteny směrodatné odchylky koeficientů.
Ve sloupci t-statistika Zaznamenávají se poměry hodnot koeficientů k jejich směrodatným odchylkám. Toto jsou hodnoty kriteriální statistiky pro testování hypotéz o významnosti regresních koeficientů.
Ve sloupci P-hodnota jsou vypočteny hladiny významnosti odpovídající hodnotám statistiky kritérií. Pokud je vypočtená hladina významnosti nižší než zadaná hladina významnosti (například 0,05). pak je přijata hypotéza, že koeficient se výrazně liší od nuly; jinak je přijata hypotéza, že se koeficient nevýznamně liší od nuly. V tomto příkladu pouze koeficient b výrazně odlišné od nuly, zbytek - nevýznamně.
Ve sloupcích Spodních 95 % A Nejlepších 95 % jsou uvedeny hranice intervalů spolehlivosti s hladinou spolehlivosti 0,95. Tyto hranice se vypočítají pomocí vzorců
Nižší 95 % = koeficient - standardní chyba * t α;
Horních 95 % = koeficient + standardní chyba * t α.
Tady – kvantil objednávky α Studentova t rozdělení s (n-k-1) stupni volnosti. V tomto případě α = 0,95. Hranice intervalů spolehlivosti ve sloupcích se počítají stejným způsobem Dolních 90,0 % A Nejlepších 90,0 %.

7.9. Zvažte tabulku Stažení rovnováhy z výstupních výsledků. Tato tabulka se objeví ve výsledcích výstupu pouze v případě, že je v oblasti nastavena alespoň jedna možnost Zbytky dialogové okno Regrese.

Ve sloupci Pozorování jsou uvedena sériová čísla hodnot proměnných Y.
Ve sloupci Předpokládaný Y hodnoty regresní funkce y i = f(x i) jsou vypočteny pro tyto hodnoty proměnné X, což odpovídá sériové číslo i ve sloupci Pozorování.
Ve sloupci Zbytky obsahuje rozdíly (zbytky) ε i =Y-y i, a sloupec Standardní zůstatky– normalizované rezidua, které se počítají jako poměry ε i / s ε. kde s ε je standardní odchylka reziduí. Druhá mocnina hodnoty s ε se vypočítá pomocí vzorce

kde je průměr zbytků. Hodnotu lze vypočítat jako poměr dvou hodnot z tabulky rozptylu: součet druhých mocnin zbytků (buňka C13) a stupňů volnosti z řádku Celkový(buňka B14).

7.10. Podle tabulkových hodnot Stažení rovnováhy jsou vytvořeny dva typy grafů: zbytkové grafy A výběrové plány(pokud jsou v oblasti nastaveny příslušné možnosti Zbytky dialogové okno Regrese). Jsou sestaveny pro každou variabilní složku X odděleně.

Na bilanční grafy jsou zobrazeny zůstatky, tzn. rozdíly mezi původními hodnotami Y a vypočítané z regresní funkce pro každou hodnotu proměnné složky X.

Na výběrové plány zobrazuje jak původní hodnoty Y, tak vypočítané hodnoty regresní funkce pro každou hodnotu proměnné složky X.

7.11. Poslední tabulkou výstupních výsledků je tabulka Pravděpodobnostní výstup. Zobrazí se v dialogovém okně Regrese nainstalovaná možnost Normální pravděpodobnostní graf.
Hodnoty sloupců Percentil se počítají následovně. Krok se počítá h = (1/n)*100 %, první hodnota je h/2, to druhé se rovná 100-h/2. Počínaje druhou hodnotou je každá následující hodnota rovna předchozí, ke které je přidán krok h.
Ve sloupci Y jsou uvedeny hodnoty proměnných Y, seřazené vzestupně. Na základě údajů v této tabulce, tzv plán normální distribuce . Umožňuje vizuálně posoudit míru linearity vztahu mezi proměnnými X A Y.


8. D analýza rozptylu

8.1. Balíček analýzy umožňuje tři typy analýzy rozptylu. Výběr konkrétního přístroje je dán počtem faktorů a počtem vzorků ve studovaném souboru dat.
používá k testování hypotézy, že průměry dvou nebo více vzorků patřících do stejného vzorku jsou podobné populace.
Dvoucestná ANOVA s opakováním je složitější varianta jednorozměrná analýza, včetně více než jednoho vzorku pro každou skupinu dat.
Obousměrná ANOVA bez opakování je dvoucestná analýza rozptylu, která nezahrnuje více než jeden vzorek na skupinu. Používá se k testování hypotézy, že průměry dvou nebo více vzorků jsou stejné (vzorky patří do stejné populace).

8.2. Jednosměrná ANOVA

8.2.1. Připravíme data pro analýzu. Vytvořte nový list a zkopírujte do něj sloupce ABECEDA. Odstraňte první dva řádky. Připravená data lze použít k vedení Jednosměrná analýza rozptylu.

8.2.2. Volejte nástroj pro výběr přes Data > Analýza dat > Jednosměrná ANOVA. Doplňte podle obrázku. Klikněte OK.

8.2.3. Zvažte tabulku Výsledek: Šek- počet opakování, Součet– součet hodnot ukazatelů podle řádku, Disperze– částečný rozptyl ukazatele.

8.2.4. Stůl Analýza rozptylu: první sloupec Zdroj variace obsahuje názvy disperzí, SS– součet čtverců odchylek, df- stupeň svobody, SLEČNA- průměrný čtverec, F-test skutečné rozdělení F. P-hodnota– pravděpodobnost, že rozptyl reprodukovaný rovnicí je roven rozptylu reziduí. Stanovuje pravděpodobnost, že získané kvantitativní určení vztahu mezi faktory a výsledkem lze považovat za náhodné. F-kritické je teoretická hodnota F, která se následně porovnává se skutečnou hodnotou F.

8.2.5. Nulová hypotéza rovnosti matematická očekávání všech vzorků je akceptována v případě nerovnosti F-test < F-kritické. tato hypotéza by měla být zamítnuta. V tomto případě se průměrné hodnoty vzorků výrazně liší.

Konstrukce lineární regrese, vyhodnocení jejích parametrů a jejich význam lze při použití balíčku provést mnohem rychleji Analýza Excel(Regrese). Podívejme se na interpretaci výsledků získaných v obecný případ (k vysvětlující proměnné) podle příkladu 3.6.

Ve stole regresní statistiky jsou uvedeny následující hodnoty:

Násobek R – vícenásobný korelační koeficient;

R- náměstí– koeficient determinace R 2 ;

Normalizované R - náměstí– upraveno R 2 upraveno pro počet stupňů volnosti;

Standardní chyba– standardní chyba regrese S;

Pozorování – počet pozorování n.

Ve stole Analýza rozptylu jsou uvedeny:

1. Sloupec df - počet stupňů volnosti rovný

pro řetězec Regrese df = k;

pro řetězec Zbytekdf = nk – 1;

pro řetězec Celkovýdf = n– 1.

2. Sloupec SS – součet čtverců odchylek rovný

pro řetězec Regrese ;

pro řetězec Zbytek ;

pro řetězec Celkový .

3. Sloupec SLEČNA rozptyly určené vzorcem SLEČNA = SS/df:

pro řetězec Regrese– rozptyl faktorů;

pro řetězec Zbytek– zbytkový rozptyl.

4. Sloupec F – vypočítaná hodnota F-kritérium vypočtené pomocí vzorce

F = SLEČNA(regrese)/ SLEČNA(zbytek).

5. Sloupec Význam F – hodnota hladiny významnosti odpovídající vypočtené F-statistika .

Význam F= FDIST( F- statistika, df(regrese), df(zbytek)).

Pokud význam F < стандартного уровня значимости, то R 2 je statisticky významný.

Kurzy Standardní chyba t-statistiky P-hodnota Spodních 95 % Nejlepších 95 %
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Tato tabulka ukazuje:

1. Kurzy– hodnoty koeficientů A, b.

2. Standardní chyba– směrodatné chyby regresních koeficientů S a, Sb.



3. t- statistika– vypočtené hodnoty t -kritéria vypočítaná podle vzorce:

t-statistika = koeficienty/standardní chyba.

4.R-hodnota (význam t) je hodnota hladiny významnosti odpovídající vypočtené t- statistika.

R-hodnota = STUDIDIST(t-statistika, df(zbytek)).

Li R-význam< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Spodních 95 % a horních 95 %– nižší a horní hranice 95% intervaly spolehlivosti pro koeficienty teoretické lineární regresní rovnice.

ODBĚR ZBYTKU
Pozorování Předpokládaný r Zbytky e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Ve stole ODBĚR ZBYTKU uvedeno:

ve sloupci Pozorování– číslo pozorování;

ve sloupci Předpovězeno y – vypočtené hodnoty závislé proměnné;

ve sloupci Zbytky E – rozdíl mezi pozorovanými a vypočtenými hodnotami závislé proměnné.

Příklad 3.6. Existují údaje (konvenční jednotky) o nákladech na potraviny y a příjem na hlavu X pro devět skupin rodin:

X
y

Pomocí výsledků analytického balíčku Excel (Regrese) budeme analyzovat závislost nákladů na potraviny na příjmu na hlavu.

Výsledky regresní analýzy se obvykle zapisují ve tvaru:

kde jsou v závorkách uvedeny směrodatné chyby regresních koeficientů.

Regresní koeficienty A = 65,92 a b= 0,107. Směr komunikace mezi y A X určuje znaménko regresního koeficientu b= 0,107, tzn. spojení je přímé a pozitivní. Součinitel b= 0,107 ukazuje, že při zvýšení příjmu na hlavu o 1 konvenční. Jednotky náklady na potraviny se zvyšují o 0,107 konvenční jednotky. Jednotky

Zhodnoťme význam koeficientů výsledného modelu. Význam koeficientů ( a, b) kontroluje t-test:

P-hodnota ( A) = 0,00080 < 0,01 < 0,05

P-hodnota ( b) = 0,00016 < 0,01 < 0,05,

proto koeficienty ( a, b) jsou významné na 1% hladině a ještě více na 5% hladině významnosti. Regresní koeficienty jsou tedy významné a model je adekvátní původním datům.

Výsledky regresního odhadu jsou kompatibilní nejen se získanými hodnotami regresních koeficientů, ale také s jejich určitou sadou (interval spolehlivosti). S pravděpodobností 95 % jsou intervaly spolehlivosti pro koeficienty (38,16 – 93,68) pro A a (0,0728 – 0,142) pro b.

Kvalita modelu se posuzuje koeficientem determinace R 2 .

Velikost R 2 = 0,884 znamená, že faktor příjmu na hlavu může vysvětlit 88,4 % variace (rozptyl) ve výdajích na potraviny.

Význam R 2 kontroluje F- test: významnost F = 0,00016 < 0,01 < 0,05, следовательно, R 2 je významný na 1% hladině a ještě více na 5% hladině významnosti.

V případě párové lineární regrese lze korelační koeficient definovat jako . Získaná hodnota korelačního koeficientu naznačuje, že vztah mezi náklady na potraviny a příjmem na hlavu je velmi těsný.



Novinka na webu

>

Nejoblíbenější