Domov Dětská stomatologie Vlastnosti lineárního korelačního koeficientu. Příklad zjištění korelačního koeficientu

Vlastnosti lineárního korelačního koeficientu. Příklad zjištění korelačního koeficientu

Lineární korelační koeficient

Dokonalejším ukazatelem míry blízkosti spojení je lineární koeficient korelace (r).

Při výpočtu tohoto ukazatele se berou v úvahu nejen znaménka odchylek jednotlivých hodnot charakteristiky od průměru, ale i samotná velikost takových odchylek, tzn. respektive pro faktoriál a výsledné charakteristiky, hodnoty a . Není však možné přímo porovnávat získané absolutní hodnoty mezi sebou, protože samotné charakteristiky mohou být vyjádřeny v různých jednotkách (jako je tomu v uvedeném příkladu), a pokud jsou přítomny stejné jednotky měření, průměry mohou mít různé hodnoty. V tomto ohledu mohou být odchylky vyjádřené v relativních hodnotách předmětem srovnání, tzn. ve zlomcích směrodatné odchylky (nazývají se normalizované odchylky). Pro faktorovou charakteristiku tedy budeme mít sadu hodnot a pro efektivní charakteristiku .

Výsledné normalizované odchylky lze vzájemně porovnávat. Abychom získali obecnou charakteristiku míry těsnosti souvislostí mezi charakteristikami pro celou populaci na základě srovnání vypočtených normalizovaných odchylek, vypočítá se průměrný součin normalizovaných odchylek. Takto získaný průměr bude lineární korelační koeficient r.

(1.2)

nebo protože s x A s y protože tyto řady jsou konstantní a lze je vyjmout z hranatých závorek, má vzorec pro lineární korelační koeficient následující tvar:

(1.3)

Koeficient lineární korelace může nabývat libovolné hodnoty v rozmezí –1 až +1. Čím blíže je korelační koeficient v absolutní hodnotě 1, tím bližší je vztah mezi charakteristikami. Znaménko lineárního korelačního koeficientu udává směr vztahu: přímá závislost odpovídá znaménku plus a inverzní vztah odpovídá znaménku mínus.

Pokud se zvýšením hodnot faktorové charakteristiky X, výsledný znak na má tendenci se zvyšovat, pak bude hodnota korelačního koeficientu mezi 0 a 1. Pokud s rostoucími hodnotami X výsledné znamení na má tendenci klesat, korelační koeficient může nabývat hodnot v rozsahu od 0 do –1.

Získaná hodnota lineárního korelačního koeficientu, stejně jako Fechnerův koeficient nalezený výše, ukazuje možná dostupnost Mezi náklady na reklamu a počtem turistů, kteří služeb společnosti využili, existuje poměrně úzká přímá úměra.

Čtvercový korelační koeficient ( r 2) se nazývá koeficient determinace. Pro uvažovaný příklad je jeho hodnota 0,6569, což znamená, že 65,69 % variace v počtu klientů, kteří využili služeb firmy, je vysvětleno kolísáním nákladů firem na reklamu jejich služeb.

Zde je třeba ještě jednou připomenout, že samotná hodnota korelačního koeficientu není důkazem přítomnosti příčinného a následkového vztahu mezi zkoumanými charakteristikami, ale je posouzením míry vzájemné konzistence změn charakteristik. Stanovení vztahu příčina-následek předchází analýza kvalitativní povahy jevů. Je tu ale ještě jedna okolnost, která vysvětluje formulaci závěrů o možné přítomnosti souvislosti na základě velikosti korelačního koeficientu.

Je to dáno tím, že posouzení míry těsnosti souvislosti pomocí korelačního koeficientu se provádí zpravidla na základě více či méně omezených informací o studovaném jevu. Vyvstává otázka, jak legitimní je náš závěr založený na vzorových datech ohledně skutečné přítomnosti korelace v tom populace, ze kterého byl odebrán vzorek?

KORELAČNÍ A REGRESNÍ ANALÝZA V

EKONOMICKÉ VÝPOČTY

Základní pojmy v korelační a regresní analýze

V matematice existují dva koncepty, které odrážejí vztahy příčiny a následku mezi charakteristikami: funkční a korelační závislost.

Funkční závislost je chápána jako takový vztah mezi veličinami, kdy hodnota závislé veličiny - funkce - je zcela určena hodnotami závislých proměnných.

Korelační závislost nastane, když každá hodnota jedné (výsledné) veličiny odpovídá množině náhodných hodnot jiné, vyskytující se s určitou pravděpodobností.

Při studiu ekonomických jevů se nezabýváme funkční, ale korelační závislostí. Pomocí korelace a regresní analýza lze vypočítat korelační koeficienty, které posuzují sílu vztahu mezi jednotlivými ukazateli, vyberte

regresní rovnice, která určuje formu tohoto spojení, a prokázat spolehlivost existence tohoto spojení.

Proces korelační a regresní analýzy ekonomických procesů se skládá z následujících fází:

Předběžné zpracování statistických dat a výběr hlavních charakteristik faktorů ovlivňujících efektivní ukazatel;

Posouzení těsnosti souvislosti a identifikace formy existující souvislosti mezi výslednými a faktorovými charakteristikami;

Vývoj (multifaktoriálního) modelu studovaného jevu a jeho analýza;

Aplikace získaných výsledků analýzy pro rozhodování managementu.

Korelace čelí dvěma hlavním problémům. První je zjistit, jak se mění průměrná efektivní charakteristika v souvislosti se změnou faktoru jedna. Tento problém lze vyřešit najít komunikační rovnici. Druhá úloha určuje míru vlivu zkreslujících faktorů. Tento problém je řešen studiem indikátorů blízkosti spojení. Takovými ukazateli jsou korelační koeficienty a korelační poměry.



2. Efektivní a faktorové znaky . Při studiu vlivu některých znaků jevu na jiné se z řetězce znaků charakterizujících daný jev rozlišují dva - faktorové znaky (ovlivňující výsledek) a výsledné. Je nutné určit, která z charakteristik je faktoriální a která produktivní. K tomu pomáhá především logická analýza.

Příklad. Náklady na průmyslové výrobky jednotlivého podniku závisí na mnoha faktorech, včetně objemu výroby v tomto podniku. Výrobní náklady působí v tomto případě jako efektivní atribut a objem výroby jako faktoriální.

Další příklad. Abychom mohli posoudit výhody velkých podniků oproti malým, můžeme uvažovat o tom, jak se zvyšuje produktivita práce pracovníků ve velkých podnicích, a identifikovat závislost produktivity práce na nárůstu velikosti podniku.

3. Pojem komunikační rovnice. Rovnice této funkce bude rovnicí souvislosti mezi výslednou a faktoriálovou charakteristikou.

Vazební rovnice je nalezena pomocí metody nejmenší čtverce, který vyžaduje, aby součet čtverců odchylek empirických hodnot od hodnot získaných na základě vazebné rovnice byl minimální.

Použití metody nejmenších čtverců umožňuje najít parametry komunikační rovnice řešením systému tzv. normálních rovnic, odlišných pro každý typ spojení.

Abychom si všimli, že vztah mezi dvěma charakteristikami je vyjádřen průměrem, označují se hodnoty výsledné charakteristiky zjištěné z rovnice vztahu Fuj.

Znáte-li vztahovou rovnici, můžete předem vypočítat průměrnou hodnotu výsledné charakteristiky, když hodnotu. faktoriální charakteristika je známá. Rovnice spojení je tedy metodou zobecnění pozorovaných statistických vztahů, metodou jejich studia.

Použití té či oné funkce jako vazebné rovnice rozlišuje vazby podle jejich tvaru: lineární vazba a křivočará vazba (parabolická, hyperbolická atd.).

Uvažujme rovnice připojení pro závislosti na jedné charakteristice at různé formy spojení, (lineární, křivočará parabolická, hyperbolická) a pro vícenásobná spojení.

4. Lineární vztah mezi charakteristikami. Rovnice spojení jako přímková rovnice Ух==ао+а1х se používá v případě rovnoměrného nárůstu efektivního atributu s nárůstem faktoriálu. Taková závislost bude lineární (přímočará) závislost.

Parametry rovnice přímky ao a a1 se zjistí řešením soustavy normálních rovnic získaných metodou nejmenších čtverců:

Příkladem výpočtu parametrů rovnice a průměrných hodnot efektivní charakteristiky Vx je následující tabulka, která je výsledkem seskupení podle faktoriální charakteristiky a výpočtu průměrných hodnot podle efektivní charakteristiky.

Pro vztahovou rovnici je nezbytné seskupování podniků podle hodnoty stálých aktiv a výpočet částek.

Z tabulky zjistíme: n==6; =18; =39,0; = 71,5

132,0. Sestavíme soustavu dvou rovnic se dvěma neznámými:

Vydělením každého členu v obou rovnicích koeficienty a® získáme:

Odečtěte první od druhé rovnice: 0,97a1=0,83; a1==0,86. Dosazením hodnot a1 do první rovnice ao+3*0,86 =6,5 zjistíme ao=6,5-2,58=+3,92.

Rovnice spojení bude mít tvar: yx=3,92+0,86x. Dosazením odpovídajícího x do této rovnice získáme hodnoty výsledné charakteristiky, odrážející průměrnou závislost y na x ve formě korelační závislosti.

Všimněte si, že částky vypočtené rovnicí a skutečné částky se navzájem rovnají. Znázornění skutečných a vypočtených hodnot na Obr. 4 ukazuje, že vazebná rovnice odráží pozorovanou závislost na průměru.

5. Parabolická závislost mezi znaky . Parabolická závislost, vyjádřená rovnicí paraboly 2. řádu yx = ao + a1x + a2x 2, nastává se zrychleným nárůstem nebo poklesem efektivního atributu v kombinaci s rovnoměrným nárůstem faktoriálního atributu.

Parametry parabolické rovnice a®; a1; a2 se vypočítají řešením systému 3 normálních rovnic:

Vezměme si jako příklad závislost. měsíční vydání produkty (y) z hodnoty dlouhodobého majetku (x). Obě čísla jsou zaokrouhlena na nejbližší milion rublů. Výpočty požadovaných množství jsou uvedeny v tabulce. 5.

Na základě údajů v tabulce vytvoříme soustavu rovnic:

6. Rovnice hyperboly. Zpětná vazba indikuje pokles efektivního atributu, když faktoriál roste. Jedná se o lineární vztah se zápornou hodnotou a1. V řadě dalších případů lze zpětnou vazbu vyjádřit rovnicí hyperboly

Parametry rovnice hyperboly ao a a1 se nalézají ze soustavy normálních rovnic:

7. Korelační tabulka. Při velkém objemu pozorování, kdy je počet propojených dvojic velký, lze spárovaná data snadno najít v korelační tabulce, což je nejpohodlnější forma reprezentace významného počtu dvojic čísel.

V korelační tabulce je jedna charakteristika umístěna v řádcích a druhá ve sloupcích tabulky. Číslo umístěné v buňce na průsečíku grafu a sloupce ukazuje, jak často se daná hodnota výsledné charakteristiky vyskytuje v kombinaci s danou hodnotou faktoriálové charakteristiky.

Pro zjednodušení výpočtu provedeme malý počet pozorování u 20 podniků průměrného měsíčního výkonu na pracovníka (tisíc rublů) a nákladů na fixní výrobní aktiva (miliony rublů).

V běžné párové tabulce jsou tyto informace uspořádány takto:

Součty řádků y ukazují četnost charakteristiky nу, součty sloupce x četnost charakteristiky nx. Čísla v buňkách korelační tabulky jsou frekvence vztahující se k oběma charakteristikám a jsou označeny nxy.

Korelační tabulka i při povrchní známosti dává hlavní myšlenka o přímce a zpětná vazba. Pokud jsou frekvence umístěny diagonálně dolů, pak je spojení mezi charakteristikami přímé (s rostoucími hodnotami charakteristiky v řádcích a sloupcích). Pokud jsou frekvence umístěny šikmo nahoru vpravo, je zapojení obrácené.

8. Korelační vztah. Pokud je jev měřen dvěma charakteristikami, pak je možné najít míry disperze (hlavně disperze) výslednou charakteristikou pro stejné hodnoty faktoriální charakteristiky.

Je uvedena například korelační tabulka dvou vzájemně závislých řad, ve které jsou pro zjednodušení pouze tři hodnoty faktoriální charakteristiky množství aplikovaného hnojiva (x) a výsledná charakteristika — výnos (y) - výrazně kolísá. Tabulka 16

Každá skupina pozemků s různými výnosy měla aplikovaná různá množství hnojiva. Takže, když byla hnojiva aplikována v množství 20 g/výnos v různých oblastech, byl stejný: v jedné oblasti to bylo 0,8 tuny, ve dvou oblastech - 0,9 tuny, ve třech - 1,0 tuny a v jedné - 1,1 t. Zjistěte průměrný výnos a rozptyl výnosů pro tuto skupinu ploch.

Pro skupinu pozemků s množstvím aplikovaného hnojiva 30,0 g bude průměrný výnos:

Vypočítejme podobné charakteristiky pro skupinu oblastí. obdržel 40 tun hnojiv:

Z těchto údajů můžete také určit průměrný výnos všech 20 pozemků bez ohledu na množství aplikovaného hnojiva, tedy celkový průměr:

a míra variability (disperze) průměrného výnosu skupin kolem celkového průměru. Tato disperze se nazývá meziskupinová a označuje se b 2

kde yi jsou průměrné výnosy pro skupiny pozemků, které se liší množstvím aplikovaného hnojiva; m1,m2,m3,-počet skupin. Rozdíl mezi skupinami pro tento příklad je:

Rozptyl mezi skupinami ukazuje rozptyl, ke kterému dochází díky faktoriálovému atributu. V tomto příkladu je Y = == 0,01&247 indikátorem rozptylu výnosu vyplývajícího z rozdílu v množství aplikovaného hnojiva.

Kromě meziskupinového rozptylu je však také možné vypočítat rozptyl jako indikátor rozptylu v důsledku jiných faktorů (pokud tak nazýváte všechny ostatní faktory kromě hnojiv). Tento ukazatel bude průměrnou (váženou) hodnotou rozptylových ukazatelů (rozptylů) pro skupiny lokalit

To prakticky znamená, že je možné získat obecnou míru rozptylu (disperze) pro všech 20 pozemků, pokud jsou k dispozici informace o průměrech a odchylkách pro skupiny pozemků, které se liší množstvím aplikovaného hnojiva. Proto bude celkový rozptyl výnosů pro 20 pozemků;

Vzorce pro výpočet meziskupinových a průměrných skupinových rozptylů lze zkrátit takto:

Výpočet celkového rozptylu, vnitroskupinového a meziskupinového rozptylu nám umožňuje vyvodit určité závěry o míře vlivu faktoriálového atributu na variabilitu efektivního atributu. Tato míra vlivu se zjistí pomocí korelačního vztahu:

To znamená, že 78 % variability výnosu pozemku závisí na variabilitě množství aplikovaného hnojiva.

Lineární korelační koeficient

Při studiu blízkosti vztahu mezi dvěma vzájemně závislými řadami se používá lineární korelační koeficient, který ukazuje, zda a jak silný vztah mezi těmito řadami existuje. Může nabývat hodnot od –1 do +1.

10. Kumulativní korelační koeficient :

,

Kde r- lineární korelační koeficienty a indexy udávají, mezi kterými charakteristikami se počítají.

1) Koeficient lineární korelace může nabývat hodnot od –1 do +1.

2) Jestliže , pak je spojení mezi charakteristikami funkční, tj. efektivní charakteristika je ovlivněna pouze uvažovanou faktorovou charakteristikou a ničím jiným, jestliže r = 0, pak mezi charakteristikami není žádná souvislost.

3) Pokud r> 0, pak je vztah mezi charakteristikami přímý, pokud r< 0, то связь – обратная.

4) Přidělte následující intervaly pro r:

mezi znaky prakticky neexistuje žádná souvislost;

připojení je slabé;

připojení je mírné;

spojení je silné.

Rýže. 2. Příklady umístění bodů na grafu a hodnoty korelačního koeficientu

Pro posouzení významnosti lineárního korelačního koeficientu r použití t- studentský test. V tomto případě je vyslovena hypotéza, že korelační koeficient je roven nule.

Testování hypotéz:

1. Vypočítejte skutečné hodnoty t- kritérium pro r:

(tento vzorec se používá pro malý vzorek).

2. Podle tabulky t- Stanoví se studentské rozdělení s přihlédnutím k přijaté hladině významnosti nebo počtu stupňů volnosti.

3. Jestliže , pak je hypotéza zamítnuta, což ukazuje na významnost korelačního koeficientu.

Korelační vztah určeno podle vzorců:

η = nebo η = ,

kde je meziskupinový rozptyl výsledného znaku způsobený vlivem faktorového znaku;

– celkový rozptyl výsledného atributu;

– průměr variací v rámci skupiny výsledného znaku.

Výpočet korelačního vztahu vyžaduje dosti velké množství informací, které je nutné prezentovat ve formě skupinové tabulky nebo ve formě korelační tabulky, tzn. předpoklad je seskupení dat podle atributu-faktoru.

Pro neseskupená data lze empirický korelační poměr vypočítat pomocí následujícího vzorce:

.

kde y – empirické (skutečné) hodnoty výsledné charakteristiky;

– průměrná hodnota efektivní charakteristiky;

– vyrovnané hodnoty výsledné charakteristiky, vypočtené pomocí analytické rovnice.

Korelační poměr na druhou () a pro párový vztah se nazývá lineární korelační koeficient na druhou () koeficient determinace (kauzalita), odráží podíl variance faktorů na celkovém rozptylu.

Koeficient determinace (D) ukazuje, jakým procentem je změna průměrné hodnoty výsledné charakteristiky určena vlivem této faktorové charakteristiky.

V praxi lze pro určení míry těsnosti spojení použít i další ukazatele.

Základní charakteristikou stupně blízkosti spojení je Fechnerův koeficient :

,

Kde n a– počet shod znamének odchylek jednotlivých hodnot faktorové charakteristiky X a výsledný znak na z jejich aritmetického průměru (například „plus“ a „plus“, „mínus“ a „mínus“, „žádná odchylka“ a „žádná odchylka“);

n b– počet nesrovnalostí ve znaménkách odchylek jednotlivých hodnot charakteristik od hodnoty jejich aritmetického průměru.

Fechnerův koeficient se používá, když je množství počáteční informace malé. Liší se od -1 do 1.

K určení blízkosti vztahu mezi kvantitativními a kvalitativními charakteristikami za předpokladu, že hodnoty těchto charakteristik lze seřadit vzestupně nebo sestupně, se používá Spearmanův koeficient pořadové korelace :

,

Kde d i– rozdíl mezi hodnotami pořadí faktorové charakteristiky a výsledné charakteristiky;

n– počet ukazatelů (pořadí) studované řady.

Liší se od -1 do 1.

Konec práce -

Toto téma patří do sekce:

Statistika

Státní humanitní univerzita Vjatka.. m a kunilova o o antonenko..

Pokud potřebujete další materiál k tomuto tématu nebo jste nenašli to, co jste hledali, doporučujeme použít vyhledávání v naší databázi prací:

Co uděláme s přijatým materiálem:

Pokud byl pro vás tento materiál užitečný, můžete si jej uložit na svou stránku na sociálních sítích:

Všechna témata v této sekci:

Kritické hodnoty Fisherova F testu
k1 k2 Úroveň významnosti

Různé ekonomické jevy na mikro i makro úrovni nejsou nezávislé, ale jsou vzájemně propojeny (cena produktu a poptávka po něm, objem výroby a zisk firmy atd.).

Tato závislost může být přísně funkční (deterministická) a statistická.

Závislost mezi a se nazývá funkční, když každá hodnota jedné charakteristiky odpovídá jedné jediné hodnotě jiné charakteristiky. (Příkladem takového jedinečného vztahu je závislost plochy kruhu na poloměru.)

Ve skutečnosti je častější jiná souvislost mezi jevy, kdy každá hodnota jedné charakteristiky může odpovídat několika hodnotám jiné (například souvislost mezi věkem dětí a jejich růstem).

Forma spojení, kdy jeden nebo více vzájemně souvisejících ukazatelů (faktorů) ovlivňuje jiný ukazatel (výsledek) nikoli jednoznačně, ale s určitou mírou pravděpodobnosti, se nazývá statistická. Zejména pokud se při změně jedné z veličin změní průměrná hodnota druhé, pak se v tomto případě statistická závislost nazývá korelace.

V závislosti na počtu faktorů zahrnutých do modelu se rozlišuje párová korelace (vztah mezi dvěma proměnnými) a vícenásobná korelace (závislost výsledku na více faktorech).

Korelační analýza spočívá v definování směry, formy a stupně spojení (těsnost) mezi dvěma (několika) náhodnými charakteristikami a.

Ve směru je korelace kladná (přímá), pokud se zvyšující se hodnoty jedné proměnné roste hodnota jiné, a záporná (inverzní), pokud se zvyšující se hodnoty jedné proměnné klesá hodnota jiné. .

Ve formě může být korelační vztah lineární (přímkový), když změna hodnot jedné charakteristiky vede k rovnoměrné změně jiné (matematicky popsané rovnicí přímky), a křivočarý, když změna hodnot jedné charakteristiky vede k nestejným změnám jiné charakteristiky (matematicky je popsána rovnicemi zakřivených čar, například hyperboly, paraboly atd.).

Nejjednodušší formou závislosti mezi proměnnými je lineární závislost. A kontrola přítomnosti takové závislosti, posouzení jejích ukazatelů a parametrů je jednou z nejdůležitějších oblastí ekonometrie.

Existují speciální statistické metody, a tedy ukazatele, jejichž hodnoty určitým způsobem naznačují přítomnost nebo nepřítomnost lineárního vztahu mezi proměnnými.

Lineární korelační koeficient

Nejjednodušší a přibližný způsob identifikace korelací je grafický.

Při malé velikosti vzorku jsou experimentální data prezentována ve formě dvou řad vzájemně propojených hodnot a. Pokud je každá dvojice znázorněna jako bod v rovině, pak se získá tzv. korelační pole (obr. 1).

Pokud je korelačním polem elipsa, jejíž osa je umístěna zleva doprava a zdola nahoru (obr. 1c), pak můžeme předpokládat, že mezi charakteristikami existuje lineární kladný vztah.

Pokud je korelační pole prodlouženo podél osy zleva doprava a shora dolů (obr. 1d), pak můžeme předpokládat přítomnost lineárního negativního spojení.

Pokud jsou pozorovací body umístěny chaoticky v rovině, to znamená, že korelační pole tvoří kruh (obr. 1a), pak to ukazuje na nedostatek spojení mezi charakteristikami.

Obrázek 1b ukazuje striktní lineární funkční vztah.

Úzký vztah mezi dvěma veličinami je chápán jako stupeň konjugace mezi nimi, který se projevuje změnou studovaných veličin. Pokud každá daná hodnota odpovídá hodnotám, které jsou si blízké, pak je vztah považován za blízký (silný); pokud jsou hodnoty široce rozptýlené, pak je vztah považován za méně blízký. Při úzkém korelačním spojení je korelační pole více či méně komprimovaná elipsa.

Kvantitativním kritériem pro směr a blízkost lineárního vztahu je lineární korelační koeficient.

Korelační koeficient stanovený z výběrových dat se nazývá výběrový korelační koeficient. Vypočítá se podle vzorce:

kde, aktuální hodnoty funkcí a; a aritmetický průměr hodnot charakteristik; - aritmetický průměr produktů varianty a standardní odchylky těchto charakteristik; velikost vzorku.


Pro výpočet korelačního koeficientu stačí přijmout předpoklad lineárního vztahu mezi náhodnými charakteristikami. Potom vypočítaný korelační koeficient bude mírou tohoto lineárního vztahu.

Lineární korelační koeficient nabývá hodnot od?1 v případě striktního lineárního negativního vztahu do +1 v případě striktně lineárního pozitivní spojení(ti.). Blízkost korelačního koeficientu k 0 indikuje nepřítomnost lineární souvislostí mezi charakteristikami, ale vůbec ne o absenci souvislostí mezi nimi.

Korelační koeficient lze jasně graficky interpretovat.

Pokud, pak existuje lineární funkční závislost typu mezi charakteristikami, což znamená úplnou korelaci charakteristik. Kdy má přímka kladný sklon vzhledem k ose a záporný (obr. 1b).

Pokud jsou body v oblasti omezená linka, připomínající elipsu. Čím blíže je korelační koeficient, tím užší je elipsa a tím těsněji jsou body soustředěny poblíž přímky. Když říkají, že existuje pozitivní korelace. V tomto případě mají hodnoty tendenci s rostoucím růstem (obr. 1c). Když mluví o negativní korelaci; hodnoty mají tendenci klesat s růstem (obr. 1d).

Pokud, pak se body nacházejí v oblasti ohraničené kružnicí. To znamená, že mezi náhodnými znaky neexistuje žádná korelace a takové znaky se nazývají nekorelované (obr. 1a).

Také lineární korelační koeficient může být blízký (rovný) nule, když mezi charakteristikami existuje vztah, ale je nelineární (obr. 2).

Při posuzování těsnosti spoje můžete použít následující podmíněnou tabulku:

Všimněte si, že čitatel vzorce pro výběrový lineární korelační koeficient veličin a s obsahuje jejich kovarianční indikátor:

Tento ukazatel, stejně jako korelační koeficient, charakterizuje míru lineárního vztahu mezi veličinami a. Pokud je větší než nula, pak je vztah mezi veličinami kladný, pokud je menší než nula, pak je vztah záporný, je-li roven nule, neexistuje lineární vztah.

Na rozdíl od korelačního koeficientu je ukazatel kovariance normalizován - má rozměr a jeho hodnota závisí na jednotkách měření a. Ve statistické analýze se indikátor kovariance obvykle používá jako mezičlánek při výpočtu lineárního korelačního koeficientu. Že. vzorec pro výpočet výběrového korelačního koeficientu má tvar:

Odhad významnosti (spolehlivosti) korelačního koeficientu

Je třeba poznamenat, že skutečným ukazatelem míry lineárního vztahu mezi proměnnými je teoretický korelační koeficient, který se vypočítává na základě údajů z celé populace (tj. možné hodnoty indikátory):

kde je teoretický kovarianční index, který se vypočítá jako očekávaná hodnota součin odchylek SV a od jejich matematických očekávání.

Teoretický korelační koeficient zpravidla nemůžeme spočítat. Z toho, že výběrový koeficient není roven nule, však nevyplývá, že teoretický koeficient je také (tj. ukazatele mohou být lineárně nezávislé). Že. Na základě dat náhodného výběru nelze konstatovat, že mezi ukazateli existuje vztah.

Výběrový korelační koeficient je odhadem teoretického koeficientu, protože počítá se pouze pro část hodnot proměnných.

V korelačním koeficientu je vždy chyba. Tato chyba - nesoulad mezi korelačním koeficientem velikosti výběrového souboru a korelačním koeficientem pro obecnou populaci je určena vzorci:

na; a při.

Testovat významnost lineárního korelačního koeficientu znamená testovat, jak moc můžeme důvěřovat vzorovým datům.

Za tímto účelem je testována nulová hypotéza, že hodnota korelačního koeficientu pro populaci je rovna nule, tzn. v populaci neexistuje žádná korelace. Alternativou je hypotéza.

K ověření této hypotézy se vypočítá statistika studenta (-kritérium):

Která má Studentské rozdělení se stupni volnosti. Pomocí studentských distribučních tabulek se určí kritická hodnota. Pokud je vypočtená hodnota kritéria, pak je nulová hypotéza zamítnuta, tj. vypočítaný korelační koeficient se s pravděpodobností výrazně liší od nuly.

Pokud, pak nulovou hypotézu nelze zamítnout. V tomto případě je možné, že skutečná hodnota korelačního koeficientu je nulová, tzn. vztah mezi ukazateli lze považovat za statisticky nevýznamný.

Příklad 1. Tabulka uvádí údaje za 8 let o celkových příjmech a výdajích na konečnou spotřebu.

Studujte a měřte blízkost vztahu mezi danými ukazateli.

Korelační analýza se zabývá mírou spojení mezi dvěma náhodné proměnné X a Y.

Korelační analýza experimentálních dat pro dvě náhodné proměnné zahrnuje následující základní techniky:
1. Výpočet výběrových korelačních koeficientů.
2. Sestavení korelační tabulky.
3. Zkontrolujte statistická hypotéza význam toho spojení.

DEFINICE. Korelační závislost mezi náhodnými veličinami X a Y se nazývá lineární korelace, pokud jsou obě regresní funkce f(x) a φ(x) lineární. V tomto případě jsou obě regresní přímky rovné; nazývají se regresní čáry.

Za dost plný popis znaky korelační závislosti mezi veličinami nestačí určit formu této závislosti a v případě lineární závislost ohodnotit jeho sílu hodnotou regresního koeficientu. Je například zřejmé, že korelační závislost věku Y středoškoláků na X. ročníku jejich školní docházky je zpravidla bližší než obdobná závislost věku vysokoškoláků. vzdělávací instituce v závislosti na ročníku studia, neboť mezi studenty stejného ročníku studia na vysoké škole je zpravidla větší věkový rozptyl než mezi školáky stejné třídy.

Pro posouzení blízkosti lineárních korelací mezi hodnotami X a Y na základě výsledků výběrových pozorování je zaveden koncept výběrového lineárního korelačního koeficientu, definovaný vzorcem:

kde σ X a σ Y jsou vzorové směrodatné odchylky hodnot X a Y, které se vypočítají pomocí vzorců:

Je třeba poznamenat, že hlavní význam výběrového lineárního korelačního koeficientu r B spočívá v tom, že představuje empirický (tj. zjištěný z výsledků pozorování hodnot X a Y) odhad odpovídajícího obecného lineárního korelačního koeficientu r: r= r B (9)

Vezmeme-li v úvahu vzorce:

vidíme, že vzorkovací rovnice lineární regrese Y podle X vypadá takto:

(10)

kde . Totéž lze říci o vzorových lineárních regresních rovnicích X na Y:

(11)

Základní vlastnosti výběrového lineárního korelačního koeficientu:

1. Korelační koeficient dvou veličin, které spolu nesouvisí lineární korelací, je roven nule.
2. Korelační koeficient dvou veličin souvisejících lineární korelační závislostí je roven 1 v případě rostoucí závislosti a -1 v případě klesající závislosti.
3. Absolutní hodnota korelačního koeficientu dvou veličin souvisejících lineární korelační závislostí vyhovuje nerovnosti 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Čím blíže |r| k 1, čím blíže je lineární korelace mezi hodnotami Y a X.

Svou povahou může být korelace přímá nebo inverzní a podle síly - silná, střední, slabá. Kromě toho může připojení chybět nebo je úplné.

Síla a povaha vztahu mezi parametry

Příklad 4. Byl studován vztah mezi dvěma veličinami Y a X. Výsledky pozorování jsou uvedeny v tabulce ve formě dvourozměrného vzorku objemu 11:

X 68 37 50 53 75 66 52 65 74 65 54
Y 114 149 146 141 114 112 124 105 141 120 124

Požadované:
1) Vypočítejte výběrový korelační koeficient;
2) Posuďte povahu a sílu korelace;
3) Napište lineární regresní rovnici pro Y na X.

Řešení. Podle známých vzorců:

Proto podle (7) a (8):

Mělo by se tedy dojít k závěru, že uvažovaná korelační závislost mezi hodnotami X a Y má reverzní povahu a průměrnou sílu.

3) Lineární regresní rovnice Y na X:

Příklad 5. Byl studován vztah mezi kvalitou Y (%) a množstvím X (ks). Výsledky pozorování jsou prezentovány ve formě korelační tabulky:

Y\X 18 22 26 30 n y
70 5 5
75 7 46 1 54
80 29 72 101
85 29 8
90 3 3
n x 12 75 102 11 200

Je třeba vypočítat výběrový lineární korelační koeficient závislosti Y na X.

Řešení. Pro zjednodušení výpočtů přejdeme k novým proměnným - podmíněným možnostem (u i, v i), pomocí vzorců (*) (§3) s h 1 =4, h 2 =5, x 0 =26, y 0 =80. Pro usnadnění jsme tuto tabulku přepsali do nového zápisu:

u\v -2 -1 0 1 nv
-2 5 5
-1 7 46 1 54
0 29 72 101
1 29 8
2 3 3
n u 12 75 102 11 200

Máme pro x i =u i a y j = v j:

Tím pádem:

Odtud,

Závěr: Korelace mezi hodnotami X a Y je přímá a silná.



Novinka na webu

>

Nejoblíbenější