Domov Ústní dutina Spolehlivost korelačního koeficientu. Test: Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova f-testu

Spolehlivost korelačního koeficientu. Test: Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova f-testu

Někteří výzkumníci, kteří vypočítali hodnotu korelačního koeficientu, se tam zastavili. Ale z hlediska kompetentní experimentální metodologie by měla být stanovena i hladina významnosti (tedy míra spolehlivosti) tohoto koeficientu.

Hladina významnosti korelačního koeficientu je vypočtena pomocí tabulky kritických hodnot. Níže je fragment této tabulky, který nám umožňuje určit hladinu významnosti koeficientu, který jsme získali.

Vybereme řádek, který odpovídá velikosti vzorku. V našem případě n = 10. V tomto řádku vybereme tabulkovou hodnotu, která je o něco menší než empirická (nebo jí přesně rovná, což je extrémně vzácné). Toto číslo vyznačené tučně je 0,632. Vztahuje se ke sloupci s hladinou významnosti p = 0,05. To znamená, že empirická hodnota je ve skutečnosti mezi sloupci p = 0,05 ap = 0,01, tedy 0,05  p  0,01. Zamítáme tedy nulovou hypotézu a docházíme k závěru, že získaný výsledek (R xy = 0,758) je významný na úrovni p< 0,05 (это уровень статистической значимости): R эмп >R cr (str< 0,05) H 0 ,  Н 1 ! ст. зн.

V běžné řeči to lze interpretovat následovně: můžeme očekávat, že tato síla spojení se bude ve vzorku vyskytovat méně často než v pěti případech ze 100, pokud je toto spojení důsledkem náhody.

    1. Regresní analýza

X(výška)

Y(hmotnost)

M X = 166,6

M y = 58,3

X = 6 , 54

y = 8 , 34

Regresní analýza se používá ke studiu vztahu mezi dvěma veličinami měřenými na intervalové škále. Tento typ analýzy zahrnuje konstrukci regresní rovnice, která umožňuje kvantitativně popsat závislost jedné charakteristiky na druhé (Pearsonův korelační koeficient označuje přítomnost nebo nepřítomnost vztahu, ale tento vztah nepopisuje). Při znalosti náhodné hodnoty jedné z charakteristik a pomocí této rovnice může výzkumník s určitou mírou pravděpodobnosti předpovědět odpovídající hodnotu druhé charakteristiky. Lineární závislost charakteristik je popsána následujícím typem rovnic:

y = a +b y * X ,

Kde A - volný člen rovnice rovný vzestupu grafu v bodě x=0 vzhledem k ose x, b – úhlový koeficient sklonu regresní přímky se rovná tečně úhlu sklonu grafu k ose x (za předpokladu, že měřítko hodnot na obou osách je stejné).

Znáte-li hodnoty studovaných charakteristik, můžete určit hodnotu volného termínu a regresního koeficientu pomocí následujících vzorců:

a =M y b y * M X

V našem případě:
;

a = 58,3 – 0,97 * 166,6 = -103,3

Vzorec pro hmotnost versus výška je tedy následující: y = 0,969 * x – 103,3

Odpovídající graf je uveden níže.

Pokud je nutné popsat vztah mezi výškou a hmotností ( X z na), pak hodnoty A A b se liší a vzorce musí být odpovídajícím způsobem upraveny:

X= a +b X * na

a =M X b X * M y

V tomto případě se změní i vzhled grafu.

Regresní koeficient úzce souvisí s korelačním koeficientem. Ten je geometrickým průměrem regresních koeficientů příznaků:

Druhá mocnina korelačního koeficientu se nazývá koeficient determinace. Jeho hodnota určuje procentuální vzájemný vliv proměnných. V našem případě R 2 = 0,76 2 = 0,58 . To znamená, že 58 % celkového rozptylu Y je vysvětleno vlivem proměnné X, zbylých 42 % je způsobeno vlivem faktorů nezohledněných v rovnici.

Je třeba poznamenat, že skutečným ukazatelem míry lineárního vztahu mezi proměnnými je teoretický korelační koeficient, která se vypočítává na základě údajů za celou populaci (tj možné hodnoty indikátory):

Kde - teoretická kovarianční míra, která se vypočítá jako matematické očekávání součinů odchylek SV
A z jejich matematických očekávání.

Teoretický korelační koeficient zpravidla nemůžeme spočítat. Ovšem z toho, že se vzorkovací koeficient nerovná nule
z toho nevyplývá, že teoretický koeficient je také
(tj. indikátory mohou být lineárně nezávislé). Že. Na základě dat náhodného výběru nelze konstatovat, že mezi ukazateli existuje vztah.

Výběrový korelační koeficient je odhadem teoretického koeficientu, protože počítá se pouze pro část hodnot proměnných.

Vždy existuje chyba korelačního koeficientu. Tato chyba je nesoulad mezi korelačním koeficientem objemu vzorku a korelační koeficient pro populaci je určen vzorcem:

na
; A
na
.

Testovat významnost lineárního korelačního koeficientu znamená testovat, jak moc můžeme důvěřovat vzorovým datům.

Za tímto účelem je testována nulová hypotéza
že hodnota korelačního koeficientu pro běžnou populaci je nulová, tzn. v populaci neexistuje žádná korelace. Alternativní hypotéza je
.

Abychom tuto hypotézu ověřili, počítáme - statistika ( -Studentský t-test:

.

Která má Studentskou distribuci s
stupně volnosti 1.

Kritická hodnota je určena ze Studentových distribučních tabulek
.

Pokud je vypočtená hodnota kritéria
, pak je nulová hypotéza zamítnuta, to znamená, že vypočítaný korelační koeficient se výrazně liší od nuly s pravděpodobností
.

Li
, pak nelze nulovou hypotézu zamítnout. V tomto případě je možné, že skutečná hodnota korelačního koeficientu je nulová, tzn. vztah mezi ukazateli lze považovat za statisticky nevýznamný.

Příklad 1. V tabulce jsou uvedeny údaje za 8 let o celkových příjmech a výdaje na konečnou spotřebu .

Studujte a měřte blízkost vztahu mezi danými ukazateli.

Téma 4. Párová lineární regrese. Metoda nejmenších čtverců

Korelační koeficient udává míru těsnosti vztahu mezi dvěma charakteristikami, ale neodpovídá na otázku, jak změna jedné charakteristiky o jednu jednotku jejího rozměru ovlivní změnu charakteristiky jiné. K zodpovězení této otázky se používají metody regresní analýzy.

Regresní analýza sady formulář závislosti mezi náhodnou veličinou a proměnné hodnoty
a hodnoty
jsou považovány za přesně specifikované.

Regresní rovnice je vzorec pro statistický vztah mezi proměnnými.

Pokud je tento vzorec lineární, pak mluvíme o lineární regrese. Nazývá se vzorec pro statistický vztah mezi dvěma proměnnými párová regrese(několik proměnných - násobek).

Volba vzorce závislosti se nazývá Specifikace regresní rovnice. Zavolá se odhad hodnot parametrů vybraného vzorce parametrizace.

Jak odhadnout hodnoty parametrů a zkontrolovat spolehlivost provedených odhadů?

Podívejme se na nákres

    V grafu (a) vztah X A na je blízko lineární, přímka 1 je zde blízko k pozorovacím bodům a ty se od ní odchylují pouze v důsledku relativně malých náhodných vlivů.

    Graf (b) ukazuje skutečný vztah mezi veličinami X A na je popsána nelineární funkcí 2 a bez ohledu na to, jakou přímku nakreslíme (například 1), odchylky bodů od ní budou nenáhodné.

    V grafu (c) vztah mezi proměnnými X A na chybí a výsledky parametrizace jakéhokoli vzorce závislosti budou neúspěšné.

Výchozím bodem pro analýzu ekonometrických vztahů je obvykle odhad lineární závislost proměnné. Vždy se můžete pokusit nakreslit přímku, která bude „nejblíže“ pozorovacím bodům v jejich celku (například na obrázku (c) bude přímka 1 lepší než přímka 2).

Teoretická párová lineární regresní rovnice má tvar:


,

Kde
jsou nazývány teoretické parametry (teoretické koeficienty) regrese; -náhodná odchylka(náhodná chyba).

Obecně budeme teoretický model prezentovat jako:

.

Pro určení hodnot teoretických regresních koeficientů je nutné znát všechny hodnoty proměnných X A Y, tj. Všechno obecná populace, což je prakticky nemožné.

Úkol je následující: podle dostupných pozorovacích dat
,
je nutné odhadnout hodnoty parametrů
.

Nechat Aodhad parametrů
,bodhad parametrů .

Potom odhadovaná regresní rovnice je:
,

Kde
teoretické hodnoty závislé proměnné y, - pozorované chybové hodnoty . Tato rovnice se nazývá empirická regresní rovnice. Zapíšeme to do formuláře
.

Základem pro odhad parametrů lineární regrese je Metoda nejmenších čtverců (MNC) je metoda pro odhad parametrů lineární regrese, která minimalizuje součet čtverců odchylek pozorování závislé proměnné od požadované lineární funkce.

Funkce Q je kvadratická funkce dva parametry A A b. Protože je spojitý, konvexní a dole ohraničený (
), takže dosahuje minima. Nezbytnou podmínkou pro existenci minima je rovnost nuly jeho parciálních derivací vzhledem k A A b:


.

Dělení obou rovnic soustavy n, dostaneme:


nebo

Jinak můžete napsat:

A - standardní odchylky hodnot stejných charakteristik.

Že. regresní přímka prochází bodem s průměrnými hodnotami X A na
, A regresní koeficient b je úměrná indexu kovariance a koeficientu lineární korelace.

Pokud kromě regrese Y na X pro stejné empirické hodnoty regresní rovnice X na Y (
, Kde
), pak součin koeficientů
:

.

NA regresní koeficient  toto je hodnota ukazující, o kolik jednotek rozměru se hodnota změní při změně hodnoty na jednotku jeho rozměru. Koeficient se stanoví obdobně .

Ve vědeckém výzkumu je často potřeba najít souvislost mezi výslednými a faktorovými proměnnými (výnos úrody a množství srážek, výška a hmotnost člověka v homogenních skupinách podle pohlaví a věku, srdeční frekvence a tělesná teplota). , atd.).

Druhým jsou znaky, které přispívají ke změnám těch, které jsou s nimi spojené (první).

Pojem korelační analýzy

Existuje mnoho Na základě výše uvedeného můžeme říci, že korelační analýza je metoda používaná k testování hypotézy o statistická významnost dvě nebo více proměnných, pokud je výzkumník může měřit, ale neměnit.

Existují další definice dotyčného pojmu. Korelační analýza je metoda zpracování, která zahrnuje studium korelačních koeficientů mezi proměnnými. V tomto případě se porovnávají korelační koeficienty mezi jedním párem nebo mnoha páry charakteristik, aby se mezi nimi stanovily statistické vztahy. Korelační analýza je metoda pro studium statistické závislosti mezi náhodnými veličinami s volitelnou přítomností striktně funkční povahy, ve které dynamika jedné náhodné veličiny vede k dynamice matematické očekávání další.

Koncept falešné korelace

Při dirigování korelační analýza je třeba vzít v úvahu, že může být prováděna ve vztahu k jakémukoli souboru vlastností, často absurdních ve vztahu k sobě navzájem. Někdy mezi sebou nemají žádnou příčinnou souvislost.

V tomto případě mluví o falešné korelaci.

Problémy korelační analýzy

Na základě výše uvedených definic lze formulovat následující úkoly popsané metody: získat informace o jedné z hledaných proměnných pomocí jiné; určit blízkost vztahu mezi studovanými proměnnými.

Korelační analýza zahrnuje určení vztahu mezi studovanými charakteristikami, a proto lze úkoly korelační analýzy doplnit o následující:

  • identifikace faktorů, které mají největší vliv na výslednou charakteristiku;
  • identifikace dříve neprozkoumaných příčin souvislostí;
  • konstrukce korelačního modelu s jeho parametrickou analýzou;
  • studium významu komunikačních parametrů a jejich intervalové hodnocení.

Vztah mezi korelační analýzou a regresí

Metoda korelační analýzy se často neomezuje pouze na zjištění blízkosti vztahu mezi studovanými veličinami. Někdy je doplněna o sestavení regresních rovnic, které jsou získány pomocí stejnojmenné analýzy a které představují popis korelační závislosti mezi výslednou a faktorovou (faktorovou) charakteristikou (vlastnostmi). Tato metoda spolu s uvažovanou analýzou tvoří metodu

Podmínky použití metody

Efektivní faktory závisí na jednom až několika faktorech. Metodu korelační analýzy lze použít v případě velkého počtu pozorování o hodnotě efektivních a faktorových ukazatelů (faktorů), přičemž zkoumané faktory musí být kvantitativní a reflektované v konkrétních zdrojích. První lze určit normálním zákonem - v tomto případě jsou výsledkem korelační analýzy Pearsonovy korelační koeficienty, nebo, pokud charakteristiky tomuto zákonu nevyhovují, použije se koeficient hodnostní korelace Spearman.

Pravidla pro výběr faktorů korelační analýzy

Při použití tato metoda je nutné určit faktory ovlivňující ukazatele výkonnosti. Jsou vybírány s ohledem na skutečnost, že mezi indikátory musí existovat vztahy příčiny a následku. V případě tvorby multifaktorového korelačního modelu se vybírají ty, které mají významný vliv na výsledný ukazatel, přičemž je vhodnější nezahrnout do korelačního modelu vzájemně závislé faktory s párovým korelačním koeficientem větším než 0,85, stejně jako ty u nichž vztah s výsledným parametrem nemá lineární nebo funkční charakter.

Zobrazení výsledků

Výsledky korelační analýzy lze prezentovat v textové i grafické podobě. V prvním případě jsou prezentovány jako korelační koeficient, ve druhém - ve formě bodového diagramu.

Při absenci korelace mezi parametry jsou body na diagramu umístěny chaoticky, průměrný stupeň spojení je charakterizován větší mírou uspořádanosti a je charakterizován víceméně jednotnou vzdáleností označených značek od mediánu. Silné spojení má tendenci být rovné a při r=1 je bodový graf rovná čára. Reverzní korelace se liší ve směru grafu z levého horního do pravého dolního, přímá korelace - z levého dolního do pravého horního rohu.

3D znázornění bodového grafu

Kromě tradičního 2D zobrazení bodového grafu se nyní používá 3D grafické znázornění korelační analýzy.

Používá se také matice bodového grafu, která zobrazuje všechny spárované grafy v jediném obrázku ve formátu matice. Pro n proměnných obsahuje matice n řádků a n sloupců. Graf umístěný na průsečíku i-tého řádku a j-tého sloupce je grafem proměnných Xi versus Xj. Každý řádek a sloupec je tedy jeden rozměr, jedna buňka zobrazuje bodový graf dvou rozměrů.

Posouzení těsnosti spoje

Těsnost korelačního spojení je určena korelačním koeficientem (r): silný - r = ±0,7 až ±1, střední - r = ±0,3 až ±0,699, slabý - r = 0 až ±0,299. Tato klasifikace není přísná. Obrázek ukazuje trochu jiný diagram.

Příklad použití metody korelační analýzy

Zajímavá studie byla provedena ve Velké Británii. Věnuje se souvislosti mezi kouřením a rakovinou plic a byl proveden pomocí korelační analýzy. Toto pozorování je uvedeno níže.

Počáteční data pro korelační analýzu

Profesní skupina

úmrtnost

Zemědělci, lesníci a rybáři

Horníci a dělníci v lomech

Výrobci plynu, koksu a chemikálií

Výrobci skla a keramiky

Pracovníci pecí, kováren, sléváren a válcoven

Pracovníci elektrotechniky a elektroniky

Strojírenství a příbuzné profese

Dřevozpracující průmysl

Kožedělníci

Textilní dělníci

Výrobci pracovních oděvů

Pracovníci v potravinářském, nápojovém a tabákovém průmyslu

Výrobci papíru a tisku

Výrobci jiných produktů

Stavitelé

Malíři a dekoratéři

Řidiči stacionárních motorů, jeřábů atd.

Pracovníci jinde neuvedení

Pracovníci dopravy a spojů

Skladníci, skladníci, baliči a pracovníci plnicích strojů

Pracovníci v kanceláři

Prodejci

Sportovní a rekreační pracovníci

Administrátoři a manažeři

Profesionálové, technici a umělci

Začneme korelační analýzou. Pro přehlednost je lepší začít s řešením grafická metoda, pro který sestrojíme bodový diagram.

Ukazuje přímou souvislost. Jen na základě grafické metody je však obtížné vyvodit jednoznačný závěr. Proto budeme v korelační analýze pokračovat. Příklad výpočtu korelačního koeficientu je uveden níže.

Pomocí softwaru (dále bude jako příklad popsán MS Excel) určíme korelační koeficient, který je 0,716, což znamená silnou vazbu mezi zkoumanými parametry. Stanovme statistickou spolehlivost získané hodnoty pomocí odpovídající tabulky, pro kterou potřebujeme odečíst 2 od 25 dvojic hodnot, ve výsledku dostaneme 23 a pomocí tohoto řádku v tabulce zjistíme r kritické pro p = 0,01 (protože jedná se o medicínská data, přísnější závislost, v ostatních případech stačí p=0,05), což je pro tuto korelační analýzu 0,51. Příklad ukázal, že vypočtené r je větší než kritické r a hodnota korelačního koeficientu je považována za statisticky spolehlivou.

Použití softwaru při provádění korelační analýzy

Popsaný typ statistického zpracování dat lze provádět pomocí software zejména MS Excel. Korelace zahrnuje výpočet následujících parametrů pomocí funkcí:

1. Korelační koeficient je určen pomocí funkce CORREL (pole1; pole2). Pole1,2 - buňka intervalu hodnot výsledných a faktorových proměnných.

Lineární korelační koeficient se také nazývá Pearsonův korelační koeficient, a proto počínaje Excelem 2007 můžete funkci používat se stejnými poli.

Grafické zobrazení korelační analýzy v Excelu se provádí pomocí panelu „Charts“ s volbou „Scatter Plot“.

Po upřesnění výchozích dat získáme graf.

2. Posouzení významnosti párového korelačního koeficientu pomocí Studentova t-testu. Vypočtená hodnota t-kritéria je porovnána s tabulkovou (kritickou) hodnotou tohoto ukazatele z odpovídající tabulky hodnot uvažovaného parametru, přičemž se bere v úvahu zadaná hladina významnosti a počet stupňů volnosti. Tento odhad se provádí pomocí funkce STUDISCOVER(pravděpodobnost; stupně_volnosti).

3. Matice párových korelačních koeficientů. Analýza se provádí pomocí nástroje Data Analysis, ve kterém je vybrána Korelace. Statistické posouzení párových korelačních koeficientů se provádí jejich porovnáním absolutní hodnota s tabulkovou (kritickou) hodnotou. Když vypočtený párový korelační koeficient překročí kritický, můžeme s přihlédnutím k danému stupni pravděpodobnosti říci, že nulová hypotéza o významnosti lineárního vztahu není zamítnuta.

Konečně

Použití metody korelační analýzy ve vědeckém výzkumu nám umožňuje určit vztah mezi různé faktory a výkonnostní ukazatele. Je nutné vzít v úvahu, že vysoký korelační koeficient lze získat z absurdní dvojice nebo souboru dat, a proto tenhle typ analýza musí být provedena na dostatečně velkém poli dat.

Po získání vypočtené hodnoty r je vhodné ji porovnat s kritickým r pro potvrzení statistické spolehlivosti určité hodnoty. Korelační analýzu lze provádět ručně pomocí vzorců nebo pomocí softwaru, zejména MS Excel. Zde můžete také sestavit rozptylový diagram pro účely vizuální reprezentace vztahu mezi studovanými faktory korelační analýzy a výslednou charakteristikou.

Fáze 3. Hledání vztahů mezi daty

Lineární korelace

Poslední etapou úkolu studia souvislostí mezi jevy je posouzení těsnosti souvislosti pomocí korelačních ukazatelů. Tato fáze je velmi důležitá pro identifikaci závislostí mezi faktorem a výkonnostními charakteristikami a následně pro možnost stanovení diagnózy a prognózy studovaného jevu.

Diagnóza(z řeckého rozpoznávání diagnózy) - určení podstaty a charakteristiky stavu předmětu nebo jevu na základě jeho komplexního studia.

Předpověď(z řeckého prognosis foresight, předpověď) - jakákoli konkrétní předpověď, úsudek o stavu jakéhokoli jevu v budoucnosti (předpověď počasí, výsledek voleb apod.). Prognóza je vědecky podložená hypotéza o pravděpodobném budoucím stavu studovaného systému, objektu nebo jevu a indikátorech charakterizujících tento stav. Prognóza – vývoj prognózy, speciál Vědecký výzkum specifické vyhlídky pro rozvoj jakéhokoli fenoménu.

Připomeňme si definici korelace:

Korelace– závislost mezi náhodnými veličinami, vyjádřená tím, že rozdělení jedné hodnoty závisí na hodnotě jiné hodnoty.

Je pozorována korelace nejen mezi kvantitativními, ale i kvalitativními charakteristikami. Existovat různé cesty a indikátory pro posouzení těsnosti vazeb. Zastavíme se pouze u lineární párový korelační koeficient , který se používá, když existuje lineární vztah mezi náhodnými proměnnými. V praxi je často potřeba určit úroveň spojení mezi náhodnými veličinami nestejných rozměrů, proto je žádoucí mít nějakou bezrozměrnou charakteristiku tohoto spojení. Takovou charakteristikou (mírou souvislosti) je lineární korelační koeficient r xy, který je určen vzorcem

Kde , .

Označením a můžeme získat následující výraz pro výpočet korelačního koeficientu

.

Pokud představíme koncept normalizovaná odchylka , který vyjadřuje odchylku korelovaných hodnot od průměru ve zlomcích směrodatné odchylky:



pak výraz pro korelační koeficient bude mít tvar

.

Pokud vypočítáte korelační koeficient na základě konečných hodnot iniciály náhodné proměnné z výpočtové tabulky, pak lze pomocí vzorce vypočítat korelační koeficient

.

Vlastnosti lineárního korelačního koeficientu:

1). Korelační koeficient je bezrozměrná veličina.

2). |r| 1 £ nebo .

3). , a,b= const, – hodnota korelačního koeficientu se nezmění, pokud jsou všechny hodnoty náhodných proměnných X a Y vynásobeny (nebo vyděleny) konstantou.

4). , a,b= konst, – hodnota korelačního koeficientu se nezmění, pokud se všechny hodnoty náhodných veličin X a Y zvýší (nebo sníží) o konstantu.

5). Mezi korelačním koeficientem a regresním koeficientem existuje vztah:

Hodnoty korelačních koeficientů lze interpretovat následovně:

Kvantitativní kritéria pro hodnocení blízkosti komunikace:

Pro prognostické účely jsou hodnoty s |r| > 0,7.

Korelační koeficient nám umožňuje dospět k závěru, že mezi dvěma náhodnými veličinami existuje lineární vztah, ale neudává, která z proměnných způsobuje změnu té druhé. Ve skutečnosti spojení mezi dvěma náhodnými proměnnými může existovat bez vztahu příčiny a následku mezi hodnotami samotnými, protože změna obou náhodných veličin může být způsobena změnou (vlivem) třetí.

Korelační koeficient r xy je symetrický vzhledem k uvažovaným náhodným proměnným X A Y. To znamená, že pro stanovení korelačního koeficientu je zcela lhostejné, která z veličin je nezávislá a která závislá.

Význam korelačního koeficientu

Dokonce pro nezávislé veličiny korelační koeficient může být odlišný od nuly v důsledku náhodného rozptylu výsledků měření nebo v důsledku malého vzorku náhodných veličin. Proto je třeba zkontrolovat významnost korelačního koeficientu.

Významnost lineárního korelačního koeficientu je kontrolována na základě Studentův t-test :

.

Li t > t cr(P, n-2), tedy lineární koeficient korelace je významná, a proto je významná i statistická souvislost X A Y.

.

Pro usnadnění výpočtu byly vytvořeny tabulky hodnot mezí spolehlivosti korelačních koeficientů různá čísla stupně svobody f = n–2 (dvoustranný test) a různé hladiny významnosti A= 0,1; 0,05; 0,01 a 0,001. Korelace se považuje za významnou, pokud vypočtený korelační koeficient překročí hodnotu meze spolehlivosti korelačního koeficientu pro daný F A A.

Pro velké n A A= 0,01 hodnotu meze spolehlivosti korelačního koeficientu lze vypočítat pomocí přibližného vzorce

.

Úvod. 2

1. Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova f-testu. 3

2. Výpočet významnosti regresních a korelačních koeficientů pomocí Studentova f-testu. 6

Závěr. 15

Po sestavení regresní rovnice je nutné zkontrolovat její význam: pomocí speciálních kritérií určit, zda výsledná závislost je vyjádřeno rovnicí regresní, náhodné, tzn. lze jej použít pro účely prognózování a pro faktorová analýza. Ve statistice byly vyvinuty metody pro striktní testování významnosti použití regresních koeficientů analýza rozptylu a výpočet speciálních kritérií (např. F-kritérium). Volný test lze provést výpočtem průměrné relativní lineární odchylky (e), tzv průměrná chyba aproximace:

Přejděme nyní k posouzení významnosti regresních koeficientů bj a sestrojení intervalu spolehlivosti pro parametry regresního modelu Ru (J=l,2,..., p).

Blok 5 - posouzení významnosti regresních koeficientů na základě hodnoty Studentova ^-testu. Vypočtené hodnoty ta se porovnají s přípustnou hodnotou

Blok 5 - posouzení významnosti regresních koeficientů na základě hodnoty ^-kritéria. Vypočtené hodnoty t0n jsou porovnány s přípustnou hodnotou 4,/, která je určena z tabulek t-rozdělení pro danou pravděpodobnost chyby (a) a počet stupňů volnosti (/).

Kromě kontroly významnosti celého modelu je nutné otestovat významnost regresních koeficientů pomocí Studentova /-testu. Minimální hodnota regresního koeficientu br musí odpovídat podmínce bifob- ^t, kde bi je hodnota koeficientu regresní rovnice na přirozené stupnici pro i-tou charakteristiku faktoru; ach - střední kvadratická chyba každého koeficientu. nesrovnatelnost koeficientů D v jejich významnosti;

Další statistická analýza se týká testování významnosti regresních koeficientů. K tomu zjistíme hodnotu ^-kritéria pro regresní koeficienty. Na základě jejich porovnání je určeno nejmenší ^-kritérium. Faktor, jehož koeficient odpovídá nejmenšímu kritériu ^, je z další analýzy vyloučen.

Pro posouzení statistické významnosti regresních a korelačních koeficientů byl použit Studentův t-test a intervaly spolehlivosti každý z ukazatelů. Je předložena hypotéza o náhodné povaze indikátorů, tzn. o jejich nepatrném rozdílu od nuly. Posouzení významnosti regresních a korelačních koeficientů pomocí Studentova f-testu se provádí porovnáním jejich hodnot s velikostí náhodné chyby:

Posouzení významnosti čistých regresních koeficientů pomocí Studentova /-testu spočívá ve výpočtu hodnoty

Kvalita práce je charakteristika specifické práce, odrážející míru její složitosti, intenzity (intenzity), podmínek a významu pro ekonomický rozvoj. K.t. měřeno prostřednictvím tarifního systému, který umožňuje diferencovat mzdy v závislosti na úrovni kvalifikace (složitosti práce), podmínkách, náročnosti práce a její náročnosti, jakož i významu jednotlivých odvětví a výrob, regionů, území pro rozvoj ekonomika země. K.t. nachází výraz v mzdy pracovníků, rozvíjejících se na trhu práce pod vlivem nabídky a poptávky pracovní síla(specifické druhy práce). K.t. - složitá ve struktuře

Získaná skóre relativní důležitosti jednotlivých ekonomických, sociálních a environmentálních důsledků projektu dále poskytují základ pro srovnání alternativních projektů a jejich možností pomocí „komplexního bodového bezrozměrného kritéria sociální a environmentálně-ekonomické efektivity“ projektu Ek, vypočítaného (ve skóre průměrné významnosti) pomocí vzorce

Vnitroodvětvová regulace zajišťuje rozdíly ve mzdách pracovníků v daném odvětví v závislosti na důležitosti jednotlivých druhů výroby v daném odvětví, na složitosti a pracovních podmínkách a také na používaných formách odměňování.

Výsledné ratingové hodnocení analyzovaného podniku ve vztahu ke standardnímu podniku bez zohlednění významnosti jednotlivých ukazatelů je komparativní. Při porovnávání hodnocení několika podniků nejvyšší hodnocení má podnik s minimální hodnotou získaného srovnávacího posouzení.

Pochopení kvality produktu jako měřítka jeho užitečnosti znamená prakticky důležitá otázka o jeho měření. Jeho řešení je dosaženo studiem významu jednotlivých vlastností při uspokojování konkrétní potřeby. Význam i stejné vlastnosti se může lišit v závislosti na podmínkách spotřeby produktu. V důsledku toho užitečnost produktu v různé okolnosti jeho použití je různé.

Druhou fází práce je studium statistických dat a identifikace vztahu a interakce indikátorů, stanovení významnosti jednotlivých faktorů a důvodů změn obecných indikátorů.

Všechny uvažované ukazatele jsou sloučeny do jednoho tak, že výsledkem je komplexní posouzení všech analyzovaných aspektů činnosti podniku s přihlédnutím k podmínkám jeho činnosti, s přihlédnutím k míře významnosti jednotlivých ukazatelů pro různé typy investoři:

Regresní koeficienty ukazují intenzitu vlivu faktorů na ukazatel výkonnosti. Pokud je provedena předběžná standardizace faktorových ukazatelů, pak se b0 rovná průměrné hodnotě efektivního ukazatele v úhrnu. Koeficienty b, b2 ..... bl ukazují, o kolik jednotek se úroveň efektivního ukazatele odchyluje od své průměrné hodnoty, pokud se hodnoty faktorového ukazatele odchylují od průměru rovné nule o jednu standardní odchylka. Regresní koeficienty tedy charakterizují míru významnosti jednotlivých faktorů pro zvýšení úrovně ukazatele výkonnosti. Konkrétní hodnoty regresních koeficientů jsou stanoveny z empirických dat podle metody nejmenší čtverce(jako výsledek řešení soustav normálních rovnic).

2. Výpočet významnosti regresních a korelačních koeficientů pomocí Studentova f-testu

Lineární formu vícefaktorových vztahů považujme nejen za nejjednodušší, ale také za formu, kterou poskytují aplikační softwarové balíčky pro PC. Pokud spojení mezi jednotlivým faktorem a výsledným atributem není lineární, pak se rovnice linearizuje nahrazením nebo transformací hodnoty atributu faktoru.

Obecná forma vícerozměrná regresní rovnice má tvar:


kde k je počet faktorových charakteristik.

Pro zjednodušení soustavy rovnic nejmenších čtverců nutných pro výpočet parametrů rovnice (8.32) se obvykle zavádějí odchylky jednotlivých hodnot všech charakteristik od průměrných hodnot těchto charakteristik.

Získáme systém k rovnic nejmenších čtverců:

Řešením tohoto systému získáme hodnoty podmíněně čistých regresních koeficientů b. Volný člen rovnice se vypočítá podle vzorce


Pojem „podmíněně čistý regresní koeficient“ znamená, že každá z hodnot bj měří agregovanou průměrnou odchylku výsledné charakteristiky od její průměrné hodnoty, když se daný faktor xj odchyluje od své průměrné hodnoty o jednotku svého měření a za předpokladu, že všechny ostatní faktory zahrnuté v regresní rovnici, pevně stanovené na průměrných hodnotách, se nemění, nemění.

Na rozdíl od párového regresního koeficientu tedy podmíněný čistý regresní koeficient měří vliv faktoru, přičemž abstrahuje od vztahu variace tohoto faktoru s variací ostatních faktorů. Pokud by bylo možné zahrnout do regresní rovnice všechny faktory ovlivňující variaci výsledné charakteristiky, pak hodnoty bj. lze považovat za měřítka čistého vlivu faktorů. Ale protože je opravdu nemožné zahrnout všechny faktory do rovnice, pak koeficienty bj. není bez příměsi vlivu faktorů, které nejsou zahrnuty v rovnici.

Je nemožné zahrnout všechny faktory do regresní rovnice z jednoho ze tří důvodů nebo všechny najednou, protože:

1) některé faktory mohou být neznámé moderní věda znalost jakéhokoli procesu je vždy neúplná;

2) neexistují žádné informace o některých známých teoretických faktorech nebo jsou nespolehlivé;

3) velikost studované populace (vzorku) je omezená, což umožňuje zahrnout do regresní rovnice omezený počet faktorů.

Podmíněné čisté regresní koeficienty bj. jsou pojmenovaná čísla vyjádřená v různých měrných jednotkách a jsou tedy vzájemně nesrovnatelná. Pro jejich převod na srovnatelné relativní ukazatele se použije stejná transformace jako pro získání párového korelačního koeficientu. Výsledná hodnota se nazývá standardizovaný koeficient regrese nebo?-koeficient.


Koeficient faktoru xj určuje míru vlivu variace faktoru xj na variaci výsledné charakteristiky y abstrahuje od souběžné variace dalších faktorů zahrnutých v regresní rovnici.

Koeficienty podmíněně čisté regrese je užitečné vyjádřit ve formě relativních srovnatelných ukazatelů spojení, koeficientů elasticity:

Koeficient pružnosti faktoru xj říká, že když se hodnota daného faktoru odchýlí od své průměrné hodnoty o 1 % a abstrahuje od současné odchylky ostatních faktorů zahrnutých do rovnice, výsledná charakteristika se bude odchylovat od své průměrné hodnoty o ej procent. od r. Častěji jsou koeficienty elasticity interpretovány a aplikovány z hlediska dynamiky: se zvýšením faktoru x o 1 % jeho průměrné hodnoty se výsledná charakteristika zvýší o e. procenta své průměrné hodnoty.

Uvažujme výpočet a interpretaci vícefaktorové regresní rovnice pomocí stejných 16 farem jako příklad (tabulka 8.1). Výsledný znak - úroveň Hrubý příjem a tři faktory, které ji ovlivňují, jsou uvedeny v tabulce. 8.7.

Připomeňme ještě jednou, že pro získání spolehlivých a dostatečně přesných ukazatelů korelace je zapotřebí větší populace.


Tabulka 8.7

Úroveň hrubého příjmu a její faktory

Čísla farem

Hrubý příjem, rub./ra

Mzdové náklady, člověkodny/ha x1

Podíl orné půdy,

Dojivost na 1 krávu,

Tabulka 8.8 Ukazatele regresní rovnice

Závislá proměnná: y

Regresní koeficient

Konstanta-240,112905

Std. chyba est. = 79,243276


Řešení bylo provedeno pomocí programu „Microstat“ pro PC. Zde jsou tabulky z tiskového výstupu: tabulka. 8.7 uvádí průměrné hodnoty a směrodatné odchylky všech charakteristik. Stůl 8.8 obsahuje regresní koeficienty a jejich pravděpodobnostní posouzení:

první sloupec „var“ - proměnné, tj. faktory; druhý sloupec „regresní koeficient“ - podmíněně čisté regresní koeficienty bj; třetí sloupec „std. errr" - průměrné chyby v odhadech regresních koeficientů; čtvrtý sloupec - hodnoty Studentova t-testu s 12 stupni volnosti variace; pátý sloupec „prob“ - pravděpodobnost nulové hypotézy vzhledem k regresním koeficientům;

šestý sloupec „parciální r2“ - dílčí koeficienty determinace. Obsah a metodika výpočtu ukazatelů ve sloupcích 3-6 jsou dále diskutovány v kapitole 8. „Konstanta“ je volný termín regresní rovnice a; "Std. chyba est." - střední kvadratická chyba odhadu efektivní charakteristiky pomocí regresní rovnice. Byla získána rovnice vícenásobná regrese:

y = 2,26 x 1 - 4,31 x 2 + 0,166 x 3 - 240.

To znamená, že výše hrubého příjmu na 1 hektar zemědělské půdy se v průměru zvýšila o 2,26 rublů. s nárůstem mzdových nákladů o 1 hod./ha; klesly v průměru o 4,31 rublů. se zvýšením podílu orné půdy na zemědělské půdě o 1 % a zvýšením o 0,166 rublů. se zvýšením dojivosti na krávu o 1 kg. Záporná hodnota volného termínu je zcela přirozená, a jak již bylo uvedeno v odstavci 8.2, efektivním znakem je, že hrubý příjem se stane nulovým dlouho předtím, než faktory dosáhnou nulových hodnot, což je ve výrobě nemožné.

Záporná hodnota koeficientu pro x^ je signálem významných potíží v ekonomice sledovaných farem, kde je rostlinné hospodaření nerentabilní a ziskový je pouze chov dobytka. Při racionálních způsobech hospodaření a normálních cenách (rovnovážných nebo jim blízkých) za produkty všech odvětví by se důchod neměl snižovat, ale zvyšovat s nárůstem nejúrodnějšího podílu zemědělské půdy - orné půdy.

Na základě údajů z předposledních dvou řádků tabulky. 8.7 a tabulka. 8.8 vypočítáme p-koeficienty a koeficienty pružnosti podle vzorců (8.34) a (8.35).

Jak kolísání úrovně příjmu, tak jeho případná změna dynamiky jsou nejsilněji ovlivněny faktorem x3 - užitkovost krav a nejslaběji x2 - podílem orné půdy. Dále budou použity hodnoty P2/ (tabulka 8.9);

Tabulka 8.9 Komparativní vliv faktorů na úroveň příjmů

Faktory xj


Získali jsme tedy, že a-koeficient faktoru xj souvisí s koeficientem pružnosti tohoto faktoru, stejně jako variační koeficient faktoru souvisí s variačním koeficientem výsledné charakteristiky. Od, jak je patrné z posledního řádku tabulky. 8.7, variační koeficienty všech faktorů jsou menší než variační koeficient výsledné charakteristiky; všechny p-koeficienty jsou menší než koeficienty pružnosti.

Uvažujme jako příklad vztah mezi párovým a podmíněně čistým regresním koeficientem pomocí faktoru -с. Páry lineární rovnice spojení y s x má tvar:

y = 3,886 x 1 – 243,2

Podmíněně čistý regresní koeficient na x1 je pouze 58 % spárovaného. Zbývajících 42 % je způsobeno tím, že variace x1 je doprovázena variací faktorů x2 x3, což zase ovlivňuje výsledný znak. Vazby všech charakteristik a jejich párové regresní koeficienty jsou uvedeny v grafu propojení (obr. 8.2).


Sečteme-li odhady přímého a nepřímého vlivu variace x1 na y, tedy součin párových regresních koeficientů podél všech „cest“ (obr. 8.2), dostaneme: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Tato hodnota je ještě větší párový koeficient spojení x1 s y. V důsledku toho je nepřímý vliv variace x1 prostřednictvím faktorů nezahrnutých v rovnici opačný, takže celkem:

1 Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika a základy ekonometrie. Učebnice pro vysoké školy. - M.: UNITY, 2008, – 311 s.

2 Johnston J. Ekonometrické metody. - M.: Statistika, 1980. – 282s.

3 Dougherty K. Úvod do ekonometrie. - M.: INFRA-M, 2004, – 354 s.

4 Dreyer N., Smith G., Applied regresní analýza. - M.: Finance a statistika, 2006, – 191 s.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. Ekonometrie. Počáteční kurz.-M.: Delo, 2006, – 259 s.

6 Workshop on Econometrics/Ed. I. I. Eliseeva - M.: Finance a statistika, 2004, – 248 s.

7 Ekonometrie/Ed. I. I. Eliseeva - M.: Finance a statistika, 2004, – 541 s.

8 Kremer N., Putko B. Ekonometrie.- M.: UNITY-DANA, 200, – 281 s.


Ayvazyan S.A., Mkhitaryan V.S. Aplikovaná statistika a základy ekonometrie. Učebnice pro vysoké školy. - M.: UNITY, 2008, – str. 23.

Kremer N., Putko B. Ekonometrie.- M.: UNITY-DANA, 200, – s.64

Dreyer N., Smith G., Aplikovaná regresní analýza. - M.: Finance a statistika, 2006, – s. 57.

Workshop z ekonometrie/Ed. I.I. Eliseeva. - M.: Finance a statistika, 2004, – s. 172.



Novinka na webu

>

Nejoblíbenější