Dom Jama ustna Rzetelność współczynnika korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Rzetelność współczynnika korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Niektórzy badacze po obliczeniu wartości współczynnika korelacji na tym poprzestają. Jednak z punktu widzenia kompetentnej metodologii eksperymentalnej należy również określić poziom istotności (czyli stopień wiarygodności) tego współczynnika.

Poziom istotności współczynnika korelacji oblicza się korzystając z tabeli wartości krytycznych. Poniżej znajduje się fragment tej tabeli, który pozwala określić poziom istotności otrzymanego współczynnika.

Wybieramy wiersz odpowiadający wielkości próbki. W naszym przypadku n = 10. Wybieramy w tym wierszu wartość z tabeli nieco mniejszą od empirycznej (lub dokładnie jej równą, co zdarza się niezwykle rzadko). Liczba pogrubiona to 0,632. Odnosi się do kolumny o poziomie istotności p = 0,05. Oznacza to, że w rzeczywistości wartość empiryczna jest pośrednia między kolumnami p = 0,05 i p = 0,01, a zatem 0,05  p  0,01. Odrzucamy zatem hipotezę zerową i stwierdzamy, że uzyskany wynik (R xy = 0,758) jest istotny na poziomie p< 0,05 (это уровень статистической значимости): R эмп >R cr (str< 0,05) H 0 ,  Н 1 ! ст. зн.

W języku potocznym można to zinterpretować następująco: możemy się spodziewać, że ta siła połączenia będzie występowała w próbie rzadziej niż w pięciu przypadkach na 100, jeśli połączenie to jest konsekwencją przypadku.

    1. Analiza regresji

X(wysokość)

Y(waga)

M X = 166,6

M y = 58,3

X = 6 , 54

y = 8 , 34

Analiza regresji służy do badania zależności między dwiema wielkościami mierzonymi na skali przedziałowej. Ten rodzaj analizy polega na konstrukcji równania regresji, które pozwala ilościowo opisać zależność jednej cechy od drugiej (współczynnik korelacji Pearsona wskazuje na obecność lub brak zależności, ale tej zależności nie opisuje). Znając losową wartość jednej z cech i korzystając z tego równania, badacz może z pewnym prawdopodobieństwem przewidzieć odpowiadającą jej wartość drugiej cechy. Liniową zależność charakterystyk opisuje następujący typ równania:

y = a +B y * X ,

Gdzie A - wolny wyraz równania równy wzrostowi wykresu w punkcie x=0 względem osi odciętej, B – współczynnik kątowy nachylenia linii regresji jest równy tangensowi kąta nachylenia wykresu do osi odciętych (pod warunkiem, że skala wartości na obu osiach jest taka sama).

Znając wartości badanych cech, możesz określić wartość wolnego członu i współczynnika regresji za pomocą następujących wzorów:

a =M y B y * M X

W naszym przypadku:
;

a = 58,3 – 0,97 * 166,6 = -103,3

Zatem wzór na masę ciała w funkcji wzrostu wygląda następująco: y = 0,969 * x – 103,3

Odpowiedni wykres pokazano poniżej.

Jeśli konieczne jest opisanie zależności między wzrostem a wagą ( X z Na), a następnie wartości A I B stają się inne i należy odpowiednio zmodyfikować wzory:

X= +B X * Na

a =M X B X * M y

W tym przypadku zmienia się także wygląd wykresu.

Współczynnik regresji jest ściśle powiązany ze współczynnikiem korelacji. Ta ostatnia jest średnią geometryczną współczynników regresji cech:

Kwadrat współczynnika korelacji nazywany jest współczynnikiem determinacji. Jego wartość określa procent wzajemnego wpływu zmiennych. W naszym przypadku R 2 = 0,76 2 = 0,58 . Oznacza to, że 58% całkowitej wariancji Y jest wyjaśnione wpływem zmiennej X, pozostałe 42% wynika z wpływu czynników nieuwzględnionych w równaniu.

Należy zauważyć, że prawdziwym wskaźnikiem stopnia liniowej zależności między zmiennymi jest teoretyczny współczynnik korelacji, który jest obliczany na podstawie danych z całej populacji (tj. wszystkich możliwa wartość wskaźniki):

Gdzie - teoretyczna miara kowariancji, który jest obliczany jako matematyczne oczekiwanie iloczynów odchyleń SV
I od swoich matematycznych oczekiwań.

Z reguły nie możemy obliczyć teoretycznego współczynnika korelacji. Jednak z faktu, że współczynnik próbkowania nie jest równy zero
nie wynika z tego, że współczynnik teoretyczny również jest
(tj. wskaźniki mogą być liniowo niezależne). To. Na podstawie danych z próby losowej nie można stwierdzić, że pomiędzy wskaźnikami istnieje związek.

Współczynnik korelacji próbki jest oszacowaniem współczynnika teoretycznego, ponieważ jest on obliczany tylko dla części wartości zmiennych.

Zawsze istnieje błąd współczynnika korelacji. Błąd ten jest rozbieżnością pomiędzy współczynnikiem korelacji objętości próbki a współczynnik korelacji dla populacji wyznacza się za pomocą wzorów:

Na
; I
Na
.

Testowanie istotności współczynnika korelacji liniowej oznacza testowanie, na ile możemy ufać przykładowym danym.

W tym celu testowana jest hipoteza zerowa
że wartość współczynnika korelacji dla populacji ogólnej wynosi zero, tj. nie ma żadnej korelacji w populacji. Alternatywna hipoteza jest taka
.

Aby przetestować tę hipotezę, wykonujemy obliczenia - Statystyka ( -Test t-Studenta:

.

Który ma dystrybucję studencką z
stopnie swobody 1.

Wartość krytyczną określa się na podstawie tablic rozkładu Studenta
.

Jeżeli obliczona wartość kryterium
, wówczas hipoteza zerowa zostaje odrzucona, to znaczy obliczony współczynnik korelacji różni się z prawdopodobieństwem istotnie od zera
.

Jeśli
, to hipotezy zerowej nie można odrzucić. W tym przypadku możliwe jest, że prawdziwa wartość współczynnika korelacji wynosi zero, tj. związek pomiędzy wskaźnikami można uznać za nieistotny statystycznie.

Przykład 1. W tabeli przedstawiono dane dotyczące całkowitego dochodu za 8 lat oraz wydatki na spożycie ostateczne .

Badanie i pomiar bliskości zależności między danymi wskaźnikami.

Temat 4. Sparowana regresja liniowa. Metoda najmniejszych kwadratów

Współczynnik korelacji wskazuje stopień bliskości związku pomiędzy dwiema cechami, ale nie daje odpowiedzi na pytanie, jak zmiana jednej cechy o jedną jednostkę jej wymiaru wpływa na zmianę innej cechy. Aby odpowiedzieć na to pytanie, posłużono się metodami analizy regresji.

Analiza regresji zestawy formularz zależności pomiędzy zmienną losową i wartości zmienne
i wartości
uważa się za precyzyjnie określone.

Równanie regresji jest wzorem na statystyczną zależność pomiędzy zmiennymi.

Jeśli ta formuła jest liniowa, to mówimy regresja liniowa. Nazywa się wzór na zależność statystyczną między dwiema zmiennymi regresja parami(kilka zmiennych - wiele).

Wybór wzoru zależności nazywa się specyfikacja równania regresji. Nazywa się szacowanie wartości parametrów wybranej formuły parametryzacja.

Jak oszacować wartości parametrów i sprawdzić wiarygodność dokonanych szacunków?

Spójrzmy na rysunek

    Na wykresie (a) zależność X I Na jest zbliżona do liniowej, prosta 1 jest tu blisko punktów obserwacyjnych, a te odchylają się od niej jedynie w wyniku stosunkowo niewielkich wpływów losowych.

    Wykres (b) przedstawia rzeczywistą zależność pomiędzy wielkościami X I Na jest opisana funkcją nieliniową 2 i niezależnie od tego, jaką prostą narysujemy (na przykład 1), odchylenia punktów od niej będą nielosowe.

    Na wykresie (c) zależność pomiędzy zmiennymi X I Na brakuje, a wyniki parametryzacji dowolnej formuły zależności nie powiodą się.

Punktem wyjścia analizy zależności ekonometrycznych jest zwykle oszacowanie zależność liniowa zmienne. Zawsze możesz spróbować narysować linię prostą, która będzie „najbliżej” punktów obserwacyjnych w całości (przykładowo na rysunku (c) linia prosta 1 będzie lepsza niż linia prosta 2).

Teoretyczne równanie regresji liniowej parami ma postać:


,

Gdzie
są nazywane parametry teoretyczne (współczynniki teoretyczne) regresja; -przypadkowe odchylenie(przypadkowy błąd).

Ogólnie model teoretyczny przedstawimy jako:

.

Aby wyznaczyć wartości teoretycznych współczynników regresji, konieczna jest znajomość wszystkich wartości zmiennych X I Y, tj. Wszystko ogólna populacja, co jest praktycznie niemożliwe.

Zadanie jest następujące: według dostępnych danych obserwacyjnych
,
konieczne jest oszacowanie wartości parametrów
.

Pozwalać Aestymacja parametrów
,Bestymacja parametrów .

Następnie oszacowane równanie regresji ma postać:
,

Gdzie
teoretyczne wartości zmiennej zależnej y, - zaobserwowane wartości błędów . To równanie nazywa się empiryczne równanie regresji. Napiszemy to w formularzu
.

Podstawą estymacji parametrów regresji liniowej jest Metoda najmniejszych kwadratów (MNC) to metoda estymacji parametrów regresji liniowej, która minimalizuje sumę kwadratów odchyleń obserwacji zmiennej zależnej od pożądanej funkcji liniowej.

Funkcjonować Q Jest funkcja kwadratowa dwa parametry A I B. Ponieważ jest ciągły, wypukły i ograniczony poniżej (
), więc osiąga minimum. Warunkiem koniecznym istnienia minimum jest równość jego pochodnych cząstkowych względem zera A I B:


.

Dzieląc oba równania układu przez N, otrzymujemy:


Lub

Inaczej możesz napisać:

I - odchylenia standardowe wartości tych samych cech.

To. linia regresji przechodzi przez punkt ze średnimi wartościami X I Na
, A współczynnik regresji B jest proporcjonalna do indeksu kowariancji i współczynnika korelacja liniowa.

Jeśli oprócz regresji Y NA X dla tych samych wartości empirycznych równanie regresji X na Y (
, Gdzie
), to iloczyn współczynników
:

.

DO współczynnik regresji  jest to wartość pokazująca o ile jednostek miary zmieni się wartość przy zmianie wartości na jednostkę jego wymiaru. Współczynnik określa się w podobny sposób .

W badaniach naukowych często istnieje potrzeba znalezienia powiązania między zmiennymi wynikowymi a zmiennymi czynnikowymi (plonami upraw i ilością opadów, wzrostem i wagą osoby w jednorodnych grupach według płci i wieku, tętnem i temperaturą ciała). itp.).

Drugie to znaki, które przyczyniają się do zmian w tych z nimi związanych (pierwszy).

Pojęcie analizy korelacji

Jest ich wiele. Na podstawie powyższego można stwierdzić, że analiza korelacji jest metodą stosowaną w celu sprawdzenia hipotezy dot znaczenie statystyczne dwie lub więcej zmiennych, jeśli badacz może je zmierzyć, ale nie może ich zmienić.

Istnieją inne definicje omawianego pojęcia. Analiza korelacji to metoda przetwarzania polegająca na badaniu współczynników korelacji między zmiennymi. W tym przypadku porównuje się współczynniki korelacji pomiędzy jedną parą lub wieloma parami cech w celu ustalenia statystycznych zależności między nimi. Analiza korelacji to metoda badania zależności statystycznej pomiędzy zmiennymi losowymi z opcjonalną obecnością ścisłego charakteru funkcjonalnego, w której dynamika jednej zmiennej losowej prowadzi do dynamiki oczekiwanie matematyczne inny.

Pojęcie fałszywej korelacji

Podczas dyrygowania analiza korelacji trzeba liczyć się z tym, że można go przeprowadzić w odniesieniu do dowolnego zbioru cech, często absurdalnych względem siebie. Czasami nie mają ze sobą żadnego związku przyczynowego.

W tym przypadku mówią o fałszywej korelacji.

Problemy analizy korelacji

W oparciu o powyższe definicje można sformułować następujące zadania opisywanej metody: uzyskanie informacji o jednej z poszukiwanych zmiennych za pomocą innej; określić bliskość związku pomiędzy badanymi zmiennymi.

Analiza korelacji polega na określeniu zależności pomiędzy badanymi cechami, dlatego też zadania analizy korelacji można uzupełnić o:

  • identyfikacja czynników mających największy wpływ na uzyskaną charakterystykę;
  • identyfikacja niezbadanych wcześniej przyczyn powiązań;
  • budowa modelu korelacji wraz z jego analizą parametryczną;
  • badanie znaczenia parametrów komunikacyjnych i ocena ich interwałów.

Związek analizy korelacji z regresją

Metoda analizy korelacji często nie ogranicza się do znalezienia bliskości zależności między badanymi wielkościami. Czasami uzupełnia się go zestawieniem równań regresji, które uzyskuje się za pomocą analizy o tej samej nazwie i które stanowią opis zależności korelacyjnej między wynikiem a cechą (cechami) czynnika (czynnika). Metoda ta wraz z analizowaną analizą stanowi metodę

Warunki stosowania metody

Czynniki skuteczne zależą od jednego do kilku czynników. Metodę analizy korelacji można zastosować w przypadku dużej liczby obserwacji dotyczących wartości wskaźników efektywnych i czynnikowych (czynników), przy czym badane czynniki muszą mieć charakter ilościowy i mieć odzwierciedlenie w konkretnych źródłach. Pierwszą można wyznaczyć na podstawie prawa normalnego – w tym przypadku wynikiem analizy korelacji są współczynniki korelacji Pearsona lub, jeżeli cechy nie spełniają tego prawa, stosuje się współczynnik korelacja rang Włócznik.

Zasady doboru czynników analizy korelacji

Podczas używania Ta metoda konieczne jest określenie czynników wpływających na wskaźniki efektywności. Dobiera się je z uwzględnieniem faktu, że pomiędzy wskaźnikami muszą istnieć związki przyczynowo-skutkowe. W przypadku tworzenia wieloczynnikowego modelu korelacji wybiera się te, które mają istotny wpływ na wynikowy wskaźnik, przy czym lepiej nie uwzględniać w modelu korelacji czynników współzależnych, których współczynnik korelacji par jest większy niż 0,85, a także tych, które dla których związek z parametrem wynikowym nie ma charakteru liniowego ani funkcjonalnego.

Wyświetlanie wyników

Wyniki analizy korelacji można przedstawić w formie tekstowej i graficznej. W pierwszym przypadku są one prezentowane jako współczynnik korelacji, w drugim – w formie diagramu punktowego.

W przypadku braku korelacji pomiędzy parametrami punkty na diagramie są rozmieszczone chaotycznie, średni stopień powiązania charakteryzuje się większym stopniem uporządkowania i charakteryzuje się mniej więcej równomierną odległością zaznaczonych znaków od mediany. Silne połączenie jest zwykle proste, a przy r=1 wykres punktowy jest linią płaską. Odwrotna korelacja różni się kierunkiem wykresu od lewego górnego do prawego dolnego rogu, korelacja bezpośrednia - od lewego dolnego rogu do prawego górnego rogu.

Reprezentacja 3D wykresu punktowego

Oprócz tradycyjnego wyświetlania wykresu punktowego 2D, obecnie używana jest graficzna reprezentacja analizy korelacji 3D.

Wykorzystywana jest również macierz wykresów rozrzutu, która wyświetla wszystkie sparowane wykresy na jednym rysunku w formacie macierzowym. Dla n zmiennych macierz zawiera n wierszy i n kolumn. Wykres znajdujący się na przecięciu i-tego wiersza i j-tej kolumny jest wykresem zmiennych Xi względem Xj. Zatem każdy wiersz i kolumna ma jeden wymiar, a pojedyncza komórka wyświetla wykres rozrzutu dwóch wymiarów.

Ocena szczelności połączenia

O bliskości powiązania korelacji decyduje współczynnik korelacji (r): silna – r = ±0,7 do ±1, średnia – r = ±0,3 do ±0,699, słaba – r = 0 do ±0,299. Klasyfikacja ta nie jest ścisła. Na rysunku przedstawiono nieco inny schemat.

Przykład zastosowania metody analizy korelacji

Ciekawe badanie przeprowadzono w Wielkiej Brytanii. Poświęcono je powiązaniu między paleniem tytoniu a rakiem płuc i przeprowadzono je na podstawie analizy korelacji. Obserwację tę przedstawiono poniżej.

Wstępne dane do analizy korelacji

Grupa profesjonalna

śmiertelność

Rolnicy, leśnicy i rybacy

Górnicy i pracownicy kamieniołomów

Producenci gazu, koksu i chemikaliów

Producenci szkła i ceramiki

Pracownicy pieców, kuźni, odlewni i walcowni

Pracownicy elektrycy i elektronicy

Zawody inżynierskie i pokrewne

Przemysł drzewny

Kaletnicy

Pracownicy tekstylni

Producenci odzieży roboczej

Pracownicy branży spożywczej, napojów i tytoniowej

Producenci papieru i druku

Producenci innych produktów

Budowniczowie

Malarze i dekoratorzy

Kierowcy silników stacjonarnych, dźwigów itp.

Pracownicy nieuwzględnieni gdzie indziej

Pracownicy transportu i komunikacji

Pracownicy magazynów, magazynierzy, pakowacze i pracownicy maszyn rozlewniczych

Pracownicy biurowi

Sprzedawców

Pracownicy sportu i rekreacji

Administratorzy i menedżerowie

Profesjonaliści, technicy i artyści

Rozpoczynamy analizę korelacji. Lepiej zacząć rozwiązanie dla przejrzystości metoda graficzna, dla którego skonstruujemy diagram punktowy.

Pokazuje bezpośrednie połączenie. Trudno jednak wyciągnąć jednoznaczny wniosek na podstawie samej metody graficznej. Dlatego będziemy kontynuować analizę korelacji. Poniżej przedstawiono przykład obliczenia współczynnika korelacji.

Korzystając z oprogramowania (na przykładzie MS Excel zostanie opisany poniżej) wyznaczamy współczynnik korelacji, który wynosi 0,716, co oznacza silny związek pomiędzy badanymi parametrami. Określmy rzetelność statystyczną otrzymanej wartości korzystając z odpowiedniej tabeli, dla której od 25 par wartości należy odjąć 2, w rezultacie otrzymamy 23 i korzystając z tej linii w tabeli znajdujemy r krytyczne dla p = 0,01 (ponieważ są to dane medyczne, zależność bardziej rygorystyczna, w pozostałych przypadkach wystarczy p=0,05), co dla tej analizy korelacji wynosi 0,51. Na przykładzie pokazano, że obliczone r jest większe od r krytycznego, a wartość współczynnika korelacji uważa się za statystycznie wiarygodną.

Korzystanie z oprogramowania przy przeprowadzaniu analizy korelacji

Opisany rodzaj przetwarzania danych statystycznych można przeprowadzić za pomocą oprogramowanie w szczególności MS Excel. Korelacja polega na obliczeniu następujących parametrów za pomocą funkcji:

1. Współczynnik korelacji wyznacza się za pomocą funkcji CORREL (tablica1; tablica2). Tablica1,2 - komórka przedziału wartości zmiennych wynikowych i czynnikowych.

Współczynnik korelacji liniowej nazywany jest także współczynnikiem korelacji Pearsona, dlatego począwszy od Excela 2007 można używać tej funkcji z tymi samymi tablicami.

Graficzne przedstawienie analizy korelacji w programie Excel odbywa się za pomocą panelu „Wykresy” z opcją „Wykres punktowy”.

Po podaniu danych początkowych otrzymujemy wykres.

2. Ocena istotności współczynnika korelacji parami za pomocą testu t-Studenta. Obliczoną wartość kryterium t porównuje się z tabelaryczną (krytyczną) wartością tego wskaźnika z odpowiedniej tabeli wartości rozpatrywanego parametru, biorąc pod uwagę określony poziom istotności i liczbę stopni swobody. Oszacowanie to przeprowadza się za pomocą funkcji STUDISCOVER(prawdopodobieństwo; stopnie_wolności).

3. Macierz współczynników korelacji par. Analizę przeprowadza się za pomocą narzędzia Analiza danych, w którym wybrana jest opcja Korelacja. Statystyczną ocenę współczynników korelacji par przeprowadza się poprzez porównanie jej wartości bezwzględnej z wartością tabelaryczną (krytyczną). Jeżeli obliczony współczynnik korelacji parami przekracza wartość krytyczną, to przy danym stopniu prawdopodobieństwa można powiedzieć, że hipoteza zerowa o istotności zależności liniowej nie zostaje odrzucona.

Wreszcie

Zastosowanie metody analizy korelacji w badaniach naukowych pozwala na określenie zależności pomiędzy różne czynniki i wskaźniki wydajności. Należy wziąć pod uwagę, że wysoki współczynnik korelacji można uzyskać z absurdalnej pary lub zbioru danych, a zatem ten typ analizę należy przeprowadzić na wystarczająco dużym zbiorze danych.

Po uzyskaniu obliczonej wartości r wskazane jest porównanie jej z r krytycznym w celu potwierdzenia wiarygodności statystycznej określonej wartości. Analizę korelacji można przeprowadzić ręcznie za pomocą wzorów lub przy użyciu oprogramowania, w szczególności MS Excel. W tym miejscu można również skonstruować diagram punktowy w celu wizualnego przedstawienia związku pomiędzy badanymi czynnikami analizy korelacji a uzyskaną charakterystyką.

Etap 3. Znalezienie relacji pomiędzy danymi

Korelacja liniowa

Ostatnim etapem zadania badania powiązań między zjawiskami jest ocena bliskości powiązania za pomocą wskaźników korelacji. Etap ten jest bardzo ważny dla rozpoznania zależności pomiędzy charakterystyką czynnikową i wykonawczą, a co za tym idzie, dla możliwości postawienia diagnozy i prognozy badanego zjawiska.

Diagnoza(z greckiej diagnozy rozpoznanie) - określenie istoty i cech stanu obiektu lub zjawiska na podstawie jego wszechstronnego badania.

Prognoza(z greckiej prognozy, przewidywania) - dowolna konkretna prognoza, ocena stanu dowolnego zjawiska w przyszłości (prognoza pogody, wynik wyborów itp.). Prognoza to naukowo oparta hipoteza dotycząca prawdopodobnego przyszłego stanu badanego systemu, obiektu lub zjawiska oraz wskaźników charakteryzujących ten stan. Prognozowanie – rozwój prognoz, specjalne Badania naukowe konkretne perspektywy rozwoju dowolnego zjawiska.

Przypomnijmy definicję korelacji:

Korelacja– zależność między zmiennymi losowymi, wyrażająca się tym, że rozkład jednej wartości zależy od wartości innej wartości.

Obserwuje się korelację nie tylko pomiędzy cechami ilościowymi, ale także jakościowymi. Istnieć różne drogi oraz wskaźniki oceny bliskości powiązań. Zatrzymamy się tylko na współczynnik korelacji par liniowych , który jest stosowany, gdy istnieje liniowa zależność między zmiennymi losowymi. W praktyce często zachodzi potrzeba określenia poziomu powiązania pomiędzy zmiennymi losowymi o nierównych wymiarach, dlatego pożądane jest posiadanie jakiejś bezwymiarowej charakterystyki tego powiązania. Taką cechą (miarą powiązania) jest współczynnik korelacji liniowej r xy, co jest określone przez wzór

Gdzie , .

Oznaczając i , możemy otrzymać następujące wyrażenie do obliczenia współczynnika korelacji

.

Jeśli wprowadzimy koncepcję znormalizowane odchylenie , który wyraża odchylenie skorelowanych wartości od średniej w ułamkach odchylenia standardowego:



wówczas wyrażenie na współczynnik korelacji przyjmie postać

.

Jeśli obliczysz współczynnik korelacji na podstawie końcowych wartości początkowych zmienne losowe z tabeli obliczeń, wówczas współczynnik korelacji można obliczyć korzystając ze wzoru

.

Właściwości współczynnika korelacji liniowej:

1). Współczynnik korelacji jest wielkością bezwymiarową.

2). |R| 1 GBP lub .

3). , a, b= const, – wartość współczynnika korelacji nie ulegnie zmianie, jeśli wszystkie wartości zmiennych losowych X i Y zostaną pomnożone (lub podzielone) przez stałą.

4). , a, b= const, – wartość współczynnika korelacji nie ulegnie zmianie, jeżeli wszystkie wartości zmiennych losowych X i Y zwiększą się (lub zmniejszą) o stałą.

5). Istnieje związek pomiędzy współczynnikiem korelacji a współczynnikiem regresji:

Wartości współczynników korelacji można interpretować w następujący sposób:

Ilościowe kryteria oceny bliskości komunikacji:

Do celów prognostycznych wartości z |r| > 0,7.

Współczynnik korelacji pozwala stwierdzić, że pomiędzy dwiema zmiennymi losowymi istnieje liniowa zależność, ale nie wskazuje, która ze zmiennych powoduje zmianę drugiej. W rzeczywistości związek między dwiema zmiennymi losowymi może istnieć bez związku przyczynowo-skutkowego między samymi wartościami, ponieważ zmiana obu zmiennych losowych może być spowodowana zmianą (wpływem) trzeciej.

Współczynnik korelacji r xy jest symetryczny względem branych pod uwagę zmiennych losowych X I Y. Oznacza to, że przy wyznaczaniu współczynnika korelacji jest zupełnie obojętne, która z wielkości jest niezależna, a która zależna.

Znaczenie współczynnika korelacji

Nawet dla niezależne ilości współczynnik korelacji może być różny od zera na skutek losowego rozproszenia wyników pomiarów lub małej próby zmiennych losowych. Należy zatem sprawdzić istotność współczynnika korelacji.

Na podstawie tego sprawdza się istotność współczynnika korelacji liniowej Test t-Studenta :

.

Jeśli T > t kr(P, rz-2), zatem współczynnik liniowy korelacja jest istotna, a zatem powiązanie statystyczne jest również istotne X I Y.

.

Dla ułatwienia obliczeń stworzono tabele wartości granic ufności współczynników korelacji różne liczby stopnie swobody f = rz–2 (test dwustronny) i różne poziomy istotności A= 0,1; 0,05; 0,01 i 0,001. Korelację uznaje się za istotną, jeżeli obliczony współczynnik korelacji przekracza wartość granicy ufności współczynnika korelacji dla danego F I A.

Dla dużych N I A= 0,01 wartość granicy ufności współczynnika korelacji można obliczyć korzystając ze wzoru przybliżonego

.

Wstęp. 2

1. Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta. 3

2. Obliczanie istotności współczynników regresji i korelacji za pomocą testu f-Studenta. 6

Wniosek. 15

Po skonstruowaniu równania regresji należy sprawdzić jego istotność: stosując specjalne kryteria określić, czy otrzymana zależność jest wyrażone równaniem regresja, losowa, tj. czy można go wykorzystać do celów prognozowania i analizy czynnikowej? W statystyce opracowano metody ścisłego testowania istotności współczynników regresji za pomocą analiza wariancji i obliczanie specjalnych kryteriów (na przykład kryterium F). Test luźny można przeprowadzić obliczając średnie względne odchylenie liniowe (e), tzw średni błąd przybliżenia:

Przejdźmy teraz do oceny istotności współczynników regresji bj i zbudowania przedziału ufności dla parametrów modelu regresji Ru (J=l,2,..., p).

Blok 5 – ocena istotności współczynników regresji na podstawie wartości testu ^-Studenta. Obliczone wartości ta porównuje się z wartością dopuszczalną

Blok 5 – ocena istotności współczynników regresji na podstawie wartości kryterium ^. Obliczone wartości t0n porównuje się z dopuszczalną wartością 4,/, która jest wyznaczana z tablic rozkładu t dla danego prawdopodobieństwa błędu (a) i liczby stopni swobody (/).

Oprócz sprawdzenia istotności całego modelu należy sprawdzić istotność współczynników regresji za pomocą testu /-Studenta. Minimalna wartość współczynnika regresji bg musi odpowiadać warunkowi bifob-^t, gdzie bi jest wartością współczynnika równania regresji w skali naturalnej w współczynnik i-c podpisać; ach. - średni błąd kwadratowy każdego współczynnika. nieporównywalność współczynników D w ich znaczeniu;

Dalsza analiza statystyczna dotyczy badania istotności współczynników regresji. Aby to zrobić, znajdujemy wartość kryterium ^ dla współczynników regresji. W wyniku ich porównania wyznaczane jest najmniejsze kryterium ^. Z dalszej analizy wyklucza się czynnik, którego współczynnik odpowiada najmniejszemu kryterium ^.

Aby ocenić istotność statystyczną współczynników regresji i korelacji, zastosowano test t-Studenta i przedziały ufności każdego ze wskaźników. Postawiono hipotezę o losowym charakterze wskaźników, tj. o ich nieistotnej różnicy od zera. Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta odbywa się poprzez porównanie ich wartości z wielkością błędu losowego:

Ocena istotności czystych współczynników regresji za pomocą testu /-Studenta sprowadza się do obliczenia wartości

Jakość pracy jest cechą konkretnej pracy, odzwierciedlającą stopień jej złożoności, intensywności (intensywności), warunków i znaczenia dla rozwoju gospodarczego. K.t. mierzony poprzez system taryfowy pozwalający na różnicowanie wynagrodzeń w zależności od poziomu kwalifikacji (złożoności pracy), warunków, ciężkości pracy i jej intensywności, a także znaczenia poszczególnych gałęzi przemysłu i produkcji, regionów, terytoriów dla rozwoju gospodarkę kraju. K.t. znajduje wyraz w wynagrodzenie pracowników, rozwijających się na rynku pracy pod wpływem podaży i popytu siła robocza(określone rodzaje pracy). K.t. - złożona w strukturze

Uzyskane oceny względnej ważności poszczególnych skutków ekonomicznych, społecznych i środowiskowych projektu stanowią ponadto podstawę do porównania alternatywnych projektów i ich opcji przy użyciu „złożonego punktowego bezwymiarowego kryterium efektywności społecznej i środowiskowo-ekonomicznej” projektu Ek, obliczonego (w średnich wynikach istotności) za pomocą wzoru

Regulacja wewnątrzgałęziowa zapewnia zróżnicowanie wynagrodzeń pracowników w danej branży, w zależności od znaczenia poszczególnych rodzajów produkcji w danej branży, od złożoności i warunków pracy, a także od stosowanych form wynagradzania.

Uzyskana w ten sposób ocena ratingowa analizowanego przedsiębiorstwa w stosunku do przedsiębiorstwa standardowego bez uwzględnienia znaczenia poszczególnych wskaźników ma charakter porównawczy. Porównując oceny kilku przedsiębiorstw najwyższa ocena posiada przedsiębiorstwo o minimalnej wartości uzyskanej oceny porównawczej.

Zrozumienie jakości produktu jako miary jego użyteczności ujęte jest w praktyce ważne pytanie o jego pomiarze. Jego rozwiązanie osiąga się poprzez badanie znaczenia poszczególnych właściwości w zaspokajaniu określonej potrzeby. Znaczenie nawet tej samej właściwości może być różne w zależności od warunków spożycia produktu. W związku z tym użyteczność produktu w różne okoliczności jego zastosowania są różne.

Drugi etap pracy to badanie danych statystycznych oraz identyfikacja zależności i interakcji wskaźników, określenie znaczenia poszczególnych czynników oraz przyczyn zmian wskaźników ogólnych.

Wszystkie rozpatrywane wskaźniki łączy się w jeden w taki sposób, że efektem jest kompleksowa ocena wszystkich analizowanych aspektów działalności przedsiębiorstwa, z uwzględnieniem uwarunkowań jego działalności, z uwzględnieniem stopnia istotności poszczególnych wskaźników dla różne rodzaje inwestorzy:

Współczynniki regresji pokazują intensywność wpływu czynników na wskaźnik wydajności. Jeżeli przeprowadzona zostanie wstępna standaryzacja wskaźników czynnikowych, wówczas b0 jest równe średniej wartości efektywnego wskaźnika w sumie. Współczynniki b, b2 ..... bl pokazują, o ile jednostek poziom efektywnego wskaźnika odbiega od jego wartości średniej, jeżeli wartości wskaźnika czynnikowego odbiegają od średniej równej zero o jeden odchylenie standardowe. Zatem współczynniki regresji charakteryzują stopień istotności poszczególnych czynników dla podniesienia poziomu wskaźnika efektywności. Konkretne wartości współczynników regresji wyznaczane są na podstawie danych empirycznych zgodnie z metodą najmniejszych kwadratów(w wyniku rozwiązywania układów równań normalnych).

2. Obliczanie istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Rozważmy liniową postać zależności wieloczynnikowych nie tylko jako najprostszą, ale także jako postać zapewnianą przez pakiety oprogramowania aplikacyjnego dla komputerów PC. Jeżeli związek pomiędzy indywidualnym czynnikiem a uzyskanym atrybutem nie jest liniowy, wówczas równanie ulega linearyzacji poprzez zastąpienie lub przekształcenie wartości atrybutu czynnika.

Formularz ogólny równanie regresji wielowymiarowej ma postać:


gdzie k jest liczbą cech czynnika.

Aby uprościć układ równań najmniejszych kwadratów niezbędny do obliczenia parametrów równania (8.32), zwykle wprowadza się odchylenia poszczególnych wartości wszystkich cech od wartości średnich tych cech.

Otrzymujemy układ k równań najmniejszych kwadratów:

Rozwiązując ten układ, otrzymujemy wartości warunkowo czystych współczynników regresji b. Swobodny człon równania oblicza się ze wzoru


Termin „warunkowo czysty współczynnik regresji” oznacza, że ​​każda z wartości bj mierzy zagregowane średnie odchylenie wynikowej cechy od jej wartości średniej, gdy dany współczynnik xj odbiega od swojej wartości średniej o jednostkę jej miary i pod warunkiem, że wszystkie pozostałe czynniki zawarte w równaniu regresji, ustalone na wartościach średnich, nie ulegają zmianie, nie ulegają zmianie.

Zatem, w przeciwieństwie do współczynnika regresji sparowanej, warunkowy współczynnik czystej regresji mierzy wpływ czynnika, abstrahując od związku zmienności tego czynnika ze zmiennością innych czynników. Gdyby można było uwzględnić w równaniu regresji wszystkie czynniki wpływające na zmianę uzyskanej charakterystyki, wówczas wartości bj. można uznać za miary czystego wpływu czynników. Ale ponieważ naprawdę niemożliwe jest uwzględnienie wszystkich czynników w równaniu, wówczas współczynniki bj. nie jest wolne od domieszki wpływu czynników nieuwzględnionych w równaniu.

Niemożliwe jest uwzględnienie w równaniu regresji wszystkich czynników z jednego z trzech powodów lub wszystkich na raz, ponieważ:

1) niektóre czynniki mogą być nieznane nowoczesna nauka wiedza o jakimkolwiek procesie jest zawsze niekompletna;

2) brak jest informacji na temat niektórych znanych czynników teoretycznych lub są one niewiarygodne;

3) wielkość badanej populacji (próby) jest ograniczona, co pozwala na uwzględnienie w równaniu regresji ograniczonej liczby czynników.

Warunkowe czyste współczynniki regresji bj. są liczbami nazwanymi wyrażonymi w różnych jednostkach miary i dlatego są ze sobą nieporównywalne. Aby przeliczyć je na porównywalne wskaźniki względne, stosuje się tę samą transformację, co w celu uzyskania współczynnika korelacji parami. Wynikowa wartość nazywana jest współczynnik standaryzowany regresja lub współczynnik ?.


Współczynnik xj określa miarę wpływu zmiany współczynnika xj na zmianę wynikowej cechy y, abstrahując od towarzyszącej zmienności innych czynników uwzględnionych w równaniu regresji.

Przydatne jest wyrażenie współczynników warunkowo czystej regresji w postaci względnych porównywalnych wskaźników połączenia, współczynników elastyczności:

Współczynnik elastyczności współczynnika xj mówi, że gdy wartość danego współczynnika odbiega od jego wartości średniej o 1% i abstrahując od towarzyszącego odchylenia innych czynników uwzględnionych w równaniu, otrzymana charakterystyka będzie odbiegać od wartości średniej o ej procent od y. Częściej współczynniki sprężystości są interpretowane i stosowane w kategoriach dynamiki: wraz ze wzrostem współczynnika x o 1% jego wartości średniej, wynikowa charakterystyka wzrośnie o e. procent swojej wartości średniej.

Rozważmy obliczenia i interpretację równania regresji wieloczynnikowej na przykładzie tych samych 16 gospodarstw (tabela 8.1). Wynikowy znak - poziom dochód brutto a trzy czynniki mające na to wpływ przedstawiono w tabeli. 8.7.

Przypomnijmy jeszcze raz, że aby uzyskać wiarygodne i wystarczająco dokładne wskaźniki korelacji, potrzebna jest większa populacja.


Tabela 8.7

Poziom dochodu brutto i jego czynniki

Numery gospodarstw

Dochód brutto, rub./ra

Koszty pracy, osobodni/ha x1

Udział gruntów ornych,

Wydajność mleczna na 1 krowę,

Tabela 8.8 Wskaźniki równania regresji

Zmienna zależna: y

Współczynnik regresji

Stała-240.112905

standardowe błąd szacunkowy = 79,243276


Rozwiązanie wykonano przy pomocy programu „Microstat” na komputer PC. Oto tabele z wydruku: tabela. 8.7 podaje wartości średnie i odchylenia standardowe wszystkich cech. Tabela 8.8 zawiera współczynniki regresji i ich probabilistyczną ocenę:

pierwsza kolumna „var” – zmienne, czyli czynniki; druga kolumna „współczynnik regresji” - warunkowo czyste współczynniki regresji bj; trzecia kolumna „std. errr” – średnie błędy oszacowań współczynników regresji; czwarta kolumna - wartości testu t-Studenta przy 12 stopniach swobody zmienności; piąta kolumna „prawdopodobne” - prawdopodobieństwo hipotezy zerowej w odniesieniu do współczynników regresji;

szósta kolumna „częściowe r2” - częściowe współczynniki determinacji. Treść i metodologię obliczania wskaźników w kolumnach 3-6 omówiono szerzej w Rozdziale 8. „Stała” jest wolnym terminem równania regresji a; „Standardowe błąd szacunkowy.” - błąd średniokwadratowy oszacowania charakterystyki efektywnej za pomocą równania regresji. Otrzymano równanie regresja wielokrotna:

y = 2,26x1 - 4,31x2 + 0,166x3 - 240.

Oznacza to, że wysokość dochodu brutto na 1 hektar użytków rolnych wzrosła średnio o 2,26 rubla. przy wzroście kosztów pracy o 1 godz./ha; spadła średnio o 4,31 rubla. przy wzroście udziału gruntów ornych w użytkach rolnych o 1% i wzroście o 0,166 rubla. ze wzrostem wydajności mleka na krowę o 1 kg. Ujemna wartość wolnego składnika jest całkiem naturalna i, jak już zauważono w paragrafie 8.2, skutecznym znakiem jest to, że dochód brutto osiąga zero na długo przed osiągnięciem przez czynniki wartości zerowych, co jest niemożliwe w produkcji.

Ujemna wartość współczynnika dla x^ jest sygnałem poważnych problemów w ekonomii badanych gospodarstw, w których nieopłacalna jest uprawa roślin, a opłacalna jest wyłącznie hodowla zwierząt. Przy racjonalnych metodach gospodarowania i normalnych (równoważnych lub zbliżonych) cenach produktów wszystkich sektorów dochód nie powinien się zmniejszać, lecz rosnąć wraz ze wzrostem najbardziej żyznej części użytków rolnych – gruntów ornych.

Na podstawie danych z dwóch przedostatnich wierszy tabeli. 8.7 i tabela. 8.8 obliczamy współczynniki p i współczynniki sprężystości według wzorów (8.34) i (8.35).

Zarówno na zmienność poziomu dochodu, jak i możliwą zmianę jego dynamiki największy wpływ ma czynnik x3 – produktywność krów, a najsłabszy x2 – udział gruntów ornych. W dalszej części zostaną wykorzystane wartości P2/ (tabela 8.9);

Tabela 8.9 Porównawczy wpływ czynników na poziom dochodów

Czynniki xj


Otrzymaliśmy zatem, że współczynnik a współczynnika xj odnosi się do współczynnika elastyczności tego współczynnika, tak jak współczynnik zmienności współczynnika odnosi się do współczynnika zmienności wynikowej charakterystyki. Ponieważ, jak widać z ostatniego wiersza tabeli. 8.7 współczynniki zmienności wszystkich czynników są mniejsze niż współczynnik zmienności wynikowej cechy; wszystkie współczynniki ? są mniejsze niż współczynniki elastyczności.

Rozważmy relację między sparowanym i warunkowo czystym współczynnikiem regresji, używając jako przykładu współczynnika -с. Pary równanie liniowe związek y z x ma postać:

y = 3,886x1 – 243,2

Warunkowo czysty współczynnik regresji przy x1 wynosi tylko 58% współczynnika sparowanego. Pozostałe 42% wynika z faktu, że zmienności x1 towarzyszy zmienność czynników x2 x3, co z kolei wpływa na otrzymaną cechę. Powiązania wszystkich cech i ich współczynniki regresji parami przedstawiono na wykresie powiązań (rys. 8.2).


Jeśli dodamy szacunki bezpośredniego i pośredniego wpływu zmienności x1 na y, czyli iloczyn sparowanych współczynników regresji wzdłuż wszystkich „ścieżek” (rys. 8.2), otrzymamy: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Wartość ta jest jeszcze większa współczynnik pary połączenia x1 z y. W konsekwencji pośredni wpływ zmienności x1 poprzez czynniki nieuwzględnione w równaniu jest odwrotny i daje w sumie:

1 Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana i podstawy ekonometrii. Podręcznik dla uniwersytetów. - M.: JEDNOŚĆ, 2008, – 311 s.

2 Johnston J. Metody ekonometryczne. - M.: Statystyka, 1980. – 282s.

3 Dougherty K. Wprowadzenie do ekonometrii. - M.: INFRA-M, 2004, – 354 s.

4 Dreyer N., Smith G., Applied Analiza regresji. - M.: Finanse i Statystyka, 2006, – 191 s.

5 Magnus Y.R., Kartashev P.K., Peresetsky A.A. Ekonometria. Kurs początkowy.-M.: Delo, 2006, – 259 s.

6 Warsztaty z ekonometrii/wyd. I.I. Eliseeva – M.: Finanse i statystyka, 2004, – 248 s.

7 Ekonometria/wyd. I.I. Eliseeva – M.: Finanse i statystyka, 2004, – 541 s.

8 Kremer N., Putko B. Ekonometria - M.: UNITY-DANA, 200, – 281 s.


Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana i podstawy ekonometrii. Podręcznik dla uniwersytetów. - M.: JEDNOŚĆ, 2008, – s. 25 23.

Kremer N., Putko B. Ekonometria.- M.: UNITY-DANA, 200, – s.64

Dreyer N., Smith G., Stosowana analiza regresji. - M.: Finanse i statystyka, 2006, – s.57.

Warsztaty z ekonometrii/wyd. I. I. Eliseeva – M.: Finanse i statystyka, 2004, – s. 172.



Nowość na stronie

>

Najbardziej popularny