Dom Stomatologia dziecięca Własności współczynnika korelacji liniowej. Przykład wyznaczania współczynnika korelacji

Własności współczynnika korelacji liniowej. Przykład wyznaczania współczynnika korelacji

Liniowy współczynnik korelacji

Bardziej doskonałym wskaźnikiem stopnia bliskości połączenia jest współczynnik korelacji liniowej (R).

Przy obliczaniu tego wskaźnika brane są pod uwagę nie tylko oznaki odchyleń poszczególnych wartości cechy od średniej, ale także sama wielkość takich odchyleń, tj. odpowiednio dla silni i wypadkowej charakterystyki, wartości i . Niemożliwe jest jednak bezpośrednie porównanie uzyskanych wartości bezwzględnych między sobą, gdyż same cechy można wyrazić w różnych jednostkach (jak ma to miejsce w prezentowanym przykładzie), a jeśli występują te same jednostki miary, średnie mogą mieć różną wartość. W tym zakresie odchylenia wyrażone w wartościach względnych mogą podlegać porównaniu tj. w ułamkach odchylenia standardowego (nazywa się je odchyleniami znormalizowanymi). Zatem dla cechy czynnikowej będziemy mieli zbiór wartości, a dla wypadkowej.

Powstałe znormalizowane odchylenia można ze sobą porównać. W celu uzyskania ogólnej charakterystyki stopnia bliskości powiązania cech dla całej populacji na podstawie porównania obliczonych odchyleń znormalizowanych obliczany jest średni iloczyn odchyleń znormalizowanych. Uzyskana w ten sposób średnia będzie współczynnikiem korelacji liniowej R.

(1.2)

lub ponieważ sx I y gdyż szeregi te są stałe i można je wyjąć z nawiasów, wówczas wzór na współczynnik korelacji liniowej przyjmuje postać:

(1.3)

Współczynnik korelacji liniowej może przyjmować dowolną wartość z zakresu od –1 do +1. Im współczynnik korelacji w wartości bezwzględnej jest bliższy 1, tym bliższy jest związek między cechami. Znak współczynnika korelacji liniowej wskazuje kierunek zależności: zależność bezpośrednia odpowiada znakowi plusowi, a zależność odwrotna odpowiada znakowi minus.

Jeśli wraz ze wzrostem wartości cechy współczynnika X, wynikowy znak Na ma tendencję wzrostową, wówczas wartość współczynnika korelacji będzie wynosić od 0 do 1. Jeżeli wraz ze wzrostem wartości X wynikowy znak Na ma tendencję malejącą, współczynnik korelacji może przyjmować wartości z zakresu od 0 do –1.

Na to wskazuje uzyskana wartość współczynnika korelacji liniowej, podobnie jak podany powyżej współczynnik Fechnera możliwa dostępność Istnieje dość ścisły bezpośredni związek pomiędzy kosztami reklamy a liczbą turystów, którzy skorzystali z usług firmy.

Kwadratowy współczynnik korelacji ( R 2) nazywa się współczynnik determinacji. W rozpatrywanym przykładzie jego wartość wynosi 0,6569, co oznacza, że ​​65,69% zmienności liczby klientów korzystających z usług firmy tłumaczy się różnicą w kosztach reklamy swoich usług przez firmy.

W tym miejscu należy jeszcze raz przypomnieć, że sama wartość współczynnika korelacji nie jest dowodem na istnienie związku przyczynowo-skutkowego pomiędzy badanymi cechami, lecz stanowi ocenę stopnia wzajemnej zgodności zmian cech. Ustalenie związku przyczynowo-skutkowego poprzedzone jest analizą jakościowego charakteru zjawisk. Ale jest jeszcze jedna okoliczność, która wyjaśnia formułowanie wniosków na temat możliwej obecności połączenia na podstawie wielkości współczynnika korelacji.

Wynika to z faktu, że ocena stopnia bliskości powiązania za pomocą współczynnika korelacji dokonywana jest z reguły na podstawie mniej lub bardziej ograniczonych informacji o badanym zjawisku. Powstaje pytanie, na ile zasadny jest nasz wniosek na podstawie przykładowych danych o faktycznym występowaniu w tym związku populacja, z którego pobrano próbkę?

ANALIZA KORELACJI I REGRESJI W

OBLICZENIA EKONOMICZNE

Podstawowe pojęcia analizy korelacyjnej i regresyjnej

W matematyce istnieją dwie koncepcje odzwierciedlające związki przyczynowo-skutkowe między cechami: zależność funkcjonalna i zależność korelacyjna.

Zależność funkcjonalna rozumiana jest jako taka zależność między wielkościami, gdy wartość wielkości zależnej – funkcji – jest całkowicie zdeterminowana przez wartości zmiennych zależnych.

Zależność korelacyjna występuje, gdy każda wartość jednej (wynikowej) wielkości odpowiada zbiorowi losowych wartości innej, występujących z pewnym prawdopodobieństwem.

Badając zjawiska ekonomiczne, nie mamy do czynienia z zależnością funkcjonalną, lecz korelacyjną. Używając korelacji i analiza regresji można obliczyć współczynniki korelacji, które oceniają siłę związku pomiędzy poszczególnymi wskaźnikami, wybierz

równanie regresji, który określa formę tego połączenia i ustala wiarygodność istnienia tego połączenia.

Proces analizy korelacji i regresji procesów gospodarczych składa się z następujących etapów:

Wstępne przetwarzanie danych statystycznych i wybór głównych cech czynników wpływających na efektywny wskaźnik;

Ocena bliskości powiązania i identyfikacja formy istniejącego powiązania pomiędzy charakterystyką wypadkową i czynnikową;

Opracowanie (wieloczynnikowego) modelu badanego zjawiska i jego analiza;

Zastosowanie uzyskanych wyników analizy do podejmowania decyzji zarządczych.

Korelacja stoi przed dwoma głównymi wyzwaniami. Pierwszym jest określenie, jak zmienia się średnia efektywna charakterystyka w związku ze zmianą współczynnika jeden. Ten problem można rozwiązać znalezienie równania komunikacji. Drugie zadanie określa stopień wpływu czynników zakłócających. Problem ten rozwiązuje się poprzez badanie wskaźników bliskości połączenia. Takimi wskaźnikami są współczynniki korelacji i współczynniki korelacji.



2. Znaki efektywne i czynnikowe . Badając wpływ jednych znaków zjawiska na inne, z łańcucha znaków charakteryzujących dane zjawisko wyróżnia się dwa - znaki czynnikowe (wpływające na wynik) i wynikowe. Konieczne jest ustalenie, która z cech jest silniowa, a która produktywna. Po pierwsze, pomaga w tym analiza logiczna.

Przykład. Koszt produktów przemysłowych pojedynczego przedsiębiorstwa zależy od wielu czynników, w tym od wielkości produkcji w tym przedsiębiorstwie. Koszt produkcji działa w tym przypadku jako atrybut efektywny, a wielkość produkcji jako czynnik silni.

Inny przykład. Aby ocenić przewagę dużych przedsiębiorstw nad małymi, możemy rozważyć, w jaki sposób wzrasta wydajność pracy pracowników w dużych przedsiębiorstwach i określić zależność wydajności pracy od wzrostu wielkości przedsiębiorstwa.

3. Pojęcie równania komunikacyjnego. Równanie tej funkcji będzie równaniem związku między charakterystyką wypadkową i silniową.

Równanie sprzężenia znajduje się za pomocą tej metody najmniejszych kwadratów, co wymaga, aby suma kwadratów odchyleń wartości empirycznych od wartości uzyskanych na podstawie równania sprzęgania była minimalna.

Zastosowanie metody najmniejszych kwadratów umożliwia znalezienie parametrów równania komunikacyjnego poprzez rozwiązanie układu tzw. równań normalnych, innego dla każdego rodzaju połączenia.

Aby zauważyć, że związek między dwiema cechami wyraża się średnią, oznacza się wartości wynikowej cechy znalezione w równaniu zależności Uch.

Znając równanie zależności, możesz z góry obliczyć średnią wartość wynikowej cechy, gdy wartość. znana jest charakterystyka silni. Zatem równanie połączenia jest metodą uogólniania zaobserwowanych zależności statystycznych, metodą ich badania.

Zastosowanie tej lub innej funkcji jako równania sprzężenia rozróżnia sprzężenia według ich postaci: sprzężenie liniowe i sprzężenie krzywoliniowe (paraboliczne, hiperboliczne itp.).

Rozważmy równania połączeń dla zależności od jednej cechy w różne formy połączeń (liniowych, krzywoliniowych, parabolicznych, hiperbolicznych) oraz dla połączeń wielokrotnych.

4. Liniowa zależność pomiędzy cechami. Równanie połączenia jako równanie prostej Ух==ао+а1х stosuje się w przypadku równomiernego wzrostu atrybutu efektywnego wraz ze wzrostem atrybutu silni. Taka zależność będzie zależnością liniową (prostoliniową).

Parametry równania prostej ao i a1 wyznacza się rozwiązując układ równań normalnych otrzymany metodą najmniejszych kwadratów:

Przykładem obliczenia parametrów równania oraz wartości średnich charakterystyki efektywnej Vx jest poniższa tabela będąca wynikiem grupowania według charakterystyki silniowej i obliczenia wartości średnich według charakterystyki efektywnej.

Do równania zależności konieczne jest grupowanie przedsiębiorstw według wartości środków trwałych i obliczanie kwot.

Z tabeli znajdujemy: n==6; =18; =39,0; =71,5

132,0. Budujemy układ dwóch równań z dwiema niewiadomymi:

Dzieląc każdy wyraz w obu równaniach przez współczynniki a® otrzymujemy:

Odejmij pierwsze od drugiego równania: 0,97a1=0,83; a1==0,86. Podstawiając wartości a1 do pierwszego równania ao+3*0,86 =6,5, znajdujemy ao=6,5-2,58=+3,92.

Równanie połączenia będzie miało postać: yx=3,92+0,86x. Podstawiając odpowiednie x do tego równania, otrzymujemy wartości wynikowej cechy, odzwierciedlające średnią zależność y od x w postaci zależności korelacyjnej.

Należy pamiętać, że kwoty obliczone za pomocą równania i rzeczywiste są sobie równe. Przedstawienie wartości rzeczywistych i obliczonych na ryc. 4 pokazuje, że równanie sprzężenia średnio odzwierciedla zaobserwowaną zależność.

5. Zależność paraboliczna między znakami . Zależność paraboliczna, wyrażona równaniem paraboli drugiego rzędu yx = ao + a1x + a2x 2, występuje przy przyspieszonym wzroście lub spadku efektywnej cechy w połączeniu z równomiernym wzrostem cechy silni.

Parametry równania paraboli a®; a1; a2, oblicza się rozwiązując układ 3 równań normalnych:

Weźmy na przykład zależność. miesięczny numer produkty (y) od wartości środków trwałych (x). Obie liczby zaokrąglono do najbliższego miliona rubli. Obliczenia wymaganych kwot podano w tabeli. 5.

Na podstawie danych w tabeli tworzymy układ równań:

6. Równanie hiperboli. Sprzężenie zwrotne wskazuje na spadek efektywnego atrybutu wraz ze wzrostem silni. Jest to zależność liniowa z ujemną wartością a1. W wielu innych przypadkach sprzężenie zwrotne można wyrazić za pomocą równania hiperboli

Parametry równania hiperboli ao i a1 znajdują się w układzie równań normalnych:

7. Tabela korelacji. Przy dużym wolumenie obserwacji, gdy liczba wzajemnie powiązanych par jest duża, sparowane dane można łatwo zlokalizować w tabeli korelacji, co jest najwygodniejszą formą przedstawienia znacznej liczby par liczb.

W tabeli korelacji jedna cecha znajduje się w wierszach, a druga w kolumnach tabeli. Liczba znajdująca się w komórce na przecięciu wykresu i kolumny pokazuje, jak często dana wartość cechy wypadkowej występuje w połączeniu z daną wartością cechy silni.

Aby uprościć obliczenia, przeprowadzimy niewielką liczbę obserwacji w 20 przedsiębiorstwach średniej miesięcznej produkcji na pracownika (tysiąc rubli) i kosztu trwałych aktywów produkcyjnych (miliony rubli).

W zwykłej sparowanej tabeli informacje te są ułożone w następujący sposób:

Sumy wierszy y pokazują częstotliwość cechy nу, sumy kolumny x pokazują częstotliwość cechy nx. Liczby w komórkach tabeli korelacji są częstotliwościami związanymi z obydwoma cechami i są oznaczone jako nxy.

Tabela korelacji daje nawet przy powierzchownej znajomości ogólny pomysł o linii prostej i informacja zwrotna. Jeżeli częstotliwości znajdują się ukośnie w dół w prawo, wówczas związek między charakterystykami jest bezpośredni (wraz ze wzrostem wartości cechy w rzędach i kolumnach). Jeśli częstotliwości znajdują się ukośnie w górę w prawo, połączenie jest odwrotne.

8. Relacja korelacyjna. Jeśli zjawisko mierzy się dwiema cechami, wówczas można znaleźć miary dyspersji (głównie dyspersji) na podstawie wynikowej charakterystyki dla tych samych wartości cechy silniowej.

Podano np. tabelę korelacji dwóch współzależnych szeregów, w której dla uproszczenia podano tylko trzy wartości cechy silniowej ilości zastosowanego nawozu (x) i uzyskaną charakterystykę – plon (y). – znacznie się waha. Tabela 16

Dla każdej grupy poletek o różnym plonie zastosowano inną ilość nawozu. Zatem przy stosowaniu nawozów w dawce 20 g/plon na różnych obszarach był równy: na jednym obszarze było to 0,8 tony, na dwóch – 0,9 tony, na trzech – 1,0 tony, a na jednym – 1,1 t. Obliczmy średni plon dyspersja plonów dla tej grupy działek.

Dla grupy poletek, na których zastosowano nawóz w ilości 30,0 g, średni plon wyniesie:

Obliczmy podobne charakterystyki dla grupy obszarów. otrzymało 40 ton nawozów:

Na podstawie tych danych można również wyznaczyć średni plon ze wszystkich 20 działek, niezależnie od ilości zastosowanego nawozu, czyli średnią ogólną:

oraz miara zmienności (rozproszenia) średniego plonu grup wokół średniej ogólnej. Rozproszenie to nazywa się dyspersją międzygrupową i oznacza się b 2

gdzie yi to średnie plony dla grup działek różniących się ilością zastosowanego nawozu; m1,m2,m3,-liczba grup. Wariancja międzygrupowa w tym przykładzie wynosi:

Wariancja międzygrupowa pokazuje rozproszenie występujące w wyniku atrybutu silni. W tym przykładzie Y= == 0,01&247 jest wskaźnikiem rozproszenia plonów wynikającego z różnicy w ilości zastosowanego nawozu.

Jednak oprócz rozproszenia międzygrupowego możliwe jest również obliczenie rozproszenia jako wskaźnika rozproszenia ze względu na inne czynniki (jeśli tak nazwiesz wszystkie inne czynniki z wyjątkiem nawozów). Wskaźnik ten będzie średnią (ważoną) wartością wskaźników rozproszenia (wariancji) dla grup obiektów

W praktyce oznacza to, że możliwe jest uzyskanie ogólnej miary rozproszenia (rozproszenia) dla wszystkich 20 poletek, jeśli dostępne są informacje o średnich i wariancjach dla grup poletek różniących się ilością zastosowanego nawozu. Zatem całkowita wariancja plonów dla 20 działek będzie wynosić;

Wzory do obliczania wariancji międzygrupowych i średnich grupowych można skrócić w następujący sposób:

Obliczenie wariancji całkowitej, wariancji wewnątrzgrupowej i międzygrupowej pozwala wyciągnąć pewne wnioski na temat stopnia wpływu atrybutu silniowego na zmienność atrybutu efektywnego. Tę miarę wpływu wyznacza się za pomocą relacji korelacji:

Oznacza to, że 78% zmienności plonu poletka zależy od zmienności ilości zastosowanego nawozu.

Liniowy współczynnik korelacji

Przy badaniu bliskości związku pomiędzy dwoma współzależnymi szeregami wykorzystuje się współczynnik korelacji liniowej, który pokazuje, czy i jak silny związek pomiędzy tymi szeregami istnieje. Może przyjmować wartości z zakresu od –1 do +1.

10. Skumulowany współczynnik korelacji :

,

Gdzie R- współczynniki korelacji liniowej, a indeksy dolne wskazują, pomiędzy którymi cechami są obliczane.

1) Współczynnik korelacji liniowej może przyjmować wartości od –1 do +1.

2) Jeśli , to połączenie między cechami jest funkcjonalne, tj. na charakterystykę efektywną wpływa tylko rozpatrywana cecha silniowa i nic więcej, jeśli r = 0, to nie ma związku między cechami.

3) Jeśli R> 0, to związek między cechami jest bezpośredni, jeśli R< 0, то связь – обратная.

4) Przydziel następujące przedziały dla R:

pomiędzy znakami praktycznie nie ma żadnego związku;

połączenie jest słabe;

połączenie jest umiarkowane;

połączenie jest mocne.

Ryż. 2. Przykłady lokalizacji punktów na wykresie i wartości współczynnika korelacji

Dla ocena istotności współczynnika korelacji liniowej R używać T– Test t-Studenta. W tym przypadku stawia się hipotezę, że współczynnik korelacji jest równy zeru.

Testowanie hipotez:

1. Oblicz rzeczywiste wartości T- kryteria dla R:

(ten wzór jest stosowany w przypadku małej próby).

2. Według tabeli T- Wyznacza się rozkład Studenta, biorąc pod uwagę przyjęty poziom istotności lub liczbę stopni swobody.

3. Jeżeli , to hipoteza zostaje odrzucona, co wskazuje na istotność współczynnika korelacji.

Związek korelacyjny określone wzorami:

η = lub η = ,

gdzie jest wariancją międzygrupową wynikowej cechy spowodowaną wpływem cechy czynnikowej;

– całkowity rozrzut atrybutu wypadkowego;

– średnia wariancji wewnątrzgrupowych uzyskanej cechy.

Obliczenie zależności korelacyjnej wymaga dość dużej ilości informacji, które należy przedstawić w formie tabeli grupowej lub w formie tabeli korelacji, tj. warunek wstępny to grupowanie danych według współczynnika atrybutu.

Dla danych niezgrupowanych empiryczny współczynnik korelacji można obliczyć korzystając ze wzoru:

.

gdzie y – empiryczne (rzeczywiste) wartości wynikowej charakterystyki;

– średnia wartość charakterystyki czynnej;

– wyrównane wartości otrzymanej charakterystyki, obliczone za pomocą równania analitycznego.

Kwadrat współczynnika korelacji (), a w przypadku relacji parami nazywany jest kwadratem korelacji liniowej (). współczynnik determinacji (przyczynowość), odzwierciedla udział wariancji czynnika w wariancji całkowitej.

Współczynnik determinacji (D) pokazuje, o ile procent zmiana średniej wartości wynikowej cechy jest zdeterminowana wpływem tej cechy czynnikowej.

W praktyce do określenia stopnia bliskości połączenia można zastosować inne wskaźniki.

Elementarną cechą stopnia bliskości połączenia jest Współczynnik Fechnera :

,

Gdzie nie– liczba zbieżności znaków odchyleń poszczególnych wartości cechy czynnikowej X i wynikowy znak Na na podstawie ich średniej arytmetycznej (na przykład „plus” i „plus”, „minus” i „minus”, „brak odchylenia” i „brak odchylenia”);

n b– liczba rozbieżności w znakach odchyleń poszczególnych wartości cech od wartości ich średniej arytmetycznej.

Współczynnik Fechnera stosuje się, gdy ilość informacji początkowej jest niewielka. Waha się od –1 do 1.

Aby określić bliskość związku między cechami ilościowymi i jakościowymi, pod warunkiem, że wartości tych cech można uszeregować w porządku rosnącym lub malejącym, stosuje się Współczynnik korelacji rang Spearmana :

,

Gdzie ja– różnica między wartościami rang cechy czynnikowej i charakterystyką wynikową;

N– liczba wskaźników (rankingów) badanego szeregu.

Waha się od –1 do 1.

Koniec pracy -

Ten temat należy do działu:

Statystyka

Państwowy Uniwersytet Humanitarny Vyatka.. m a kunilova o o antonenko..

Jeśli potrzebujesz dodatkowych materiałów na ten temat lub nie znalazłeś tego czego szukałeś, polecamy skorzystać z wyszukiwarki w naszej bazie dzieł:

Co zrobimy z otrzymanym materiałem:

Jeśli ten materiał był dla Ciebie przydatny, możesz zapisać go na swojej stronie w sieciach społecznościowych:

Wszystkie tematy w tym dziale:

Wartości krytyczne testu F Fishera
k1 k2 Poziom istotności

Różne zjawiska gospodarcze, zarówno na poziomie mikro, jak i makro, nie są niezależne, ale są ze sobą powiązane (cena produktu i popyt na niego, wielkość produkcji i zysk przedsiębiorstwa itp.).

Zależność ta może mieć charakter ściśle funkcjonalny (deterministyczny) i statystyczny.

Zależność między i nazywa się funkcjonalną, gdy każda wartość jednej cechy odpowiada jednej wartości innej cechy. (Przykładem takiej wyjątkowej zależności jest zależność pola koła od promienia.)

W rzeczywistości inne powiązanie między zjawiskami jest bardziej powszechne, gdy każda wartość jednej cechy może odpowiadać kilku wartościom drugiej (na przykład związek między wiekiem dzieci a ich wzrostem).

Forma powiązania, w której jeden lub więcej powiązanych ze sobą wskaźników (czynników) wpływa na inny wskaźnik (wynik) nie jednoznacznie, ale z pewnym stopniem prawdopodobieństwa, nazywa się statystyczną. W szczególności, jeśli przy zmianie jednej z wielkości zmienia się średnia wartość drugiej, wówczas w tym przypadku zależność statystyczną nazywa się korelacją.

W zależności od liczby czynników uwzględnionych w modelu rozróżnia się korelację parami (zależność między dwiema zmiennymi) i korelację wielokrotną (zależność wyniku od kilku czynników).

Analiza korelacji polega na określeniu kierunki, formy i stopnie powiązania (bliskość) pomiędzy dwiema (kiloma) losowymi cechami i.

W kierunku korelacja jest dodatnia (bezpośrednia), jeśli wraz ze wzrostem wartości jednej zmiennej wzrasta wartość drugiej, i ujemna (odwrotna), jeśli wraz ze wzrostem wartości jednej zmiennej wartość drugiej maleje .

W formie zależność korelacyjna może być liniowa (prosta), gdy zmiana wartości jednej cechy prowadzi do równomiernej zmiany drugiej (matematycznie opisanej równaniem linii prostej) i krzywoliniowa, gdy zmiana wartości jednej cechy prowadzi do nierównych zmian w drugiej (matematycznie opisuje się to równaniami linii krzywych, na przykład hiperbolami, parabolami itp.).

Najprostszą formą zależności między zmiennymi jest zależność liniowa. A sprawdzenie obecności takiej zależności, ocena jej wskaźników i parametrów jest jednym z najważniejszych obszarów ekonometrii.

Istnieją specjalne metody statystyczne i odpowiednio wskaźniki, których wartości w określony sposób wskazują na obecność lub brak liniowej zależności między zmiennymi.

Liniowy współczynnik korelacji

Najprostszym, przybliżonym sposobem identyfikacji korelacji jest metoda graficzna.

Przy małej próbie dane eksperymentalne są prezentowane w postaci dwóch serii wzajemnie powiązanych wartości i. Jeżeli każdą parę przedstawimy jako punkt na płaszczyźnie, wówczas otrzymamy tzw. pole korelacyjne (rys. 1).

Jeżeli pole korelacji jest elipsą, której oś przebiega od lewej do prawej i od dołu do góry (rys. 1c), to możemy założyć, że pomiędzy cechami istnieje liniowa dodatnia zależność.

Jeśli pole korelacji rozciągnie się wzdłuż osi od lewej do prawej i od góry do dołu (rys. 1d), wówczas można założyć istnienie liniowego połączenia ujemnego.

Jeżeli punkty obserwacyjne są rozmieszczone chaotycznie na płaszczyźnie, tzn. pole korelacji tworzy okrąg (rys. 1a), to świadczy to o braku powiązania pomiędzy cechami.

Rysunek 1b pokazuje ścisłą liniową zależność funkcjonalną.

Ścisły związek między dwiema wielkościami rozumiany jest jako stopień ich sprzężenia, który ujawnia się wraz ze zmianą badanych wielkości. Jeśli każdej podanej wartości odpowiadają wartości, które są sobie bliskie, wówczas związek uważa się za bliski (silny); jeśli wartości są szeroko rozproszone, wówczas związek uważa się za mniej bliski. Przy ścisłym połączeniu korelacyjnym pole korelacji jest mniej lub bardziej skompresowaną elipsą.

Ilościowym kryterium kierunku i szczelności zależności liniowej jest współczynnik korelacja liniowa.

Współczynnik korelacji określony na podstawie przykładowych danych nazywany jest współczynnikiem korelacji próbki. Oblicza się go według wzoru:

gdzie, aktualne wartości funkcji i; i średnie arytmetyczne wartości cech; - średnia arytmetyczna iloczynów wariantu i odchylenia standardowe tych cech; wielkość próbki.


Do obliczenia współczynnika korelacji wystarczy przyjąć założenie o liniowej zależności pomiędzy charakterystykami losowymi. Wówczas obliczony współczynnik korelacji będzie miarą tej zależności liniowej.

Współczynnik korelacji liniowej przyjmuje wartości od ?1 w przypadku ścisłej liniowej zależności ujemnej do +1 w przypadku ścisłej liniowej zależności połączenie pozytywne(te.). Zbliżenie współczynnika korelacji do 0 wskazuje na brak liniowy powiązań między cechami, ale nie o ich całkowitym braku.

Współczynnikowi korelacji można nadać wizualną interpretację graficzną.

Jeżeli, to istnieje liniowa zależność funkcjonalna typu pomiędzy cechami, co oznacza pełną korelację cech. W linia prosta ma dodatnie nachylenie względem osi, w - ujemne (ryc. 1b).

Jeśli punkty znajdują się w obszarze ograniczona linia przypominający elipsę. Im bliższy jest współczynnik korelacji, tym węższa elipsa i tym bardziej punkty są skupione w pobliżu linii prostej. Kiedy mówią, że istnieje pozytywna korelacja. W tym przypadku wartości mają tendencję do wzrostu wraz ze wzrostem (ryc. 1c). Kiedy mówią o ujemnej korelacji; wartości mają tendencję do zmniejszania się wraz ze wzrostem (ryc. 1d).

Jeżeli, to punkty znajdują się w obszarze ograniczonym okręgiem. Oznacza to, że pomiędzy cechami losowymi nie ma korelacji i takie cechy nazywamy nieskorelowanymi (rys. 1a).

Również współczynnik korelacji liniowej może być bliski zeru, gdy istnieje związek między cechami, ale jest on nieliniowy (rys. 2).

Oceniając szczelność połączenia, możesz skorzystać z poniższej tabeli warunkowej:

Należy zauważyć, że licznik wzoru na przykładowy współczynnik korelacji liniowej wielkości i zawiera wskaźnik ich kowariancji:

Wskaźnik ten, podobnie jak współczynnik korelacji, charakteryzuje stopień liniowej zależności pomiędzy wielkościami i. Jeśli jest większa od zera, to związek między wielkościami jest dodatni, jeśli jest mniejszy od zera, to zależność jest ujemna, jeśli jest równa zero, nie ma zależności liniowej.

W odróżnieniu od współczynnika korelacji wskaźnik kowariancji jest znormalizowany – ma wymiar, a jego wartość zależy od jednostek miary i. W analizie statystycznej wskaźnik kowariancji jest zwykle stosowany jako element pośredni przy obliczaniu współczynnika korelacji liniowej. To. wzór na obliczenie współczynnika korelacji próbki przyjmuje postać:

Oszacowanie istotności (rzetelności) współczynnika korelacji

Należy zaznaczyć, że prawdziwym wskaźnikiem stopnia liniowego związku pomiędzy zmiennymi jest teoretyczny współczynnik korelacji, który obliczany jest na podstawie danych z całej populacji (tj. wszystkich możliwe wartości wskaźniki):

gdzie jest teoretycznym indeksem kowariancji, który jest obliczany jako oczekiwanie matematyczne produkty odchyleń SV i ich oczekiwań matematycznych.

Z reguły nie możemy obliczyć teoretycznego współczynnika korelacji. Jednak z faktu, że współczynnik próby nie jest równy zero, nie wynika, że ​​współczynnik teoretyczny również jest (tzn. wskaźniki mogą być liniowo niezależne). To. Na podstawie danych z próby losowej nie można stwierdzić, że pomiędzy wskaźnikami istnieje związek.

Współczynnik korelacji próbki jest oszacowaniem współczynnika teoretycznego, ponieważ jest on obliczany tylko dla części wartości zmiennych.

Zawsze występuje błąd we współczynniku korelacji. Błąd ten – rozbieżność pomiędzy współczynnikiem korelacji liczebności próby a współczynnikiem korelacji dla populacji ogólnej wyznacza się za pomocą wzorów:

Na; i o godz.

Testowanie istotności współczynnika korelacji liniowej oznacza testowanie, na ile możemy ufać przykładowym danym.

W tym celu testowana jest hipoteza zerowa, że ​​wartość współczynnika korelacji dla populacji jest równa zeru, tj. nie ma żadnej korelacji w populacji. Alternatywą jest hipoteza.

Aby przetestować tę hipotezę, oblicza się statystykę Studenta (-kryterium):

Który ma rozkład Studenta ze stopniami swobody. Określa się to za pomocą tabel rozkładu Studenta wartość krytyczna. Jeżeli obliczona wartość kryterium to hipoteza zerowa zostaje odrzucona, to znaczy obliczony współczynnik korelacji różni się z prawdopodobieństwem istotnie od zera.

Jeśli tak, to hipotezy zerowej nie można odrzucić. W tym przypadku możliwe jest, że prawdziwa wartość współczynnika korelacji wynosi zero, tj. związek pomiędzy wskaźnikami można uznać za nieistotny statystycznie.

Przykład 1. W tabeli przedstawiono dane za 8 lat dotyczące dochodów ogółem i wydatków na spożycie ogółem.

Badanie i pomiar bliskości zależności między danymi wskaźnikami.

Analiza korelacji dotyczy stopnia powiązania między dwoma elementami zmienne losowe X i Y.

Analiza korelacji danych eksperymentalnych dla dwóch zmiennych losowych obejmuje następujące podstawowe techniki:
1. Obliczanie współczynników korelacji próbek.
2. Sporządzenie tabeli korelacji.
3. Sprawdź hipoteza statystyczna znaczenie połączenia.

DEFINICJA. Zależność korelacyjną pomiędzy zmiennymi losowymi X i Y nazywa się korelacją liniową, jeśli obie funkcje regresji f(x) i φ(x) są liniowe. W tym przypadku obie linie regresji są proste; nazywane są liniami regresji.

Na tyle pełny opis cechy zależności korelacyjnej między wielkościami, nie wystarczy określić postać tej zależności iw tym przypadku zależność liniowa ocenić jego siłę poprzez wartość współczynnika regresji. Przykładowo widać, że korelacyjna zależność wieku Y uczniów szkół średnich od X roku ich nauki jest z reguły bliższa niż analogiczna zależność wieku uczniów szkół wyższych instytucja edukacyjna w zależności od roku studiów, gdyż wśród studentów tego samego roku studiów na uczelni występuje zazwyczaj większe zróżnicowanie wiekowe niż wśród uczniów tej samej klasy.

Aby ocenić bliskość zależności korelacji liniowej pomiędzy wartościami X i Y na podstawie wyników obserwacji przykładowych, wprowadza się pojęcie współczynnika korelacji liniowej próbki, określone wzorem:

gdzie σ X i σ Y są przykładowymi odchyleniami standardowymi wartości X i Y, które oblicza się za pomocą wzorów:

Należy zauważyć, że główne znaczenie współczynnika korelacji liniowej r B próbki polega na tym, że reprezentuje on empiryczną (tj. wynikającą z wyników obserwacji wartości X i Y) ocenę odpowiedniego ogólnego współczynnika korelacji liniowej r: r= r B (9 )

Biorąc pod uwagę wzory:

widzimy, że równanie próbkowania regresja liniowa Y na X wygląda następująco:

(10)

Gdzie . To samo można powiedzieć o przykładowych równaniach regresji liniowej X na Y:

(11)

Podstawowe właściwości współczynnika korelacji liniowej próbki:

1. Współczynnik korelacji dwóch wielkości, których nie łączy korelacja liniowa, jest równy zero.
2. Współczynnik korelacji dwóch wielkości powiązanych liniową zależnością korelacyjną wynosi 1 w przypadku zależności rosnącej i -1 w przypadku zależności malejącej.
3. Wartość absolutna współczynnik korelacji dwóch wielkości powiązanych liniową zależnością korelacyjną spełnia nierówność 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Im bliżej |r| do 1, tym bliższa jest liniowa korelacja między wartościami Y i X.

Ze swej natury korelacja może być bezpośrednia lub odwrotna, a według siły - silna, średnia, słaba. Ponadto połączenie może być nieobecne lub kompletne.

Siła i charakter zależności pomiędzy parametrami

Przykład 4. Zbadano zależność pomiędzy dwiema wielkościami Y i X. Wyniki obserwacji przedstawiono w tabeli w postaci dwuwymiarowej próbki o tomie 11:

X 68 37 50 53 75 66 52 65 74 65 54
Y 114 149 146 141 114 112 124 105 141 120 124

Wymagany:
1) Oblicz współczynnik korelacji próbki;
2) Ocenić charakter i siłę korelacji;
3) Napisz równanie regresji liniowej dla Y na X.

Rozwiązanie. Według znanych wzorów:

Zatem zgodnie z (7) i (8):

Należy zatem stwierdzić, że rozważana zależność korelacyjna pomiędzy wartościami X i Y ma charakter odwrotny i ma średnią siłę.

3) Równanie regresji liniowej Y na X:

Przykład 5. Zbadano zależność pomiędzy jakością Y (%) i ilością X (szt.). Wyniki obserwacji przedstawiono w formie tabeli korelacji:

Y\X 18 22 26 30 nie
70 5 5
75 7 46 1 54
80 29 72 101
85 29 8
90 3 3
n x 12 75 102 11 200

Wymagane jest obliczenie przykładowego współczynnika korelacji liniowej zależności Y od X.

Rozwiązanie. Aby uprościć obliczenia, przejdźmy do nowych zmiennych - opcji warunkowych (u i, v i), korzystając ze wzorów (*) (§3) z h 1 =4, h 2 =5, x 0 =26, y 0 =80. Dla wygody przepisujemy tę tabelę w nowej notacji:

u\v -2 -1 0 1 nw
-2 5 5
-1 7 46 1 54
0 29 72 101
1 29 8
2 3 3
ty 12 75 102 11 200

Mamy dla x i =u i i y j =v j:

Zatem:

Stąd,

Wniosek: Korelacja pomiędzy wartościami X i Y jest bezpośrednia i silna.



Nowość na stronie

>

Najpopularniejsze