Dom Jama ustna Jak sprawdzić istotność współczynników korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Jak sprawdzić istotność współczynników korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Ćwiczenia. Dla terytoriów regionu podawane są dane za rok 199X;
Numer regionu Średnia płaca wystarczająca na życie na jednego mieszkańca na dzień na jedną osobę pełnosprawną, rub., X Średnia dzienna płaca, rub., Na
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Wymagany:
1. Skonstruuj równanie liniowe regresji par y od x.
2. Oblicz współczynnik liniowy korelacja parami i średni błąd przybliżenia.
3. Oceniać istotność statystyczną parametrów regresji i korelacji.
4. Uruchom prognozę wynagrodzenie y z prognozowaną wartością przeciętnego poziomu utrzymania x na mieszkańca wynoszącą 107% poziomu średniego.
5. Ocenić trafność prognozy poprzez obliczenie błędu prognozy i jej przedziału ufności.

Rozwiązanie znaleźć za pomocą kalkulatora.
Stosowanie metoda graficzna .
Metodę tę stosuje się do wizualnego zobrazowania formy powiązania pomiędzy badanymi wskaźniki ekonomiczne. W tym celu rysuje się wykres w prostokątnym układzie współrzędnych, na osi rzędnych wykreśla się poszczególne wartości cechy wypadkowej Y, a na osi odciętych poszczególne wartości cechy współczynnika X.
Zbiór punktów charakterystyki wypadkowej i czynnikowej nazywa się pole korelacyjne.
Na podstawie pola korelacji możemy postawić hipotezę (dla populacji), że zależność pomiędzy wszystkimi możliwymi wartościami X i Y jest liniowa.
Równanie regresji liniowej to y = bx + a + ε
Tutaj ε jest błędem losowym (odchylenie, zakłócenie).
Przyczyny istnienia błędu losowego:
1. Brak uwzględnienia w modelu regresji istotnych zmiennych objaśniających;
2. Agregacja zmiennych. Na przykład funkcja konsumpcji całkowitej jest próbą ogólnego wyrażenia sumy indywidualnych decyzji dotyczących wydatków. Jest to jedynie przybliżenie poszczególnych relacji, które mają różne parametry.
3. Błędny opis struktury modelu;
4. Nieprawidłowa specyfikacja funkcjonalna;
5. Błędy pomiarowe.
Ponieważ odchylenia ε i dla każdej konkretnej obserwacji i są losowe, a ich wartości w próbie są nieznane, to:
1) z obserwacji x i oraz y i można uzyskać jedynie oszacowania parametrów α i β
2) Oszacowaniami parametrów α i β modelu regresji są odpowiednio wartości a i b, które mają charakter losowy, gdyż odpowiadają próbie losowej;
Wówczas estymujące równanie regresji (zbudowane z przykładowych danych) będzie miało postać y = bx + a + ε, gdzie e i są zaobserwowanymi wartościami (oszacowaniami) błędów ε i , a a i b są odpowiednio oszacowaniami parametry α i β modelu regresji, które należy znaleźć.
Do estymacji parametrów α i β stosuje się metodę najmniejszych kwadratów (metoda najmniejszych kwadratów).
Układ równań normalnych.
Dla naszych danych układ równań ma postać
Z pierwszego równania wyrażamy a i podstawiamy je do drugiego równania
Otrzymujemy b = 0,92, a = 76,98
Równanie regresji:
y = 0,92 x + 76,98

1. Parametry równania regresji.
Przykładowe środki.



Przykładowe odchylenia:


Odchylenie standardowe


Współczynnik korelacji
Obliczamy wskaźnik bliskości połączenia. Wskaźnikiem tym jest przykładowy współczynnik korelacji liniowej, który oblicza się ze wzoru:

Współczynnik korelacji liniowej przyjmuje wartości od –1 do +1.
Powiązania między cechami mogą być słabe i mocne (bliskie). Ich kryteria oceniane są według skali Chaddocka:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
W naszym przykładzie związek między średnią dzienną płacą a średnią płacą wystarczającą na życie na mieszkańca jest wysoki i bezpośredni.
1.2. Równanie regresji(oszacowanie równania regresji).

Równanie regresji liniowej to y = 0,92 x + 76,98
Współczynniki równania regresja liniowa można nadać sens ekonomiczny.
Współczynnik b = 0,92 pokazuje średnią zmianę efektywnego wskaźnika (w jednostkach miary y) wraz ze wzrostem lub spadkiem wartości współczynnika x na jednostkę jego miary. W tym przykładzie ze wzrostem o 1 pocieranie. dziennego poziomu utrzymania na mieszkańca, przeciętne dzienne wynagrodzenie wzrasta średnio o 0,92.
Współczynnik a = 76,98 formalnie pokazuje przewidywany poziom przeciętnego dziennego wynagrodzenia, ale tylko wtedy, gdy x=0 jest bliskie wartościom z próby.
Podstawiając odpowiednie wartości x do równania regresji, możemy wyznaczyć wyrównane (przewidywane) wartości wskaźnika wydajności y(x) dla każdej obserwacji.
Zależność przeciętnego dziennego wynagrodzenia od przeciętnego dziennego minimum egzystencji na mieszkańca wyznacza znak współczynnika regresji b (jeśli > 0 – zależność bezpośrednia, w przeciwnym razie – odwrotność). W naszym przykładzie połączenie jest bezpośrednie.
Współczynnik elastyczności.
Nie zaleca się stosowania współczynników regresji (w przykładzie b) do bezpośredniej oceny wpływu czynników na charakterystykę wypadkową, jeżeli występuje różnica w jednostkach miary wskaźnika wypadkowego y i charakterystyki czynnikowej x.
W tym celu obliczane są współczynniki elastyczności i współczynniki beta. Współczynnik elastyczności oblicza się ze wzoru:


Pokazuje, o jaki procent średnio zmienia się efektywny atrybut y, gdy atrybut współczynnika x zmienia się o 1%. Nie uwzględnia stopnia zmienności czynników.
Współczynnik elastyczności jest mniejszy niż 1. Zatem jeśli średni dzienny koszt utrzymania na mieszkańca zmieni się o 1%, przeciętne dzienne wynagrodzenie zmieni się o mniej niż 1%. Inaczej mówiąc, wpływ przeciętnego poziomu utrzymania X na mieszkańca na przeciętne dzienne wynagrodzenie Y jest nieistotny.
Współczynnik beta pokazuje, o jaką część wartości średniej odchylenie kwadratowe wartość średnia wynikowej charakterystyki ulegnie zmianie, gdy charakterystyka czynnikowa zmieni się o wartość jej odchylenia standardowego przy wartości pozostałych zmiennych niezależnych ustalonych na stałym poziomie:

Te. zwiększenie x o odchylenie standardowe tego wskaźnika będzie skutkować wzrostem przeciętnego dziennego wynagrodzenia Y o 0,721 odchylenia standardowego tego wskaźnika.
1.4. Błąd przybliżenia.
Oceńmy jakość równania regresji wykorzystując błąd przybliżenia bezwzględnego.


Ponieważ błąd jest mniejszy niż 15%, równanie to można zastosować jako regresję.
Współczynnik determinacji.
Kwadrat współczynnika (wielokrotnej) korelacji nazywany jest współczynnikiem determinacji, który pokazuje proporcję zmienności wynikowego atrybutu wyjaśnioną zmianą atrybutu czynnika.
Najczęściej przy interpretacji współczynnika determinacji wyraża się go w procentach.
R2 = 0,722 = 0,5199
te. w 51,99% przypadków zmiany przeciętnego poziomu utrzymania x na mieszkańca prowadzą do zmiany przeciętnego dziennego wynagrodzenia y. Innymi słowy, dokładność wyboru równania regresji jest średnia. Pozostałe 48,01% zmiany przeciętnego dziennego wynagrodzenia Y wyjaśnia się czynnikami nieuwzględnionymi w modelu.

X y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Estymacja parametrów równania regresji.
2.1. Znaczenie współczynnika korelacji.

Korzystając z tabeli Studenta z poziomem istotności α=0,05 i stopniami swobody k=10, znajdujemy tkryt:
t krytyczny = (10;0,05) = 1,812
gdzie m = 1 to liczba zmiennych objaśniających.
Jeżeli t zaobserwowane > t krytyczne, to otrzymaną wartość współczynnika korelacji uznaje się za istotną (odrzuca się hipotezę zerową mówiącą, że współczynnik korelacji jest równy zeru).
Ponieważ t obs > t kryty, odrzucamy hipotezę, że współczynnik korelacji jest równy 0. Inaczej mówiąc, współczynnik korelacji jest istotny statystycznie.
W sparowanej regresji liniowej t 2 r = t 2 b i następnie testowanie hipotez o istotności współczynników regresji i korelacji jest równoznaczne z testowaniem hipotezy o istotności równanie liniowe regresja.

2.3. Analiza dokładności wyznaczania estymatorów współczynników regresji.
Bezstronnym oszacowaniem rozproszenia zaburzeń jest wartość:


S 2 y = 157,4922 - niewyjaśniona wariancja (miara rozrzutu zmiennej zależnej wokół linii regresji).

12,5496 - błąd standardowy oszacowania (błąd standardowy regresji).
Sa - odchylenie standardowe zmienna losowa a.


S b - odchylenie standardowe zmiennej losowej b.


2.4. Przedziały ufności dla zmiennej zależnej.
Prognozowanie ekonomiczne w oparciu o skonstruowany model zakłada utrzymanie istniejących wcześniej zależności pomiędzy zmiennymi przez okres realizacji.
Aby przewidzieć zmienną zależną wynikowego atrybutu, należy znać przewidywane wartości wszystkich czynników uwzględnionych w modelu.
Przewidywane wartości czynników podstawia się do modelu i uzyskuje się predykcyjne oszacowania punktowe badanego wskaźnika.
(a + bx p ± ε)
Gdzie

Obliczmy granice przedziału, w którym skupi się 95%. możliwa wartość Y dla nieograniczonej liczby obserwacji i X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
Z prawdopodobieństwem 95% można zagwarantować, że wartość Y dla nieograniczonej liczby obserwacji nie wyjdzie poza granice znalezionych przedziałów.
2.5. Testowanie hipotez dotyczących współczynników równania regresji liniowej.
1) statystyka t. Test t-Studenta.
Sprawdźmy hipotezę H 0 o równości poszczególnych współczynników regresji do zera (jeśli alternatywa nie jest równa H 1) na poziomie istotności α=0,05.
t krytyczny = (10;0,05) = 1,812


Ponieważ 3,2906 > 1,812, potwierdza się istotność statystyczna współczynnika regresji b (odrzucamy hipotezę, że współczynnik ten jest równy zero).


Ponieważ 3,1793 > 1,812, potwierdza się istotność statystyczna współczynnika regresji a (odrzucamy hipotezę, że współczynnik ten jest równy zero).
Przedział ufności dla współczynników równania regresji.
Zdefiniujmy przedziały ufności współczynniki regresji, które przy 95% wiarygodności będą wyglądały następująco:
(b - t krytyczny S b ; b + t krytyczny S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t język=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Z prawdopodobieństwem 95% można stwierdzić, że wartość tego parametru będzie mieścić się w znalezionym przedziale.
2) Statystyka F. Kryterium Fishera.
Badanie istotności modelu regresji odbywa się za pomocą testu F Fishera, którego obliczoną wartość wyznacza się jako stosunek wariancji pierwotnej serii obserwacji badanego wskaźnika do bezstronnego oszacowania wariancji ciągu resztowego dla tego modelu.
Jeżeli obliczona wartość przy k1=(m) i k2=(n-m-1) stopniach swobody jest większa od wartości tabelarycznej na danym poziomie istotności, wówczas model uznaje się za istotny.

gdzie m jest liczbą czynników w modelu.
Stopień znaczenie statystyczne sparowaną regresję liniową przeprowadza się przy użyciu następującego algorytmu:
1. Postawiono hipotezę zerową, że równanie jako całość jest nieistotne statystycznie: H 0: R 2 = 0 na poziomie istotności α.
2. Następnie określ rzeczywistą wartość kryterium F:


gdzie m=1 dla regresji parami.
3. Wartość tabeli wyznaczana z tablic rozkładów Fishera dla danego poziomu istotności, biorąc pod uwagę liczbę stopni swobody dla całkowita kwota kwadraty (większa wariancja) wynosi 1, a liczba stopni swobody resztowej sumy kwadratów (mniejsza wariancja) w regresji liniowej wynosi n-2.
4. Jeśli rzeczywista wartość testu F jest mniejsza niż wartość z tabeli, wówczas mówią, że nie ma powodu do odrzucania hipotezy zerowej.
W przeciwnym wypadku hipoteza zerowa zostaje odrzucona, a hipoteza alternatywna dotycząca statystycznej istotności równania jako całości zostaje przyjęta z prawdopodobieństwem (1-α).
Wartość tabelaryczna kryterium o stopniach swobody k1=1 i k2=10, Fkp=4,96
Ponieważ rzeczywista wartość F > Fkp, współczynnik determinacji jest istotny statystycznie (znalezione oszacowanie równania regresji jest statystycznie wiarygodne).

Etap 3. Znalezienie relacji pomiędzy danymi

Korelacja liniowa

Ostatnim etapem zadania badania powiązań między zjawiskami jest ocena bliskości powiązania na podstawie wskaźników połączenie korelacyjne. Etap ten jest bardzo ważny dla rozpoznania zależności pomiędzy charakterystyką czynnikową i wykonawczą, a co za tym idzie, dla możliwości postawienia diagnozy i prognozy badanego zjawiska.

Diagnoza(z greckiej diagnozy rozpoznanie) - określenie istoty i cech stanu obiektu lub zjawiska na podstawie jego wszechstronnego badania.

Prognoza(z greckiej prognozy, przewidywania) - dowolna konkretna prognoza, ocena stanu dowolnego zjawiska w przyszłości (prognoza pogody, wynik wyborów itp.). Prognoza to naukowo oparta hipoteza dotycząca prawdopodobnego przyszłego stanu badanego systemu, obiektu lub zjawiska oraz wskaźników charakteryzujących ten stan. Prognozowanie – rozwój prognoz, specjalne Badania naukowe konkretne perspektywy rozwoju dowolnego zjawiska.

Przypomnijmy definicję korelacji:

Korelacja– zależność między zmiennymi losowymi, wyrażająca się tym, że rozkład jednej wartości zależy od wartości innej wartości.

Obserwuje się korelację nie tylko pomiędzy cechami ilościowymi, ale także jakościowymi. Istnieć różne drogi oraz wskaźniki oceny bliskości powiązań. Zatrzymamy się tylko na współczynnik korelacji par liniowych , który jest stosowany, gdy istnieje liniowa zależność między zmiennymi losowymi. W praktyce często zachodzi potrzeba określenia poziomu powiązania pomiędzy zmiennymi losowymi o nierównych wymiarach, dlatego pożądane jest posiadanie jakiejś bezwymiarowej charakterystyki tego powiązania. Taką cechą (miarą powiązania) jest współczynnik korelacji liniowej r xy, co jest określone przez wzór

Gdzie , .

Oznaczając i , możemy otrzymać następujące wyrażenie do obliczenia współczynnika korelacji

.

Jeśli wprowadzimy koncepcję znormalizowane odchylenie , który wyraża odchylenie skorelowanych wartości od średniej w ułamkach odchylenia standardowego:



wówczas wyrażenie na współczynnik korelacji przyjmie postać

.

Jeśli obliczysz współczynnik korelacji na podstawie końcowych wartości oryginalnych zmiennych losowych z tabeli obliczeniowej, wówczas współczynnik korelacji można obliczyć za pomocą wzoru

.

Właściwości współczynnika korelacji liniowej:

1). Współczynnik korelacji jest wielkością bezwymiarową.

2). |R| 1 GBP lub .

3). , a, b= const, – wartość współczynnika korelacji nie ulegnie zmianie, jeśli wszystkie wartości zmiennych losowych X i Y zostaną pomnożone (lub podzielone) przez stałą.

4). , a, b= const, – wartość współczynnika korelacji nie ulegnie zmianie, jeżeli wszystkie wartości zmiennych losowych X i Y zwiększą się (lub zmniejszą) o stałą.

5). Istnieje związek pomiędzy współczynnikiem korelacji a współczynnikiem regresji:

Wartości współczynników korelacji można interpretować w następujący sposób:

Ilościowe kryteria oceny bliskości komunikacji:

Do celów prognostycznych wartości z |r| > 0,7.

Współczynnik korelacji pozwala stwierdzić istnienie zależność liniowa pomiędzy dwiema zmiennymi losowymi, ale nie wskazuje, która ze zmiennych powoduje zmianę drugiej. W rzeczywistości związek między dwiema zmiennymi losowymi może istnieć bez związku przyczynowo-skutkowego między samymi wartościami, ponieważ zmiana obu zmiennych losowych może być spowodowana zmianą (wpływem) trzeciej.

Współczynnik korelacji r xy jest symetryczny względem branych pod uwagę zmiennych losowych X I Y. Oznacza to, że przy wyznaczaniu współczynnika korelacji jest zupełnie obojętne, która z wielkości jest niezależna, a która zależna.

Znaczenie współczynnika korelacji

Nawet dla niezależne ilości współczynnik korelacji może być różny od zera na skutek losowego rozproszenia wyników pomiarów lub małej próby zmiennych losowych. Należy zatem sprawdzić istotność współczynnika korelacji.

Na podstawie tego sprawdza się istotność współczynnika korelacji liniowej Test t-Studenta :

.

Jeśli T > t kr(P, rz-2), to współczynnik korelacji liniowej jest istotny, a co za tym idzie, istotna jest także zależność statystyczna X I Y.

.

Dla ułatwienia obliczeń stworzono tabele wartości granic ufności współczynników korelacji różne liczby stopnie swobody f = rz–2 (test dwustronny) i różne poziomy istotności A= 0,1; 0,05; 0,01 i 0,001. Korelację uznaje się za istotną, jeżeli obliczony współczynnik korelacji przekracza wartość granicy ufności współczynnika korelacji dla danego F I A.

Dla dużych N I A= 0,01 wartość granicy ufności współczynnika korelacji można obliczyć korzystając ze wzoru przybliżonego

.

Jak wielokrotnie podkreślano, aby wyciągnąć statystyczny wniosek o występowaniu lub braku korelacji pomiędzy badanymi zmiennymi, należy sprawdzić istotność współczynnika korelacji próby. Z uwagi na fakt, że rzetelność cech statystycznych, w tym współczynnika korelacji, zależy od liczebności próby, może dojść do sytuacji, w której o wartości współczynnika korelacji w całości decydują losowe wahania w próbie, na podstawie której jest ona obliczana . Jeżeli istnieje istotna zależność pomiędzy zmiennymi, współczynnik korelacji powinien być istotnie różny od zera. Jeżeli pomiędzy badanymi zmiennymi nie ma korelacji, wówczas współczynnik korelacji populacji wynosi zero. W badaniach praktycznych z reguły opierają się one na przykładowych obserwacjach. Jak każda cecha statystyczna, współczynnik korelacji próbki wynosi zmienna losowa, tj. jego wartości są losowo rozproszone wokół parametru populacji o tej samej nazwie (prawdziwa wartość współczynnika korelacji). Jeżeli pomiędzy zmiennymi nie ma korelacji, ich współczynnik korelacji w populacji wynosi zero. Jednak ze względu na losowy charakter rozpraszania zasadniczo możliwe są sytuacje, w których niektóre współczynniki korelacji obliczone na podstawie próbek z tej populacji będą różne od zera.

Czy zaobserwowane różnice można przypisać przypadkowym fluktuacjom w próbie, czy też odzwierciedlają one istotną zmianę warunków, w jakich kształtowały się relacje między zmiennymi? Jeżeli wartości współczynnika korelacji próbki mieszczą się w strefie rozproszenia,

ze względu na losowy charakter samego wskaźnika nie świadczy to o braku zależności. Można jedynie powiedzieć, że dane obserwacyjne nie zaprzeczają brakowi związku pomiędzy zmiennymi. Jeśli jednak wartość współczynnika korelacji próbki leży poza wspomnianą strefą rozproszenia, to dochodzą do wniosku, że jest ona istotnie różna od zera i możemy założyć, że istnieje statystyczna różnica między zmiennymi sensowne połączenie. Kryterium stosowane do rozwiązania tego problemu, oparte na rozkładzie różnych statystyk, nazywane jest kryterium istotności.

Procedura testowania istotności rozpoczyna się od sformułowania hipotezy zerowej B ogólna perspektywa polega to na tym, że pomiędzy parametrem próby a parametrem populacji nie ma istotnych różnic. Alternatywna hipoteza zakłada, że ​​pomiędzy tymi parametrami występują istotne różnice. Na przykład, testując obecność korelacji w populacji, hipoteza zerowa zakłada, że ​​prawdziwy współczynnik korelacji wynosi zero. Jeżeli w wyniku testu hipoteza zerowa jest nie do zaakceptowania, wówczas współczynnik korelacji próbki jest znacząco różny od zera (wartość zerowa hipotezę odrzuca się i przyjmuje alternatywę.Innymi słowy, założenie, że zmienne losowe są nieskorelowane w populacji należy uznać za bezpodstawne.I odwrotnie, jeśli na podstawie kryterium istotności zostanie przyjęta hipoteza zerowa, tj. w dopuszczalnej strefie rozproszenia losowego, to nie ma podstaw, aby uznać założenie o zmiennych nieskorelowanych w populacji za wątpliwe.

W teście istotności badacz ustala poziom istotności a, który daje praktyczną pewność, że błędne wnioski zostaną wyciągnięte tylko w bardzo rzadkich przypadkach. Poziom istotności wyraża prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona rzeczywiście prawdziwa. Oczywiście sensowne jest wybranie tego prawdopodobieństwa jak najmniejszego.

Niech będzie znany rozkład cechy próbki, który jest obiektywnym oszacowaniem parametru populacji. Wybrany poziom istotności a odpowiada zacienionym obszarom pod krzywą tego rozkładu (patrz rys. 24). Niezacieniony obszar pod krzywą rozkładu określa prawdopodobieństwo.Granice segmentów na osi odciętej pod zacienionymi obszarami nazywane są wartościami krytycznymi, a same segmenty tworzą obszar krytyczny, czyli obszar odrzucenia hipotezy.

W procedurze testowania hipotez charakterystyka próbki obliczona na podstawie wyników obserwacji jest porównywana z odpowiadającą jej wartością krytyczną. W tym przypadku należy rozróżnić obszary krytyczne jednostronne i dwustronne. Forma określenia obszaru krytycznego zależy od sformułowania problemu, kiedy badania statystyczne. Do porównywania parametru próbki i parametru populacji potrzebny jest dwustronny obszar krytyczny

należy oszacować wartość bezwzględną rozbieżności między nimi, tj. interesujące są zarówno dodatnie, jak i ujemne różnice między badanymi wielkościami. Gdy konieczne jest upewnienie się, że jedna wartość średnia jest ściśle większa lub mniejsza od drugiej, używany jest jednostronny obszar krytyczny (prawy lub lewy). Jest całkiem oczywiste, że dla tej samej wartości krytycznej poziom istotności przy zastosowaniu jednostronnego obszaru krytycznego jest mniejszy niż przy zastosowaniu dwustronnego obszaru krytycznego.

Ryż. 24. Testowanie hipotezy zerowej

Jeżeli rozkład cechy próbki jest symetryczny, to poziom istotności dwustronnego obszaru krytycznego jest równy a, a jednostronny obszar krytyczny jest równy y (patrz rys. 24). Ograniczmy się do ogólnego sformułowania problemu. Bardziej szczegółowo z teoretycznym uzasadnieniem testu hipotezy statystyczne możesz się spotkać literaturę specjalistyczną. Poniżej wskażemy jedynie kryteria istotności dla różne procedury, nie poprzestając na ich budowie.

Sprawdzając istotność współczynnika korelacji par, stwierdza się obecność lub brak korelacji pomiędzy badanymi zjawiskami. W przypadku braku powiązania współczynnik korelacji populacji wynosi zero.Procedurę weryfikacji rozpoczyna się od sformułowania hipotezy zerowej i alternatywnej:

Różnica między współczynnikiem korelacji próbki jest niewielka,

Różnica między nimi jest znacząca, dlatego też istnieje istotna zależność pomiędzy ich zmiennymi. Hipoteza alternatywna zakłada, że ​​musimy zastosować dwustronny obszar krytyczny.

Wspomniano już w rozdziale 8.1, że współczynnik korelacji próbki, przy pewnych założeniach, jest powiązany ze zmienną losową podlegającą rozkładowi Studenta ze stopniami swobody. Statystyki obliczone na podstawie przykładowych wyników

porównuje się z wartością krytyczną określoną z tablicy rozkładu Studenta na danym poziomie istotności a i stopniach swobody. Zasada stosowania kryterium jest następująca: jeżeli hipotezę zerową odrzucimy na poziomie istotności a, to znaczy, że związek pomiędzy zmiennymi jest istotny; jeśli wówczas przyjęta zostanie hipoteza zerowa na poziomie istotności a. Odchylenie wartości od można przypisać zmienności losowej. Przykładowe dane charakteryzują rozpatrywaną hipotezę jako bardzo możliwą i wiarygodną, ​​tj. hipoteza o braku związku nie budzi zastrzeżeń.

Procedura testowania hipotez jest znacznie uproszczona, jeśli zamiast statystyki zastosujemy wartości krytyczne współczynnika korelacji, które można wyznaczyć poprzez kwantyle rozkładu Studenta, podstawiając

Istnieją szczegółowe tabele wartości krytycznych, których fragment znajduje się w dodatku do tej książki (patrz tabela 6). Zasada testowania hipotezy w tym przypadku sprowadza się do następującej zasady: jeśli tak, to możemy stwierdzić, że związek pomiędzy zmiennymi jest istotny. Jeżeli tak, to wyniki obserwacji uznajemy za zgodne z hipotezą o braku związku.

Przetestujmy hipotezę o niezależności wydajności pracy od poziomu mechanizacji pracy, zgodnie z danymi podanymi w podrozdziale 4.1. Wcześniej obliczono, że z (8.38) otrzymujemy

Korzystając z tabeli rozkładu Studenta, znajdujemy wartość krytyczną tej statystyki: Ponieważ odrzucamy hipotezę zerową, popełniamy błąd tylko w 5% przypadków.

Ten sam wynik otrzymamy, jeśli porównamy z wartością krytyczną współczynnika korelacji znalezioną w odpowiedniej tabeli pod adresem

który ma -dystrybucję ze stopniami swobody. Następnie procedurę sprawdzania istotności przeprowadza się analogicznie do poprzedniej, stosując kryterium -.

Przykład

Na podstawie analizy ekonomicznej zjawisk zakładamy w populacji generalnej silny związek pomiędzy wydajnością pracy a poziomem mechanizacji pracy. Niech np. Alternatywnie w tym przypadku możemy postawić hipotezę, że współczynnik korelacji próbki Musimy zatem zastosować jednostronny obszar krytyczny. Z (8.40) wynika, że

Uzyskaną wartość porównujemy z wartością krytyczną.. Zatem na poziomie istotności 5% możemy założyć istnienie bardzo ścisłego związku pomiędzy badanymi cechami, tzn. dane wyjściowe pozwalają uznać za prawdopodobne, że

W podobny sposób sprawdza się istotność współczynników korelacji cząstkowej. Zmienia się tylko liczba stopni swobody, która staje się równa gdzie jest liczba zmiennych objaśniających. Wartość statystyki obliczona za pomocą wzoru

porównuje się z wartością krytyczną a znalezioną z tablicy rozkładów na poziomie istotności a i liczbą stopni swobody.Przyjęcie lub odrzucenie hipotezy o istotności współczynnika korelacji cząstkowej odbywa się według tej samej zasady, co opisano powyżej . Testowanie istotności można również przeprowadzić wykorzystując wartości krytyczne współczynnika korelacji zgodnie z (8.39), a także wykorzystując transformację Fishera (8.40).

Przykład

Sprawdźmy niezawodność statystyczna częściowe współczynniki korelacji obliczone w rozdziale 4.5 na poziomie istotności Poniżej wraz z częściowymi współczynnikami korelacji podano odpowiadające im obliczone i krytyczne wartości statystyczne

W związku z przyjęciem hipotezy o znaczeniu współczynników stwierdzamy, że istotny wpływ na wydajność pracy ma poziom mechanizacji pracy, pomijając wpływ średniego wieku pracowników (oraz średniego odsetka spełniania standardy). Różnica od zera pozostałych współczynników

korelacje częściowe można przypisać przypadkowym fluktuacjom w próbie, dlatego nie można na ich podstawie powiedzieć nic konkretnego na temat częściowych wpływów odpowiednich zmiennych.

Znaczenie współczynnika korelacji wielokrotnej ocenia się na podstawie wyniku procedury sprawdzania istotności współczynnika wielokrotne określenie. Omówimy to bardziej szczegółowo w następnej sekcji.

Często interesującym pytaniem jest: czy dwa współczynniki korelacji znacząco różnią się od siebie? Testując tę ​​hipotezę, zakłada się, że brane są pod uwagę te same cechy populacji jednorodnych; dane reprezentują wyniki niezależne testy; stosuje się współczynniki korelacji tego samego typu, tj. współczynniki korelacji parami lub współczynniki korelacji częściowej przy wykluczaniu tej samej liczby zmiennych.

Objętości dwóch próbek, z których obliczane są współczynniki korelacji, mogą być różne. Hipoteza zerowa: tj. współczynniki korelacji dwóch rozważanych populacji są równe. Hipoteza alternatywna: Hipoteza alternatywna zakłada, że ​​należy zastosować dwukierunkowy obszar krytyczny. Innymi słowy należy sprawdzić czy różnica jest istotnie różna od zera.Skorzystajmy ze statystyk mających w przybliżeniu rozkład normalny:

gdzie - wyniki przekształceń współczynników korelacji - objętości próbek. Reguła testowa: jeśli wówczas hipoteza zostanie odrzucona; jeśli wówczas hipoteza zostanie przyjęta.

Jeśli zostanie zaakceptowany, wartość

po przeliczeniu w oparciu o (8.6) służy jako sumaryczne oszacowanie współczynnika korelacji.Następnie hipotezę można sprawdzić za pomocą statystyki

mający rozkład normalny.

Przykład

Należy ustalić, czy stopień powiązania wydajności pracy z poziomem mechanizacji pracy różni się w przedsiębiorstwach tej samej branży, zlokalizowanych w różnych regionach kraju. Porównajmy przedsiębiorstwa zlokalizowane w dwóch obszarach. Niech współczynnik korelacji dla jednego z nich zostanie obliczony na próbie objętościowej (patrz podrozdział 4.1). Dla regionu Inny, obliczone na podstawie próbki objętościowej

Po przeliczeniu obu współczynników korelacji na wartości obliczamy korzystając z (8.42) wartości statystyki X:

Wartość krytyczna statystyki at wynosi Tym samym hipoteza zostaje przyjęta, tzn. na podstawie dostępnych próbek nie można stwierdzić istotnej różnicy pomiędzy współczynnikami korelacji. Co więcej, oba współczynniki korelacji są istotne.

Korzystając z (8.43) i (8.6) otrzymujemy sumaryczne oszacowanie współczynnika korelacji dla dwóch regionów:

Na koniec sprawdźmy hipotezę, czy sumaryczne oszacowanie współczynnika korelacji różni się istotnie od zera, korzystając ze statystyki (8.44):

Ponieważ co możemy stwierdzić, że w populacji ogólnej istnieje istotny związek między wydajnością pracy a poziomem mechanizacji pracy.

Kryterium X można stosować w różnych aspektach. Zatem zamiast regionów można brać pod uwagę różne branże, np. gdy konieczne jest ustalenie, czy różnice w sile badanych zależności pomiędzy wskaźnikami ekonomicznymi przedsiębiorstw należących do dwóch różnych branż są istotne.

Obliczmy na podstawie dwóch prób objętościowych współczynniki korelacji charakteryzujące ścisłą zależność wydajności pracy od poziomu mechanizacji pracy w przedsiębiorstwach należących do dwóch branż (dwie populacje ogólne). Z (8.42) otrzymujemy

Ponieważ odrzucamy hipotezę zerową. W związku z tym można stwierdzić, że istnieją istotne różnice w bliskości związku wydajności pracy z poziomem mechanizacji pracy w przedsiębiorstwach różnych branż. Będziemy kontynuować ten przykład w rozdziale 8.7, gdzie porównamy linie regresji skonstruowane dla dwóch populacji.

Analizując podane przykłady, jesteśmy przekonani, że uwzględnienie jedynie bezwzględnej różnicy porównywanych współczynników korelacji

(wielkości próbek są w obu przypadkach takie same) bez sprawdzenia istotności tej różnicy doprowadzi do błędnych wniosków. Potwierdza to potrzebę stosowania kryteriów statystycznych przy porównywaniu współczynników korelacji.

Procedurę porównywania dwóch współczynników korelacji można uogólnić większa liczba współczynniki z zastrzeżeniem powyższych warunków wstępnych. Hipotezę równości współczynników korelacji pomiędzy zmiennymi wyraża się następująco: Testuje się ją na podstawie współczynników korelacji obliczonych z próbek objętości z populacje ogólne. współczynniki korelacji są przeliczane na -wartości: Ponieważ w przypadek ogólny nieznanego, jego oszacowanie znajdujemy za pomocą wzoru, który jest uogólnieniem (8.43).

PRACA KURSOWA

Temat: Analiza korelacji

Wstęp

1. Analiza korelacji

1.1 Pojęcie korelacji

1.2 Generalna klasyfikacja korelacje

1.3 Pola korelacyjne i cel ich konstrukcji

1.4 Etapy analiza korelacji

1.5 Współczynniki korelacji

1,6 Znormalizowany współczynnik korelacji Bravaisa-Pearsona

1,7 Współczynnik korelacja rang Włócznik

1.8 Podstawowe właściwości współczynników korelacji

1.9 Sprawdzenie istotności współczynników korelacji

1.10 Wartości krytyczne współczynnik korelacji par

2. Planowanie eksperymentu wieloczynnikowego

2.1 Stan problemu

2.2 Określenie środka planu (poziom podstawowy) i poziomu zmienności czynnikowej

2.3 Konstrukcja macierzy planowania

2.4 Sprawdzenie jednorodności dyspersji i równoważności pomiarów w różnych seriach

2.5 Współczynniki równania regresji

2.6 Wariancja odtwarzalności

2.7 Sprawdzenie znaczenia współczynników równania regresji

2.8 Sprawdzenie adekwatności równania regresji

Wniosek

Bibliografia

WSTĘP

Planowanie eksperymentów to dyscyplina matematyczno-statystyczna badająca metody racjonalnej organizacji badań eksperymentalnych - od optymalny wybór czynników badanych i ustalenia faktycznego planu eksperymentu zgodnie z jego przeznaczeniem, do metod analizy wyników. Planowanie eksperymentów zapoczątkowano pracami angielskiego statystyka R. Fishera (1935), który podkreślał, że racjonalne planowanie eksperymentów zapewnia nie mniej znaczący wzrost dokładności szacunków niż optymalne przetwarzanie wyników pomiarów. W latach 60-tych XX wieku istniało współczesna teoria planowanie eksperymentu. Jej metody są ściśle powiązane z teorią aproksymacji funkcji i programowaniem matematycznym. Skonstruowano optymalne plany i zbadano ich właściwości dla szerokiej klasy modeli.

Planowanie eksperymentu – wybór planu eksperymentu spełniającego określone wymagania, zespół działań mających na celu opracowanie strategii eksperymentu (od uzyskania informacji apriorycznej do uzyskania wykonalnego modelu matematycznego lub ustalenia optymalne warunki). Jest to celowa kontrola eksperymentu, realizowana w warunkach niepełnej wiedzy o mechanizmie badanego zjawiska.

W procesie pomiarów, późniejszej obróbki danych, a także formalizacji wyników w postaci modelu matematycznego powstają błędy i następuje utrata części informacji zawartych w danych oryginalnych. Zastosowanie eksperymentalnych metod planowania pozwala określić błąd modelu matematycznego i ocenić jego adekwatność. Jeżeli dokładność modelu okaże się niewystarczająca, wówczas zastosowanie eksperymentalnych metod planowania umożliwia modernizację model matematyczny z dodatkowymi eksperymentami bez utraty wcześniejszych informacji i przy minimalnych kosztach.

Celem planowania eksperymentu jest znalezienie takich warunków i zasad przeprowadzania eksperymentów, w których przy najmniejszym nakładzie pracy możliwe jest uzyskanie rzetelnej i rzetelnej informacji o przedmiocie, a także przedstawienie tych informacji w zwartej i wygodnej formie z ilościową oceną dokładności.

Do głównych metod planowania stosowanych na różnych etapach badania należą:

Zaplanowanie eksperymentu przesiewowego, którego głównym znaczeniem jest wybranie z całego zbioru czynników grupy czynników istotnych, które będą podlegały dalszym szczegółowym badaniom;

Planowanie eksperymentu dla analiza wariancji, tj. sporządzanie planów obiektów z uwzględnieniem czynników jakościowych;

Planowanie eksperymentu regresyjnego, który pozwala uzyskać modele regresji(wielomian i inne);

Planowanie eksperymentu ekstremalnego, w którym głównym zadaniem jest optymalizacja eksperymentalna obiektu badawczego;

Planowanie podczas badania procesów dynamicznych itp.

Celem studiowania dyscypliny jest przygotowanie studentów do działalności produkcyjno-technicznej na ich specjalności z wykorzystaniem metod teorii planowania i nowoczesnych technologii informatycznych.

Cele dyscypliny: nauka nowoczesne metody planowanie, organizowanie i optymalizacja eksperymentów naukowych i przemysłowych, przeprowadzanie eksperymentów i przetwarzanie uzyskanych wyników.

1. ANALIZA KORELACJI

1.1 Pojęcie korelacji

Badacza często interesuje to, jak dwie lub więcej zmiennych są ze sobą powiązane w jednej lub większej liczbie badanych próbek. Na przykład, czy wzrost może mieć wpływ na wagę danej osoby lub czy ciśnienie krwi może wpływać na jakość produktu?

Ten rodzaj zależności między zmiennymi nazywa się korelacją lub korelacją. Korelacja to stała zmiana dwóch cech, odzwierciedlająca fakt, że zmienność jednej cechy jest zgodna ze zmiennością drugiej.

Wiadomo np., że przeciętnie istnieje dodatnia zależność pomiędzy wzrostem człowieka a jego masą ciała, a mianowicie, że im większy wzrost, tym większa waga człowieka. Istnieją jednak wyjątki od tej reguły, gdy są względne niscy ludzie Posiadać nadwaga i odwrotnie, astenicy, o wysokim wzroście, mają niską wagę. Powodem takich wyjątków jest to, że każdy biologiczny, fizjologiczny lub znak psychologiczny zdeterminowany wpływem wielu czynników: środowiskowych, genetycznych, społecznych, środowiskowych itp.

Powiązania korelacyjne to zmiany probabilistyczne, które można badać jedynie na reprezentatywnych próbach, stosując metody statystyki matematycznej. Obydwa terminy – związek korelacyjny i zależność korelacyjna – są często używane zamiennie. Zależność oznacza wpływ, połączenie - wszelkie skoordynowane zmiany, które można wyjaśnić setkami powodów. Powiązań korelacyjnych nie można uważać za dowód związku przyczynowo-skutkowego, wskazują one jedynie, że zmianom jednej cechy towarzyszą zwykle pewne zmiany drugiej.

Zależność korelacyjna - są to zmiany wprowadzające wartości jednej cechy do prawdopodobieństwa wystąpienia różne znaczenia kolejny znak.

Zadanie analizy korelacji sprowadza się do ustalenia kierunku (dodatniego lub ujemnego) i formy (liniowa, nieliniowa) zależności pomiędzy różnymi cechami, pomiaru jej bliskości i wreszcie sprawdzenia poziomu istotności uzyskanych współczynników korelacji.

Połączenia korelacyjne różnią się formą, kierunkiem i stopniem (siłą) .

Postać zależności korelacyjnej może być liniowa lub krzywoliniowa. Przykładowo związek pomiędzy liczbą sesji treningowych na symulatorze a liczbą poprawnie rozwiązanych problemów w sesji kontrolnej może być prosty. Przykładowo związek pomiędzy poziomem motywacji a efektywnością zadania może mieć charakter krzywoliniowy (rysunek 1). Wraz ze wzrostem motywacji najpierw wzrasta efektywność wykonania zadania, następnie osiągany jest optymalny poziom motywacji, który odpowiada maksymalnej efektywności wykonania zadania; Dalszemu wzrostowi motywacji towarzyszy spadek efektywności.

Rycina 1 - Zależność pomiędzy efektywnością rozwiązywania problemów a siłą tendencji motywacyjnych

Kierunkowo zależność korelacji może być dodatnia („bezpośrednia”) i ujemna („odwrotna”). Przy dodatniej korelacji liniowej wyższe wartości jednej cechy odpowiadają wyższym wartościom drugiej, a niższe wartości jednej cechy odpowiadają niskie wartości inny (rysunek 2). Przy ujemnej korelacji zależności są odwrotne (rysunek 3). Przy dodatniej korelacji współczynnik korelacji ma znak pozytywny, z korelacją ujemną - znak ujemny.

Rysunek 2 – Korelacja bezpośrednia

Rysunek 3 – Odwrotna korelacja


Rysunek 4 – Brak korelacji

O stopniu, sile lub bliskości korelacji decyduje wartość współczynnika korelacji. Siła połączenia nie zależy od jego kierunku i jest określona przez wartość bezwzględną współczynnika korelacji.

1.2 Ogólna klasyfikacja korelacji

W zależności od współczynnika korelacji wyróżnia się następujące korelacje:

Silny lub bliski ze współczynnikiem korelacji r>0,70;

Średnia (przy 0,50

Umiarkowany (o 0.30

Słabe (przy 0,20

Bardzo słaby (przy r<0,19).

1.3 Pola korelacyjne i cel ich konstrukcji

Korelację bada się na podstawie danych eksperymentalnych, którymi są zmierzone wartości (x i, y i) dwóch cech. Jeśli danych eksperymentalnych jest mało, dwuwymiarowy rozkład empiryczny jest reprezentowany jako podwójny szereg wartości x i oraz y i. Jednocześnie zależność korelacyjną pomiędzy cechami można opisać na różne sposoby. Zgodność między argumentem a funkcją można przedstawić za pomocą tabeli, wzoru, wykresu itp.

Analiza korelacji, podobnie jak inne metody statystyczne, opiera się na wykorzystaniu modeli probabilistycznych opisujących zachowanie badanych cech w określonej populacji ogólnej, z której uzyskuje się wartości eksperymentalne xi oraz y i. Badając korelację między cechami ilościowymi, których wartości można dokładnie zmierzyć w jednostkach skali metrycznej (metry, sekundy, kilogramy itp.), Bardzo często przyjmuje się dwuwymiarowy model populacji o rozkładzie normalnym. Model taki przedstawia zależność pomiędzy zmiennymi x i oraz y i w sposób graficzny w postaci geometrycznego położenia punktów w układzie współrzędnych prostokątnych. Ta zależność graficzna nazywana jest także wykresem rozrzutu lub polem korelacji.
Ten model dwuwymiarowego rozkładu normalnego (pola korelacji) pozwala nam podać jasną graficzną interpretację współczynnika korelacji, ponieważ rozkład ogółem zależy od pięciu parametrów: μ x, μ y – wartości średnie (oczekiwania matematyczne); σ x ,σ y – odchylenia standardowe zmiennych losowych X i Y oraz p – współczynnik korelacji, będący miarą związku pomiędzy zmiennymi losowymi X i Y.
Jeśli p = 0, to wartości x i , y i uzyskane z dwuwymiarowej populacji normalnej znajdują się na wykresie we współrzędnych x, y w obszarze ograniczonym okręgiem (ryc. 5, a). W tym przypadku nie ma korelacji pomiędzy zmiennymi losowymi X i Y i nazywa się je nieskorelowanymi. Dla dwuwymiarowego rozkładu normalnego brak korelacji oznacza jednocześnie niezależność zmiennych losowych X i Y.

W badaniach naukowych często istnieje potrzeba znalezienia powiązania między zmiennymi wynikowymi a zmiennymi czynnikowymi (plonami upraw i ilością opadów, wzrostem i wagą osoby w jednorodnych grupach według płci i wieku, tętnem i temperaturą ciała). itp.).

Drugie to znaki, które przyczyniają się do zmian w tych z nimi związanych (pierwszy).

Pojęcie analizy korelacji

Jest ich wiele. Na podstawie powyższego można powiedzieć, że analiza korelacji to metoda służąca do sprawdzenia hipotezy o istotności statystycznej dwóch lub więcej zmiennych, jeśli badacz może je zmierzyć, ale nie może ich zmienić.

Istnieją inne definicje omawianego pojęcia. Analiza korelacji to metoda przetwarzania polegająca na badaniu współczynników korelacji między zmiennymi. W tym przypadku porównuje się współczynniki korelacji pomiędzy jedną parą lub wieloma parami cech w celu ustalenia statystycznych zależności między nimi. Analiza korelacji to metoda badania zależności statystycznej między zmiennymi losowymi z opcjonalnym występowaniem ścisłego charakteru funkcjonalnego, w której dynamika jednej zmiennej losowej prowadzi do dynamiki matematycznych oczekiwań drugiej.

Pojęcie fałszywej korelacji

Prowadząc analizę korelacji należy wziąć pod uwagę, że można ją przeprowadzić w odniesieniu do dowolnego zbioru cech, często absurdalnych względem siebie. Czasami nie mają ze sobą żadnego związku przyczynowego.

W tym przypadku mówią o fałszywej korelacji.

Problemy analizy korelacji

W oparciu o powyższe definicje można sformułować następujące zadania opisywanej metody: uzyskanie informacji o jednej z poszukiwanych zmiennych za pomocą innej; określić bliskość związku pomiędzy badanymi zmiennymi.

Analiza korelacji polega na określeniu zależności pomiędzy badanymi cechami, dlatego też zadania analizy korelacji można uzupełnić o:

  • identyfikacja czynników mających największy wpływ na uzyskaną charakterystykę;
  • identyfikacja niezbadanych wcześniej przyczyn powiązań;
  • budowa modelu korelacji wraz z jego analizą parametryczną;
  • badanie znaczenia parametrów komunikacyjnych i ocena ich interwałów.

Związek analizy korelacji z regresją

Metoda analizy korelacji często nie ogranicza się do znalezienia bliskości zależności między badanymi wielkościami. Czasami uzupełnia się go zestawieniem równań regresji, które uzyskuje się za pomocą analizy o tej samej nazwie i które stanowią opis zależności korelacyjnej między wynikiem a cechą (cechami) czynnika (czynnika). Metoda ta wraz z analizowaną analizą stanowi metodę

Warunki stosowania metody

Czynniki skuteczne zależą od jednego do kilku czynników. Metodę analizy korelacji można zastosować w przypadku dużej liczby obserwacji dotyczących wartości wskaźników efektywnych i czynnikowych (czynników), przy czym badane czynniki muszą mieć charakter ilościowy i mieć odzwierciedlenie w konkretnych źródłach. Pierwszą z nich można wyznaczyć na podstawie prawa normalnego – w tym przypadku wynikiem analizy korelacji są współczynniki korelacji Pearsona lub, jeżeli cechy nie spełniają tego prawa, stosuje się współczynnik korelacji rang Spearmana.

Zasady doboru czynników analizy korelacji

Stosując tę ​​metodę, konieczne jest określenie czynników wpływających na wskaźniki wydajności. Dobiera się je z uwzględnieniem faktu, że pomiędzy wskaźnikami muszą istnieć związki przyczynowo-skutkowe. W przypadku tworzenia wieloczynnikowego modelu korelacji wybiera się te, które mają istotny wpływ na wynikowy wskaźnik, przy czym lepiej nie uwzględniać w modelu korelacji czynników współzależnych, których współczynnik korelacji par jest większy niż 0,85, a także tych, które dla których związek z parametrem wynikowym nie ma charakteru liniowego ani funkcjonalnego.

Wyświetlanie wyników

Wyniki analizy korelacji można przedstawić w formie tekstowej i graficznej. W pierwszym przypadku są one prezentowane jako współczynnik korelacji, w drugim – w formie diagramu punktowego.

W przypadku braku korelacji pomiędzy parametrami punkty na diagramie są rozmieszczone chaotycznie, średni stopień powiązania charakteryzuje się większym stopniem uporządkowania i charakteryzuje się mniej więcej równomierną odległością zaznaczonych znaków od mediany. Silne połączenie jest zwykle proste, a przy r=1 wykres punktowy jest linią płaską. Odwrotna korelacja różni się kierunkiem wykresu od lewego górnego do prawego dolnego rogu, korelacja bezpośrednia - od lewego dolnego rogu do prawego górnego rogu.

Reprezentacja 3D wykresu punktowego

Oprócz tradycyjnego wyświetlania wykresu punktowego 2D, obecnie używana jest graficzna reprezentacja analizy korelacji 3D.

Wykorzystywana jest również macierz wykresów rozrzutu, która wyświetla wszystkie sparowane wykresy na jednym rysunku w formacie macierzowym. Dla n zmiennych macierz zawiera n wierszy i n kolumn. Wykres znajdujący się na przecięciu i-tego wiersza i j-tej kolumny jest wykresem zmiennych Xi względem Xj. Zatem każdy wiersz i kolumna ma jeden wymiar, a pojedyncza komórka wyświetla wykres rozrzutu dwóch wymiarów.

Ocena szczelności połączenia

O bliskości powiązania korelacji decyduje współczynnik korelacji (r): silna – r = ±0,7 do ±1, średnia – r = ±0,3 do ±0,699, słaba – r = 0 do ±0,299. Klasyfikacja ta nie jest ścisła. Na rysunku przedstawiono nieco inny schemat.

Przykład zastosowania metody analizy korelacji

Ciekawe badanie przeprowadzono w Wielkiej Brytanii. Poświęcono je powiązaniu między paleniem tytoniu a rakiem płuc i przeprowadzono je na podstawie analizy korelacji. Obserwację tę przedstawiono poniżej.

Wstępne dane do analizy korelacji

Grupa profesjonalna

śmiertelność

Rolnicy, leśnicy i rybacy

Górnicy i pracownicy kamieniołomów

Producenci gazu, koksu i chemikaliów

Producenci szkła i ceramiki

Pracownicy pieców, kuźni, odlewni i walcowni

Pracownicy elektrycy i elektronicy

Zawody inżynierskie i pokrewne

Przemysł drzewny

Kaletnicy

Pracownicy tekstylni

Producenci odzieży roboczej

Pracownicy branży spożywczej, napojów i tytoniowej

Producenci papieru i druku

Producenci innych produktów

Budowniczowie

Malarze i dekoratorzy

Kierowcy silników stacjonarnych, dźwigów itp.

Pracownicy nieuwzględnieni gdzie indziej

Pracownicy transportu i komunikacji

Pracownicy magazynów, magazynierzy, pakowacze i pracownicy maszyn rozlewniczych

Pracownicy biurowi

Sprzedawców

Pracownicy sportu i rekreacji

Administratorzy i menedżerowie

Profesjonaliści, technicy i artyści

Rozpoczynamy analizę korelacji. Dla przejrzystości lepiej zacząć rozwiązanie od metody graficznej, dla której skonstruujemy diagram punktowy.

Pokazuje bezpośrednie połączenie. Trudno jednak wyciągnąć jednoznaczny wniosek na podstawie samej metody graficznej. Dlatego będziemy kontynuować analizę korelacji. Poniżej przedstawiono przykład obliczenia współczynnika korelacji.

Korzystając z oprogramowania (na przykładzie MS Excel zostanie opisany poniżej) wyznaczamy współczynnik korelacji, który wynosi 0,716, co oznacza silny związek pomiędzy badanymi parametrami. Określmy rzetelność statystyczną otrzymanej wartości korzystając z odpowiedniej tabeli, dla której od 25 par wartości należy odjąć 2, w rezultacie otrzymamy 23 i korzystając z tej linii w tabeli znajdujemy r krytyczne dla p = 0,01 (ponieważ są to dane medyczne, zależność bardziej rygorystyczna, w pozostałych przypadkach wystarczy p=0,05), co dla tej analizy korelacji wynosi 0,51. Na przykładzie pokazano, że obliczone r jest większe od r krytycznego, a wartość współczynnika korelacji uważa się za statystycznie wiarygodną.

Korzystanie z oprogramowania przy przeprowadzaniu analizy korelacji

Opisany rodzaj przetwarzania danych statystycznych może być realizowany przy wykorzystaniu oprogramowania, w szczególności MS Excel. Korelacja polega na obliczeniu następujących parametrów za pomocą funkcji:

1. Współczynnik korelacji wyznacza się za pomocą funkcji CORREL (tablica1; tablica2). Tablica1,2 - komórka przedziału wartości zmiennych wynikowych i czynnikowych.

Współczynnik korelacji liniowej nazywany jest także współczynnikiem korelacji Pearsona, dlatego począwszy od Excela 2007 można używać tej funkcji z tymi samymi tablicami.

Graficzne przedstawienie analizy korelacji w programie Excel odbywa się za pomocą panelu „Wykresy” z opcją „Wykres punktowy”.

Po podaniu danych początkowych otrzymujemy wykres.

2. Ocena istotności współczynnika korelacji parami za pomocą testu t-Studenta. Obliczoną wartość kryterium t porównuje się z tabelaryczną (krytyczną) wartością tego wskaźnika z odpowiedniej tabeli wartości rozpatrywanego parametru, biorąc pod uwagę określony poziom istotności i liczbę stopni swobody. Oszacowanie to przeprowadza się za pomocą funkcji STUDISCOVER(prawdopodobieństwo; stopnie_wolności).

3. Macierz współczynników korelacji par. Analizę przeprowadza się za pomocą narzędzia Analiza danych, w którym wybrana jest opcja Korelacja. Statystyczną ocenę współczynników korelacji par przeprowadza się poprzez porównanie jej wartości bezwzględnej z wartością tabelaryczną (krytyczną). Jeżeli obliczony współczynnik korelacji parami przekracza wartość krytyczną, to przy danym stopniu prawdopodobieństwa można powiedzieć, że hipoteza zerowa o istotności zależności liniowej nie zostaje odrzucona.

Wreszcie

Zastosowanie metody analizy korelacji w badaniach naukowych pozwala określić związek pomiędzy różnymi czynnikami a wskaźnikami efektywności. Należy wziąć pod uwagę, że z absurdalnej pary lub zbioru danych można uzyskać wysoki współczynnik korelacji, dlatego tego typu analizę należy przeprowadzić na odpowiednio dużym zbiorze danych.

Po uzyskaniu obliczonej wartości r wskazane jest porównanie jej z r krytycznym w celu potwierdzenia wiarygodności statystycznej określonej wartości. Analizę korelacji można przeprowadzić ręcznie za pomocą wzorów lub przy użyciu oprogramowania, w szczególności MS Excel. W tym miejscu można również skonstruować diagram punktowy w celu wizualnego przedstawienia związku pomiędzy badanymi czynnikami analizy korelacji a uzyskaną charakterystyką.



Nowość na stronie

>

Najbardziej popularny