Dom Pokryty język Do sprawdzenia istotności statystycznej wykorzystuje się współczynnik korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Do sprawdzenia istotności statystycznej wykorzystuje się współczynnik korelacji. Test: Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Jak wielokrotnie podkreślano, aby wyciągnąć statystyczny wniosek o występowaniu lub braku korelacji pomiędzy badanymi zmiennymi, należy sprawdzić istotność współczynnika korelacji próby. Z uwagi na fakt, że rzetelność cech statystycznych, w tym współczynnika korelacji, zależy od liczebności próby, może dojść do sytuacji, w której o wartości współczynnika korelacji w całości decydują losowe wahania w próbie, na podstawie której jest ona obliczana . Jeżeli istnieje istotna zależność pomiędzy zmiennymi, współczynnik korelacji powinien być istotnie różny od zera. Jeżeli pomiędzy badanymi zmiennymi nie ma korelacji, wówczas współczynnik korelacji populacyjnej ρ wynosi zero. W badaniach praktycznych z reguły opierają się one na przykładowych obserwacjach. Jak każda cecha statystyczna, współczynnik korelacji próbki wynosi zmienna losowa, tj. jego wartości są losowo rozproszone wokół parametru populacji o tej samej nazwie (prawdziwa wartość współczynnika korelacji). W przypadku braku korelacji pomiędzy zmiennymi y i x współczynnik korelacji w populacji wynosi zero. Jednak ze względu na losowy charakter rozpraszania zasadniczo możliwe są sytuacje, w których niektóre współczynniki korelacji obliczone na podstawie próbek z tej populacji będą różne od zera.

Czy zaobserwowane różnice można przypisać przypadkowym fluktuacjom w próbie, czy też odzwierciedlają one istotną zmianę warunków, w jakich kształtowały się relacje między zmiennymi? Jeżeli wartości współczynnika korelacji próbki wpadają w strefę rozproszenia ze względu na losowy charakter samego wskaźnika, nie świadczy to o braku zależności. Można jedynie powiedzieć, że dane obserwacyjne nie zaprzeczają brakowi związku pomiędzy zmiennymi. Jeśli jednak wartość współczynnika korelacji próbki leży poza wspomnianą strefą rozproszenia, to dochodzą do wniosku, że jest on istotnie różny od zera i możemy przyjąć, że pomiędzy zmiennymi y i x istnieje statystycznie istotna zależność. Kryterium stosowane do rozwiązania tego problemu, oparte na rozkładzie różnych statystyk, nazywane jest kryterium istotności.

Procedura testowania istotności rozpoczyna się od sformułowania hipotezy zerowej H0 . Ogólnie rzecz biorąc, nie ma znaczących różnic między parametrem próby a parametrem populacji. Alternatywna hipoteza H1 jest to, że istnieją istotne różnice pomiędzy tymi parametrami. Na przykład podczas testowania korelacji w populacji hipoteza zerowa jest taka, że ​​prawdziwy współczynnik korelacji wynosi zero ( H0: ρ = 0). Jeżeli w wyniku testu okaże się, że hipoteza zerowa jest nie do przyjęcia, wówczas ustalany jest współczynnik korelacji próby RWow istotnie różny od zera (odrzuca się hipotezę zerową i przyjmuje się alternatywę). H1). Innymi słowy, założenie, że zmienne losowe w populacji są nieskorelowane, należy uznać za bezpodstawne. I odwrotnie, jeśli na podstawie testu istotności zostanie przyjęta hipoteza zerowa, tj. RWow leży w dopuszczalnej strefie rozproszenia losowego, to nie ma podstaw, aby uznać założenie o zmiennych nieskorelowanych w populacji za wątpliwe.

W testowaniu istotności badacz ustala poziom istotności α, który daje praktyczną pewność, że błędne wnioski zostaną wyciągnięte tylko w bardzo rzadkich przypadkach. Poziom istotności wyraża prawdopodobieństwo przyjęcia hipotezy zerowej H0 odrzucone, gdy jest to faktycznie prawda. Oczywiście sensowne jest wybranie tego prawdopodobieństwa jak najmniejszego.

Niech będzie znany rozkład cechy próbki, który jest obiektywnym oszacowaniem parametru populacji. Wybrany poziom istotności α odpowiada zacienionym obszarom pod krzywą tego rozkładu (patrz rys. 24). Niezacieniony obszar pod krzywą rozkładu określa prawdopodobieństwo P. = 1 - α . Granice segmentów na osi x pod zacienionymi obszarami nazywane są wartościami krytycznymi, a same segmenty tworzą obszar krytyczny, czyli obszar odrzucenia hipotezy.

W procedurze testowania hipotez charakterystyka próbki obliczona na podstawie wyników obserwacji jest porównywana z odpowiadającą jej wartością krytyczną. W tym przypadku należy rozróżnić obszary krytyczne jednostronne i dwustronne. Forma określenia obszaru krytycznego zależy od sformułowania problemu w badaniach statystycznych. Dwustronny obszar krytyczny jest niezbędny, gdy porównując parametr próby i parametr populacji, konieczne jest oszacowanie wartości bezwzględnej rozbieżności między nimi, to znaczy, że zarówno dodatnie, jak i ujemne różnice między badanymi wartościami mają odsetki. Gdy konieczne jest upewnienie się, że jedna wartość średnia jest ściśle większa lub mniejsza od drugiej, używany jest jednostronny obszar krytyczny (prawy lub lewy). Jest całkiem oczywiste, że dla tej samej wartości krytycznej poziom istotności przy zastosowaniu jednostronnego obszaru krytycznego jest mniejszy niż przy zastosowaniu dwustronnego obszaru krytycznego. Jeżeli rozkład charakterystyki próbki jest symetryczny,

Ryż. 24. Testowanie hipotezy zerowej H0

wówczas poziom istotności dwustronnego obszaru krytycznego jest równy α, a jednostronnego – (patrz ryc. 24). Ograniczmy się do ogólnego sformułowania problemu. Bardziej szczegółowe informacje na temat teoretycznych podstaw testowania hipotez statystycznych można znaleźć w literaturze specjalistycznej. Poniżej wskażemy jedynie kryteria istotności poszczególnych procedur, bez zajmowania się ich konstrukcją.

Sprawdzając istotność współczynnika korelacji par, stwierdza się obecność lub brak korelacji pomiędzy badanymi zjawiskami. Jeżeli nie ma połączenia, współczynnik korelacji populacji wynosi zero (ρ = 0). Procedurę weryfikacji rozpoczyna się od sformułowania hipotezy zerowej i alternatywnej:

H0: różnica między współczynnikiem korelacji próbki R i ρ = ​​0 jest nieistotne,

H1: różnica pomiędzy R i ρ = ​​0 jest istotne, a zatem pomiędzy zmiennymi Na I X istnieje istotne powiązanie. Hipoteza alternatywna zakłada, że ​​musimy zastosować dwustronny obszar krytyczny.

Wspomniano już w rozdziale 8.1, że współczynnik korelacji próby, przy pewnych założeniach, jest powiązany ze zmienną losową T, przestrzegając dystrybucji Studenta z F = rz- 2 stopnie swobody. Statystyki obliczone na podstawie przykładowych wyników

porównuje się z wartością krytyczną określoną z tablicy rozkładu Studenta na danym poziomie istotności α IF = rz- 2 stopnie swobody. Zasada stosowania kryterium jest następująca: jeżeli | T| >tf,A, to hipoteza zerowa na poziomie istotności α odrzucony, tj. związek między zmiennymi jest istotny; jeśli | T| ≤tf,A, wówczas przyjmuje się hipotezę zerową na poziomie istotności α. Odchylenie wartości R od ρ = 0 można przypisać losowej zmienności. Przykładowe dane charakteryzują rozpatrywaną hipotezę jako bardzo możliwą i wiarygodną, ​​tj. hipoteza o braku związku nie budzi zastrzeżeń.

Procedura testowania hipotezy jest znacznie uproszczona, jeśli zamiast statystyk T użyj wartości krytycznych współczynnika korelacji, które można wyznaczyć poprzez kwantyle rozkładu Studenta, podstawiając do (8.38) T= tf, a i R= ρ F, A:

(8.39)

Istnieją szczegółowe tabele wartości krytycznych, których fragment znajduje się w dodatku do tej książki (patrz tabela 6). Zasada testowania hipotezy w tym przypadku sprowadza się do: jeśli R> ρ F, i wówczas możemy stwierdzić, że związek pomiędzy zmiennymi jest istotny. Jeśli Rrf,A, wówczas wyniki obserwacji uznajemy za zgodne z hipotezą o braku związku.

Jak wielokrotnie podkreślano, aby wyciągnąć statystyczny wniosek o występowaniu lub braku korelacji pomiędzy badanymi zmiennymi, należy sprawdzić istotność współczynnika korelacji próby. Z uwagi na fakt, że rzetelność cech statystycznych, w tym współczynnika korelacji, zależy od liczebności próby, może dojść do sytuacji, w której o wartości współczynnika korelacji w całości decydują losowe wahania w próbie, na podstawie której jest ona obliczana . Jeżeli istnieje istotna zależność pomiędzy zmiennymi, współczynnik korelacji powinien być istotnie różny od zera. Jeżeli pomiędzy badanymi zmiennymi nie ma korelacji, wówczas współczynnik korelacji populacji wynosi zero. W badaniach praktycznych z reguły opierają się one na przykładowych obserwacjach. Jak każda cecha statystyczna, współczynnik korelacji próby jest zmienną losową, tj. jej wartości są losowo rozproszone wokół parametru populacji o tej samej nazwie (prawdziwa wartość współczynnika korelacji). Jeżeli pomiędzy zmiennymi nie ma korelacji, ich współczynnik korelacji w populacji wynosi zero. Jednak ze względu na losowy charakter rozpraszania zasadniczo możliwe są sytuacje, w których niektóre współczynniki korelacji obliczone na podstawie próbek z tej populacji będą różne od zera.

Czy zaobserwowane różnice można przypisać przypadkowym fluktuacjom w próbie, czy też odzwierciedlają one istotną zmianę warunków, w jakich kształtowały się relacje między zmiennymi? Jeżeli wartości współczynnika korelacji próbki mieszczą się w strefie rozproszenia,

ze względu na losowy charakter samego wskaźnika nie świadczy to o braku zależności. Można jedynie powiedzieć, że dane obserwacyjne nie zaprzeczają brakowi związku pomiędzy zmiennymi. Jeśli jednak wartość współczynnika korelacji próbki leży poza wspomnianą strefą rozproszenia, to dochodzą do wniosku, że jest ona istotnie różna od zera i możemy założyć, że istnieje statystyczna różnica między zmiennymi sensowne połączenie. Kryterium stosowane do rozwiązania tego problemu, oparte na rozkładzie różnych statystyk, nazywane jest kryterium istotności.

Procedura testu istotności rozpoczyna się od sformułowania hipotezy zerowej. Generalnie chodzi o to, że pomiędzy parametrem próby a parametrem populacji nie ma istotnych różnic. Alternatywna hipoteza zakłada, że ​​pomiędzy tymi parametrami występują istotne różnice. Na przykład podczas testowania obecności korelacji w populacji hipoteza zerowa zakłada, że ​​prawdziwy współczynnik korelacji wynosi zero. Jeśli w wyniku testu hipoteza zerowa jest nie do przyjęcia, wówczas współczynnik korelacji próbki jest znacząco różny od zera (wartość zerowa). hipoteza zostaje odrzucona, a przyjęta zostaje alternatywa. Innymi słowy, założenie, że zmienne losowe są w populacji nieskorelowane, należy uznać za bezpodstawne i odwrotnie, jeśli na podstawie kryterium istotności zostanie przyjęta hipoteza zerowa, czyli jest ona kłamliwa w dopuszczalnej strefie rozproszenia losowego, to nie ma podstaw, aby uznać założenie, że zmienne w populacji są nieskorelowane, za wątpliwe.

W teście istotności badacz ustala poziom istotności a, który daje praktyczną pewność, że błędne wnioski zostaną wyciągnięte tylko w bardzo rzadkich przypadkach. Poziom istotności wyraża prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona rzeczywiście prawdziwa. Oczywiście sensowne jest wybranie tego prawdopodobieństwa jak najmniejszego.

Niech będzie znany rozkład cechy próbki, który jest obiektywnym oszacowaniem parametru populacji. Wybrany poziom istotności a odpowiada zacienionym obszarom pod krzywą tego rozkładu (patrz rys. 24). Niezacieniony obszar pod krzywą rozkładu określa prawdopodobieństwo. Granice segmentów na osi odciętej pod zacienionymi obszarami nazywane są wartościami krytycznymi, a same segmenty tworzą obszar krytyczny, czyli obszar odrzucenia hipotezy.

W procedurze testowania hipotez charakterystyka próbki obliczona na podstawie wyników obserwacji jest porównywana z odpowiadającą jej wartością krytyczną. W tym przypadku należy rozróżnić obszary krytyczne jednostronne i dwustronne. Forma określenia obszaru krytycznego zależy od sformułowania problemu, kiedy badania statystyczne. Do porównywania parametru próbki i parametru populacji potrzebny jest dwustronny obszar krytyczny

należy oszacować wartość bezwzględną rozbieżności między nimi, tj. interesujące są zarówno dodatnie, jak i ujemne różnice między badanymi wielkościami. Gdy konieczne jest upewnienie się, że jedna wartość jest średnio znacznie większa lub mniejsza od drugiej, stosuje się jednostronny obszar krytyczny (prawy lub lewy). Jest całkiem oczywiste, że dla tej samej wartości krytycznej poziom istotności przy zastosowaniu jednostronnego obszaru krytycznego jest mniejszy niż przy zastosowaniu dwustronnego obszaru krytycznego.

Ryż. 24. Testowanie hipotezy zerowej

Jeżeli rozkład cechy próbki jest symetryczny, to poziom istotności dwustronnego obszaru krytycznego jest równy a, a jednostronny obszar krytyczny jest równy y (patrz rys. 24). Ograniczmy się do ogólnego sformułowania problemu. Bardziej szczegółowo z teoretycznym uzasadnieniem testu hipotezy statystyczne możesz się spotkać literaturę specjalistyczną. Poniżej wskażemy jedynie kryteria istotności dla różne procedury, nie poprzestając na ich budowie.

Sprawdzając istotność współczynnika korelacji par, stwierdza się obecność lub brak korelacji pomiędzy badanymi zjawiskami. W przypadku braku powiązania współczynnik korelacji populacji jest równy zeru. Procedurę weryfikacji rozpoczyna się od sformułowania hipotezy zerowej i alternatywnej:

Różnica między współczynnikiem korelacji próbki jest niewielka,

Różnica między nimi jest znacząca, dlatego też istnieje istotna zależność pomiędzy ich zmiennymi. Hipoteza alternatywna zakłada, że ​​musimy zastosować dwustronny obszar krytyczny.

Wspomniano już w podrozdziale 8.1, że współczynnik korelacji próbki, przy pewnych założeniach, jest powiązany ze zmienną losową podlegającą rozkładowi Studenta ze stopniami swobody. Statystyki obliczone na podstawie przykładowych wyników

porównuje się z wartością krytyczną określoną z tablicy rozkładu Studenta na danym poziomie istotności a i stopniach swobody. Zasada stosowania kryterium jest następująca: jeżeli hipotezę zerową odrzucimy na poziomie istotności a, to znaczy, że związek pomiędzy zmiennymi jest istotny; jeśli wówczas przyjęta zostanie hipoteza zerowa na poziomie istotności a. Odchylenie wartości od można przypisać zmienności losowej. Przykładowe dane charakteryzują rozpatrywaną hipotezę jako bardzo możliwą i wiarygodną, ​​tj. hipoteza o braku związku nie budzi zastrzeżeń.

Procedura testowania hipotez jest znacznie uproszczona, jeśli zamiast statystyki zastosujemy wartości krytyczne współczynnika korelacji, które można wyznaczyć poprzez kwantyle rozkładu Studenta, podstawiając

Istnieją szczegółowe tabele wartości krytycznych, których fragment znajduje się w dodatku do tej książki (patrz tabela 6). Zasada testowania hipotezy w tym przypadku sprowadza się do następującej zasady: jeśli tak, to możemy stwierdzić, że związek pomiędzy zmiennymi jest istotny. Jeżeli tak, to wyniki obserwacji uznajemy za zgodne z hipotezą o braku związku.

Przetestujmy hipotezę o niezależności wydajności pracy od poziomu mechanizacji pracy na podstawie danych podanych w podrozdziale 4.1. Wcześniej obliczono, że z (8.38) otrzymujemy

Korzystając z tabeli rozkładu Studenta, znajdujemy wartość krytyczną tej statystyki: Ponieważ odrzucamy hipotezę zerową, popełniamy błąd tylko w 5% przypadków.

Ten sam wynik otrzymamy, jeśli porównamy z wartością krytyczną współczynnika korelacji znalezioną w odpowiedniej tabeli pod adresem

który ma -dystrybucję ze stopniami swobody. Następnie procedurę sprawdzania istotności przeprowadza się analogicznie do poprzedniej z wykorzystaniem -kryterium.

Przykład

Na podstawie analizy ekonomicznej zjawisk zakładamy w populacji generalnej silny związek pomiędzy wydajnością pracy a poziomem mechanizacji pracy. Niech np. Alternatywnie w tym przypadku możemy postawić hipotezę, że współczynnik korelacji próbki Musimy zatem zastosować jednostronny obszar krytyczny. Z (8.40) wynika, że

Uzyskaną wartość porównujemy z wartością krytyczną. Zatem na poziomie istotności 5% możemy założyć istnienie bardzo ścisłego związku między badanymi cechami, tj. dane wyjściowe pozwalają uznać to za prawdopodobne.

W podobny sposób sprawdza się istotność współczynników korelacji cząstkowej. Zmienia się tylko liczba stopni swobody, która staje się równa gdzie jest liczba zmiennych objaśniających. Wartość statystyki obliczona za pomocą wzoru

porównuje się z wartością krytyczną a znalezioną z tablicy rozkładów na poziomie istotności a i liczbą stopni swobody. Przyjęcie lub odrzucenie hipotezy o istotności współczynnika korelacji cząstkowej odbywa się według tej samej zasady, co opisano powyżej . Testowanie istotności można również przeprowadzić wykorzystując wartości krytyczne współczynnika korelacji zgodnie z (8.39), a także wykorzystując transformację Fishera (8.40).

Przykład

Sprawdźmy niezawodność statystyczna częściowe współczynniki korelacji obliczone w rozdziale 4.5 na poziomie istotności Poniżej wraz z częściowymi współczynnikami korelacji podano odpowiadające im obliczone i krytyczne wartości statystyczne

W związku z przyjęciem hipotezy o znaczeniu współczynników stwierdzamy, że istotny wpływ na wydajność pracy ma poziom mechanizacji pracy, pomijając wpływ średniego wieku pracowników (oraz średniego odsetka spełniania standardy). Różnica od zera pozostałych współczynników

korelacje częściowe można przypisać przypadkowym fluktuacjom w próbie, dlatego nie można na ich podstawie powiedzieć nic konkretnego na temat częściowych wpływów odpowiednich zmiennych.

O znaczeniu współczynnika korelacja wielokrotna oceniać na podstawie wyniku procedury sprawdzania istotności współczynnika wielokrotne określenie. Omówimy to bardziej szczegółowo w następnej sekcji.

Często interesującym pytaniem jest: czy dwa współczynniki korelacji znacząco różnią się od siebie? Testując tę ​​hipotezę, zakłada się, że brane są pod uwagę te same cechy populacji jednorodnych; dane reprezentują wyniki niezależne testy; stosuje się współczynniki korelacji tego samego typu, tj. współczynniki korelacji parami lub współczynniki korelacji częściowej przy wykluczaniu tej samej liczby zmiennych.

Objętości dwóch próbek, z których obliczane są współczynniki korelacji, mogą być różne. Hipoteza zerowa: tj. współczynniki korelacji dwóch rozważanych populacji są równe. Hipoteza alternatywna: Hipoteza alternatywna zakłada, że ​​należy zastosować dwukierunkowy obszar krytyczny. Innymi słowy, należy sprawdzić, czy różnica jest istotnie różna od zera. Skorzystajmy ze statystyk, które mają w przybliżeniu rozkład normalny:

gdzie - wyniki przekształceń współczynników korelacji - objętości próbek. Reguła testowa: jeśli wówczas hipoteza zostanie odrzucona; jeśli wówczas hipoteza zostanie przyjęta.

Jeśli zostanie zaakceptowany, wartość

po przeliczeniu przy użyciu (8.6) służy jako sumaryczne oszacowanie współczynnika korelacji. Następnie hipotezę można sprawdzić za pomocą statystyki

mający rozkład normalny.

Przykład

Należy ustalić, czy stopień powiązania wydajności pracy z poziomem mechanizacji pracy różni się w przedsiębiorstwach tej samej branży, zlokalizowanych w różnych regionach kraju. Porównajmy przedsiębiorstwa zlokalizowane w dwóch obszarach. Niech współczynnik korelacji dla jednego z nich zostanie obliczony na próbie objętościowej (patrz podrozdział 4.1). Dla regionu Inny, obliczone na podstawie próbki objętościowej

Po przeliczeniu obu współczynników korelacji na wartości obliczamy korzystając z (8.42) wartości statystyki X:

Wartość krytyczna statystyki at wynosi Tym samym hipoteza zostaje przyjęta, tzn. na podstawie dostępnych próbek nie można stwierdzić istotnej różnicy pomiędzy współczynnikami korelacji. Co więcej, oba współczynniki korelacji są istotne.

Korzystając z (8.43) i (8.6) otrzymujemy sumaryczne oszacowanie współczynnika korelacji dla dwóch regionów:

Na koniec sprawdźmy hipotezę, czy sumaryczne oszacowanie współczynnika korelacji różni się istotnie od zera, korzystając ze statystyki (8.44):

Ponieważ co możemy stwierdzić, że w populacji ogólnej istnieje istotny związek między wydajnością pracy a poziomem mechanizacji pracy.

Kryterium X można stosować w różnych aspektach. Zatem zamiast regionów można brać pod uwagę różne branże, np. gdy konieczne jest ustalenie, czy różnice w sile badanych powiązań pomiędzy wskaźniki ekonomiczne przedsiębiorstw należących do dwóch różnych branż.

Obliczmy na podstawie dwóch prób objętościowych współczynniki korelacji charakteryzujące ścisłą zależność wydajności pracy od poziomu mechanizacji pracy w przedsiębiorstwach należących do dwóch branż (dwie populacje ogólne). Z (8.42) otrzymujemy

Ponieważ odrzucamy hipotezę zerową. W związku z tym można stwierdzić, że istnieją istotne różnice w bliskości związku wydajności pracy z poziomem mechanizacji pracy w przedsiębiorstwach różnych branż. Będziemy kontynuować ten przykład w rozdziale 8.7, gdzie porównamy linie regresji skonstruowane dla dwóch populacji.

Analizując podane przykłady, jesteśmy przekonani, że uwzględnienie jedynie bezwzględnej różnicy porównywanych współczynników korelacji

(wielkości próbek są w obu przypadkach takie same) bez sprawdzenia istotności tej różnicy doprowadzi do błędnych wniosków. Potwierdza to potrzebę stosowania kryteriów statystycznych przy porównywaniu współczynników korelacji.

Procedurę porównywania dwóch współczynników korelacji można uogólnić większa liczba współczynniki z zastrzeżeniem powyższych warunków wstępnych. Hipotezę równości współczynników korelacji pomiędzy zmiennymi wyraża się w następujący sposób: Testuje się ją na podstawie współczynników korelacji obliczonych z próbek objętości z populacje ogólne. współczynniki korelacji są przeliczane na -wartości: Ponieważ w przypadek ogólny nieznanego, jego oszacowanie znajdujemy za pomocą wzoru, który jest uogólnieniem (8.43).

Pełną wersję tej notatki (wraz ze wzorami i tabelami) można pobrać z tej strony w formacie PDF. Tekst umieszczony na samej stronie jest streszczenie treść tej notatki i najważniejsze wnioski.

Dedykowany statystycznym optymistom

Współczynnik korelacji (CC) jest jedną z najprostszych i najpopularniejszych statystyk charakteryzujących zależności pomiędzy zmiennymi losowymi. Jednocześnie CC przoduje pod względem liczby błędnych i po prostu bezsensownych wniosków wyciąganych za jego pomocą. Sytuacja ta wynika z utrwalonej praktyki prezentacji materiału związanego z korelacją i zależnościami korelacyjnymi.

Duże, małe i „pośrednie” wartości QC

Rozważając zależność korelacyjną, szczegółowo omawia się pojęcie korelacji „silnej” (prawie pojedynczej) i „słabej” (prawie zerowej), ale w praktyce nie spotyka się ani jednej, ani drugiej. W rezultacie kwestia rozsądnej interpretacji „pośrednich” wartości QC, które są powszechne w praktyce, pozostaje niejasna. Współczynnik korelacji równy 0.9 Lub 0.8 , budzi optymizm u początkującego, ale niższe wartości go dezorientują.

W miarę zdobywania doświadczenia wzrasta optymizm i obecnie QC jest równe 0.7 Lub 0.6 zachwyca badacza i napawa optymizmem 0.5 I 0.4 . Jeśli badacz jest zaznajomiony z metodami testowania hipotez statystycznych, wówczas próg „dobrych” wartości QC spada do 0.3 Lub 0.2 .

Rzeczywiście, które wartości CC można już uznać za „wystarczająco duże”, a które pozostają „za małe”? Na to pytanie istnieją dwie diametralnie różne odpowiedzi – optymistyczna i pesymistyczna. Rozważmy najpierw optymistyczną (najpopularniejszą) odpowiedź.

Znaczenie współczynnika korelacji

Tę opcję odpowiedzi daje nam klasyczna statystyka i jest ona powiązana z koncepcją znaczenie statystyczne KK. Rozważymy tutaj jedynie sytuację, w której interesująca będzie korelacja dodatnia (przypadek korelacji ujemnej jest zupełnie podobny). Więcej trudny przypadek, gdy sprawdza się jedynie obecność korelacji bez uwzględnienia znaku, jest w praktyce stosunkowo rzadkie.

Jeśli dla kontroli jakości R nierówność jest spełniona r > re mi (n), to mówią, że KK istotne statystycznie na poziomie istotności mi. Tutaj re (n)-- kwantyl, w stosunku do którego będzie nas interesować jedynie to, że na ustalonym poziomie istotności e jego wartość wraz ze wzrostem długości dąży do zera N próbki. Okazuje się, że zwiększając tablicę danych, możliwe jest osiągnięcie istotności statystycznej QC nawet przy bardzo małych wartościach. W rezultacie, jeśli masz wystarczająco dużą próbkę, kuszące będzie przyznanie się do tego w przypadku CC równa się np. 0.06 . Jednak zdrowy rozsądek podpowiada, że ​​wniosek o występowaniu istotnej korelacji kiedy r=0,06 nie może być prawdziwe dla dowolnej wielkości próby. Pozostaje zrozumieć naturę błędu. Aby to zrobić, przyjrzyjmy się bliżej pojęciu istotności statystycznej.

Jak zwykle przy testowaniu hipotez statystycznych sens obliczeń polega na wyborze hipotezy zerowej i hipotezy alternatywnej. Podczas sprawdzania istotności CC założenie to przyjmuje się jako hipotezę zerową (r=0) w ramach hipotezy alternatywnej (r > 0)(pamiętaj, że rozważamy tutaj tylko sytuację, w której interesująca jest dodatnia korelacja). Dowolnie wybierany poziom istotności mi określa prawdopodobieństwo tzw błędy typu I, gdy hipoteza zerowa jest prawdziwa ( r=0), ale zostaje odrzucony przez test statystyczny (tj. test błędnie rozpoznaje obecność istotnej korelacji). Wybierając poziom istotności gwarantujemy niskie prawdopodobieństwo wystąpienia takiego błędu, tj. jesteśmy prawie odporni na fakt, że dla niezależnych próbek ( r=0) błędnie uznają istnienie korelacji ( r > 0). Z grubsza mówiąc, znaczenie współczynnika korelacji oznacza jedynie, że najprawdopodobniej jest on różny od zera.

Dlatego wielkość próbki i wartość QC równoważą się - duże próbki po prostu umożliwiają osiągnięcie większej dokładności w lokalizacji małej QC na podstawie jej oszacowania.

Oczywiste jest, że pojęcie istotności nie odpowiada na początkowe pytanie o rozumienie kategorii „duży/mały” w odniesieniu do wartości CC. Odpowiedź udzielona przez kryterium istotności nie mówi nam nic o właściwościach korelacji, a jedynie pozwala sprawdzić, czy z dużym prawdopodobieństwem nierówność jest spełniona r > 0. Jednocześnie sama wartość CC zawiera znacznie więcej istotnych informacji o właściwościach związku korelacyjnego. Rzeczywiście, równie znaczące CC są równe 0.1 I 0.9 , różnią się istotnie stopniem ekspresji odpowiedniego powiązania korelacyjnego oraz stwierdzeniem o znaczeniu CC r = 0,06 w praktyce jest to całkowicie bezużyteczne, ponieważ przy dowolnej wielkości próby nie ma potrzeby mówić tutaj o żadnej korelacji.

Wreszcie można powiedzieć, że w praktyce jakiekolwiek właściwości zależności korelacyjnej, a nawet samo jej istnienie nie wynikają z istotności współczynnika korelacji. Z praktycznego punktu widzenia sam wybór hipotezy alternatywnej stosowanej przy badaniu znaczenia kontroli jakości jest błędny, ponieważ przypadki r=0 I r>0 na małym R z praktycznego punktu widzenia są one nie do odróżnienia.

Właściwie od kiedy znaczenie kontroli jakości wywnioskować istnienie istotna korelacja, dokonać zupełnie bezwstydnej zamiany pojęć w oparciu o semantyczną dwuznaczność słowa „znaczenie”. Znaczenie QC (jasno zdefiniowanego pojęcia) łudząco zamienia się w „istotną korelację”, a to sformułowanie, które nie ma ścisłej definicji, jest interpretowane jako synonim „wyraźnej korelacji”.

Podział wariancji

Rozważmy inną odpowiedź na pytanie o „małe” i „duże” wartości CC. Ta opcja odpowiedzi wiąże się z doprecyzowaniem regresyjnego znaczenia QC i okazuje się bardzo przydatna w praktyce, choć jest znacznie mniej optymistyczna niż kryteria istotności QC.

Co ciekawe, dyskusja na temat regresyjnego znaczenia CC często napotyka trudności o charakterze dydaktycznym (czy raczej psychologicznym). Skomentujmy je pokrótce. Po formalnym wprowadzeniu CC i wyjaśnieniu znaczenia korelacji „silnych” i „słabych” za konieczne uznaje się zagłębienie się w dyskusję filozoficznych zagadnień relacji korelacji ze związkami przyczynowo-skutkowymi. Jednocześnie podejmuje się energiczne próby wyparcia się (hipotetycznej!) próby interpretowania związku korelacyjnego jako przyczynowo-skutkowego. Na tym tle omówiono kwestię dostępności zależność funkcjonalna(w tym regresja) pomiędzy skorelowanymi wielkościami zaczyna wydawać się po prostu bluźnierstwem. W końcu od zależności funkcjonalnej do związku przyczynowo-skutkowego jest tylko jeden krok! W rezultacie generalnie unika się kwestii znaczenia regresji CC, a także kwestii właściwości korelacyjnych regresji liniowej.

Tak naprawdę wszystko tutaj jest proste. Jeśli dla znormalizowanych (tj. mających zerowe oczekiwania i wariancję jednostkową) zmiennych losowych X I Y istnieje związek

Y = a + bX + N,

Gdzie N-- jakaś zmienna losowa z zerowymi oczekiwaniami (szum addytywny), wtedy łatwo to sprawdzić a = 0 I b = r. Jest to związek pomiędzy zmiennymi losowymi X I Y zwane równaniem regresji liniowej.

Obliczanie wariancji zmiennej losowej YŁatwo uzyskać następujące wyrażenie:

D[Y] = b2 D[X] + D[N].

W ostatnim wyrażeniu pierwszy człon określa udział zmiennej losowej X w wariancję Y, a drugi człon to udział hałasu N w wariancję Y. Użycie powyższego wyrażenia dla parametru B, łatwo jest wyrazić udziały zmiennych losowych X I N poprzez wielkość r =R(pamiętajcie, że liczymy ilości X I Y znormalizowany, tj. D[X] = D[Y] = 1):

b 2 D[X] = r 2

D[N] = 1 - r 2

Biorąc pod uwagę uzyskane wzory, często mówi się, że dla zmiennych losowych X I Y powiązany równanie regresji, wartość r 2 określa proporcję wariancji zmiennej losowej Y, wyznaczana liniowo przez zmianę zmiennej losowej X. Zatem całkowita wariancja zmiennej losowej Y rozpada się na dyspersję, uwarunkowane liniowo obecność połączenia regresyjnego i wariancja resztkowa, spowodowane obecnością szumu dodatkowego.


Rozważmy wykres rozrzutu dwuwymiarowej zmiennej losowej (X, Y). Na małym D[N] wykres rozrzutu ulega degeneracji zależność liniowa pomiędzy zmiennymi losowymi, lekko zniekształconymi szumem addytywnym (tj. punkty na wykresie rozrzutu będą w większości skupione w pobliżu linii prostej X=Y). Ten przypadek ma miejsce dla wartości R, moduł zbliżony do jedności. Wraz ze spadkiem (w wartości bezwzględnej) wartości CC następuje rozproszenie składowej szumu N zaczyna mieć coraz większy udział w rozproszeniu ilości Y i na małym R wykres rozrzutu całkowicie traci swoje podobieństwo do linii prostej. W tym przypadku mamy chmurę punktów, których rozproszenie wynika głównie z szumu. W tym przypadku realizowane są przy znacznych, ale małych wartościach bezwzględnych wartości CC. Wiadomo, że w tym przypadku nie ma co mówić o jakiejkolwiek korelacji.

Zobaczmy teraz, jaką odpowiedź na pytanie o „duże” i „małe” wartości KK daje nam interpretacja regresyjna KK. Przede wszystkim należy podkreślić, że dyspersja jest najbardziej naturalną miarą rozproszenia wartości zmiennej losowej. Natura tej „naturalności” polega na addytywności wariancji dla niezależnych zmiennych losowych, jednak właściwość ta ma bardzo różnorodne przejawy, do których zalicza się rozbicie pokazanej powyżej wariancji na wariancje uwarunkowane liniowo i wariancje rezydualne.

Zatem wartość r 2 określa proporcję wariancji wielkości Y, wyznaczona liniowo przez obecność zależności regresji ze zmienną losową X. Pytanie, jaką część liniowo wyznaczonej wariancji można uznać za przejaw obecności wyraźnej korelacji, pozostaje w świadomości badacza. Staje się jednak jasne, że małe wartości współczynnika korelacji ( R< 0.3 ) zapewniają tak małą część liniowo wyjaśnionej wariancji, że nie ma sensu mówić o jakiejkolwiek wyraźnej korelacji. Na r > 0,5 możemy mówić o obecności zauważalnej korelacji pomiędzy wielkościami i czasem r > 0,7 korelację można uznać za istotną.


Wstęp. 2

1. Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta. 3

2. Obliczanie istotności współczynników regresji i korelacji za pomocą testu f-Studenta. 6

Wniosek. 15

Po skonstruowaniu równania regresji należy sprawdzić jego istotność: stosując specjalne kryteria określić, czy otrzymana zależność jest wyrażone równaniem regresja, losowa, tj. czy można go wykorzystać do celów prognozowania i analizy czynnikowej? W statystyce opracowano metody ścisłego testowania istotności współczynników regresji za pomocą analiza wariancji i obliczanie specjalnych kryteriów (na przykład kryterium F). Luźny test można przeprowadzić, obliczając średnie względne odchylenie liniowe (e), zwane średnim błędem aproksymacji:

Przejdźmy teraz do oceny istotności współczynników regresji bj i zbudowania przedziału ufności dla parametrów modelu regresji Ru (J=l,2,..., p).

Blok 5 – ocena istotności współczynników regresji na podstawie wartości testu ^-Studenta. Obliczone wartości ta porównuje się z wartością dopuszczalną

Blok 5 – ocena istotności współczynników regresji na podstawie wartości kryterium ^. Obliczone wartości t0n porównuje się z dopuszczalną wartością 4,/, która jest wyznaczana z tablic rozkładu t dla danego prawdopodobieństwa błędu (a) i liczby stopni swobody (/).

Oprócz sprawdzenia istotności całego modelu należy sprawdzić istotność współczynników regresji za pomocą testu /-Studenta. Minimalna wartość współczynnika regresji bg musi odpowiadać warunkowi bifob-^t, gdzie bi jest wartością współczynnika równania regresji w skali naturalnej w współczynnik i-c podpisać; aha. - średni błąd kwadratowy każdego współczynnika. nieporównywalność współczynników D w ich znaczeniu;

Dalsza analiza statystyczna dotyczy badania istotności współczynników regresji. Aby to zrobić, znajdujemy wartość kryterium ^ dla współczynników regresji. W wyniku ich porównania wyznaczane jest najmniejsze kryterium ^. Z dalszej analizy wyklucza się czynnik, którego współczynnik odpowiada najmniejszemu kryterium ^.

Aby ocenić istotność statystyczną współczynników regresji i korelacji, zastosowano test t-Studenta i przedziały ufności każdego ze wskaźników. Postawiono hipotezę o losowym charakterze wskaźników, tj. o ich nieistotnej różnicy od zera. Ocena istotności współczynników regresji i korelacji za pomocą testu f-Studenta odbywa się poprzez porównanie ich wartości z wielkością błędu losowego:

Ocena istotności czystych współczynników regresji za pomocą testu /-Studenta sprowadza się do obliczenia wartości

Jakość pracy jest cechą konkretnej pracy, odzwierciedlającą stopień jej złożoności, intensywności (intensywności), warunków i znaczenia dla rozwoju gospodarczego. K.t. mierzony poprzez system taryfowy pozwalający na różnicowanie wynagrodzeń w zależności od poziomu kwalifikacji (złożoności pracy), warunków, ciężkości pracy i jej intensywności, a także znaczenia poszczególnych gałęzi przemysłu i produkcji, regionów, terytoriów dla rozwoju gospodarkę kraju. K.t. znajduje wyraz w wynagrodzenie pracowników, rozwijających się na rynku pracy pod wpływem podaży i popytu siła robocza(określone rodzaje pracy). K.t. - złożona w strukturze

Uzyskane oceny względnej ważności poszczególnych skutków ekonomicznych, społecznych i środowiskowych projektu stanowią ponadto podstawę do porównania alternatywnych projektów i ich opcji przy użyciu „złożonego punktowego bezwymiarowego kryterium efektywności społecznej i środowiskowo-ekonomicznej” projektu Ek, obliczonego (w średnich wynikach istotności) za pomocą wzoru

Regulacja wewnątrzgałęziowa zapewnia zróżnicowanie wynagrodzeń pracowników w danej branży, w zależności od znaczenia poszczególnych rodzajów produkcji w danej branży, od złożoności i warunków pracy, a także od stosowanych form wynagradzania.

Uzyskana w ten sposób ocena ratingowa analizowanego przedsiębiorstwa w stosunku do przedsiębiorstwa standardowego bez uwzględnienia znaczenia poszczególnych wskaźników ma charakter porównawczy. Porównując oceny kilku przedsiębiorstw najwyższa ocena posiada przedsiębiorstwo o minimalnej wartości uzyskanej oceny porównawczej.

Zrozumienie jakości produktu jako miary jego użyteczności ujęte jest w praktyce ważne pytanie o jego pomiarze. Jego rozwiązanie osiąga się poprzez badanie znaczenia poszczególnych właściwości w zaspokajaniu określonej potrzeby. Znaczenie nawet tej samej właściwości może być różne w zależności od warunków spożycia produktu. W związku z tym użyteczność produktu w różne okoliczności jego zastosowania są różne.

Drugi etap pracy to badanie danych statystycznych oraz identyfikacja zależności i interakcji wskaźników, określenie znaczenia poszczególnych czynników oraz przyczyn zmian wskaźników ogólnych.

Wszystkie rozpatrywane wskaźniki łączy się w jeden w taki sposób, że efektem jest kompleksowa ocena wszystkich analizowanych aspektów działalności przedsiębiorstwa, z uwzględnieniem uwarunkowań jego działalności, z uwzględnieniem stopnia istotności poszczególnych wskaźników dla różne rodzaje inwestorzy:

Współczynniki regresji pokazują intensywność wpływu czynników na wskaźnik wydajności. Jeżeli przeprowadzona zostanie wstępna standaryzacja wskaźników czynnikowych, wówczas b0 jest równe średniej wartości efektywnego wskaźnika w sumie. Współczynniki b, b2 ..... bl pokazują, o ile jednostek poziom efektywnego wskaźnika odbiega od jego wartości średniej, jeżeli wartości wskaźnika czynnikowego odbiegają od średniej równej zero o jeden odchylenie standardowe. Zatem współczynniki regresji charakteryzują stopień istotności poszczególnych czynników dla podniesienia poziomu wskaźnika efektywności. Konkretne wartości współczynników regresji wyznaczane są na podstawie danych empirycznych zgodnie z metodą najmniejszych kwadratów(w wyniku rozwiązywania układów równań normalnych).

2. Obliczanie istotności współczynników regresji i korelacji za pomocą testu f-Studenta

Rozważmy liniową postać zależności wieloczynnikowych nie tylko jako najprostszą, ale także jako postać zapewnianą przez pakiety oprogramowania aplikacyjnego dla komputerów PC. Jeżeli związek pomiędzy indywidualnym czynnikiem a uzyskanym atrybutem nie jest liniowy, wówczas równanie ulega linearyzacji poprzez zastąpienie lub przekształcenie wartości atrybutu czynnika.

Formularz ogólny równanie regresji wielowymiarowej ma postać:


gdzie k jest liczbą cech czynnika.

Aby uprościć układ równań najmniejszych kwadratów niezbędny do obliczenia parametrów równania (8.32), zwykle wprowadza się odchylenia poszczególnych wartości wszystkich cech od wartości średnich tych cech.

Otrzymujemy układ k równań najmniejszych kwadratów:

Rozwiązując ten układ, otrzymujemy wartości warunkowo czystych współczynników regresji b. Swobodny człon równania oblicza się ze wzoru


Termin „warunkowo czysty współczynnik regresji” oznacza, że ​​każda z wartości bj mierzy zagregowane średnie odchylenie wynikowej cechy od jej wartości średniej, gdy dany współczynnik xj odbiega od swojej wartości średniej o jednostkę jej miary i pod warunkiem, że wszystkie pozostałe czynniki zawarte w równaniu regresji, ustalone na wartościach średnich, nie ulegają zmianie, nie ulegają zmianie.

Zatem, w przeciwieństwie do współczynnika regresji sparowanej, warunkowy współczynnik czystej regresji mierzy wpływ czynnika, abstrahując od związku zmienności tego czynnika ze zmiennością innych czynników. Gdyby można było uwzględnić w równaniu regresji wszystkie czynniki wpływające na zmianę uzyskanej charakterystyki, wówczas wartości bj. można uznać za miary czystego wpływu czynników. Ale ponieważ naprawdę niemożliwe jest uwzględnienie wszystkich czynników w równaniu, wówczas współczynniki bj. nie jest wolne od domieszki wpływu czynników nieuwzględnionych w równaniu.

Niemożliwe jest uwzględnienie w równaniu regresji wszystkich czynników z jednego z trzech powodów lub wszystkich na raz, ponieważ:

1) niektóre czynniki mogą być nieznane nowoczesna nauka wiedza o jakimkolwiek procesie jest zawsze niekompletna;

2) brak jest informacji na temat niektórych znanych czynników teoretycznych lub są one niewiarygodne;

3) wielkość badanej populacji (próby) jest ograniczona, co pozwala na uwzględnienie w równaniu regresji ograniczonej liczby czynników.

Warunkowe czyste współczynniki regresji bj. są liczbami nazwanymi wyrażonymi w różnych jednostkach miary i dlatego są ze sobą nieporównywalne. Aby przeliczyć je na porównywalne wskaźniki względne, stosuje się tę samą transformację, co w celu uzyskania współczynnika korelacji parami. Wynikowa wartość nazywana jest standaryzowany współczynnik regresja lub współczynnik ?.


Współczynnik współczynnika xj określa miarę wpływu zmiany współczynnika xj na zmianę wynikowej cechy y, abstrahując od towarzyszącej zmienności innych czynników uwzględnionych w równaniu regresji.

Przydatne jest wyrażenie współczynników warunkowo czystej regresji w postaci względnych porównywalnych wskaźników połączenia, współczynników elastyczności:

Współczynnik elastyczności współczynnika xj mówi, że gdy wartość danego współczynnika odbiega od jego wartości średniej o 1% i abstrahując od towarzyszącego odchylenia innych czynników uwzględnionych w równaniu, otrzymana charakterystyka będzie odbiegać od wartości średniej o ej procent od y. Częściej współczynniki sprężystości są interpretowane i stosowane w kategoriach dynamiki: wraz ze wzrostem współczynnika x o 1% jego średniej wartości uzyskana charakterystyka wzrośnie o e procent jego średniej wartości.

Rozważmy obliczenia i interpretację równania regresji wieloczynnikowej na przykładzie tych samych 16 gospodarstw (tabela 8.1). Wynikowy znak - poziom dochód brutto a trzy czynniki mające na to wpływ przedstawiono w tabeli. 8.7.

Przypomnijmy jeszcze raz, że aby uzyskać wiarygodne i wystarczająco dokładne wskaźniki korelacji, potrzebna jest większa populacja.


Tabela 8.7

Poziom dochodu brutto i jego czynniki

Numery gospodarstw

Dochód brutto, rub./ra

Koszty pracy, osobodni/ha x1

Udział gruntów ornych,

Wydajność mleczna na 1 krowę,


Tabela 8.8 Wskaźniki równania regresji


Zmienna zależna: y

Współczynnik regresji

Stała-240.112905

standardowe błąd szacunkowy = 79,243276


Rozwiązanie wykonano przy pomocy programu „Microstat” na komputer PC. Oto tabele z wydruku: tabela. 8.7 podaje wartości średnie i odchylenia standardowe wszystkich cech. Tabela 8.8 zawiera współczynniki regresji i ich probabilistyczną ocenę:

pierwsza kolumna „var” – zmienne, czyli czynniki; druga kolumna „współczynnik regresji” - warunkowo czyste współczynniki regresji bj; trzecia kolumna „std. errr" - średnie błędy oszacowań współczynników regresji; czwarta kolumna - wartości testu t-Studenta przy 12 stopniach swobody zmienności; piąta kolumna „prawdopodobne” - prawdopodobieństwo hipotezy zerowej w odniesieniu do współczynników regresji;

szósta kolumna „częściowe r2” - częściowe współczynniki determinacji. Treść i metodologię obliczania wskaźników w kolumnach 3-6 omówiono szerzej w Rozdziale 8. „Stała” jest wolnym terminem równania regresji a; „Standardowe błąd szacunkowy.” - błąd średniokwadratowy oszacowania charakterystyki efektywnej za pomocą równania regresji. Otrzymano równanie regresja wielokrotna:


y = 2,26x1 - 4,31x2 + 0,166x3 - 240.


Oznacza to, że kwota dochodu brutto przypadająca na 1 hektarów użytków rolnych wzrosła średnio o 2,26 rubla. przy wzroście kosztów pracy o 1 godz./ha; spadła średnio o 4,31 rubla. przy wzroście udziału gruntów ornych w użytkach rolnych o 1% i wzroście o 0,166 rubla. przy wzroście wydajności mlecznej od krowy o 1 kg. Ujemna wartość wolnego członu jest całkiem naturalna i, jak już zauważono w paragrafie 8.2, skutecznym znakiem jest to, że dochód brutto osiąga zero na długo przed osiągnięciem przez czynniki wartości zerowych, co jest niemożliwe w produkcji.

Ujemna wartość współczynnika dla x^ jest sygnałem znacznych problemów w ekonomii badanych gospodarstw, w których nieopłacalna jest uprawa roślin, a opłacalna jest wyłącznie hodowla zwierząt. Przy racjonalnych metodach gospodarowania i normalnych (równoważnych lub zbliżonych) cenach produktów wszystkich sektorów dochód nie powinien się zmniejszać, lecz rosnąć wraz ze wzrostem najbardziej żyznej części użytków rolnych – gruntów ornych.

Na podstawie danych z dwóch przedostatnich wierszy tabeli. 8.7 i tabela. 8.8 obliczamy współczynniki p i współczynniki sprężystości według wzorów (8.34) i (8.35).

Zarówno na zmienność poziomu dochodu, jak i możliwą zmianę jego dynamiki największy wpływ ma czynnik x3 – produktywność krów, a najsłabszy x2 – udział gruntów ornych. W dalszej części zostaną wykorzystane wartości P2/ (tabela 8.9);


Tabela 8.9 Porównawczy wpływ czynników na poziom dochodów

Czynniki xj


Otrzymaliśmy zatem, że współczynnik a współczynnika xj odnosi się do współczynnika elastyczności tego współczynnika, tak jak współczynnik zmienności współczynnika odnosi się do współczynnika zmienności wynikowej charakterystyki. Ponieważ, jak widać z ostatniego wiersza tabeli. 8.7 współczynniki zmienności wszystkich czynników są mniejsze niż współczynnik zmienności wynikowej cechy; wszystkie współczynniki ? są mniejsze niż współczynniki elastyczności.

Rozważmy relację między sparowanym i warunkowo czystym współczynnikiem regresji, używając jako przykładu współczynnika -с. Pary równanie liniowe związek y z x ma postać:


y = 3,886x1 – 243,2


Warunkowo czysty współczynnik regresji przy x1 wynosi tylko 58% współczynnika sparowanego. Pozostałe 42% wynika z faktu, że zmienności x1 towarzyszy zmienność czynników x2 x3, co z kolei wpływa na wynikową cechę. Powiązania wszystkich cech i ich współczynniki regresji parami przedstawiono na wykresie powiązań (rys. 8.2).

Jeśli dodamy szacunki bezpośredniego i pośredniego wpływu zmienności x1 na y, czyli iloczyn sparowanych współczynników regresji wzdłuż wszystkich „ścieżek” (rys. 8.2), otrzymamy: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Wartość ta jest jeszcze większa współczynnik pary połączenia x1 z y. W konsekwencji pośredni wpływ zmienności x1 poprzez czynniki nieuwzględnione w równaniu jest odwrotny i daje w sumie:


1 Ayvazyan SA, Mkhitaryan V.S. Statystyka stosowana i podstawy ekonometrii. Podręcznik dla uniwersytetów. - M.: JEDNOŚĆ, 2008, – 311 s.

2 Johnston J. Metody ekonometryczne. - M.: Statystyka, 1980. – 282s.

3 Dougherty K. Wprowadzenie do ekonometrii. - M.: INFRA-M, 2004, – 354 s.

4 Dreyer N., Smith G., Stosowana analiza regresji. - M.: Finanse i Statystyka, 2006, – 191 s.

5 Magnus Y.R., Kartashev P.K., Peresetsky A.A. Ekonometria. Kurs początkowy.-M.: Delo, 2006, – 259 s.

6 Warsztaty z ekonometrii/wyd. I.I. Eliseeva – M.: Finanse i statystyka, 2004, – 248 s.

7 Ekonometria/wyd. I.I. Eliseeva – M.: Finanse i statystyka, 2004, – 541 s.

8 Kremer N., Putko B. Ekonometria – M.: UNITY-DANA, 200, – 281 s.



Korepetycje

Potrzebujesz pomocy w studiowaniu jakiegoś tematu?

Nasi specjaliści doradzą lub zapewnią korepetycje z interesujących Cię tematów.
Prześlij swoją aplikację wskazując temat już teraz, aby dowiedzieć się o możliwości uzyskania konsultacji.

PRACA KURSOWA

Temat: Analiza korelacji

Wstęp

1. Analiza korelacji

1.1 Pojęcie korelacji

1.2 Generalna klasyfikacja korelacje

1.3 Pola korelacyjne i cel ich konstrukcji

1.4 Etapy analiza korelacji

1.5 Współczynniki korelacji

1,6 Znormalizowany współczynnik korelacji Bravaisa-Pearsona

1,7 Współczynnik korelacja rang Włócznik

1.8 Podstawowe właściwości współczynników korelacji

1.9 Sprawdzenie istotności współczynników korelacji

1.10 Wartości krytyczne współczynnik korelacji par

2. Planowanie eksperymentu wieloczynnikowego

2.1 Stan problemu

2.2 Określenie środka planu (poziom podstawowy) i poziomu zmienności czynnikowej

2.3 Konstrukcja macierzy planowania

2.4 Sprawdzenie jednorodności dyspersji i równoważności pomiarów w różnych seriach

2.5 Współczynniki równania regresji

2.6 Wariancja odtwarzalności

2.7 Sprawdzenie istotności współczynników równania regresji

2.8 Sprawdzenie adekwatności równania regresji

Wniosek

Bibliografia

WSTĘP

Planowanie eksperymentalne to dyscyplina matematyczna i statystyczna badająca metody racjonalnej organizacji badania eksperymentalne- z optymalny wybór czynników badanych i ustalenia faktycznego planu eksperymentu zgodnie z jego przeznaczeniem, do metod analizy wyników. Planowanie eksperymentów zapoczątkowano pracami angielskiego statystyka R. Fishera (1935), który podkreślał, że racjonalne planowanie eksperymentów zapewnia nie mniej znaczący wzrost dokładności szacunków niż optymalne przetwarzanie wyników pomiarów. W latach 60-tych XX wieku istniało współczesna teoria planowanie eksperymentu. Jej metody są ściśle powiązane z teorią aproksymacji funkcji i programowaniem matematycznym. Skonstruowano optymalne plany i zbadano ich właściwości dla szerokiej klasy modeli.

Planowanie eksperymentu – wybór planu eksperymentu spełniającego określone wymagania, zespół działań mających na celu opracowanie strategii eksperymentu (od uzyskania informacji apriorycznej do uzyskania wykonalnego modelu matematycznego lub ustalenia optymalne warunki). Jest to celowa kontrola eksperymentu, realizowana w warunkach niepełnej wiedzy o mechanizmie badanego zjawiska.

W procesie pomiarów, późniejszej obróbki danych, a także formalizacji wyników w postaci modelu matematycznego powstają błędy i następuje utrata części informacji zawartych w danych oryginalnych. Zastosowanie eksperymentalnych metod planowania pozwala określić błąd modelu matematycznego i ocenić jego adekwatność. Jeżeli dokładność modelu okaże się niewystarczająca, wówczas zastosowanie eksperymentalnych metod planowania umożliwia modernizację model matematyczny z dodatkowymi eksperymentami bez utraty wcześniejszych informacji i przy minimalnych kosztach.

Celem planowania eksperymentu jest znalezienie takich warunków i zasad przeprowadzania eksperymentów, w których przy najmniejszym nakładzie pracy możliwe jest uzyskanie rzetelnej i rzetelnej informacji o przedmiocie, a także przedstawienie tych informacji w zwartej i wygodnej formie z ilościową oceną dokładności.

Do głównych metod planowania stosowanych na różnych etapach badania należą:

Zaplanowanie eksperymentu przesiewowego, którego głównym znaczeniem jest wybranie z całego zbioru czynników grupy czynników istotnych, które będą podlegały dalszym szczegółowym badaniom;

Projekt eksperymentalny dla ANOVA, tj. sporządzanie planów obiektów z uwzględnieniem czynników jakościowych;

Planowanie eksperymentu regresyjnego, który pozwala uzyskać modele regresji(wielomian i inne);

Planowanie eksperymentu ekstremalnego, w którym głównym zadaniem jest optymalizacja eksperymentalna obiektu badawczego;

Planowanie podczas badania procesów dynamicznych itp.

Celem studiowania dyscypliny jest przygotowanie studentów do działalności produkcyjno-technicznej na ich specjalności z wykorzystaniem metod teorii planowania i nowoczesnych technologii informatycznych.

Cele dyscypliny: nauka nowoczesne metody planowanie, organizowanie i optymalizacja eksperymentów naukowych i przemysłowych, przeprowadzanie eksperymentów i przetwarzanie uzyskanych wyników.

1. ANALIZA KORELACJI

1.1 Pojęcie korelacji

Badacza często interesuje to, jak dwie lub więcej zmiennych są ze sobą powiązane w jednej lub większej liczbie badanych próbek. Na przykład, czy wzrost może mieć wpływ na wagę danej osoby lub czy ciśnienie krwi może wpływać na jakość produktu?

Ten rodzaj zależności między zmiennymi nazywa się korelacją lub korelacją. Korelacja to stała zmiana dwóch cech, odzwierciedlająca fakt, że zmienność jednej cechy jest zgodna ze zmiennością drugiej.

Wiadomo na przykład, że średnio istnieje różnica pomiędzy wzrostem człowieka a jego masą ciała. połączenie pozytywne i taki, że im większy wzrost, tym większa waga osoby. Istnieją jednak wyjątki od tej reguły, gdy są względne niscy ludzie Posiadać nadwaga i odwrotnie, astenicy, o wysokim wzroście, mają niską wagę. Powodem takich wyjątków jest to, że każdy biologiczny, fizjologiczny lub znak psychologiczny zdeterminowany wpływem wielu czynników: środowiskowych, genetycznych, społecznych, środowiskowych itp.

Powiązania korelacyjne to zmiany probabilistyczne, które można badać jedynie na reprezentatywnych próbach, stosując metody statystyki matematycznej. Obydwa terminy – związek korelacyjny i zależność korelacyjna – są często używane zamiennie. Zależność oznacza wpływ, połączenie - wszelkie skoordynowane zmiany, które można wyjaśnić setkami powodów. Powiązań korelacyjnych nie można uważać za dowód związku przyczynowo-skutkowego; wskazują one jedynie, że zmianom jednej cechy towarzyszą zwykle pewne zmiany drugiej.

Zależność korelacyjna - są to zmiany wprowadzające wartości jednej cechy do prawdopodobieństwa wystąpienia różne znaczenia kolejny znak.

Zadanie analizy korelacji sprowadza się do ustalenia kierunku (dodatniego lub ujemnego) i formy (liniowa, nieliniowa) zależności pomiędzy różnymi cechami, pomiaru jej bliskości i wreszcie sprawdzenia poziomu istotności uzyskanych współczynników korelacji.

Połączenia korelacyjne różnią się formą, kierunkiem i stopniem (siłą) .

Postać zależności korelacyjnej może być liniowa lub krzywoliniowa. Przykładowo związek pomiędzy liczbą sesji treningowych na symulatorze a liczbą poprawnie rozwiązanych problemów w sesji kontrolnej może być prosty. Przykładowo związek pomiędzy poziomem motywacji a efektywnością zadania może mieć charakter krzywoliniowy (rysunek 1). Wraz ze wzrostem motywacji najpierw wzrasta efektywność wykonania zadania, następnie osiągany jest optymalny poziom motywacji, który odpowiada maksymalnej efektywności wykonania zadania; Dalszemu wzrostowi motywacji towarzyszy spadek efektywności.

Rycina 1 - Zależność pomiędzy efektywnością rozwiązywania problemów a siłą tendencji motywacyjnych

Kierunkowo zależność korelacji może być dodatnia („bezpośrednia”) i ujemna („odwrotna”). Przy dodatniej korelacji liniowej wyższe wartości jednej cechy odpowiadają wyższym wartościom drugiej, a niższe wartości jednej cechy odpowiadają niskie wartości inny (rysunek 2). Przy ujemnej korelacji zależności są odwrotne (rysunek 3). Przy dodatniej korelacji współczynnik korelacji ma znak pozytywny, z korelacją ujemną - znak ujemny.

Rysunek 2 – Korelacja bezpośrednia

Rysunek 3 – Odwrotna korelacja


Rysunek 4 – Brak korelacji

O stopniu, sile lub bliskości korelacji decyduje wartość współczynnika korelacji. Siła połączenia nie zależy od jego kierunku i jest określona przez całkowita wartość Współczynnik korelacji.

1.2 Ogólna klasyfikacja korelacji

W zależności od współczynnika korelacji wyróżnia się następujące korelacje:

Silny lub bliski ze współczynnikiem korelacji r>0,70;

Średnia (przy 0,50

Umiarkowany (o 0.30

Słabe (przy 0,20

Bardzo słaby (przy r<0,19).

1.3 Pola korelacyjne i cel ich konstrukcji

Korelację bada się na podstawie danych eksperymentalnych, którymi są zmierzone wartości (x i, y i) dwóch cech. Jeśli danych eksperymentalnych jest mało, dwuwymiarowy rozkład empiryczny jest reprezentowany jako podwójny szereg wartości x i y i. Jednocześnie zależność korelacyjną pomiędzy cechami można opisać na różne sposoby. Zgodność między argumentem a funkcją można przedstawić za pomocą tabeli, wzoru, wykresu itp.

Analiza korelacji, podobnie jak inne metody statystyczne, opiera się na wykorzystaniu modeli probabilistycznych opisujących zachowanie badanych cech w określonej populacji ogólnej, z której uzyskuje się wartości eksperymentalne xi oraz y i. Badając korelację między cechami ilościowymi, których wartości można dokładnie zmierzyć w jednostkach skali metrycznej (metry, sekundy, kilogramy itp.), Bardzo często przyjmuje się dwuwymiarowy model populacji o rozkładzie normalnym. Model taki przedstawia zależność pomiędzy zmiennymi x i oraz y i w sposób graficzny w postaci geometrycznego położenia punktów w układzie współrzędnych prostokątnych. Ta zależność graficzna nazywana jest także wykresem rozrzutu lub polem korelacji.
Ten model dwuwymiarowego rozkładu normalnego (pola korelacji) pozwala nam podać jasną graficzną interpretację współczynnika korelacji, ponieważ rozkład ogółem zależy od pięciu parametrów: μ x, μ y – wartości średnie (oczekiwania matematyczne); σ x, σ y – odchylenia standardowe zmiennych losowych X i Y oraz p – współczynnik korelacji, będący miarą związku pomiędzy zmiennymi losowymi X i Y.
Jeśli p = 0, to wartości x i , y i uzyskane z dwuwymiarowej populacji normalnej znajdują się na wykresie we współrzędnych x, y w obszarze ograniczonym okręgiem (ryc. 5, a). W tym przypadku nie ma korelacji pomiędzy zmiennymi losowymi X i Y i nazywa się je nieskorelowanymi. Dla dwuwymiarowego rozkładu normalnego brak korelacji oznacza jednocześnie niezależność zmiennych losowych X i Y.



Nowość na stronie

>

Najbardziej popularny