Dom Nieświeży oddech Współczynnik wielokrotnej korelacji i współczynnik wielokrotnej determinacji. Wielokrotna korelacja liniowa

Współczynnik wielokrotnej korelacji i współczynnik wielokrotnej determinacji. Wielokrotna korelacja liniowa

Spróbujmy najpierw znaleźć odpowiedź na każde ze zidentyfikowanych przez nas pytań w sytuacji, gdy nasz model przyczynowy zawiera tylko dwie niezależne zmienne.

Korelacja wielokrotna R i współczynnik determinacji R2

Aby oszacować zagregowaną relację wszystkich zmiennych niezależnych ze zmienną zależną, użyj współczynnik wielokrotny Korelacje R. Różnica między współczynnikiem korelacji wielokrotnej R ze współczynnika korelacji dwuwymiarowej G jest to, że może to być tylko pozytywne. Dla dwóch zmiennych niezależnych można to oszacować w następujący sposób:

Współczynnik korelacji wielokrotnej można również wyznaczyć poprzez estymację współczynników regresji cząstkowej tworzących równanie (9.1). Dla dwóch zmiennych równanie to będzie oczywiście miało następującą postać:

(9.2)

Jeśli nasze zmienne niezależne zostaną przekształcone w jednostki standardowe rozkład normalny lub rozkładu Z, równanie (9.2) będzie oczywiście miało następującą postać:

(9.3)

W równaniu (9.3) współczynnik β oznacza standaryzowaną wartość współczynnika regresji W.

Same standaryzowane współczynniki regresji można obliczyć za pomocą następujących wzorów:

Teraz wzór na obliczenie współczynnika korelacji wielokrotnej będzie wyglądał następująco:

Inny sposób oszacowania współczynnika korelacji R jest obliczeniem współczynnika korelacji dwuwymiarowej R pomiędzy wartościami zmiennej zależnej Y a odpowiadającymi im wartościami obliczonymi na podstawie równania regresja liniowa(9.2). Innymi słowy wartość R można ocenić w następujący sposób:

Wraz z tym współczynnikiem możemy oszacować, podobnie jak w przypadku prostej regresji, wartość R 2, który jest również zwykle oznaczony jako współczynnik determinacji. Podobnie jak w sytuacji oceny związku pomiędzy dwiema zmiennymi, współczynnik determinacji R 2 pokazuje, jaki procent wariancji zmiennej zależnej Y , tj. , okazuje się być związane z rozproszeniem wszystkich zmiennych niezależnych – . Innymi słowy, współczynnik determinacji można ocenić w następujący sposób:

Możemy także oszacować procent wariancji resztowej zmiennej zależnej, która nie jest powiązana z żadną ze zmiennych niezależnych 1 – R 2. Pierwiastek kwadratowy od tej wartości, tj. wielkość, podobnie jak w przypadku korelacji dwuwymiarowej, nazywa się współczynnik alienacji.

Część korelacyjna

Współczynnik determinacji R Rysunek 2 pokazuje, jaki procent wariancji zmiennej zależnej można przypisać wariancji wszystkich zmiennych niezależnych uwzględnionych w modelu przyczynowym. Im większy jest ten współczynnik, tym ważniejszy jest model przyczynowy, który proponujemy. Jeśli współczynnik ten okaże się niezbyt duży, to udział badanych przez nas zmiennych w całkowitej wariancji zmiennej zależnej również okaże się nieistotny. W praktyce jednak często konieczne jest oszacowanie nie tylko całkowitego wkładu wszystkich zmiennych, ale także indywidualnego wkładu każdej z rozważanych przez nas zmiennych niezależnych. Taki wkład można określić jako część korelacyjna.

Jak wiemy, w przypadku korelacji dwuwymiarowej procent wariancji zmiennej zależnej powiązany z wariancją zmiennej niezależnej można oznaczyć jako R 2. Jednakże część tej wariancji w przypadku badania wpływu kilku zmiennych niezależnych wynika jednocześnie z wariancji zmiennej niezależnej, której używamy jako kontroli. Zależności te wyraźnie widać na rys. 9.1.

Ryż. 9.1. Stosunek wariancji zależnej (Y ) i dwa niezależne (X 1IX 2) zmienne w analiza korelacji z dwiema niezależnymi zmiennymi

Jak pokazano na ryc. 9.1, wszystkie różnice Y , powiązany z naszymi dwiema niezależnymi zmiennymi, składa się z trzech części oznaczonych etykietami a, b I Z. Strony A I B odchylenia Y należą oddzielnie do wariancji dwóch zmiennych niezależnych – X 1 i X 2. Jednocześnie rozproszenie części c łączy jednocześnie rozproszenie zmiennej zależnej Y i rozproszenie naszych dwóch zmiennych X. Dlatego w celu oceny związku zmiennej X 1 ze zmienną Y, co nie wynika z wpływu zmiennej X 2 na zmienną Y , konieczne z ilości R" 2 odejmij kwadrat wartości korelacji Y Z X 2:

(9.6)

W podobny sposób możemy oszacować część korelacji Y z X 2, co nie wynika z jego korelacji z X 1.

(9.7)

Ogrom senior w równaniach (9.6) i (9.7) jest tym, którego szukamy część korelacyjna.

Korelację części można również zdefiniować w kategoriach zwykłej korelacji dwuwymiarowej:

W inny sposób korelacja częściowa nazywana jest korelacją półczęściową. Nazwa ta oznacza, że ​​przy obliczaniu korelacji eliminuje się wpływ drugiej zmiennej niezależnej w odniesieniu do wartości pierwszej zmiennej niezależnej, ale nie eliminuje się w odniesieniu do zmiennej zależnej. Efekt X 1 jest w pewnym sensie dostosowywany za pomocą wartości X 2, więc współczynnik korelacji nie jest obliczany pomiędzy Y I X 1 i pomiędzy Y i , a wartości są obliczane na podstawie wartości X 2, jak omówiono w rozdziale o prostej regresji liniowej (patrz podrozdział 7.4.2). Zatem prawdziwa okazuje się następująca zależność:

W celu oceny korelacji jednej zmiennej niezależnej ze zmienną zależną przy braku wpływu innych zmiennych niezależnych zarówno na samą zmienną niezależną, jak i na zmienną zależną, w analizie regresji wykorzystuje się koncepcję korelacji częściowej.

Częściowe korelacje

Prywatny, lub częściowe, korelacja określa się w statystyce matematycznej poprzez proporcję wariancji zmiennej zależnej powiązanej z wariancją danej zmiennej niezależnej do całej wariancji tej zmiennej zależnej, nie licząc tej jej części, która jest powiązana z wariancją innych zmienne niezależne. Formalnie dla przypadku dwóch zmiennych niezależnych można to wyrazić w następujący sposób:

Częściowa korelacja wartościuje się sama pr można znaleźć na podstawie wartości korelacji dwuwymiarowej:

Częściową korelację można zatem zdefiniować jako zwykłą korelację dwuwymiarową między skorygowanymi wartościami zarówno zmiennej zależnej, jak i niezależnej. Sama korekta odbywa się zgodnie z wartościami zmiennej niezależnej, która pełni rolę zmiennej sterującej. Innymi słowy, częściowa korelacja między zmienną zależną Y i zmienna niezależna X można zdefiniować jako zwykłą korelację między wartościami i wartościami , z wartościami i przewidywanymi na podstawie wartości drugiej zmiennej niezależnej X 2.

Wielokrotny współczynnik korelacji stosowana jako miara stopnia bliskości zależności statystycznej pomiędzy uzyskanym wskaźnikiem (zmienną zależną) y oraz zbiór zmiennych objaśniających (niezależnych), czyli inaczej mówiąc, ocenia bliskość wspólnego wpływu czynników na wynik.

Współczynnik korelacji wielokrotnej można obliczyć za pomocą szeregu wzorów 5 , m.in.:

    przy użyciu macierzy współczynników korelacji par

, (3.18)

gdzie  R- wyznacznik macierzy współczynników korelacji par y,
,

R 11 - wyznacznik macierzy korelacji międzyczynnikowej
;

. (3.19)

Dla modelu, w którym występują dwie zmienne niezależne, wzór (3.18) jest uproszczony

. (3.20)

Kwadrat współczynnika korelacji wielokrotnej wynosi współczynnik determinacji R 2. Podobnie jak w przypadku regresji parami, R 2 wskazuje jakość modelu regresji i odzwierciedla udział całkowitej zmienności uzyskanej cechy y można wytłumaczyć zmianami funkcji regresji F(X) (patrz 2.4). Ponadto współczynnik determinacji można znaleźć za pomocą wzoru

. (3.21)

Jednakże użycie R 2 na wszelki wypadek regresja wielokrotna nie jest do końca poprawne, gdyż współczynnik determinacji wzrasta w miarę dodawania do modelu regresorów. Dzieje się tak, ponieważ wariancja resztowa maleje, gdy wprowadza się dodatkowe zmienne. A jeśli liczba czynników zbliży się do liczby obserwacji, to wariancja resztowa będzie równa zeru, a współczynnik korelacji wielokrotnej, a co za tym idzie współczynnik determinacji, zbliży się do jedności, chociaż w rzeczywistości związek między czynnikami a wynikiem a moc wyjaśniająca równania regresji może być znacznie niższa.

Aby uzyskać odpowiednią ocenę tego, jak dobrze zmienność wynikowej cechy jest wyjaśniona przez zmienność kilku cech czynnikowych, używają skorygowany współczynnik determinacji

(3.22)

Skorygowany współczynnik determinacji jest zawsze mniejszy R 2. Co więcej, w przeciwieństwie R 2, która jest zawsze dodatnia,
może również przyjmować wartość ujemną.

Przykład (kontynuacja przykładu 1). Obliczmy współczynnik korelacji wielokrotnej według wzoru (3.20):

Wartość współczynnika korelacji wielokrotnej wynosząca 0,8601 wskazuje na silny związek pomiędzy kosztem transportu a masą ładunku i odległością, na jaką jest on transportowany.

Współczynnik determinacji jest równy: R 2 =0,7399.

Skorygowany współczynnik determinacji oblicza się ze wzoru (3.22):

=0,7092.

Należy pamiętać, że wartość skorygowanego współczynnika determinacji różni się od wartości współczynnika determinacji.

Zatem 70,9% zmienności zmiennej zależnej (koszt transportu) można wytłumaczyć zmianą zmiennych niezależnych (waga ładunku i odległość transportu). Pozostałe 29,1% zmienności zmiennej zależnej wyjaśniane jest czynnikami nieuwzględnionymi w modelu.

Wartość skorygowanego współczynnika determinacji jest dość duża, dlatego udało nam się uwzględnić w modelu najważniejsze czynniki determinujące koszt transportu. 

Współczynnik korelacji wielokrotnej trzech zmiennych jest wskaźnikiem bliskości liniowego związku pomiędzy jedną z cech (litera indeksu przed myślnikiem) a kombinacją dwóch innych cech (litera indeksu po myślniku):

; (12.7)

(12.8)

Wzory te ułatwiają obliczenie wielu współczynników korelacji, gdy znane wartości współczynniki korelacji par r xy, r xz i r yz.

Współczynnik R nie jest ujemna i zawsze mieści się w przedziale od 0 do 1. W miarę zbliżania się R Do jednego wzrasta stopień liniowego powiązania pomiędzy trzema cechami. Pomiędzy współczynnikiem korelacji wielokrotnej, np. R y-xz i dwie pary współczynników korelacji r yx I r yz istnieje następująca zależność: każdy ze sparowanych współczynników nie może przekroczyć wartość bezwzględna R y-xz.

Kwadratowy współczynnik korelacji wielokrotnej R2 zwany współczynnikiem wielokrotnej determinacji. Pokazuje proporcję zmienności zmiennej zależnej pod wpływem badanych czynników.

Znaczenie korelacji wielokrotnej ocenia się za pomocą:
F-kryterium:

, (12.9)

N– wielkość próbki,

k– liczba funkcji; w naszym przypadku k = 3.

Wartość teoretyczna F– kryteria pobierane są z tabeli wniosków dla v 1 = k–1 i ν 2 = n–k stopnie swobody i akceptowany poziom istotności. Hipoteza zerowa, że ​​współczynnik korelacji wielokrotnej w populacji jest równy zeru ( H0:R= 0) jest akceptowane, jeśli Fakt F.< F табл . i zostaje odrzucony, jeśli Fakt F. ≥ Tabela F.

Koniec pracy -

Ten temat należy do działu:

Statystyka matematyczna

Instytucja edukacyjna.. Homel uniwersytet państwowy.. nazwany na cześć Franciszka Skaryny Yu M Zhuchenko..

Jeśli potrzebujesz dodatkowych materiałów na ten temat lub nie znalazłeś tego czego szukałeś, polecamy skorzystać z wyszukiwarki w naszej bazie dzieł:

Co zrobimy z otrzymanym materiałem:

Jeśli ten materiał był dla Ciebie przydatny, możesz zapisać go na swojej stronie w sieciach społecznościowych:

Wszystkie tematy w tym dziale:

Seminarium
dla studentów uczelni wyższych studiujących na specjalności 1-31 01 01 „Biologia” Gomel 2010

Przedmiot i metoda statystyki matematycznej
Przedmiotem statystyki matematycznej jest badanie właściwości zjawisk masowych w biologii, ekonomii, technologii i innych dziedzinach. Zjawiska te są zwykle przedstawiane jako złożone ze względu na różnorodność (wariacje)

Pojęcie zdarzenia losowego
Indukcja statystyczna lub wnioskowanie statystyczne, jako główne część metody badania zjawisk masowych, mają swoje własne charakterystyczne cechy. Wnioski statystyczne wyciąga się za pomocą liczb

Prawdopodobieństwo zdarzenia losowego
Nazywa się liczbową charakterystykę zdarzenia losowego, która ma tę właściwość, że dla każdej wystarczająco dużej serii testów częstotliwość zdarzenia różni się tylko nieznacznie od tej charakterystyki.

Obliczanie prawdopodobieństw
Często istnieje potrzeba jednoczesnego dodawania i mnożenia prawdopodobieństw. Na przykład musisz określić prawdopodobieństwo zdobycia 5 punktów przy rzucie 2 kostkami jednocześnie. Prawdopodobnie wymagana kwota

Pojęcie zmiennej losowej
Po zdefiniowaniu pojęcia prawdopodobieństwa i wyjaśnieniu jego głównych właściwości, przejdźmy do rozważenia jednego z najważniejszych pojęć teorii prawdopodobieństwa – pojęcia zmiennej losowej.

Załóżmy, że w rezultacie
Dyskretne zmienne losowe

Zmienna losowa jest dyskretna, jeśli zbiór jej możliwych wartości jest skończony lub przynajmniej policzalny. Załóżmy, że zmienna losowa X może przyjmować wartości x1
Ciągłe zmienne losowe W przeciwieństwie do dyskretnych zmiennych losowych omówionych w poprzednim podrozdziale, populacja możliwe wartości

ciągła zmienna losowa nie tylko nie jest skończona, ale także nie może być
Oczekiwanie i wariancja

Często istnieje potrzeba scharakteryzowania rozkładu zmiennej losowej za pomocą jednego lub dwóch wskaźników numerycznych, które wyrażają najważniejsze właściwości tego rozkładu. Do takich
Chwile

W statystyce matematycznej duże znaczenie mają tzw. momenty rozkładu zmiennej losowej. W oczekiwaniach matematycznych duże wartości zmiennej losowej nie są wystarczająco brane pod uwagę.
Rozkład dwumianowy i pomiar prawdopodobieństwa

W tym temacie rozważymy główne typy rozkładów dyskretnych zmiennych losowych. Załóżmy, że prawdopodobieństwo wystąpienia jakiegoś zdarzenia losowego A podczas pojedynczej próby jest równe
Rozkład prostokątny (równomierny). Rozkład prostokątny (równomierny) - najprostszy typ

dystrybucje ciągłe. Jeśli zmienna losowa X może przyjąć dowolną wartość rzeczywistą z przedziału (a, b), gdzie a i b są rzeczywiste
Rozkład normalny

Rozkład normalny odgrywa zasadniczą rolę w statystyce matematycznej. Nie jest to w najmniejszym stopniu przypadkowe: w obiektywnej rzeczywistości bardzo często spotyka się różne znaki
Rozkład lognormalny

Zmienna losowa Y ma rozkład lognormalny o parametrach μ i σ, jeżeli zmienna losowa X = lnY ma rozkład normalny o tych samych parametrach μ i &
Spośród wszystkich właściwości grupowych największe znaczenie teoretyczne i praktyczne ma poziom średni, mierzony średnią wartością cechy.

Średnia wartość cechy to bardzo głębokie pojęcie,
Ogólne właściwości średnich

Do prawidłowego wykorzystania wartości średnich konieczna jest znajomość właściwości tych wskaźników: mediany lokalizacji, abstrakcyjności i jedności całkowitego działania.
Według jego wartości liczbowej

Średnia arytmetyczna
Średnia arytmetyczna, mająca ogólne właściwości wartości średnich, ma swoje własne cechy, które można wyrazić za pomocą następujących wzorów:

Średnia pozycja (średnia nieparametryczna)
Rangę średnią wyznacza się dla cech, dla których nie znaleziono jeszcze ilościowych metod pomiaru. W zależności od stopnia manifestacji takich znaków obiekty można uszeregować, tj. zlokalizować

Ważona średnia arytmetyczna
Zwykle, aby obliczyć średnią arytmetyczną, wszystkie wartości atrybutu są sumowane, a otrzymana suma jest dzielona przez liczbę opcji. W tym przypadku każda wartość zawarta w sumie zwiększa ją o pełną

Średni kwadrat
Średnią kwadratową oblicza się ze wzoru: , (6.5) Jest ona równa pierwiastkowi kwadratowemu z sumy

Mediana
Mediana jest wartością charakterystyczną, która dzieli całą grupę na dwie równe części: jedna część ma wartość charakterystyczną mniejszą od mediany, a druga większą. Na przykład, jeśli maszŚrednia geometryczna

Aby uzyskać średnią geometryczną dla grupy zawierającej n danych, należy pomnożyć wszystkie opcje i wyodrębnić z otrzymanego iloczynu
n-ty pierwiastek

stopnie:
Średnia harmoniczna

Średnią harmoniczną oblicza się ze wzoru. (6.14) Dla pięciu opcji: 1, 4, 5, 5 Środa
Liczba stopni swobody Liczba stopni swobody jest równa liczbie elementów rozmaitości swobodnej w grupie. Jest ona równa liczbie wszystkich dostępnych elementów nauczania bez liczby ograniczeń różnorodności. Na przykład na badania Współczynnik zmienności

Odchylenie standardowe
– nazwana wielkość, wyrażona w tych samych jednostkach miary, co średnia arytmetyczna. Dlatego dla porównania różne znaki

, wyrażone w różnych jednostkach od
Granice i zakres

Średnia i sigma całej grupy
Czasami konieczne jest określenie średniej i sigma dla rozkładu sumarycznego składającego się z kilku rozkładów. W tym przypadku znane są nie same rozkłady, a jedynie ich średnie i sigma.

Skośność (skośność) i stromość (kurtoza) krzywej rozkładu
Dla dużych próbek (n > 100) obliczane są jeszcze dwie statystyki.

Skośność krzywej nazywa się asymetrią:
Seria odmian

W miarę zwiększania się liczby badanych grup schemat różnorodności, który w małych grupach był ukryty pod przypadkową formą jej manifestacji, staje się coraz bardziej wyraźny.
Histogram i krzywa zmienności Histogram jest seria odmian

, przedstawiony w formie diagramu, na którym różne wartości częstotliwości są reprezentowane przez różne wysokości słupków. Histogram rozkładu danych przedstawiono na str. 2
Wiarygodność różnic w rozkładach Hipoteza statystyczna to specyficzne założenie dotyczące rozkładu prawdopodobieństwa leżącego u podstaw obserwowanej próbki danych. Badanie

hipoteza statystyczna
to proces akceptacji

Kryterium skośności i kurtozy
Niektóre cechy roślin, zwierząt i mikroorganizmów, łącząc obiekty w grupy, dają rozkłady znacznie odbiegające od normalnych. W przypadkach, gdy jakiekolwiek Populacja i próba

Cały zbiór osobników określonej kategorii nazywany jest populacją ogólną. Tom
populacja

zdeterminowane celami badania.
Jeśli badany jest jakikolwiek dziki gatunek

Reprezentatywność
Bezpośrednie badanie grupy wybranych obiektów dostarcza przede wszystkim materiału pierwotnego i charakterystyki samej próbki.

Wszystkie przykładowe dane i wskaźniki podsumowujące są istotne
Błędy reprezentatywności i inne błędy badawcze

Oszacowanie parametrów ogólnych za pomocą przykładowych wskaźników ma swoją własną charakterystykę.
Oszacowanie wartości średniej ma na celu ustalenie wartości średniej ogólnej dla badanej kategorii obiektów. Wymagany do tego błąd reprezentatywności wyznacza się ze wzoru:

Oszacowanie średniej różnicy
W niektórych badaniach jako dane pierwotne przyjmuje się różnicę dwóch pomiarów. Może się tak zdarzyć, gdy każdą osobę w próbie bada się w dwóch stanach – lub w w różnym wieku lub str

Nierzetelne i wiarygodne oszacowanie średniej różnicy
Takie wyniki badań reprezentacyjnych, dla których nie można uzyskać jednoznacznego oszacowania parametru ogólnego (lub jest on większy od zera, mniejszy lub równy zero), nazywane są niewiarygodnymi.

Oszacowanie różnicy pomiędzy średnimi ogólnymi
W badaniach biologicznych szczególnie istotna jest różnica pomiędzy dwiema wielkościami. Na zasadzie różnicy dokonuje się porównań pomiędzy różnymi populacjami, rasami, rasami, odmianami, liniami, rodzinami, grupami doświadczalnymi i kontrolnymi (metoda gr

Kryterium niezawodności różnicowej
Ponadto wielkie znaczenie, co jest ważne dla badaczy, aby uzyskać wiarygodne różnice, istnieje potrzeba opanowania metod, które pozwolą określić, czy wynik jest rzetelny, realistyczny

Reprezentatywność w badaniu cech jakościowych
Cechy jakościowe zwykle nie mogą mieć stopniowania manifestacji: są obecne lub nieobecne u każdego osobnika, na przykład płeć, bezpyłowość, obecność lub brak niektórych cech, deformacje

Wiarygodność różnicy udziałów
Wiarygodność różnicy w proporcjach próbek określa się w taki sam sposób jak różnicę średnich: (10,34)

Współczynnik korelacji
Wiele badań wymaga zbadania wielu cech w ich wzajemnych powiązaniach. Jeśli przeprowadzisz takie badanie w odniesieniu do dwóch cech, zauważysz, że zmienność jednej cechy nie jest

Błąd współczynnika korelacji
Jak każda wartość próbki, współczynnik korelacji ma swój własny błąd reprezentatywności, obliczany dla dużych próbek za pomocą wzoru:

Wiarygodność współczynnika korelacji próbki
Kryterium współczynnika korelacji próbki wyznacza wzór: (11.9) gdzie:

Granice ufności współczynnika korelacji
Granice ufności ogólnej wartości współczynnika korelacji wynoszą w sposób ogólny według wzoru:

Wiarygodność różnicy między dwoma współczynnikami korelacji
Wiarygodność różnicy współczynników korelacji określa się w taki sam sposób, jak wiarygodność różnicy średnich, zgodnie ze zwykłym wzorem

Równanie regresji prostej
Korelacja liniowa różni się tym, że w przypadku tej formy połączenia każda z identycznych zmian pierwszej cechy odpowiada całkowicie określonej i średnio identycznej zmianie drugiej cechy.

Błędy w elementach równania regresji liniowej
W prostym równaniu regresji liniowej: y = a + bx powstają trzy błędy reprezentatywności.

1 Błąd współczynnika regresji:
Częściowy współczynnik korelacji Częściowy współczynnik Statystyka matematyczna korelacja to wskaźnik mierzący stopień sprzężenia dwóch cech ze stałą wartością trzeciej.

pozwala na ustalenie korelacji
Liniowe równanie regresji wielokrotnej Równanie matematyczne opisujące liniową zależność między trzema zmiennymi nazywa się wielokrotnością równanie liniowe

płaszczyzny regresji. Ma następującą ogólną postać:
Związek korelacyjny

Jeżeli zależność między badanymi zjawiskami odbiega znacznie od liniowej, którą łatwo ustalić na podstawie wykresu, wówczas współczynnik korelacji nie nadaje się jako miara powiązania. Potrafi wskazać nieobecność
Własności relacji korelacyjnej

Współczynnik korelacji mierzy stopień korelacji w dowolnej formie.
Ponadto relacja korelacji ma szereg innych właściwości, które są bardzo interesujące w statystyce

Błąd reprezentatywności zależności korelacyjnej
Dokładny wzór na błąd reprezentatywności zależności korelacyjnej nie został jeszcze opracowany. Zwykle formuła podana w podręcznikach ma wady, których nie zawsze można zignorować. Ta formuła nie uczy

Kryterium liniowości korelacji
Do określenia stopnia przybliżenia zależności krzywoliniowej do prostoliniowej stosuje się kryterium F, obliczane według wzoru:

Kompleks dyspersyjny
Kompleks dyspersyjny to zbiór gradacji z danymi objętymi badaniem i średnią danych dla każdej gradacji (średnie częściowe) i dla całego kompleksu (średnia ogólna).

Wpływy statystyczne
Wpływ statystyczny jest odzwierciedleniem różnorodności wynikowego atrybutu różnorodności czynnika (jego gradacji), który jest zorganizowany w badaniu.

Aby ocenić wpływ czynnika neo
Wpływ czynnikowy opracował i wprowadził do praktyki badań rolniczych i biologicznych angielski naukowiec R. A. Fisher, który odkrył prawo rozkładu stosunku średniokwadratowego

Wieloczynnikowy kompleks dyspersyjny
Jasne pojęcie o model matematyczny analiza wariancji ułatwia zrozumienie niezbędnych operacji obliczeniowych, zwłaszcza przy przetwarzaniu danych z eksperymentów wielowymiarowych, w których więcej

Transformacje
Właściwe użycie analiza wariancji do przetwarzania materiału doświadczalnego zakłada jednorodność wariancji pomiędzy wariantami (próbkami), rozkład normalny lub zbliżony do normalnego w

Wskaźniki siły wpływów
Określenie siły wpływów na podstawie ich wyników jest wymagane w biologii, rolnictwie i medycynie, aby wybrać ich najwięcej skuteczne środki efekty, do dozowania środków fizykochemicznych - st.

Błąd reprezentatywności głównego wskaźnika siły wpływu
Dokładny wzór na błąd głównego wskaźnika siły wpływu nie został jeszcze znaleziony.

W kompleksach jednoczynnikowych, gdy błąd reprezentatywności wyznacza się tylko dla jednego wskaźnika silniowego
Wartości graniczne wskaźników wpływu Główny wskaźnik siły wpływu jest równy udziałowi jednego terminu w całkowitej sumie terminów. Ponadto ten wskaźnik równy kwadratowi

związek korelacyjny. Z tych dwóch powodów wskaźnik zasilania
Niezawodność wpływów Głównym wskaźnikiem siły wpływu uzyskanej w przykładowe badanie

, charakteryzuje przede wszystkim stopień wpływu, jaki rzeczywiście przejawiał się w grupie badanych obiektów
Analiza dyskryminacyjna

Analiza dyskryminacyjna jest jedną z metod wieloczynnikowej analizy statystycznej. Celem analizy dyskryminacyjnej jest, w oparciu o pomiar różnych cech (cech, par)
Sformułowanie problemu, metody rozwiązania, ograniczenia

Załóżmy, że istnieje n obiektów o m charakterystyce. W wyniku pomiarów każdy obiekt charakteryzuje się wektorem x1...xm, m >1. Wyzwanie polega na tym
Założenia i ograniczenia

Analiza dyskryminacyjna „działa”, jeśli spełnionych zostanie szereg założeń.
Założenie, że obserwowalne wielkości – mierzalne cechy obiektu – mają rozkład normalny. Ten

Algorytm analizy dyskryminacyjnej
Rozwiązanie problemów dyskryminacji (analiza dyskryminacyjna) polega na podzieleniu całej przestrzeni próbki (zbioru realizacji wszystkich uwzględnianych wielowymiarowych zmiennych losowych) na pewną liczbę różne procedury, używany do klasyfikacji. W wyniku zastosowania tych procedur początkowy zbiór obiektów zostaje podzielony na skupienia lub grupy

Metody analizy skupień
W praktyce najczęściej stosuje się metody grupowania aglomeracyjnego.

Zwykle przed rozpoczęciem klasyfikacji dane są standaryzowane (średnia jest odejmowana i dzielona przez pierwiastek kwadratowy).
Algorytm analizy skupień

7.1. Analiza skupień to zestaw metod klasyfikacji wielowymiarowych obserwacji lub obiektów polegający na zdefiniowaniu pojęcia odległości między obiektami, a następnie wyodrębnieniu z nich grup, Analiza regresji liniowej polega na wybraniu wykresu dla zbioru obserwacji za pomocą metody najmniejszych kwadratów . Analiza regresji pozwala nam ustalić związek funkcjonalny między niektórymi Y zmienna losowa Y i jakiś wpływ X wartości . Zależność ta nazywa się równaniem regresji. Są proste ( y=m*x+b ) i liczba mnoga ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b
) regresja typu liniowego i nieliniowego. Aby ocenić stopień powiązania między wielkościami, stosuje się go Współczynnik korelacji wielokrotnej Pearsona R R(współczynnik korelacji), który może przyjmować wartości od 0 do 1. R=0 jeśli nie ma związku pomiędzy wielkościami, oraz R2=1, jeżeli istnieje funkcjonalne powiązanie pomiędzy wielkościami. W większości przypadków R przyjmuje wartości pośrednie od 0 do 1. Wartość zwany.
współczynnik determinacji Zadanie konstrukcji zależności regresyjnej polega na znalezieniu wektora współczynników M R model wielokrotnej regresji liniowej, w którym współczynnik
przyjmuje wartość maksymalną. R Aby ocenić znaczenie ma zastosowanie Test F Fishera

, obliczane według wzoru: N Gdzie k– liczba eksperymentów; F– liczba współczynników modelu. Jeśli N I k przekracza pewną wartość krytyczną dla danych i zaakceptowane prawdopodobieństwo pewności R, a następnie wartość

uznane za znaczące. 7.2. Narzędzie Regresja z Pakiet analityczny

· pozwala obliczyć następujące dane: szanse funkcja liniowa regresja

· – metoda najmniejszych kwadratów; o rodzaju funkcji regresji decyduje struktura danych źródłowych; współczynnik determinacji i powiązane wielkości (tabela);

· Statystyka regresji współczynnik determinacji i powiązane wielkości tabela wariancji i statystyka kryterialna do testowania istotności regresji);

· odchylenie standardowe i inne jego charakterystyki statystyczne dla każdego współczynnika regresji, pozwalające sprawdzić istotność tego współczynnika i skonstruować dla niego przedziały ufności;

· Wartości funkcji regresji i reszty– różnice pomiędzy wartościami początkowymi zmiennej Y i obliczone wartości funkcji regresji (tabela Wycofanie salda);

· prawdopodobieństwa odpowiadające wartościom zmiennej Y uporządkowanej rosnąco współczynnik determinacji i powiązane wielkości Wynik prawdopodobieństwa).

7.3. Wywołaj narzędzie selekcji poprzez Dane > Analiza danych > Regresja.

7.4. W polu Interwał wejściowy Y wprowadź adres zakresu zawierającego wartości zmiennej zależnej Y. Zakres musi składać się z jednej kolumny.
W polu Interwał wejściowy X wprowadź adres zakresu zawierającego wartości zmiennej X. Zakres musi składać się z jednej lub więcej kolumn, ale nie więcej niż 16 kolumn. Jeśli określono w polach Interwał wejściowy Y I Interwał wejściowy X zakresy obejmują nagłówki kolumn, należy zaznaczyć pole opcji Tagi– nagłówki te zostaną wykorzystane w tabelach wynikowych generowanych przez narzędzie 7.2. Narzędzie.
Pole wyboru opcji Stała - zero należy ustalić, jeśli równanie regresji ma stałą B jest równa zero.
Opcja Poziom niezawodności ustawia się, gdy konieczne jest skonstruowanie przedziałów ufności dla współczynników regresji z poziomem ufności innym niż 0,95, który jest używany domyślnie. Po zaznaczeniu pola opcji Poziom niezawodności Zostanie udostępnione pole wejściowe, w którym można wprowadzić nową wartość poziomu ufności.
W okolicy Resztki Istnieją cztery opcje: Resztki, Bilanse standaryzowane, Wykres salda I Harmonogram selekcji. Jeżeli przynajmniej jeden z nich jest zainstalowany, w wynikach wyjściowych pojawi się tabela Wycofanie salda, w którym zostaną wyświetlone wartości funkcji regresji oraz reszty – różnice pomiędzy wartościami początkowymi zmiennej Y a obliczonymi wartościami funkcji regresji. W okolicy Normalne prawdopodobieństwo Jest jedna opcja –; jego instalacja generuje tabelę w wynikach wyjściowych Wynik prawdopodobieństwa i prowadzi do konstrukcji odpowiedniego wykresu.


7,5. Ustaw parametry zgodnie z rysunkiem. Upewnij się, że wartość Y jest pierwszą zmienną (łącznie z komórką tytułu), a wartość X to pozostałe dwie zmienne (w tym komórki tytułu). Trzask OK.

7.6. W tabeli (tabela Podano następujące dane.

Liczba mnoga R– pierwiastek współczynnika determinacji R 2 podany w kolejnym wierszu. Inną nazwą tego wskaźnika jest wskaźnik korelacji lub współczynnik korelacji wielokrotnej.

Kwadrat R– współczynnik determinacji R 2 ; obliczony jako stosunek regresyjna suma kwadratów(komórka C12) do całkowita suma kwadratów(komórka C14).

Znormalizowany R-kwadrat obliczone według wzoru

gdzie n jest liczbą wartości zmiennej Y, k jest liczbą kolumn w przedziale wejściowym zmiennej X.

Standardowy błąd– pierwiastek wariancji resztowej (komórka D13).

Obserwacje– liczba wartości zmiennej Y.

7.7. W Tabela dyspersji w kolumnie SS sumy kwadratów podano w kolumnie zm– liczba stopni swobody. w kolumnie SM– dyspersja. W kolejce 7.2. Narzędzie w kolumnie F W celu sprawdzenia istotności regresji obliczono wartość statystyki kryterialnej. Wartość tę oblicza się jako stosunek wariancji regresji do wariancji resztowej (komórki D12 i D13). W kolumnie Znaczenie F obliczane jest prawdopodobieństwo otrzymanej wartości statystyki kryterialnej. Jeżeli prawdopodobieństwo to jest mniejsze niż np. 0,05 (dany poziom istotności), to hipoteza o nieistotności regresji (tj. hipoteza, że ​​wszystkie współczynniki funkcji regresji są równe zero) zostaje odrzucona i regresja zostaje uznane za istotne. W tym przykładzie regresja nie jest znacząca.

7.8. W poniższej tabeli, w kolumnie Szanse, w linii zapisywane są obliczone wartości współczynników funkcji regresji Przecięcie Y zapisywana jest wartość wolnego terminu B. W kolumnie Standardowy błąd Obliczono odchylenia standardowe współczynników.
W kolumnie statystyka t Rejestrowane są stosunki wartości współczynników do ich odchyleń standardowych. Są to wartości statystyki kryterialnej służącej do testowania hipotez o istotności współczynników regresji.
W kolumnie Wartość P obliczane są poziomy istotności odpowiadające wartościom statystyk kryterialnych. Jeśli obliczony poziom istotności jest mniejszy niż określony poziom istotności (na przykład 0,05). wówczas przyjmuje się hipotezę, że współczynnik różni się istotnie od zera; w przeciwnym razie przyjmuje się hipotezę, że współczynnik różni się nieznacznie od zera. W tym przykładzie tylko współczynnik B istotnie różni się od zera, reszta – nieznacznie.
W kolumnach Dolne 95% I Najlepsze 95% podano granice przedziałów ufności o poziomie ufności 0,95. Granice te oblicza się za pomocą wzorów
Dolne 95% = współczynnik – błąd standardowy * t α;
Górne 95% = współczynnik + błąd standardowy * t α.
Tutaj t a– kwantyl rzędu α Rozkłady t-Studenta z (n-k-1) stopniami swobody. W w tym przypadku α = 0,95. W ten sam sposób oblicza się granice przedziałów ufności w kolumnach Dolne 90,0% I Górne 90,0%.

7.9. Rozważ tabelę Wycofanie salda z wyników wyjściowych. Ta tabela pojawia się w wynikach wyjściowych tylko wtedy, gdy ustawiona jest co najmniej jedna opcja w obszarze Resztki okno dialogowe 7.2. Narzędzie.

W kolumnie Obserwacja podane są numery seryjne wartości zmiennych Y.
W kolumnie Przewidywany Y dla tych wartości zmiennej obliczane są wartości funkcji regresji y i = f(x i). X, co odpowiada numer seryjny I w kolumnie Obserwacja.
W kolumnie Resztki zawiera różnice (reszty) ε i =Y-y i oraz kolumnę Bilanse standardowe– reszty znormalizowane, które oblicza się jako współczynniki ε i/s ε. gdzie s ε jest odchyleniem standardowym reszt. Kwadrat wartości s ε oblicza się ze wzoru

gdzie jest średnią reszt. Wartość można obliczyć jako stosunek dwóch wartości z tabeli dyspersji: sumy kwadratów reszt (komórka C13) i stopni swobody z wiersza Całkowity(komórka B14).

7.10. Według wartości tabeli Wycofanie salda budowane są dwa typy wykresów: wykresy pozostałości I harmonogramy selekcji(jeśli w obszarze ustawione są odpowiednie opcje Resztki okno dialogowe 7.2. Narzędzie). Są zbudowane dla każdego zmiennego komponentu X osobno.

NA wykresy bilansowe wyświetlane są salda, tj. różnice pomiędzy wartościami pierwotnymi Y i obliczane z funkcji regresji dla każdej wartości składnika zmiennego X.

NA harmonogramy selekcji wyświetla zarówno oryginalne wartości Y, jak i obliczone wartości funkcji regresji dla każdej wartości składnika zmiennej X.

7.11. Ostatnią tabelą wyników wyjściowych jest tabela Wynik prawdopodobieństwa. Pojawia się, jeśli w oknie dialogowym 7.2. Narzędzie opcja zainstalowana Normalny wykres prawdopodobieństwa.
Wartości kolumn Percentyl oblicza się w następujący sposób. Krok jest obliczany h = (1/n)*100%, pierwsza wartość to godz./2, to drugie jest równe 100-h/2. Zaczynając od drugiej wartości, każda kolejna wartość jest równa poprzedniej, do której dodawany jest krok H.
W kolumnie Y podane są wartości zmiennych Y, posortowane rosnąco. Na podstawie danych zawartych w tej tabeli tzw wykres rozkładu normalnego. Pozwala wizualnie ocenić stopień liniowości zależności pomiędzy zmiennymi X I Y.


8. D analiza wariancji

8.1. Pakiet analityczny pozwala na trzy rodzaje analizy wariancji. O wyborze konkretnego instrumentu decyduje liczba czynników i liczba próbek w badanym zbiorze danych.
służy do testowania hipotezy, że średnie z dwóch lub więcej próbek należących do tej samej populacji są podobne.
Dwukierunkowa ANOVA z powtórzeniami jest bardziej złożoną opcją analiza jednoczynnikowa, włączając więcej niż jedną próbkę dla każdej grupy danych.
Dwukierunkowa ANOVA bez powtórzeń to dwukierunkowa analiza wariancji, która nie obejmuje więcej niż jednej próby na grupę. Służy do testowania hipotezy, że średnie z dwóch lub więcej próbek są takie same (próbki należą do tej samej populacji).

8.2. Jednokierunkowa ANOVA

8.2.1. Przygotujmy dane do analizy. Utwórz nowy arkusz i skopiuj do niego kolumny A, B, C, D. Usuń pierwsze dwie linie. Przygotowane dane można wykorzystać do przeprowadzenia Jednokierunkowa analiza wariancji.

8.2.2. Wywołaj narzędzie selekcji poprzez Dane > Analiza danych > Jednokierunkowa ANOVA. Wypełnij zgodnie z rysunkiem. Trzask OK.

8.2.3. Rozważ tabelę Wyniki: Sprawdzać– ilość powtórzeń, Suma– suma wartości wskaźników według wierszy, Dyspersja– częściowa wariancja wskaźnika.

8.2.4. Tabela tabela wariancji i statystyka kryterialna do testowania istotności regresji: pierwsza kolumna Źródło zmienności zawiera nazwę dyspersji, SS– suma kwadratów odchyleń, zm– stopień swobody, SM– średni kwadrat, Test F rzeczywisty rozkład F. Wartość P– prawdopodobieństwo, że wariancja odtworzona przez równanie jest równa wariancji reszt. Określa prawdopodobieństwo, że uzyskane ilościowe określenie związku czynników z wynikiem można uznać za losowe. Krytyczny F jest teoretyczną wartością F, którą następnie porównuje się z rzeczywistą wartością F.

8.2.5. Hipoteza zerowa równości oczekiwania matematyczne wszystkich próbek zostanie przyjęta, jeśli nierówność Test F < Krytyczny F. hipotezę tę należy odrzucić. W tym przypadku średnie wartości próbek różnią się znacznie.

W statystyki regresji wskazany jest współczynnik korelacji wielokrotnej (liczba mnoga R) i determinacja (R-kwadrat) pomiędzy Y a tablicą cech czynnika (która pokrywa się z wartościami uzyskanymi wcześniej w analizie korelacji)

Środkowa część stołu (Analiza wariancji) konieczne do sprawdzenia istotności równania regresji.

Dół tabeli - dokładnie

ostateczne oszacowania bi ogólnych współczynników regresji bi, sprawdzenie ich istotności i estymacja przedziałowa.

Oszacowanie wektora współczynników b (kolumna Szanse):

Wówczas oszacowanie równania regresji ma postać:

Należy sprawdzić znaczenie równania regresji i wynikających z niego współczynników regresji.

Sprawdźmy istotność równania regresji na poziomie b=0,05, tj. hipoteza H0: в1=в2=в3=…=вk=0. W tym celu obliczana jest obserwowana wartość statystyki F:

Excel pokazuje to w wynikach analiza wariancji:

QR=527,4296; Qost=1109,8673 =>

W kolumnie F wartość jest wskazana Fzauważalny.

Z tablic rozkładu F lub przy użyciu wbudowanej funkcji statystycznej FODKRYĆ dla poziomu istotności b=0,05 i liczby stopni swobody licznika n1=k=4 i mianownika n2=n-k-1=45 wartość krytyczna statystyki F jest równa

Fcr = 2,578739184

Ponieważ zaobserwowana wartość statystyki F przekracza jej wartość krytyczną 8,1957 > 2,7587, hipotezę o równości wektora współczynników odrzuca się z prawdopodobieństwem błędu 0,05. Zatem przynajmniej jeden element wektora b=(b1,b2,b3,b4)T jest istotnie różny od zera.

Sprawdźmy znaczenie poszczególnych współczynników równania regresji, tj. hipoteza .

Badanie istotności współczynników regresji przeprowadza się w oparciu o statystykę t dla poziomu istotności.

Zaobserwowane wartości statystyki t są wskazane w tabeli wyników w kolumnie T-statystyka.

Współczynniki (bi)

statystyka t (tob)

Przecięcie Y

Zmienna X5

Zmienna X7

Zmienna X10

Zmienna X15

Należy je porównać z wartością krytyczną tcr znalezioną dla poziomu istotności b=0,05 i liczby stopni swobody n=n – k – 1.

W tym celu korzystamy z wbudowanej funkcji statystycznej programu Excel STUDISPOBR, wpisując do proponowanego menu prawdopodobieństwo b = 0,05 i liczbę stopni swobody n = n–k-1 = 50-4-1 = 45. (Wartości tcr można znaleźć w tabelach statystyk matematycznych.

Otrzymujemy tcr = 2,014103359.

Dla obserwowanej wartości statystyki t jest mniejsza od wartości krytycznej modulo 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

W związku z tym hipoteza, że ​​współczynniki te są równe zeru, nie jest odrzucana z prawdopodobieństwem błędu 0,05, tj. odpowiednie współczynniki są nieistotne.

Dla obserwowanej wartość statystyki t jest większa wartość krytyczna modulo |3,7658|>2,0141 zatem hipoteza H0 zostaje odrzucona, tj. - istotne

Znaczenie współczynników regresji sprawdzają także poniższe kolumny wynikowej tabeli:

Kolumna P-oznaczający pokazuje istotność parametrów modelu na poziomie granicznym 5%, tj. jeśli p≤0,05, to odpowiedni współczynnik uważa się za istotny, jeśli p>0,05, to za nieistotny.

I ostatnie kolumny - niższe 95% I górne 95% I dół 98% I górne 98% - są to estymaty przedziałowe współczynników regresji z określonymi poziomami rzetelności dla r = 0,95 (wydawane zawsze) i r = 0,98 (wydawane po ustaleniu odpowiedniej dodatkowej wiarygodności).

Jeśli dolny i górne granice mają ten sam znak (zero nie jest uwzględniane w przedział ufności), wówczas odpowiadający mu współczynnik regresji uznaje się za istotny, w przeciwnym wypadku – za nieistotny

Jak widać z tabeli, dla współczynnika b3 wartość p p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Zgodnie z algorytmem analizy regresji krokowej z wyłączeniem regresorów nieistotnych, w kolejnym etapie należy wykluczyć z rozważań zmienną posiadającą nieistotny współczynnik regresji.

W przypadku, gdy podczas oceny regresji zostanie zidentyfikowanych kilka nieistotnych współczynników, jako pierwszy z równania regresji zostanie wyłączony regresor, dla którego statystyka t () ma minimalną wartość bezwzględną. Zgodnie z tą zasadą w kolejnym etapie należy wykluczyć zmienną X5, która ma nieistotny współczynnik regresji b2

II ETAP ANALIZY REGRESJI.

Model uwzględnia charakterystykę czynnikową X7, X10, X15 i wyklucza X5.

PODSUMOWANIE WYNIKÓW

(tabela

Liczba mnoga R

Kwadrat R

Znormalizowany R-kwadrat

Standardowy błąd

Obserwacje

tabela wariancji i statystyka kryterialna do testowania istotności regresji

(liczba stopni swobody n)

(suma kwadratów odchyleń Q)

(średni kwadrat MS=SS/n)

(Fobs = MSR/MSost)

Znaczenie F

Regresja

Szanse

Standardowy błąd

t-statystyka

Wartość P

Górne 95% (bimax)

Niższe 98% (bimin)

Przecięcie Y

Zmienna X7

Zmienna X10

Zmienna X15



Nowość na stronie

>

Najpopularniejsze