Dom Jama ustna Metody analizy wariancji. Jednokierunkowa ANOVA

Metody analizy wariancji. Jednokierunkowa ANOVA

5.1. Co się stało analiza wariancji?

Analiza dyspersji została opracowana w latach 20. XX wieku przez angielskiego matematyka i genetyka Ronalda Fishera. Jak wynika z ankiety przeprowadzonej wśród naukowców, która wykazała, kto miał największy wpływ na biologię XX wieku, mistrzowski tytuł otrzymał Sir Fisher (za swoje zasługi otrzymał tytuł szlachecki – jedno z najwyższych odznaczeń w Wielkiej Brytanii) ; pod tym względem Fischera można porównać do Karola Darwina, który wywarł największy wpływ na biologię XIX wieku.

Analiza wariancji jest obecnie odrębną gałęzią statystyki. Opiera się ona na odkrytym przez Fishera fakcie, że miarę zmienności badanej wielkości można rozłożyć na części odpowiadające czynnikom wpływającym na tę wielkość oraz odchyleniom przypadkowym.

Aby zrozumieć istotę analizy wariancji, tego samego rodzaju obliczenia przeprowadzimy dwukrotnie: „ręcznie” (za pomocą kalkulatora) i za pomocą programu Statistica. Aby uprościć nasze zadanie, nie będziemy pracować z wynikami faktycznego opisu różnorodności żab zielonych, ale z fikcyjnym przykładem dotyczącym porównania samic i samców u ludzi. Rozważ zróżnicowanie wzrostu 12 dorosłych osób: 7 kobiet i 5 mężczyzn.

Tabela 5.1.1. Przykład jednokierunkowej ANOVA: dane dotyczące płci i wzrostu 12 osób

Przeprowadźmy jednokierunkową analizę wariancji: porównajmy, czy mężczyźni i kobiety w scharakteryzowanej grupie różnią się statystycznie istotnie wzrostem, czy nie.

5.2. Test na rozkład normalny

Dalsze rozumowanie opiera się na fakcie, że rozkład w badanej próbie jest normalny lub zbliżony do normalnego. Jeżeli rozkład jest daleki od normalnego, rozproszenie (wariancja) nie jest odpowiednią miarą jego zmienności. Jednakże analiza wariancji jest stosunkowo odporna na odchylenia rozkładu od normalności.

Test normalności tych danych można przeprowadzić na dwa różne sposoby. Po pierwsze: Statystyka / Statystyka podstawowa / Tabele / Statystyki opisowe / zakładka Normalność. W zakładce Normalność Możesz wybrać, które testy normalności mają zostać użyte. Po kliknięciu przycisku Tabele częstotliwości pojawi się tabela częstotliwości, a przycisk Histogramy wyświetli histogram. Tabela i histogram pokażą wyniki różnych testów.

Druga metoda wiąże się z wykorzystaniem odpowiednich możliwości przy konstruowaniu histogramów. W oknie dialogowym tworzenia histogramów (Wykresy / Histogramy...) wybierz zakładkę Zaawansowane. Na dole znajduje się blok Statystyki. Zaznaczmy na nim Shapiro-Wilka T est i test Kołmogorowa-Smirnowa, jak pokazano na rysunku.

Ryż. 5.2.1. Testy statystyczne normalności rozkładu w oknie dialogowym budowania histogramu

Jak widać z histogramu, rozkład wzrostu w naszej próbie odbiega od normalnego (pośrodku znajduje się „niepowodzenie”).


Ryż. 5.2.2. Histogram zbudowany z parametrów podanych na poprzednim rysunku

Trzecia linia tytułu wykresu wskazuje parametry rozkładu normalnego, do których zaobserwowany rozkład okazał się najbliższy. Ogólna średnia wynosi 173, a ogólne odchylenie standardowe wynosi 10,4. Poniższa wstawka na wykresie przedstawia wyniki testów normalności. D to test Kołmogorowa-Smirnowa, a SW-W to test Shapiro-Wilka. Jak widać, dla wszystkich zastosowanych testów różnice pomiędzy rozkładem wzrostu a rozkładem normalnym okazały się nieistotne statystycznie ( P we wszystkich przypadkach większy niż 0,05).

Formalnie więc testy na normalność rozkładu nie „zabraniały” nam stosowania metody parametrycznej opartej na założeniu rozkład normalny. Jak już wspomniano, analiza wariancji jest stosunkowo odporna na odchylenia od normalności, dlatego nadal będziemy ją stosować.

5.3. Jednokierunkowa analiza wariancji: obliczenia ręczne

Aby scharakteryzować zmienność wzrostu ludzi w podanym przykładzie, obliczmy sumę kwadratów odchyleń (w języku angielskim oznaczanych jako SS , Suma kwadratów lub ) poszczególne wartości ze średniej: . Średnia wartość wzrostu w powyższym przykładzie wynosi 173 centymetry. Na tej podstawie

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Otrzymana wartość (1192) jest miarą zmienności całego zbioru danych. Składają się jednak z dwóch grup, z których każda może mieć własną średnią. W podanych danych średni wzrost kobiety - 168 cm, a mężczyźni - 180 cm.

Obliczmy sumę kwadratów odchyleń dla kobiet:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Obliczamy również sumę kwadratów odchyleń dla mężczyzn:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Od czego zależy badana wartość zgodnie z logiką analizy wariancji?

Dwie obliczone wartości, SS f I SS m , charakteryzują zmienność wewnątrzgrupową, która w analizie wariancji nazywana jest zwykle „błędem”. Pochodzenie tej nazwy wiąże się z następującą logiką.

Co decyduje o wzroście osoby w tym przykładzie? Przede wszystkim na temat średniego wzrostu ogółu ludzi, niezależnie od płci. Po drugie - z podłogi. Jeśli osoby jednej płci (mężczyźni) są wyższe od drugiej (kobiety), można to przedstawić jako dodatek do „uniwersalnej” średniej o pewnej wartości, czyli efekt płci. Wreszcie osoby tej samej płci różnią się wzrostem ze względu na różnice indywidualne. W modelu opisującym wzrost jako sumę średniej ludzkiej i dostosowania ze względu na płeć różnice indywidualne są niewyjaśnione i można je uznać za „błąd”.

Zatem zgodnie z logiką analizy wariancji badaną wartość wyznacza się w następujący sposób: , Gdzie x ij - i-ta wartość badanej wielkości przy j-tej wartości badanego współczynnika; - średnia ogólna; Fj - wpływ j-tej wartości badanego współczynnika; - „błąd”, wkład indywidualności przedmiotu, do którego odnosi się wartośćx ij .

Międzygrupowa suma kwadratów

Więc, SS błędy = SS f + SS m = 212 + 560 = 772. Tą wartością opisaliśmy zmienność wewnątrzgrupową (przy rozróżnianiu grup ze względu na płeć). Istnieje jednak druga część zmienności – zmienność międzygrupowa, którą będziemy nazywaćEfekt SS (ponieważ mówimy o efekcie podziału całości rozważanych obiektów na kobiety i mężczyzn).

Średnia dla każdej grupy różni się od średniej ogólnej. Obliczając udział tej różnicy w ogólnej mierze zmienności, musimy pomnożyć różnicę między grupą a średnią ogólną przez liczbę obiektów w każdej grupie.

Efekt SS = = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Tutaj objawiła się zasada stałości sumy kwadratów odkryta przez Fischera: SS = efekt SS + błąd SS , tj. w tym przykładzie 1192 = 440 + 722.

Średnie kwadraty

Porównując w naszym przykładzie międzygrupowe i wewnątrzgrupowe sumy kwadratów, widzimy, że pierwsza jest związana ze zmiennością dwóch grup, a druga z 12 wartościami w 2 grupach. Liczba stopni swobody ( zm ) dla jakiegoś parametru można zdefiniować jako różnicę pomiędzy liczbą obiektów w grupie a liczbą zależności (równań) łączących te wielkości.

W naszym przykładzie efekt df = 2–1 = 1, A błędy dff = 12–2 = 10.

Możemy podzielić sumy kwadratów przez ich liczbę stopni swobody, otrzymując średnie kwadraty ( SM , Średnie kwadratów). Po wykonaniu tej czynności możemy to ustalić SM - nic innego jak wariacje („wariancje”, wynik podzielenia sumy kwadratów przez liczbę stopni swobody). Po tym odkryciu możemy zrozumieć strukturę tabeli ANOVA. W naszym przykładzie będzie to wyglądać następująco:

Efekt

Błąd

Efekt stwardnienia rozsianego I Błędy MS są estymatorami wariancji międzygrupowej i wewnątrzgrupowej, dlatego można je porównywać według kryteriumF (kryterium Snedecora, nazwane na cześć Fischera), przeznaczone do porównywania odmian. Kryterium to jest po prostu ilorazem podzielenia większej zmiany przez mniejszą. W naszym przypadku jest to 420 / 77,2 = 5,440.

Wyznaczanie istotności statystycznej testu Fishera za pomocą tabel

Gdybyśmy mieli określić istotność statystyczną efektu ręcznie, korzystając z tabel, musielibyśmy porównać otrzymaną wartość kryterium F z wartością krytyczną odpowiadającą pewnemu poziomowi istotności statystycznej dla danych stopni swobody.


Ryż. 5.3.1. Fragment tabeli z wartościami kryteriów krytycznych F

Jak widać, dla poziomu istotności statystycznej p=0,05 wartość krytyczna kryterium wynosiF wynosi 4,96. Oznacza to, że w naszym przykładzie wpływ badanej płci zarejestrowano na poziomie istotności statystycznej 0,05.

Uzyskany wynik można interpretować w następujący sposób. Prawdopodobieństwo hipotezy zerowej, zgodnie z którą średni wzrost kobiet i mężczyzn jest taki sam, a odnotowana różnica w ich wzroście wynika z losowości w doborze prób, jest mniejsze niż 5%. Oznacza to, że musimy wybrać hipotezę alternatywną, która głosi, że średni wzrost kobiet i mężczyzn jest inny.

5.4. Jednokierunkowa analiza wariancji ( ANOVA) w pakiecie Statistica

W przypadkach, gdy obliczenia nie są wykonywane ręcznie, ale przy użyciu odpowiednich programów (na przykład pakietu Statistica), wartość P ustalane automatycznie. Możesz sprawdzić, czy jest ona nieco wyższa od wartości krytycznej.

Aby przeanalizować omawiany przykład za pomocą najprostszej wersji analizy wariancji, należy uruchomić procedurę Statystyka / ANOVA dla pliku z odpowiednimi danymi i wybrać opcję Jednokierunkowa ANOVA w oknie Typ analizy i oknie Szybkie specyfikacje opcja w oknie Metoda specyfikacji.


Ryż. 5.4.1. Okno dialogowe Ogólne ANOVA/MANOVA (analiza wariancji)

W otwartym oknie dialogowym w polu Zmienne należy określić te kolumny, które zawierają dane, których zmienność badamy (Lista zmiennych zależnych; w naszym przypadku kolumna Wzrost), a także kolumnę zawierającą wartości które dzielą badaną wartość na grupy (predyktor kategoryczny (czynnik); w naszym przypadku kolumna Płeć). W tej wersji analizy, w odróżnieniu od analizy wieloczynnikowej, można uwzględnić tylko jeden czynnik.


Ryż. 5.4.2. Dialog Jednokierunkowa ANOVA (jednokierunkowa analiza wariancji)

W oknie Kody współczynników należy wskazać te wartości danego czynnika, które wymagają przetworzenia w trakcie tej analizy. Wszystkie dostępne wartości można przeglądać za pomocą przycisku Zoom; jeśli, tak jak w naszym przykładzie, musisz wziąć pod uwagę wszystkie wartości współczynnika (a dla płci w naszym przykładzie są tylko dwie), możesz kliknąć przycisk Wszystko. Po określeniu kolumn i kodów czynników do przetworzenia można kliknąć OK i przejść do okna szybka analiza wyniki: Wyniki ANOVA 1, w zakładce Szybkie.

Ryż. 5.4.3. Szybka zakładka okna wyników ANOVA

Przycisk Wszystkie efekty/Wykresy pozwala zobaczyć porównanie średnich z dwóch grup. Nad wykresem wskazana jest liczba stopni swobody, a także wartości F i p dla danego współczynnika.


Ryż. 5.4.4. Graficzne przedstawienie wyników ANOVA

Przycisk Wszystkie efekty umożliwia uzyskanie analizy tabeli wariancji podobnej do opisanej powyżej (z pewnymi istotnymi różnicami).


Ryż. 5.4.5. Tabela z wynikami analizy wariancji (porównaj z podobną tabelą uzyskaną „ręcznie”)

Dolny wiersz tabeli pokazuje sumę kwadratów, liczbę stopni swobody i średnie kwadraty błędu (zmienność wewnątrzgrupowa). W wierszu powyżej znajdują się podobne wskaźniki dla badanego czynnika (w w tym przypadku- znak Płeć), a także kryterium F (stosunek średnich kwadratów efektu do średnich kwadratów błędu) oraz poziom jego istotności statystycznej. O tym, że wpływ rozpatrywanego czynnika okazał się istotny statystycznie, świadczy kolor czerwony.

Pierwsza linia pokazuje dane na wskaźniku „Intercept”. Ten Wiersz tabeli stanowi tajemnicę dla użytkowników dołączających do Statistica w jej szóstej lub nowszej wersji. Wartość przecięcia jest prawdopodobnie związana z rozkładem sumy kwadratów wszystkich wartości danych (tj. 1862 + 1692… = 360340). Wskazaną dla niego wartość kryterium F uzyskano poprzez podzielenie Przechwycenie MS/Błąd MS = 353220 / 77,2 = 4575,389 i oczywiście daje bardzo niska wartość P . Co ciekawe, w Statistica-5 wartość ta w ogóle nie została obliczona, a podręczniki obsługi późniejszych wersji pakietu nie komentują w żaden sposób jej wprowadzenia. Prawdopodobnie najlepszą rzeczą, jaką może zrobić biolog korzystający ze Statistica-6 i nowszych, to po prostu zignorować wiersz Intercept w tabeli ANOVA.

5.5. ANOVA oraz testy t-Studenta i Fishera: co jest lepsze?

Jak zapewne zauważyłeś, dane, które porównaliśmy za pomocą jednoczynnikowej analizy wariancji, mogliśmy również sprawdzić za pomocą testów Studenta i Fishera. Porównajmy te dwie metody. Aby to zrobić, obliczmy różnicę wzrostu między mężczyznami i kobietami, korzystając z tych kryteriów. Aby to zrobić, będziemy musieli podążać ścieżką Statystyka / Statystyka podstawowa / test t, niezależny, według grup. Naturalnie zmienne zależne to zmienna wzrostu, a zmienna grupująca to zmienna płeć.


Ryż. 5.5.1. Porównanie danych przetworzonych metodą ANOVA z wykorzystaniem testów Studenta i Fishera

Jak widać, wynik jest taki sam, jak przy użyciu ANOVA. P = 0,041874 w obu przypadkach, jak pokazano na ryc. 5.4.5 i pokazano na ryc. 5.5.2 (przekonaj się sam!).


Ryż. 5.5.2. Wyniki analizy (szczegółowe objaśnienie tabeli wyników – w akapicie poświęconym testowi Studenta)

Należy podkreślić, że choć kryterium F z matematycznego punktu widzenia w rozpatrywanej analizie według testów Studenta i Fishera jest takie samo jak w ANOVA (i wyraża współczynnik wariancji), to jego znaczenie w wynikach analiz przedstawionych w stół finałowy jest zupełnie inny. Przy porównywaniu testami Studenta i Fishera porównanie średnich z próby przeprowadza się testem Studenta, a porównanie ich zmienności testem Fishera. Wyniki analizy pokazują nie samą odmianę, ale jej zmienność pierwiastek kwadratowy- odchylenie standardowe.

Z kolei w ANOVA test Fishera służy do porównywania średnich z różnych próbek (jak już omawialiśmy, odbywa się to poprzez podzielenie sumy kwadratów na części i porównanie średniej sumy kwadratów odpowiadającej wartościom międzygrupowym i wewnątrzgrupowym zmienność).

Powyższa różnica dotyczy jednak raczej prezentacji wyników. badania statystyczne niż jego istota. Jak na przykład wskazuje Glantz (1999, s. 99), porównanie grup za pomocą testu t-Studenta można postrzegać jako specjalny przypadek analiza wariancji dla dwóch próbek.

Porównanie próbek za pomocą testów Studenta i Fishera ma więc jedno ważna zaleta przed analizą wariancji: w niej próbki można porównać pod względem ich zmienności. Jednak zalety analizy wariancji są jeszcze bardziej znaczące. Należą do nich na przykład możliwość jednoczesnego porównywania kilku próbek.

Analiza wariancji jest metodą statystyczną mającą na celu ocenę wpływu różnych czynników na wynik eksperymentu, a także późniejsze planowanie podobnych eksperymentów.

Początkowo (1918) analizę wariancji opracował angielski matematyk i statystyk R.A. Fischera do przetwarzania wyników eksperymentów agronomicznych w celu określenia warunków uzyskania maksymalnego plonu różnych odmian roślin rolniczych.

Przygotowując eksperyment muszą zostać spełnione następujące warunki:

    Każdy wariant doświadczenia należy przeprowadzić na kilku jednostkach obserwacyjnych (grupach zwierząt, przekrojach terenowych itp.)

    Rozkład jednostek obserwacyjnych pomiędzy wariantami eksperymentalnymi powinien być losowy i nie powinien być celowy.

wykorzystuje ANOVA F-kryterium(kryterium RA Fishera), reprezentujące stosunek dwóch wariancji:

gdzie d fakt, d reszta to odpowiednio silnia (międzygrupowa) i reszta (wewnątrzgrupowa) wariancji na stopień swobody.

Wariancje czynnikowe i resztowe są szacunkami wariancji populacji, obliczonymi na podstawie przykładowych danych z uwzględnieniem liczby stopni swobody zmienności.

Rozproszenie czynnikowe (międzygrupowe) wyjaśnia zmianę efektywnej charakterystyki pod wpływem badanego czynnika.

Wariancja resztkowa (wewnątrzgrupowa) wyjaśnia zmienność efektywnej charakterystyki pod wpływem innych czynników (z wyjątkiem wpływu badanego czynnika).

Podsumowując, wariancja czynnikowa i resztowa dają wariancję całkowitą, wyrażającą wpływ wszystkich cech czynnika na wynikową.

Procedura przeprowadzania analizy wariancji:

1. Dane eksperymentalne wprowadza się do tabeli obliczeniowej i określa się ilości i wartości średnie w każdej grupie badanej populacji, a także kwotę całkowitą i wartość średnią dla całej populacji (tabela 1).

Tabela 1

Wartość wynikowej charakterystyki dla i-tej jednostki

w j-tej grupie, x ij

Liczba obserwacji, fj

Średnia (grupowa i całkowita), x j

x 11, x 12, …, x 1 rz

x 21, x 22, …, x 2 rz

x m 1, x m 2, ..., x mn

Całkowita liczba obserwacji N obliczany jako suma liczby obserwacji F J w każdej grupie:

Jeśli wszystkie grupy mają tę samą liczbę elementów, wówczas średnia ogólna oblicza się ze średnich grupowych jako prostą średnią arytmetyczną:

Jeżeli liczba elementów w grupach jest różna, to średnia ogólna oblicza się przy użyciu wzoru na średnią ważoną arytmetyczną:

2. Wyznacza się wariancję całkowitą D ogólnie jako suma kwadratów odchyleń poszczególnych wartości wynikowej charakterystyki od średniej całkowitej :

3. Obliczanie wariancji silniowej (międzygrupowej). D fakt jako suma kwadratów odchyleń średnich grupowych od średniej całkowitej , pomnożone przez liczbę obserwacji:

4. Wyznacza się wartość wariancji rezydualnej (wewnątrzgrupowej). D ost jako różnica między sumą D ogólnie i silnia D fakt odchylenia:

5. Oblicz liczbę stopni swobody współczynnika
wariancja jako różnica między liczbą grup M i jednostka:

6. Wyznacza się liczbę stopni swobody dyspersji resztkowej
jako różnica między liczbą poszczególnych wartości cechy N i liczbę grup M:

7. Oblicza się wartość dyspersji współczynników na jeden stopień swobody D fakt jako współczynnik wariancji czynników D fakt do liczby stopni swobody dyspersji czynników
:

8. Wyznacza się wartość dyspersji resztkowej na jeden stopień swobody D ost jako współczynnik wariancji reszt D ost do liczby stopni swobody dyspersji resztkowej
:

9. Wyznacza się obliczoną wartość kryterium F F-obliczenie jako stosunek wariancji czynnika na stopień swobody D fakt do wariancji resztowej na stopień swobody D ost :

10. Korzystając z tabeli testowej Fishera F, biorąc pod uwagę przyjęty w badaniu poziom istotności, a także biorąc pod uwagę stopnie swobody wariancji czynnikowej i resztowej, wyznacza się wartość teoretyczną F tabela .

Poziom istotności 5% odpowiada poziomowi prawdopodobieństwa 95%, a poziom istotności 1% odpowiada poziomowi prawdopodobieństwa 99%. W większości przypadków stosuje się poziom istotności 5%.

Wartość teoretyczna F tabela na danym poziomie istotności wyznacza się z tablic na przecięciu wiersza i kolumny, odpowiadających dwóm stopniom swobody wariancji:

liniowo – resztkowa;

według kolumny – silnia.

11. Wyniki obliczeń przedstawiono w tabeli (tabela 2).

Wszyscy ludzie z natury dążą do wiedzy. (Arystoteles. Metafizyka)

Analiza wariancji

Przegląd wprowadzający

W tej sekcji dokonamy przeglądu podstawowych metod, założeń i terminologii ANOVA.

Należy zauważyć, że w literaturze anglojęzycznej analiza wariancji jest zwykle nazywana analizą zmienności. Dlatego dla zwięzłości poniżej czasami będziemy używać tego terminu ANOVA (Jakiś aliza o F wa racja) dla zwykłej ANOVA i terminu MANOWA do wieloczynnikowej analizy wariancji. W tej sekcji omówimy po kolei główne idee analizy wariancji ( ANOVA), analiza kowariancji ( ANKOWA), wieloczynnikowa analiza wariancji ( MANOWA) i wieloczynnikowa analiza kowariancji ( MANCOVA). Po krótkim omówieniu zalet analizy kontrastu i testów post hoc przyjrzyjmy się założeniom, na których opierają się metody ANOVA. Pod koniec tej sekcji wyjaśniono zalety podejścia wielowymiarowego do analizy pomiarów powtarzanych w porównaniu z tradycyjnym podejściem jednowymiarowym.

Kluczowe pomysły

Cel analizy wariancji. Głównym celem analizy wariancji jest zbadanie istotności różnic pomiędzy średnimi. Rozdział (Rozdział 8) zawiera krótkie wprowadzenie do badania istotności statystycznej. Jeśli po prostu porównujesz średnie z dwóch próbek, analiza wariancji da taki sam wynik jak zwykła analiza. T- badanie dla niezależnych próbek (w przypadku porównywania dwóch niezależnych grup obiektów lub obserwacji) lub T- kryterium dla prób zależnych (w przypadku porównywania dwóch zmiennych na tym samym zbiorze obiektów lub obserwacji). Jeżeli nie są Państwo zaznajomieni z tymi kryteriami, zalecamy zapoznanie się z przeglądem rozdziałów wprowadzających (Rozdział 9).

Skąd wzięła się nazwa Analiza wariancji? Może wydawać się dziwne, że procedura porównywania średnich nazywana jest analizą wariancji. W rzeczywistości dzieje się tak dlatego, że badając istotność statystyczną różnic między średnimi, tak naprawdę analizujemy wariancje.

Dzielenie sumy kwadratów

Dla próby o wielkości n wariancję próbki oblicza się jako sumę kwadratów odchyleń od średniej próbki podzieloną przez n-1 (wielkość próby minus jeden). Zatem dla ustalonej wielkości próby n wariancja jest funkcją sumy kwadratów (odchyłek), oznaczonych dla zwięzłości SS(z angielskiego Suma kwadratów - Suma kwadratów). Podstawą analizy wariancji jest rozdzielenie (lub podzielenie) wariancji na części. Rozważ następujący zestaw danych:

Średnie obu grup różnią się istotnie (odpowiednio 2 i 6). Suma kwadratów odchyleń wewnątrz każda grupa jest równa 2. Dodając je, otrzymamy 4. Jeśli teraz powtórzymy te obliczenia wyłączając przynależność do grupy, to znaczy, jeśli obliczymy SS na podstawie ogólnej średniej z dwóch próbek otrzymujemy 28. Innymi słowy, wariancja (suma kwadratów) oparta na zmienności wewnątrzgrupowej daje znacznie mniejsze wartości niż obliczona na podstawie ogólnej zmienności (w stosunku do średnia ogólna). Powodem tego jest oczywiście znaczna różnica między średnimi i ta różnica między średnimi wyjaśnia istniejącą różnicę między sumami kwadratów. Tak naprawdę, jeśli użyjesz modułu do analizy podanych danych Analiza wariancji, zostaną uzyskane następujące wyniki:

Jak widać z tabeli, całkowita suma kwadratów SS=28 dzieli się przez sumę kwadratów podaną przez wewnątrzgrupowe zmienność ( 2+2=4 ; patrz drugi wiersz tabeli) i sumę kwadratów ze względu na różnicę wartości średnich. (28-(2+2)=24; patrz pierwszy wiersz tabeli).

SS błędy iSS efekt. Zmienność wewnątrzgrupowa ( SS) jest zwykle nazywane dyspersją błędy. Oznacza to, że zwykle nie da się tego przewidzieć ani wyjaśnić podczas przeprowadzania eksperymentu. Po drugiej stronie SS efekt(lub zmienność międzygrupowa) można wyjaśnić różnicami pomiędzy średnimi badanych grup. Innymi słowy przynależność do określonej grupy wyjaśnia zmienność międzygrupowa, ponieważ wiemy, że te grupy mają różne środki.

Kontrola znaczenia. Podstawowe pojęcia dotyczące testowania istotności statystycznej zostały omówione w rozdziale Podstawowe pojęcia statystyki(Rozdział 8). W tym rozdziale wyjaśniono także powody, dla których w wielu testach stosuje się stosunek wyjaśnionej do niewyjaśnionej wariancji. Przykładem takiego zastosowania jest sama analiza wariancji. Testowanie istotności w ANOVA opiera się na porównaniu wariancji wynikającej z wariancji międzygrupowej (tzw średni efekt kwadratowy Lub SMefekt) oraz wariancja spowodowana zmiennością wewnątrzgrupową (tzw średni błąd kwadratowy Lub SMbłąd). Jeśli hipoteza zerowa (równość średnich w obu populacjach) jest prawdziwa, wówczas można by oczekiwać stosunkowo niewielkiej różnicy w średnich z próby ze względu na zmienność losową. Zatem przy hipotezie zerowej wariancja wewnątrzgrupowa będzie praktycznie pokrywać się z wariancją całkowitą obliczoną bez uwzględnienia przynależności do grupy. Powstałe wariancje wewnątrzgrupowe można porównać za pomocą F- test sprawdzający, czy współczynnik wariancji jest istotnie większy od 1. W przykładzie omówionym powyżej F- kryterium pokazuje, że różnica pomiędzy średnimi jest istotna statystycznie.

Podstawowa logika analizy wariancji. Podsumowując, celem ANOVA jest sprawdzenie istotności statystycznej różnicy pomiędzy średnimi (dla grup lub zmiennych). Sprawdzenie to przeprowadza się za pomocą analizy wariancji, tj. poprzez podzielenie całkowitej wariancji (wariacji) na części, z których jedna wynika z błędu losowego (czyli zmienności wewnątrzgrupowej), a druga jest związana z różnicami w wartościach średnich. Ostatnią składową wariancji wykorzystuje się następnie do analizy istotności statystycznej różnicy pomiędzy średnimi. Jeżeli różnica ta jest znacząca, hipotezę zerową odrzuca się i przyjmuje hipotezę alternatywną, że istnieje różnica pomiędzy średnimi.

Zmienne zależne i niezależne. Nazywa się zmienne, których wartości są określane na podstawie pomiarów podczas eksperymentu (na przykład wyniku testu). zależny zmienne. Zmienne, którymi można sterować w eksperymencie (na przykład metody nauczania lub inne kryteria podziału obserwacji na grupy) nazywane są czynniki Lub niezależny zmienne. Pojęcia te zostały szczegółowo opisane w rozdziale Podstawowe pojęcia statystyki(Rozdział 8).

Wieloczynnikowa analiza wariancji

W powyższym prosty przykład można od razu obliczyć test t dla niezależnych próbek, korzystając z odpowiedniej opcji modułu Podstawowe statystyki i tabele. Uzyskane wyniki będą w naturalny sposób pokrywać się z wynikami analizy wariancji. Jednakże ANOVA zawiera elastyczne i wydajne techniki, które można zastosować w znacznie bardziej złożonych badaniach.

Wiele czynników.Świat jest złożony i wielowymiarowy w swojej naturze. Sytuacje, w których dane zjawisko jest całkowicie opisane jedną zmienną, zdarzają się niezwykle rzadko. Na przykład, jeśli próbujemy nauczyć się uprawiać duże pomidory, powinniśmy wziąć pod uwagę czynniki związane ze strukturą genetyczną rośliny, rodzajem gleby, światłem, temperaturą itp. Zatem przeprowadzając typowy eksperyment, trzeba mieć do czynienia z dużą liczbą czynników. Głównym powodem, dla którego preferuje się stosowanie ANOVA, zamiast powtarzanych porównań dwóch próbek przy różnych poziomach współczynników T- kryterium jest to, że analiza wariancji jest większa skuteczny i, w przypadku małych próbek, bardziej informacyjny.

Zarządzanie czynnikami. Załóżmy, że w omówionym powyżej przykładzie analizy dwóch próbek dodajemy kolejny czynnik, np. Podłoga- Płeć. Niech każda grupa składa się z 3 mężczyzn i 3 kobiet. Schemat tego eksperymentu można przedstawić w formie tabeli 2 na 2:

Eksperyment. Grupa 1 Eksperyment. Grupa 2
Mężczyźni2 6
3 7
1 5
Przeciętny2 6
Kobiety4 8
5 9
3 7
Przeciętny4 8

Przed wykonaniem obliczeń można zauważyć, że w tym przykładzie całkowita wariancja ma co najmniej trzy źródła:

(1) błąd losowy (w wariancji grupowej),

(2) zmienność związana z przynależnością do grupy eksperymentalnej oraz

(3) zmienność ze względu na płeć obiektów obserwacji.

(Zauważ, że istnieje inne możliwe źródło zmienności – interakcja czynników, o czym porozmawiamy później). Co się stanie, jeśli nie uwzględnimy podłogapłeć jako czynnik w analizie i obliczyć zwykle T-kryterium? Jeśli obliczymy sumy kwadratów, ignorując podłoga -płeć(tj. łączenie obiektów różnych płci w jedną grupę przy obliczaniu wariancji wewnątrzgrupowej, uzyskując w ten sposób sumę kwadratów dla każdej grupy równą SS=10 i całkowita suma kwadratów SS= 10+10 = 20), wówczas uzyskujemy większą wartość wariancji wewnątrzgrupowej niż przy dokładniejszej analizie z dodatkowym podziałem na podgrupy według pół- płeć(w tym przypadku średnie wewnątrzgrupowe będą równe 2, a całkowita suma kwadratów wewnątrzgrupowych będzie równa SS = 2+2+2+2 = 8). Różnica ta wynika z faktu, że średnia wartość dla mężczyźni - mężczyźni mniej niż średnia dla kobiety -Kobieta, a ta różnica w średnich zwiększa ogólną zmienność wewnątrzgrupową, gdy płeć nie jest brana pod uwagę. Kontrolowanie wariancji błędu zwiększa czułość (moc) testu.

Przykład ten pokazuje kolejną zaletę analizy wariancji w porównaniu z konwencjonalną T- kryterium dla dwóch próbek. Analiza wariancji pozwala na badanie każdego czynnika poprzez kontrolowanie wartości pozostałych czynników. Jest to w rzeczywistości główny powód jego większej mocy statystycznej (do uzyskania miarodajnych wyników wymagane są mniejsze próbki). Z tego powodu analiza wariancji, nawet na małych próbach, daje statystycznie więcej znaczące wyniki niż proste T- kryterium.

Efekty interakcji

Analiza wariancji ma jeszcze jedną zaletę w porównaniu z metodą konwencjonalną T- kryterium: analiza wariancji pozwala nam wykryć wzajemne oddziaływanie między czynnikami, co pozwala na badanie bardziej złożonych modeli. Aby to zilustrować, rozważmy inny przykład.

Efekty główne, interakcje parami (dwuczynnikowe). Załóżmy, że istnieją dwie grupy uczniów i psychologicznie uczniowie pierwszej grupy są zdeterminowani, aby wykonać powierzone zadania i są bardziej celowi niż uczniowie drugiej grupy, składającej się z uczniów leniwych. Podzielmy losowo każdą grupę na pół i daj jednej połowie każdej grupy zadanie trudne, a drugiej łatwe. Następnie zmierzymy, jak ciężko uczniowie pracują nad tymi zadaniami. Średnie z tego (fikcyjnego) badania przedstawiono w tabeli:

Jaki wniosek można wyciągnąć z tych wyników? Czy możemy stwierdzić, że: (1) uczniowie intensywniej pracują nad złożonym zadaniem; (2) Czy zmotywowani uczniowie pracują ciężej niż leniwi uczniowie? Żadne z tych stwierdzeń nie oddaje istoty systematyki środków przedstawionych w tabeli. Analizując wyniki, trafniejsze byłoby stwierdzenie, że tylko zmotywowani uczniowie pracują ciężej nad trudnymi zadaniami, natomiast leniwi uczniowie pracują ciężej nad łatwymi. Innymi słowy, charakter uczniów i trudność zadania interakcja wpływają na siebie nawzajem w zakresie włożonego wysiłku. To jest przykład interakcja w parach pomiędzy charakterem uczniów a trudnością zadania. Zauważ, że stwierdzenia 1 i 2 opisują główne efekty.

Interakcje wyższego rzędu. Chociaż interakcje parami są nadal stosunkowo łatwe do wyjaśnienia, interakcje wyższego rzędu są znacznie trudniejsze. Wyobraźmy sobie, że w rozważanym powyżej przykładzie wprowadzony zostaje inny czynnik podłoga -Płeć i otrzymaliśmy następującą tabelę średnich:

Jakie wnioski można teraz wyciągnąć z uzyskanych wyników? Wykresy średnich ułatwiają interpretację złożonych efektów. Moduł ANOVA pozwala na zbudowanie tych wykresów niemal jednym kliknięciem myszki.

Obraz na poniższych wykresach przedstawia badaną interakcję trójczynnikową.

Patrząc na wykresy, możemy stwierdzić, że w przypadku kobiet istnieje interakcja między osobowością a trudnością testu: zmotywowane kobiety pracują ciężej nad trudnym zadaniem niż nad łatwym. W przypadku mężczyzn ta sama interakcja jest odwrotna. Można zauważyć, że opis interakcji pomiędzy czynnikami staje się coraz bardziej zagmatwany.

Ogólny sposób opisywania interakcji. W przypadek ogólny interakcję między czynnikami opisuje się jako zmianę jednego efektu pod wpływem innego. W omówionym powyżej przykładzie interakcję dwuczynnikową można opisać jako zmianę efektu głównego czynnika charakteryzującego trudność zadania pod wpływem czynnika opisującego charakter ucznia. Dla interakcji trzech czynników z poprzedniego akapitu możemy powiedzieć, że interakcja dwóch czynników (złożoności zadania i charakteru ucznia) zmienia się pod wpływem płećPłeć. Jeśli zbadamy interakcję czterech czynników, możemy powiedzieć, że interakcja trzech czynników zmienia się pod wpływem czwartego czynnika, tj. Istnieją różne rodzaje interakcji na różnych poziomach czwartego czynnika. Okazuje się, że w wielu obszarach współdziałanie pięciu, a nawet większej liczby czynników nie jest niczym niezwykłym.

Skomplikowane plany

Projekty międzygrupowe i wewnątrzgrupowe (projekty z powtarzanymi pomiarami)

Porównując dwa różne grupy zwykle używane T- kryterium dla próbek niezależnych (z modułu Podstawowe statystyki i tabele). Kiedy dwie zmienne są porównywane na tym samym zestawie obiektów (obserwacjach), jest ona używana T-kryterium dla próbek zależnych. Dla analizy wariancji ważne jest również to, czy próbki są zależne, czy nie. Jeżeli powtarzane są pomiary tych samych zmiennych (z różne warunki lub w innym czasie) dla tych samych obiektów, potem mówią o obecności współczynnik powtarzanych pomiarów(tzw czynnik wewnątrzgrupowy, ponieważ wewnątrzgrupowa suma kwadratów jest obliczana w celu oceny jej istotności). Jeśli porówna się różne grupy obiektów (na przykład mężczyzn i kobiety, trzy szczepy bakterii itp.), wówczas opisano różnicę między grupami czynnik międzygrupowy. Metody obliczania kryteriów istotności dla dwóch opisanych typów czynników są różne, ale ich ogólna logika i interpretacje są takie same.

Plany między- i wewnątrzgrupowe. W wielu przypadkach eksperyment wymaga uwzględnienia w projekcie zarówno czynnika międzyobiektowego, jak i czynnika powtarzanych pomiarów. Na przykład mierzone są umiejętności matematyczne uczniów i uczennic (gdzie podłoga -Płeć-czynnik międzygrupowy) na początku i na końcu semestru. Dwie miary umiejętności każdego ucznia tworzą czynnik wewnątrzgrupowy (czynnik powtarzanych pomiarów). Interpretacja głównych efektów i interakcji w przypadku czynników międzyobiektowych i czynników powtarzanych pomiarów jest spójna, a oba typy czynników mogą oczywiście oddziaływać na siebie (np. kobiety zdobywają umiejętności w ciągu semestru, podczas gdy mężczyźni je tracą).

Niekompletne (zagnieżdżone) plany

W wielu przypadkach efekt interakcji można pominąć. Dzieje się tak albo wtedy, gdy wiadomo, że nie ma efektu interakcji w populacji, albo gdy realizacja jest całkowita silnia planu jest niemożliwe. Badany jest na przykład wpływ czterech dodatków do paliwa na zużycie paliwa. Wybrano cztery samochody i czterech kierowców. Pełny silnia eksperyment wymaga, aby każda kombinacja: dodatek, kierowca, samochód - wystąpiła przynajmniej raz. Wymaga to co najmniej 4 x 4 x 4 = 64 grup testów, co jest zbyt czasochłonne. Ponadto jest mało prawdopodobne, aby doszło do jakiejkolwiek interakcji pomiędzy sterownikiem a dodatkiem do paliwa. Biorąc to pod uwagę, możesz skorzystać z planu Kwadraty łacińskie, który zawiera tylko 16 grup testowych (cztery dodatki są oznaczone literami A, B, C i D):

Kwadraty łacińskie są opisane w większości książek na temat projektowania eksperymentów (np. Hays, 1988; Lindman, 1974; Milliken i Johnson, 1984; Winer, 1962) i nie będą tutaj omawiane szczegółowo. Zauważ, że kwadraty łacińskie są NieNpełny projekty, w których nie uwzględniono wszystkich kombinacji poziomów czynników. Na przykład kierowca 1 prowadzi samochód 1 tylko z dodatkiem A, kierowca 3 prowadzi samochód 1 tylko z dodatkiem C. Poziomy współczynników dodatki ( A, B, C i D) są zagnieżdżone w komórkach tabeli samochód X kierowca - jak jajka w gniazdach. Ten reguła mnemoniczna przydatne do zrozumienia natury zagnieżdżone lub zagnieżdżone plany. Moduł Analiza wariancji zapewnia proste sposoby analiza planów tego typu.

Analiza kowariancji

główna idea

W sekcji Kluczowe pomysły Pokrótce omówiono ideę kontroli czynnikowej oraz sposób, w jaki włączenie czynników addytywnych zmniejsza sumę kwadratów błędów i zwiększa moc statystyczną projektu. Wszystko to można rozszerzyć na zmienne o ciągłym zestawie wartości. Kiedy takie zmienne ciągłe są uwzględnione w projekcie jako czynniki, nazywa się je współzmienne.

Naprawiono współzmienne

Załóżmy, że porównujemy umiejętności matematyczne dwóch grup uczniów, których nauczano przy użyciu dwóch różnych podręczników. Załóżmy również, że dane dotyczące ilorazu inteligencji (IQ) są dostępne dla każdego ucznia. Możesz założyć, że IQ jest powiązane z umiejętnościami matematycznymi i wykorzystać te informacje. Dla każdej z dwóch grup uczniów można obliczyć współczynnik korelacji między IQ a umiejętnościami matematycznymi. Korzystając z tego współczynnika korelacji, można wyizolować proporcję wariancji w grupach, którą można wytłumaczyć wpływem IQ i niewyjaśnioną proporcją wariancji (patrz także Podstawowe pojęcia statystyki(Rozdział 8) i Podstawowe statystyki i tabele(rozdział 9)). Pozostała część wariancji jest wykorzystywana w analizie jako wariancja błędu. Jeśli istnieje korelacja między IQ a umiejętnościami matematycznymi, wariancję błędu można znacznie zmniejszyć SS/(N-1) .

Wpływ współzmiennych naF- kryterium. F- kryterium ocenia istotność statystyczną różnicy wartości średnich w grupach i obliczany jest stosunek wariancji międzygrupowej ( SMefekt) do wariancji błędu ( SMbłąd) . Jeśli SMbłąd zmniejsza się, na przykład, biorąc pod uwagę współczynnik IQ, wartość F wzrasta.

Wiele współzmiennych. Rozumowanie zastosowane powyżej dla pojedynczej współzmiennej (IQ) można łatwo rozszerzyć na wiele współzmiennych. Na przykład oprócz IQ możesz uwzględnić pomiary motywacji, myślenia przestrzennego itp. Zamiast zwykłego współczynnika korelacji stosuje się go współczynnik wielokrotny korelacje.

Kiedy wartośćF -kryteria maleją. Czasami wprowadzenie współzmiennych do projektu eksperymentu zmniejsza jego znaczenie F-kryteria . Zwykle wskazuje to, że współzmienne są skorelowane nie tylko ze zmienną zależną (np. umiejętnościami matematycznymi), ale także z czynnikami (np. różnymi podręcznikami). Załóżmy, że IQ jest mierzone na koniec semestru, po prawie roku nauczania dwóch grup uczniów przy użyciu dwóch różnych podręczników. Chociaż uczniów przydzielano do grup losowo, może się zdarzyć, że różnice w podręcznikach są tak duże, że zarówno IQ, jak i umiejętności matematyczne będą się znacznie różnić między grupami. W tym przypadku współzmienne nie tylko zmniejszają wariancję błędu, ale także wariancję międzygrupową. Innymi słowy, po uwzględnieniu różnic w IQ pomiędzy grupami, różnice w umiejętnościach matematycznych nie są już znaczące. Można to powiedzieć inaczej. Po „wykluczeniu” wpływu IQ, w sposób niezamierzony wyklucza się wpływ podręcznika na rozwój umiejętności matematycznych.

Skorygowane średnie. Kiedy współzmienna wpływa na czynnik międzyobiektowy, należy dokonać obliczeń dostosowane środki, tj. te średnie, które uzyskuje się po usunięciu wszystkich oszacowań współzmiennych.

Interakcje pomiędzy współzmiennymi i czynnikami. Podobnie jak bada się interakcje między czynnikami, można badać interakcje między współzmiennymi i między grupami czynników. Załóżmy, że jeden z podręczników jest szczególnie odpowiedni dla inteligentnych uczniów. Drugi podręcznik jest nudny dla inteligentnych uczniów, a ten sam podręcznik jest trudny dla mniej inteligentnych uczniów. W rezultacie w pierwszej grupie występuje dodatnia korelacja między IQ a wynikami w nauce (inteligentniejsi uczniowie, lepsze wyniki) i zerowa lub nieznacznie ujemna korelacja w drugiej grupie (im mądrzejszy uczeń, tym mniejsze prawdopodobieństwo, że nabędzie umiejętności matematyczne) z drugiego podręcznika). Niektóre badania omawiają tę sytuację jako przykład naruszenia założeń analizy kowariancji. Ponieważ jednak moduł ANOVA wykorzystuje najpopularniejsze metody analizy kowariancji, możliwa jest w szczególności ocena istotności statystycznej interakcji czynników i współzmiennych.

Zmienne współzmienne

Podczas gdy stałe współzmienne są omawiane w podręcznikach dość często, zmienne współzmienne są wymieniane znacznie rzadziej. Zazwyczaj, przeprowadzając eksperymenty z powtarzającymi się pomiarami, interesują nas różnice w pomiarach tych samych wielkości w różnych momentach. Nas interesuje mianowicie znaczenie tych różnic. Jeżeli współzmienne są mierzone jednocześnie z pomiarami zmiennych zależnych, można obliczyć korelację między współzmienną a zmienną zależną.

Na początku i na końcu semestru można na przykład badać zainteresowania i umiejętności matematyczne. Interesujące byłoby sprawdzenie, czy zmiany w zainteresowaniu matematyką są skorelowane ze zmianami w umiejętnościach matematycznych.

Moduł Analiza wariancji V STATYSTYKA tam, gdzie to możliwe, automatycznie ocenia istotność statystyczną zmian współzmiennych w projektach.

Projekty wielowymiarowe: wieloczynnikowa analiza wariancji i kowariancji

Plany międzygrupowe

Wszystkie omówione wcześniej przykłady obejmowały tylko jedną zmienną zależną. Gdy jednocześnie występuje kilka zmiennych zależnych, zwiększa się jedynie złożoność obliczeń, ale treść i podstawowe zasady nie ulegają zmianie.

Na przykład badanie przeprowadza się na dwóch różnych podręcznikach. Jednocześnie badane są sukcesy uczniów w nauce fizyki i matematyki. W tym przypadku istnieją dwie zmienne zależne i trzeba dowiedzieć się, jak wpływają na nie jednocześnie dwa różne podręczniki. W tym celu można zastosować wieloczynnikową analizę wariancji (MANOVA). Zamiast jednowymiarowego F kryterium stosuje się wielowymiarowość F test (test l Wilksa), polegający na porównaniu macierzy kowariancji błędów i macierzy kowariancji międzygrupowych.

Jeżeli zmienne zależne są ze sobą skorelowane, to korelację tę należy uwzględnić przy obliczaniu kryterium istotności. Oczywiście, jeśli ten sam pomiar zostanie powtórzony dwukrotnie, nie da się uzyskać nic nowego. Jeśli pomiar z nim skorelowany zostanie dodany do istniejącego pomiaru, to niektóre nowe informacje, ale nowa zmienna zawiera nadmiarowe informacje, co znajduje odzwierciedlenie w kowariancji pomiędzy zmiennymi.

Interpretacja wyników. Jeśli ogólny test wielowymiarowy jest istotny, możemy stwierdzić, że odpowiadający mu efekt (np. typ podręcznika) jest istotny. Jednakże pojawiają się następujące pytania. Czy rodzaj podręcznika wpływa na poprawę tylko umiejętności matematycznych, tylko fizycznych, czy obu umiejętności? W rzeczywistości, po uzyskaniu istotnego testu wieloczynnikowego, bada się test jednoczynnikowy pod kątem indywidualnego efektu głównego lub interakcji. F kryterium. Innymi słowy, zmienne zależne, które wpływają na istotność kryterium wielowymiarowego, są badane oddzielnie.

Projekty powtarzalnych pomiarów

Jeżeli na początku i na końcu semestru sprawdza się umiejętności matematyczne i fizyczne uczniów, są to pomiary powtarzane. Badanie kryterium znaczenia w takich planach jest logiczny rozwój przypadek jednowymiarowy. Należy zauważyć, że techniki wielowymiarowej analizy wariancji są również powszechnie stosowane do badania znaczenia jednoczynnikowych czynników powtarzanych pomiarów mających więcej niż dwa poziomy. Odpowiednie zastosowania zostaną omówione w dalszej części tej części.

Sumowanie wartości zmiennych i wielowymiarowa analiza wariancji

Nawet doświadczeni użytkownicy jednoczynnikowej i wielowymiarowej analizy wariancji często mają trudności z uzyskaniem różnych wyników, stosując wieloczynnikową analizę wariancji na przykład do trzech zmiennych i stosując jednoczynnikową analizę wariancji do sumy tych trzech zmiennych, tak jakby były pojedynczą zmienną.

Pomysł podsumowanie zmiennych polega na tym, że każda zmienna zawiera pewną zmienną prawdziwą, która jest badana, a także losowy błąd pomiaru. Dlatego przy uśrednianiu wartości zmiennych błąd pomiaru będzie bliższy 0 dla wszystkich pomiarów, a wartości uśrednione będą bardziej wiarygodne. W rzeczywistości w tym przypadku zastosowanie analizy ANOVA do sumy zmiennych jest rozsądne i jest potężna metoda. Jeśli jednak zmienne zależne mają charakter wielowymiarowy, sumowanie wartości zmiennych jest niewłaściwe.

Załóżmy na przykład, że zmienne zależne składają się z czterech wskaźników sukces w społeczeństwie. Każdy wskaźnik charakteryzuje całkowicie niezależny aspekt działalności człowieka (na przykład sukces zawodowy, sukces w biznesie, dobrobyt rodziny itp.). Dodawanie tych zmiennych przypomina dodawanie jabłek i pomarańczy. Suma tych zmiennych nie byłaby odpowiednią miarą jednowymiarową. Dlatego takie dane należy traktować jako wielowymiarowe wskaźniki w wieloczynnikowa analiza wariancji.

Analiza kontrastu i badania post hoc

Dlaczego porównuje się oddzielne zestawy średnich?

Zazwyczaj hipotezy dotyczące danych eksperymentalnych formułuje się nie tylko w kategoriach głównych efektów lub interakcji. Przykładem może być następująca hipoteza: pewien podręcznik poprawia umiejętności matematyczne tylko u uczniów płci męskiej, podczas gdy inny podręcznik jest w przybliżeniu równie skuteczny dla obu płci, ale wciąż mniej skuteczny w przypadku mężczyzn. Można przewidzieć, że efektywność podręczników oddziałuje na płeć uczniów. Jednak ta prognoza również ma zastosowanie natura interakcje. Oczekuje się znacznej różnicy między płciami w przypadku uczniów korzystających z jednej książki i praktycznie niezależnych wyników według płci w przypadku uczniów korzystających z drugiej książki. Ten typ hipotezy jest zwykle badany za pomocą analizy kontrastu.

Analiza kontrastów

Krótko mówiąc, analiza kontrastu pozwala ocenić istotność statystyczną pewnych kombinacji liniowych złożonych efektów. Analiza kontrastu jest głównym i obowiązkowym elementem każdego złożonego planu ANOVA. Moduł Analiza wariancji ma dość różnorodne możliwości analizy kontrastu, które pozwalają izolować i analizować dowolny rodzaj porównania średnich.

A posteriori porównania

Czasami w wyniku przetworzenia eksperymentu odkrywany jest nieoczekiwany efekt. Choć w większości przypadków kreatywny badacz będzie w stanie wyjaśnić dowolny wynik, nie pozwala to na dalszą analizę i szacunki w celu przewidywania. Ten problem jest jednym z tych, dla których kryteria a posteriori, czyli kryteria, których nie stosuje się apriorycznie hipotezy. Aby to zilustrować, rozważmy następujący eksperyment. Załóżmy, że jest 100 kart zawierających liczby od 1 do 10. Układając wszystkie te karty w kapeluszu, losujemy 5 kart 20 razy i obliczamy średnią wartość (średnią z liczb zapisanych na kartach) dla każdej próbki. Czy możemy spodziewać się dwóch próbek, których średnie różnią się istotnie? To bardzo prawdopodobne! Wybierając dwie próbki ze średnią maksymalną i minimalną, można uzyskać różnicę średnich znacznie różniącą się od różnicy średnich, na przykład dwóch pierwszych próbek. Różnicę tę można zbadać na przykład za pomocą analizy kontrastu. Nie wchodząc w szczegóły, istnieje kilka tzw a posteriori kryteria oparte dokładnie na pierwszym scenariuszu (pobranie ekstremalnych średnich z 20 próbek), tj. kryteria te opierają się na wyborze najbardziej różnych środków w celu porównania wszystkich średnich w projekcie. Kryteria te mają na celu zapewnienie, że sztuczny efekt nie zostanie uzyskany całkowicie przypadkowo, na przykład w celu wykrycia istotnej różnicy między średnimi, gdy jej nie ma. Moduł Analiza wariancji oferuje szeroką gamę takich kryteriów. Kiedy w eksperymencie obejmującym kilka grup zostaną napotkane nieoczekiwane wyniki, wówczas a posteriori procedury badania istotności statystycznej uzyskanych wyników.

Suma kwadratów typu I, II, III i IV

Regresja wielowymiarowa i analiza wariancji

Istnieje ścisły związek pomiędzy metodą regresji wielowymiarowej a analizą wariancji (analizą wariancji). W obu metodach badany jest model liniowy. Krótko mówiąc, prawie wszystkie projekty eksperymentów można zbadać za pomocą regresji wieloczynnikowej. Rozważmy następujący prosty projekt międzygrupowy 2 x 2.

D.V. A B Topór B
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Kolumny A i B zawierają kody charakteryzujące poziomy czynników A i B, kolumna AxB zawiera iloczyn dwóch kolumn A i B. Dane te możemy analizować za pomocą regresji wieloczynnikowej. Zmienny D.V. zdefiniowana jako zmienna zależna, zmienne z A Do Topór B jako zmienne niezależne. Badanie istotności współczynników regresji będzie pokrywać się z obliczeniami w analizie wariancji istotności głównych efektów czynników A I B i efekt interakcji Topór B.

Niezrównoważone i zrównoważone plany

Obliczając macierz korelacji dla wszystkich zmiennych, takich jak dane przedstawione powyżej, można zauważyć, że główne efekty czynników A I B i efekt interakcji Topór B nieskorelowane. Ta właściwość efektów nazywana jest również ortogonalnością. Mówią, że efekty A I B - prostokątny Lub niezależny od siebie. Jeśli wszystkie efekty w planie są względem siebie ortogonalne, jak w powyższym przykładzie, wówczas mówimy, że plan jest zrównoważony.

Zrównoważone plany mają „ dobra nieruchomość" Obliczenia potrzebne do analizy takich planów są bardzo proste. Wszystkie obliczenia sprowadzają się do obliczenia korelacji pomiędzy efektami a zmiennymi zależnymi. Ponieważ efekty są ortogonalne, częściowe korelacje (w całości wielowymiarowy regresje) nie są obliczane. Jednak w prawdziwe życie plany nie zawsze są zrównoważone.

Rozważmy rzeczywiste dane z nierówną liczbą obserwacji w komórkach.

Czynnik A Czynnik B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Jeśli zakodujemy te dane jak powyżej i obliczymy macierz korelacji dla wszystkich zmiennych, okaże się, że czynniki projektowe są ze sobą skorelowane. Czynniki w planie nie są już ortogonalne i takie plany nazywa się niezrównoważony. Należy zauważyć, że w rozważanym przykładzie korelacja między czynnikami wynika całkowicie z różnicy częstotliwości 1 i -1 w kolumnach macierzy danych. Innymi słowy, projekty eksperymentów z nierównymi objętościami komórek (dokładniej: nieproporcjonalnymi objętościami) będą niezrównoważone, co oznacza, że ​​główne efekty i interakcje zostaną zakłócone. W takim przypadku należy obliczyć pełną regresję wieloczynnikową, aby obliczyć istotność statystyczną efektów. Jest tu kilka strategii.

Suma kwadratów typu I, II, III i IV

Typ sumy kwadratówIIIII. Aby zbadać znaczenie każdego czynnika w modelu wielowymiarowym, można obliczyć częściową korelację każdego czynnika, pod warunkiem, że wszystkie pozostałe czynniki są już uwzględnione w modelu. Można także wprowadzać czynniki do modelu krok po kroku, przechwytując wszystkie czynniki już wprowadzone do modelu i ignorując wszystkie inne czynniki. Ogólnie rzecz biorąc, jest to różnica między typ III I typI suma kwadratów (terminologia ta została wprowadzona w SAS, zob. np. SAS, 1982; szczegółowe omówienie można znaleźć także w: Searle, 1987, s. 461; Woodward, Bonett i Brecht, 1990, s. 216; czy Milliken i Johnson, 1984, s. 138).

Typ sumy kwadratówII. Następna „pośrednia” strategia tworzenia modelu polega na: kontrolowaniu wszystkich efektów głównych podczas badania znaczenia pojedynczego efektu głównego; w kontrolowaniu wszystkich efektów głównych i wszystkich interakcji parami podczas badania znaczenia indywidualnej interakcji parami; w kontrolowaniu wszystkich głównych efektów wszystkich interakcji parami i wszystkich interakcji trzech czynników; podczas badania indywidualnej interakcji trzech czynników itp. Sumy kwadratów tak obliczonych efektów nazywane są sumami kwadratów typII suma kwadratów. Więc, typII suma kwadratów kontroli dla wszystkich efektów tego samego rzędu i niższych, ignorując wszystkie efekty wyższego rzędu.

Typ sumy kwadratówIV. Wreszcie dla niektórych planów specjalnych, w których brakuje komórek (plany niekompletne), możliwe jest obliczenie tzw typ IV suma kwadratów. Metoda ta zostanie omówiona później w odniesieniu do projektów niekompletnych (projektów z brakującymi ogniwami).

Interpretacja hipotezy sumy kwadratów typów I, II i III

Suma kwadratów typIII najłatwiej zinterpretować. Przypomnijmy, że sumy kwadratów typIII zbadaj efekty po uwzględnieniu wszystkich pozostałych efektów. Na przykład po znalezieniu statystycznie istotnego typIII wpływ na czynnik A w module Analiza wariancji, możemy powiedzieć, że istnieje jeden znaczący wpływ czynnika A, po wprowadzeniu wszystkich pozostałych efektów (czynników) i odpowiednio zinterpretować ten efekt. Prawdopodobnie w 99% wszystkich zastosowań ANOVA jest to rodzaj testu, który interesuje badacza. Ten typ sumy kwadratów jest zwykle obliczany modulo Analiza wariancji domyślnie, niezależnie od tego, czy opcja jest zaznaczona Podejście regresyjne czy nie (podejścia standardowe przyjęte w module Analiza wariancji omówione poniżej).

Efekty istotne uzyskane przy użyciu sum kwadratów typ Lub typII sumy kwadratów nie są tak łatwe do interpretacji. Najlepiej je interpretować w kontekście krokowej regresji wieloczynnikowej. Jeśli, używając sumy kwadratów typI efekt główny czynnika B był istotny (po uwzględnieniu w modelu czynnika A, ale przed dodaniem interakcji pomiędzy A i B), możemy stwierdzić, że istnieje istotny efekt główny czynnika B, pod warunkiem, że nie ma interakcji pomiędzy czynnikami A i B. (W przypadku stosowania kryterium typIII, czynnik B również okazał się istotny, to po wprowadzeniu do modelu wszystkich pozostałych czynników i ich interakcji można stwierdzić, że istnieje istotny efekt główny czynnika B).

W zakresie hipotezy środków krańcowych typI I typII zwykle nie mają prostej interpretacji. W takich przypadkach mówi się, że nie można interpretować znaczenia efektów, patrząc jedynie na średnie marginalne. Raczej przedstawione Pśrednie są powiązane ze złożoną hipotezą, która łączy średnie i wielkość próby. Na przykład, typII hipotezy dotyczące czynnika A w prostym przykładzie układu 2 x 2 omówione wcześniej byłyby następujące (patrz Woodward, Bonett i Brecht, 1990, s. 219):

nie- liczba obserwacji w komórce

uij- średnia wartość w komórce

N. J- średnia marginalna

Nie wchodząc w szczegóły (więcej szczegółów można znaleźć w Milliken i Johnson, 1984, rozdz. 10), jasne jest, że nie są to proste hipotezy i w większości przypadków żadna z nich nie jest szczególnie interesująca dla badacza. Są jednak przypadki, gdy hipotezy typI może być interesujące.

Domyślne podejście obliczeniowe w module Analiza wariancji

Wartość domyślna, jeśli opcja nie jest zaznaczona Podejście regresyjne, moduł Analiza wariancji wykorzystuje model średniej komórki. Model ten charakteryzuje się tym, że sumy kwadratów dla różne efekty są obliczane dla liniowych kombinacji średnich komórek. W pełnym eksperymencie silni daje to sumy kwadratów, które są takie same, jak sumy kwadratów omówione wcześniej jako typ III. Jednak w opcji Planowane porównania(w oknie Wyniki ANOVA), użytkownik może przetestować hipotezę w oparciu o dowolną liniową kombinację średnich ważonych i nieważonych komórek. Dzięki temu użytkownik może testować nie tylko hipotezy typIII, ale hipotezy dowolnego typu (w tym typIV). Ten podejście ogólne szczególnie przydatne podczas sprawdzania planów z brakującymi komórkami (tzw. plany niekompletne).

W przypadku pełnych planów czynnikowych podejście to jest również przydatne, gdy chce się analizować ważone średnie krańcowe. Załóżmy na przykład, że w rozważanym wcześniej prostym projekcie 2 x 2 musimy porównać ważone (według poziomów współczynników). B) średnie krańcowe dla czynnika A. Jest to przydatne, gdy rozkład obserwacji pomiędzy komórkami nie został przygotowany przez eksperymentatora, ale został skonstruowany losowo, a losowość ta znajduje odzwierciedlenie w rozkładzie liczby obserwacji na poziomach czynnika B w agregat.

Na przykład istnieje czynnik - wiek wdów. Możliwą próbę respondentów dzieli się na dwie grupy: do 40. roku życia i powyżej 40. roku życia (czynnik B). Drugim czynnikiem (czynnikiem A) w planie było to, czy wdowy otrzymywały wsparcie społeczne od jakiejś agencji (niektóre wdowy zostały wybrane losowo, inne służyły jako kontrola). W tym przypadku rozkład wdów ze względu na wiek w próbie odzwierciedla faktyczny rozkład wdów ze względu na wiek w populacji. Ocena efektywności grupy wsparcie społeczne wdowy wg w każdym wieku będzie odpowiadać średniej ważonej z tych dwóch grupy wiekowe(z wagami odpowiadającymi liczbie obserwacji w grupie).

Planowane porównania

Należy pamiętać, że suma wprowadzonych współczynników kontrastu nie musi być równa 0 (zero). Zamiast tego program automatycznie dokona korekt, aby upewnić się, że odpowiednie hipotezy nie zostaną pomylone z ogólną średnią.

Aby to zilustrować, wróćmy do omówionego wcześniej prostego planu 2 x 2. Przypomnijmy, że liczby obserwacji w komórkach tego niezrównoważonego układu wynoszą -1, 2, 3 i 1. Załóżmy, że chcemy porównać ważone średnie krańcowe dla czynnika A (ważone częstotliwością poziomów czynnika B). Można wprowadzić współczynniki kontrastu:

Należy pamiętać, że współczynniki te nie sumują się do 0. Program ustawi współczynniki tak, aby sumowały się do 0, a ich wartości względne zostaną zachowane, tj.:

1/3 2/3 -3/4 -1/4

Te kontrasty pozwolą porównać średnie ważone dla czynnika A.

Hipotezy dotyczące średniej głównej. Hipotezę, że nieważona średnia główna wynosi 0, można zbadać za pomocą współczynników:

Hipotezę, że średnia ważona główna wynosi 0, testuje się za pomocą:

W żadnym przypadku program nie reguluje współczynników kontrastu.

Analiza planów z brakującymi komórkami (plany niekompletne)

Projekty czynnikowe zawierające puste komórki (przetwarzające kombinacje komórek, które nie zawierają obserwacji) nazywane są niekompletnymi. W takich projektach niektóre czynniki zwykle nie są ortogonalne, a niektórych interakcji nie można obliczyć. W ogóle nie istnieje najlepsza metoda analizę takich planów.

Podejście regresyjne

W niektórych starszych programach, które opierają się na analizie projektów ANOVA przy użyciu regresji wielowymiarowej, współczynniki w niekompletnych projektach są domyślnie określane w zwykły sposób (tak jakby projekt był kompletny). Potem wielowymiarowość analiza regresji dla tych fikcyjnych, zakodowanych czynników. Niestety metoda ta daje wyniki, które są bardzo trudne, jeśli nie niemożliwe, do interpretacji, ponieważ nie jest jasne, w jaki sposób każdy efekt przyczynia się do liniowej kombinacji średnich. Rozważmy następujący prosty przykład.

Czynnik A Czynnik B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Pominięty

Jeśli wykonamy regresję wielowymiarową postaci Zmienna zależna = stała + współczynnik A + współczynnik B, wówczas hipoteza o znaczeniu czynników A i B w aspekcie liniowych kombinacji średnich wygląda następująco:

Czynnik A: Komórka A1, B1 = Komórka A2, B1

Czynnik B: Komórka A1, B1 = Komórka A1, B2

Sprawa jest prosta. W bardziej skomplikowanych projektach nie da się właściwie określić, co dokładnie będzie badane.

Oznacza komórki, podejście ANOVA , Hipotezy typu IV

Podejściem zalecanym w literaturze i wydaje się preferowanym jest badanie znaczące (pod względem pytań badawczych) apriorycznie hipotezy dotyczące środków obserwowanych w komórkach planu. Szczegółowe omówienie tego podejścia można znaleźć u Dodge'a (1985), Heibergera (1989), Millikena i Johnsona (1984), Searle'a (1987) lub Woodwarda, Bonetta i Brechta (1990). Sumy kwadratów powiązane z hipotezami dotyczącymi liniowej kombinacji średnich w niekompletnych projektach, które badają szacunki części efektów, nazywane są również sumami kwadratów IV.

Automatyczne generowanie hipotez typuIV. Gdy projekty wielowymiarowe mają złożony wzór brakujących komórek, pożądane jest zdefiniowanie ortogonalnych (niezależnych) hipotez, których badanie jest równoważne badaniu głównych efektów lub interakcji. Do generowania opracowano strategie algorytmiczne (obliczeniowe) (oparte na macierzy pseudoodwrotnej). odpowiednie skale do takich porównań. Niestety, ostateczne hipotezy nie są określone w sposób jednoznaczny. Oczywiście zależą one od kolejności identyfikacji skutków i rzadko pozwalają na prostą interpretację. Dlatego zaleca się dokładne zbadanie charakteru brakujących komórek, a następnie sformułowanie hipotez typIV, które w największym stopniu odpowiadają celom badania. Następnie przeanalizuj te hipotezy, korzystając z opcji Planowane porównania w oknie Wyniki. Najłatwiej określić porównania w tym przypadku, wymagając wprowadzenia wektora kontrastów dla wszystkich czynników razem w oknie Planowane porównania. Po wywołaniu okna dialogowego Planowane porównania zostaną wyświetlone wszystkie grupy aktualny plan a te pominięte są zaznaczane.

Brakujące komórki i badanie pod kątem konkretnego efektu

Istnieje kilka rodzajów projektów, w których lokalizacja brakujących komórek nie jest przypadkowa, ale jest starannie zaplanowana, co pozwala na prostą analizę efektów głównych bez wpływu na inne efekty. Na przykład, gdy wymagana liczba komórek w planie nie jest dostępna, często stosuje się plany Kwadraty łacińskie oszacować główne skutki kilku czynników na dużej liczbie poziomów. Na przykład układ czynnikowy 4 x 4 x 4 x 4 wymaga 256 komórek. Jednocześnie możesz używać Plac grecko-łaciński oszacować efekty główne przy użyciu tylko 16 komórek w projekcie (rozdział Planowanie eksperymentu, tom IV, zawiera szczegółowy opis takich planów). Projekty niekompletne, w których efekty główne (i niektóre interakcje) można oszacować za pomocą prostych liniowych kombinacji średnich, nazywane są zrównoważone niekompletne plany.

W projektach zrównoważonych standardowa (domyślna) metoda generowania kontrastów (wag) dla efektów głównych i interakcji spowoduje utworzenie tabeli analizy wariancji, w której sumy kwadratów odpowiednich efektów nie zostaną ze sobą pomieszane. Opcja Konkretne efekty okna Wyniki wygeneruje brakujące kontrasty, wpisując zero do brakujących komórek planu. Natychmiast po zażądaniu opcji Konkretne efekty użytkownikowi sprawdzającemu jakąś hipotezę pojawia się tabela wyników z rzeczywistymi wagami. Należy zauważyć, że w zrównoważonym projekcie sumy kwadratów odpowiednich efektów są obliczane tylko wtedy, gdy efekty te są ortogonalne (niezależne) od wszystkich innych efektów głównych i interakcji. W przeciwnym razie musisz skorzystać z tej opcji Planowane porównania w celu zbadania znaczących porównań między średnimi.

Brakujące komórki i zbiorcze efekty/warunki błędów

Jeśli opcja Podejście regresyjne w panelu startowym modułu Analiza wariancji nie jest zaznaczone, do obliczenia sumy kwadratów efektów zostanie użyty model średniej komórki (ustawienie domyślne). Jeśli projekt nie jest zrównoważony, wówczas przy łączeniu efektów nieortogonalnych (patrz omówienie opcji powyżej Pominięte komórki i specyficzny efekt) można otrzymać sumę kwadratów składających się z elementów nieortogonalnych (lub nakładających się). Uzyskanych wyników zwykle nie można interpretować. Dlatego należy zachować szczególną ostrożność przy wyborze i wdrażaniu złożonych, niekompletnych projektów eksperymentalnych.

Istnieje wiele książek zawierających szczegółowe omówienie planów różne typy. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken i Johnson, 1984; Searle, 1987; Woodward i Bonett, 1990), ale tego typu informacje wykraczają poza zakres tego podręcznika. Jednakże analiza zostanie przedstawiona w dalszej części tej sekcji. różne typy plany.

Założenia i skutki naruszenia założeń

Odchylenie od założenia o rozkładach normalnych

Załóżmy, że zmienna zależna jest mierzona na skali numerycznej. Załóżmy również, że zmienna zależna ma rozkład normalny w każdej grupie. Analiza wariancji zawiera szeroką gamę wykresów i statystyk potwierdzających to założenie.

Skutki zakłóceń. W ogóle F kryterium jest bardzo odporne na odchylenia od normalności ( szczegółowe wyniki patrz Lindman, 1974). Jeśli kurtoza jest większa niż 0, wówczas wartość statystyki wynosi F może stać się bardzo mały. Hipoteza zerowa zostaje przyjęta, chociaż może nie być prawdziwa. Sytuacja ulega odwróceniu, gdy kurtoza jest mniejsza niż 0. Skośność rozkładu ma zwykle niewielki wpływ F statystyka. Jeśli liczba obserwacji w komórce jest wystarczająco duża, wówczas odchylenie od normalności nie jest szczególnie istotne ze względu na centralne twierdzenie graniczne, zgodnie z którym rozkład wartości średniej jest zbliżony do normalnego, niezależnie od rozkładu początkowego. Szczegółowe omówienie zrównoważonego rozwoju F statystyki można znaleźć u Boxa i Andersona (1955) lub Lindmana (1974).

Jednolitość wariancji

Założenia. Zakłada się, że wariancje różnych grup projektowych są takie same. To założenie nazywa się założeniem jednorodność wariancji. Przypomnijmy, że na początku tego rozdziału opisując obliczenie sumy kwadratów błędów, przeprowadziliśmy sumowanie w obrębie każdej grupy. Jeśli wariancje w dwóch grupach różnią się od siebie, to zsumowanie ich nie jest zbyt naturalne i nie pozwala na oszacowanie całkowitej wariancji wewnątrzgrupowej (ponieważ w tym przypadku wariancja całkowita nie występuje). Moduł Analiza wariancji -ANOVA/MANOWA zawiera duży zestaw kryteria statystyczne wykrywanie odchyleń od jednorodności założeń wariancji.

Skutki zakłóceń. Lindman (1974, s. 33) to pokazuje F kryterium jest dość stabilne pod względem naruszenia założeń o jednorodności wariancji ( niejednorodność wariancja, patrz także Ramka, 1954a, 1954b; Hsu, 1938).

Przypadek szczególny: korelacja średnich i wariancji. Są chwile, kiedy F statystyki mogą zmylić. Dzieje się tak, gdy średnie komórek projektowych są skorelowane z wariancją. Moduł Analiza wariancji pozwala na budowanie wykresów rozrzutu dyspersji lub odchylenie standardowe względem średnich, aby wykryć taką korelację. Powód, dla którego ta korelacja jest niebezpieczna, jest następujący. Wyobraźmy sobie, że w planie jest 8 komórek, z czego 7 ma prawie taką samą średnią, a w jednej komórce średnia jest znacznie wyższa niż w pozostałych. Następnie F test może wykryć statystycznie istotny efekt. Załóżmy jednak, że w komórce o dużej wartości średniej wariancja jest znacznie większa niż w pozostałych, tj. średnia wartość i wariancja w komórkach są zależne (im wyższa średnia, tym większa wariancja). W tym przypadku duża średnia jest niewiarygodna, gdyż może wynikać z dużej rozbieżności danych. Jednakże F statystyki oparte na zjednoczony wariancja w komórkach uchwyci średnią ogólną, chociaż testy oparte na wariancji w każdej komórce nie uznają wszystkich różnic w średnich za istotne.

Tego typu dane (duża średnia i duża wariancja) często pojawiają się, gdy występują obserwacje odstające. Jedna lub dwie obserwacje odstające znacznie przesuwają średnią i znacznie zwiększają wariancję.

Jednorodność wariancji i kowariancji

Założenia. W projektach wielowymiarowych z miarami zależnymi na wiele zmiennych stosuje się również opisane wcześniej założenie o jednorodności wariancji. Ponieważ jednak istnieją wielowymiarowe zmienne zależne, wymagane jest również, aby ich wzajemne korelacje (kowariancje) były jednakowe we wszystkich komórkach projektu. Moduł Analiza wariancji oferuje różne sposoby testowania tych założeń.

Skutki zakłóceń. Wielowymiarowy analog F- kryterium - test λ Wilksa. Niewiele wiadomo na temat odporności testu Wilksa λ na naruszenia powyższych założeń. Jednakże, ponieważ interpretacja wyników modułu Analiza wariancji opiera się zazwyczaj na istotności efektów jednowymiarowych (po ustaleniu istotności kryterium ogólnego), dyskusja na temat odporności dotyczy głównie jednowymiarowej analizy wariancji. Dlatego należy dokładnie zbadać znaczenie efektów jednoczynnikowych.

Przypadek szczególny: analiza kowariancji. Szczególnie poważne naruszenia jednorodności wariancji/kowariancji mogą wystąpić, gdy w projekcie uwzględnione zostaną współzmienne. W szczególności, jeśli korelacja między współzmiennymi i miarami zależnymi różni się w poszczególnych komórkach projektu, może nastąpić błędna interpretacja wyników. Należy pamiętać, że analiza kowariancji zasadniczo przeprowadza analizę regresji w każdej komórce w celu wyizolowania tej części wariancji, która jest uwzględniana przez współzmienną. Założenie o jednorodności wariancji/kowariancji sugeruje, że analizę regresji przeprowadza się przy następujące ograniczenie: Wszystko równania regresji(nachylenia) są takie same dla wszystkich komórek. Jeśli nie jest to oczekiwane, może się pojawić duże błędy. Moduł Analiza wariancji ma kilka specjalnych kryteriów sprawdzających to założenie. Zaleca się stosowanie tych kryteriów, aby zapewnić, że równania regresji dla różnych komórek będą w przybliżeniu takie same.

Sferyczność i złożona symetria: powody stosowania wielowymiarowego podejścia do powtarzanych miar w analizie wariancji

W projektach zawierających czynniki powtarzalnych pomiarów o więcej niż dwóch poziomach, zastosowanie jednowymiarowej ANOVA wymaga dodatkowych założeń: założenia o złożonej symetrii i założenia o kulistości. Założenia te są rzadko spotykane (patrz poniżej). Dlatego w ostatnie lata W takich układach popularność zyskała wielowymiarowa analiza wariancji (oba podejścia są połączone w module Analiza wariancji).

Założenie złożonej symetrii Założeniem symetrii złożonej jest to, że wariancje (wspólne w grupach) i kowariancje (wspólne w grupach) dla różnych powtarzanych miar są jednorodne (takie same). Jest to warunek wystarczający, aby jednoczynnikowy test F dla powtarzanych pomiarów był ważny (tj. podawane wartości F są średnio zgodne z rozkładem F). Jednak w tym przypadku warunek ten nie jest konieczny.

Założenie sferyczności. Założenie o kulistości jest warunkiem koniecznym i wystarczającym, aby test F był ważny. Polega ona na tym, że w obrębie grup wszystkie obserwacje są niezależne i równomiernie rozłożone. Charakter tych założeń i skutki ich naruszenia nie są zwykle dobrze opisane w książkach o ANOVA - zostanie to omówione w kolejnych akapitach. Pokazane zostanie również, że wyniki podejścia jednowymiarowego mogą różnić się od wyników podejścia wielowymiarowego i zostanie wyjaśnione, co to oznacza.

Potrzeba niezależności hipotez. Ogólny sposób analizy danych w ANOVA jest następujący dopasowanie modelu. Jeśli w stosunku do modelu, który pasuje do danych, są pewne apriorycznie hipotez, następnie wariancja jest dzielona w celu sprawdzenia tych hipotez (testy efektów głównych, interakcji). Z obliczeniowego punktu widzenia podejście to generuje zestaw kontrastów (zestaw porównań średnich planowych). Jeśli jednak kontrasty nie są od siebie niezależne, podział wariancji staje się bezsensowny. Na przykład, jeśli dwa kontrasty A I B są identyczne i wyodrębnia się odpowiadającą im część wariancji, następnie tę samą część wyodrębnia się dwukrotnie. Na przykład głupie i bezcelowe jest identyfikowanie dwóch hipotez: „średnia w komórce 1 jest wyższa niż średnia w komórce 2” i „średnia w komórce 1 jest wyższa niż średnia w komórce 2”. Zatem hipotezy muszą być niezależne lub ortogonalne.

Niezależne hipotezy w powtarzanych pomiarach. Algorytm ogólny, zaimplementowany w module Analiza wariancji, spróbuje wygenerować niezależne (ortogonalne) kontrasty dla każdego efektu. W przypadku czynnika powtarzanych pomiarów kontrasty te dostarczają wielu hipotez dotyczących różnice pomiędzy poziomami rozpatrywanego czynnika. Jeśli jednak różnice te są skorelowane w obrębie grup, wówczas powstałe kontrasty nie są już niezależne. Na przykład w nauczaniu, w którym studenci są mierzeni trzy razy w semestrze, może się zdarzyć, że zmiana między pierwszym a drugim pomiarem będzie ujemnie skorelowana ze zmianą między drugim a trzecim pomiarem przedmiotów. Ci, którzy opanowali większość materiału pomiędzy 1. a 2. wymiarem, opanowują mniejszą część w czasie, który upłynął pomiędzy 2. a 3. wymiarem. W rzeczywistości w większości przypadków, gdy do powtarzanych pomiarów stosuje się analizę ANOVA, można założyć, że zmiany na różnych poziomach są skorelowane między pacjentami. Jednak gdy tak się stanie, założenie o złożonej symetrii i założenie o kulistości nie jest spełnione i nie można obliczyć niezależnych kontrastów.

Skutki naruszeń i sposoby ich korygowania. Jeśli złożone założenia dotyczące symetrii lub kulistości nie są spełnione, może powstać analiza ANOVA błędne wyniki. Zanim procedury wielowymiarowe zostały dostatecznie rozwinięte, zaproponowano kilka założeń kompensujących naruszenia tych założeń. (Patrz na przykład Greenhouse i Geisser, 1959 oraz Huynh i Feldt, 1970). Metody te są nadal szeroko stosowane (dlatego zostały zaprezentowane w module Analiza wariancji).

Wielowymiarowa analiza wariancji podejścia do powtarzanych miar. Generalnie problemy złożonej symetrii i sferyczności wiążą się z faktem, że zbiory kontrastów uwzględnione w badaniu efektów czynników powtarzanych pomiarów (o więcej niż 2 poziomach) nie są od siebie niezależne. Jednakże nie muszą być niezależne, jeśli są używane wielowymiarowy kryterium jednoczesnej weryfikacji znaczenie statystyczne dwa lub więcej powtórzonych pomiarów wpływa na kontrasty. Z tego powodu coraz częściej stosuje się wieloczynnikową analizę wariancji do testowania istotności jednoczynnikowych czynników powtarzanych pomiarów o więcej niż 2 poziomach. Podejście to jest powszechnie akceptowane, ponieważ generalnie nie wymaga złożonej symetrii ani sferyczności.

Przypadki, w których nie można zastosować podejścia wieloczynnikowej analizy wariancji. Istnieją przykłady (projekty), w których nie można zastosować podejścia wielowymiarowej analizy wariancji. Są to zazwyczaj przypadki, w których w projekcie występuje niewielka liczba tematów i wiele poziomów współczynnika powtarzanych pomiarów. Może wówczas być zbyt mało obserwacji, aby przeprowadzić analizę wieloczynnikową. Na przykład, jeśli jest 12 przedmiotów, P = 4 współczynnik powtarzanych pomiarów, a każdy czynnik ma k = 3 poziomy. Wtedy interakcja 4 czynników „pochłonie” (k-1)P = 2 4 = 16 stopnie swobody. Jednakże jest tylko 12 podmiotów, więc w tym przykładzie nie można przeprowadzić testu wieloczynnikowego. Moduł Analiza wariancji niezależnie wykryje te obserwacje i obliczy tylko kryteria jednowymiarowe.

Różnice w wynikach jednowymiarowych i wieloczynnikowych. Jeżeli badanie obejmuje dużą liczbę powtarzanych pomiarów, mogą zaistnieć przypadki, w których jednowymiarowa metoda ANOVA z powtarzanymi pomiarami daje wyniki bardzo różniące się od tych uzyskanych przy podejściu wieloczynnikowym. Oznacza to, że różnice między poziomami odpowiednich powtarzanych pomiarów są skorelowane między podmiotami. Czasami fakt ten ma jakieś niezależne znaczenie.

Wieloczynnikowa analiza wariancji i modelowanie równań strukturalnych

W ostatnich latach popularne stało się modelowanie równań strukturalnych jako alternatywa dla wielowymiarowej analizy wariancji (patrz na przykład Bagozzi i Yi, 1989; Bagozzi, Yi i Singh, 1991; Cole, Maxwell, Arvey i Salas, 1993). . Podejście to pozwala na testowanie hipotez nie tylko dotyczących średnich w różnych grupach, ale także macierzy korelacji zmiennych zależnych. Na przykład można złagodzić założenia dotyczące jednorodności wariancji i kowariancji i wyraźnie uwzględnić w modelu wariancje i kowariancje błędów dla każdej grupy. Moduł STATYSTYKAModelowanie równań strukturalnych (SEPATH) (patrz tom III) pozwala na taką analizę.

Ogólne definicje

Celem analizy wariancji (ANOVA – Analysis of Variation) jest sprawdzenie istotności różnic pomiędzy średnimi w różnych grupach poprzez porównanie wariancji tych grup. Podzielenie całkowitej wariancji na wiele źródeł (przypisywanych różnym efektom projektowym) pozwala na porównanie wariancji wynikającej ze zmienności międzygrupowej z wariancją wynikającą ze zmienności wewnątrzgrupowej.

Testowana hipoteza zakłada, że ​​pomiędzy grupami nie ma różnic. Jeśli hipoteza zerowa jest prawdziwa, oszacowanie wariancji związanej ze zmiennością wewnątrzgrupową powinno być zbliżone do oszacowania wariancji międzygrupowej. Jeśli jest fałszywe, istotne jest odejście.

Ogólnie analizę wariancji można podzielić na kilka typów:

  • jednowymiarowe (jedna zmienna zależna) i wielowymiarowe (kilka zmiennych zależnych);

  • jednoczynnikowe (jedna zmienna grupująca) i wieloczynnikowe (kilka zmiennych grupujących) z możliwością interakcji między czynnikami;

  • z pomiarami prostymi (zmienna zależna jest mierzona tylko raz) i z pomiarami powtarzanymi (zmienna zależna jest mierzona kilkukrotnie).

W STATYSTYKA Zaimplementowano wszystkie znane modele analizy wariancji.

W STATYSTYKA analizę wariancji można przeprowadzić za pomocą modułu ANOVA w bloku Baza STATISITICA (Analiza -> Analiza wariancji (DA)). Aby zbudować specjalny typ modelu, użyj pełna wersja Analiza wariancji przedstawiona w modułach Ogólne modele liniowe, Uogólnione modele liniowe i nieliniowe, Ogólne modele regresji, Ogólne modele prywatnego najmniejszych kwadratów z bloku Zaawansowane techniki analizy (Zaawansowane modele liniowe/nieliniowe STATISTICA).

na początek

Przykład krok po kroku w STATYSTYKA

Zilustrujemy siłę ANOVA w STATYSTYKA, patrząc na przykładowy model krok po kroku.

Plik danych źródłowych opisuje populację osób o różnym poziomie dochodów, wykształceniu, wieku i płci. Zastanówmy się, jak poziom wykształcenia, wiek i płeć wpływają na poziom dochodów.

Według wieku wszystkich ludzi podzielono na cztery grupy:

  • do 30 lat;

  • od 31 do 40 lat;

  • od 41 do 50 lat;

  • od 51 lat.

Ze względu na poziom wykształcenia podzielono je na 5 grup:

  • niekompletne wtórne;

  • przeciętny;

  • średnie zawodowe;

  • niedokończone wykształcenie wyższe;

  • wyższy.

Ponieważ są to dane modelowe, uzyskane wyniki będą miały głównie charakter jakościowy i ilustrują sposób przeprowadzenia analizy.

Krok 1: Wybór analizy

Z menu wybierzmy analizę wariancji: Analiza -> Zaawansowane metody analizy -> Ogólne modele liniowe.

Ryż. 1. Wybierz ANOVA z rozwijanego menu STATISTICA

Następnie otworzy się okno, w którym prezentowane są różne typy analiz. Wybierać Rodzaj analizyCzynnikowa analiza wariancji.


Ryż. 2. Wybór rodzaju analizy

W tym oknie możesz także wybrać sposób budowy modelu: tryb dialogowy lub skorzystać z kreatora analiz. Wybierzmy tryb dialogowy.

Krok 2: Ustawianie zmiennych

Z otwartego pliku danych wybierz zmienne do analizy, kliknij przycisk Zmienne, wybierać:

Dochód– zmienna zależna,

Poziom edukacji, Podłoga I Wiek– czynniki kategoryczne (predyktory).

Zauważ to Kody czynników w tym prostym przykładzie nie musisz tego określać. Po naciśnięciu przycisku OK, STATYSTYKA ustawi je automatycznie.


Ryż. 3. Ustawianie zmiennych

Krok 3: Zmiana opcji

Przejdźmy do zakładki Opcje w oknie Silnia GLM TAK.


Ryż. 4. Zakładka Opcje

W tym oknie dialogowym możesz:

  • wybierz czynniki losowe;

  • ustawić typ parametryzacji modelu;

  • wskazać rodzaj sum kwadratów (SS), istnieje 6 różnych sum kwadratów (SS);

  • umożliwić sprawdzanie krzyżowe.

Zostawmy wszystkie ustawienia domyślne (w większości przypadków to wystarczy) i naciśnij przycisk OK.

Krok 4. Przeanalizuj wyniki - zobacz wszystkie efekty

Wyniki analizy można obejrzeć w oknie Wyniki za pomocą zakładek i grup przycisków. Rozważmy na przykład zakładkę Wyniki.


Ryż. 5. Okno analizy wyników: zakładka Wyniki

Z tej zakładki możesz uzyskać dostęp do wszystkich głównych wyników. Użyj innych zakładek, aby uzyskać więcej wyników. Przycisk Mniej umożliwia modyfikację okna dialogowego wyników poprzez usunięcie kart, które nie są zwykle używane.

Po naciśnięciu przycisku Sprawdź wszystkie efekty otrzymujemy następującą tabelę.


Ryż. 6. Tabela wszystkich efektów

W poniższej tabeli przedstawiono główne wyniki analizy: sumy kwadratów, stopnie swobody, wartości testu F, poziomy istotności.

Dla wygody badania znaczące efekty (s<.05) выделены красным цветом. Два главных эффекта (Poziom edukacji I Wiek), a niektóre interakcje w tym przykładzie są znaczące (s<.05).

Krok 5. Analiza wyników – przegląd określonych efektów

Najlepszym sposobem sprawdzenia, jak średni dochód różni się w zależności od kategorii, jest użycie narzędzi graficznych. Po naciśnięciu przycisku Wszystkie efekty/grafika Pojawi się następujące okno dialogowe.


Ryż. 7. Okno Tabela wszystkich efektów

Okno zawiera listę wszystkich uwzględnianych efektów. Efekty istotne statystycznie zaznaczono *.

Na przykład wybierzmy efekt Wiek, w grupie Wyświetlacz wskażmy Tabela i kliknij OK. Pojawi się tabela pokazująca średnią wartość zmiennej zależnej dla każdego poziomu efektu. (Dochód), wartość błędu standardowego i granice ufności.


Ryż. 8. Tabela ze statystykami opisowymi według poziomów zmiennej Wiek

Wygodnie jest przedstawić tę tabelę w formie graficznej. Do tego wybieramy Harmonogram w grupie Wyświetlacz okno dialogowe Tabela wszystkie efekty i naciśnij OK. Pojawi się odpowiedni wykres.


Ryż. 9. Wykres przeciętnego dochodu w zależności od wieku

Wykres wyraźnie pokazuje, że istnieje różnica w poziomach dochodów pomiędzy grupami osób w różnym wieku. Im wyższy wiek, tym wyższe dochody.

Podobne operacje przeprowadzimy dla oddziaływania kilku czynników. W oknie dialogowym wybierzmy Podłoga*Wiek i kliknij OK.


Ryż. 10. Wykres przeciętnych dochodów w zależności od płci i wieku

Uzyskano nieoczekiwany wynik: w przypadku ankietowanych osób do 50. roku życia poziom dochodów wzrasta wraz z wiekiem i nie zależy od płci; W przypadku badanych osób po 50. roku życia kobiety osiągają istotnie wyższe dochody niż mężczyźni.

Powstały wykres warto skonstruować ze względu na poziom wykształcenia. Być może ten wzorzec jest naruszany w niektórych kategoriach lub odwrotnie, jest uniwersalny. Do tego wybieramy Poziom edukacji * Podłoga* Wiek i kliknij OK.


Ryż. 11. Wykres przeciętnych dochodów w zależności od płci, wieku, poziomu wykształcenia

Widzimy, że uzyskana zależność nie jest typowa dla szkolnictwa średniego i średniego zawodowego. W innych przypadkach jest to sprawiedliwe.

Krok 6. Analiza wyników – ocena jakości modelu

Powyżej wykorzystano głównie graficzne sposoby analizy wariancji. Przyjrzyjmy się innym przydatnym wynikom, które można uzyskać.

Po pierwsze, interesujące jest sprawdzenie, jaką część wariancji wyjaśniają dane czynniki i ich interakcje. W tym celu w zakładce Wyniki kliknij przycisk Ogólne modele R. Pojawi się następująca tabela.

Ryż. 12. Tabela modelu SS i reszt SS

Liczba w kolumnie Ustaw. R2 – kwadratowy współczynnik korelacji wielokrotnej; pokazuje, jaką część zmienności wyjaśnia skonstruowany model. W naszym przypadku R2 = 0,195, co świadczy o niskiej jakości modelu. Tak naprawdę na poziom dochodów wpływają nie tylko czynniki uwzględnione w modelu.

Krok 7. Analiza wyników – analiza kontrastu

Często konieczne jest nie tylko ustalenie różnicy średniej wartości zmiennej zależnej dla różnych kategorii, ale także ustalenie wielkości różnicy dla danych kategorii. Aby to osiągnąć, należy zbadać kontrasty.

Wykazano powyżej, że poziom dochodów kobiet i mężczyzn różni się istotnie dla osób powyżej 51. roku życia, w pozostałych przypadkach różnica nie jest znacząca; Wyprowadźmy różnicę w poziomach dochodów mężczyzn i kobiet w wieku powyżej 51 lat oraz pomiędzy 40 a 50 rokiem życia.

W tym celu przejdź do zakładki Kontrasty i ustaw wszystkie wartości w następujący sposób.


Ryż. 13. Zakładka Kontrasty

Po naciśnięciu przycisku Obliczać Pojawi się kilka tabel. Nas interesuje tabela z szacunkami kontrastu.


Ryż. 14. Tabela oceny kontrastu

Można wyciągnąć następujące wnioski:

  • w przypadku mężczyzn i kobiet powyżej 51. roku życia różnica w dochodach wynosi 48,7 tys. dolarów. Różnica jest znacząca;

  • w przypadku mężczyzn i kobiet w wieku od 41 do 50 lat różnica w dochodach wynosi 1,73 tys. dolarów. Różnica nie jest znacząca.

Podobnie możesz ustawić bardziej złożone kontrasty lub skorzystać z jednego z predefiniowanych zestawów.

Krok 8: Dodatkowe wyniki

Korzystając z pozostałych zakładek okna wyników, możesz uzyskać następujące wyniki:

  • Średnie wartości zmiennej zależnej dla wybranego efektu – tab Przeciętny;

  • sprawdzanie kryteriów a posteriori (post hoc) – tab A posteriori;

  • sprawdzenie założeń przyjętych dla ANOVA – tab Założenia;

  • budowanie profili reakcji/pożądaności – tab Profile;

  • Analiza pozostałości – tab Resztki;

  • wynik macierzy wykorzystywanych w analizie – tab Matryce;

  • Wykorzystanie statystyk w tej nocie zostanie zilustrowane przekrojowym przykładem. Załóżmy, że jesteś kierownikiem produkcji w Perfect Parachute. Spadochrony są wykonane z włókien syntetycznych dostarczanych przez czterech różnych dostawców. Jedną z głównych cech spadochronu jest jego wytrzymałość. Należy upewnić się, że wszystkie dostarczone włókna mają tę samą wytrzymałość. Aby odpowiedzieć na to pytanie, należy zaprojektować projekt eksperymentalny umożliwiający pomiar wytrzymałości spadochronów tkanych z włókien syntetycznych. różni dostawcy. Informacje uzyskane w wyniku tego eksperymentu pozwolą określić, który dostawca zapewnia najtrwalsze spadochrony.

    Wiele zastosowań obejmuje eksperymenty, które uwzględniają wiele grup lub poziomów pojedynczego czynnika. Niektóre czynniki, takie jak temperatura wypalania ceramiki, mogą mieć wiele poziomów liczbowych (tj. 300°, 350°, 400° i 450°). Inne czynniki, takie jak lokalizacja artykułów w supermarkecie, mogą mieć poziomy kategoryczne (np. pierwszy dostawca, drugi dostawca, trzeci dostawca, czwarty dostawca). Eksperymenty jednoczynnikowe, w których jednostki eksperymentalne są losowo przydzielane do grup lub poziomów czynników, nazywane są całkowicie randomizowanymi.

    StosowanieF-kryteria oceny różnic pomiędzy kilkoma oczekiwaniami matematycznymi

    Jeżeli pomiary numeryczne czynnika w grupach mają charakter ciągły i spełnione są dodatkowe warunki, do porównania oczekiwań matematycznych kilku grup stosuje się analizę wariancji (ANOVA). Jakiś aliza o F W racja). Analiza wariancji przy użyciu całkowicie losowych planów nazywana jest jednokierunkową procedurą ANOVA. W pewnym sensie termin analiza wariancji jest błędny, ponieważ porównuje różnice między oczekiwanymi wartościami grup, a nie między wariancjami. Porównanie oczekiwań matematycznych odbywa się jednak właśnie na podstawie analizy zmienności danych. W procedurze ANOVA całkowitą zmienność wyników pomiarów dzieli się na międzygrupowe i wewnątrzgrupowe (ryc. 1). Zmienność wewnątrzgrupową wyjaśnia się błędem eksperymentalnym, a zmienność międzygrupową wyjaśnia się wpływem warunków eksperymentalnych. Symbol Z oznacza liczbę grup.

    Ryż. 1. Podział zmienności w całkowicie losowym eksperymencie

    Pobierz notatkę w formacie lub, przykłady w formacie

    Załóżmy, że Z grupy wyodrębnia się z niezależnych populacji o rozkładzie normalnym i równej wariancji. Hipoteza zerowa głosi, że matematyczne oczekiwania populacji są takie same: H 0: μ 1 = μ 2 = ... = μ s. Hipoteza alternatywna stwierdza, że ​​nie wszystkie oczekiwania matematyczne są takie same: H 1: nie wszystkie μj są takie same J= 1, 2,…, s).

    Na ryc. Na rycinie 2 przedstawiono prawdziwą hipotezę zerową dotyczącą oczekiwań matematycznych pięciu porównywanych grup, pod warunkiem, że populacje mają rozkład normalny i taką samą wariancję. Pięć populacji powiązanych z różnymi poziomami czynnika jest identycznych. W rezultacie nakładają się na siebie, mając te same matematyczne oczekiwania, zmienność i kształt.

    Ryż. 2. Pięć populacji ogólnych ma te same oczekiwania matematyczne: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

    Z drugiej strony załóżmy, że w rzeczywistości hipoteza zerowa jest fałszywa, przy czym czwarty poziom ma najwyższą wartość oczekiwaną, pierwszy poziom ma nieco niższą wartość oczekiwaną, a pozostałe poziomy mają takie same, a nawet niższe wartości oczekiwane ( Rysunek 3). Należy zauważyć, że z wyjątkiem wartości oczekiwanych wszystkie pięć populacji jest identycznych (tzn. mają tę samą zmienność i kształt).

    Ryż. 3. Obserwuje się wpływ warunków doświadczalnych: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

    Testując hipotezę o równości oczekiwań matematycznych kilku populacji ogólnych, zmienność całkowitą dzieli się na dwie części: zmienność międzygrupową, wynikającą z różnic między grupami, oraz zmienność wewnątrzgrupową, wynikającą z różnic między elementami należącymi do tej samej grupy. Całkowite zróżnicowanie wyraża się całkowitą sumą kwadratów (SST – suma kwadratów ogółem). Ponieważ hipoteza zerowa jest taka, że ​​matematyczne oczekiwania wszystkich Z grupy są sobie równe, wariancja całkowita jest równa sumie kwadratów różnic pomiędzy poszczególnymi obserwacjami i średniej ogólnej (średniej ze średnich), obliczonej dla wszystkich próbek. Pełna odmiana:

    Gdzie - średnia ogólna, X ij - I-e obserwacja w J-grupa lub poziom, n j- liczba obserwacji w J grupa, N - całkowita ilość obserwacje we wszystkich grupach (tj. N = N 1 + nr 2 + … + n c), Z- liczba badanych grup lub poziomów.

    Zmienność międzygrupowa, zwykle nazywana międzygrupową sumą kwadratów (SSA – suma kwadratów wśród grup), jest równa sumie kwadratów różnic między średnią z próby każdej grupy J i ogólnie średnia , pomnożone przez objętość odpowiedniej grupy n j:

    Gdzie Z- liczba studiowanych grup lub poziomów, n j- liczba obserwacji w J grupa, J- wartość średnia J grupa, - ogólna średnia.

    Zróżnicowanie wewnątrzgrupowe, zwykle nazywana wewnątrzgrupową sumą kwadratów (SSW – suma kwadratów w grupach), jest równa sumie kwadratów różnic pomiędzy elementami każdej grupy i średniej próbki tej grupy J:

    Gdzie Xja - I element J grupa, J- wartość średnia J grupa.

    Ponieważ są porównywane Z poziomów czynników, ma międzygrupowa suma kwadratów s – 1 stopnie swobody. Każdy z Z poziomy ma n j – 1 stopni swobody, więc wewnątrzgrupowa suma kwadratów ma N- Z stopnie swobody i

    Ponadto całkowita suma kwadratów ma N – 1 stopni swobody, ponieważ każda obserwacja Xja porównuje się z ogólną średnią obliczoną dla wszystkich N obserwacje. Jeśli każdą z tych sum podzielimy przez odpowiednią liczbę stopni swobody, powstaną trzy rodzaje dyspersji: międzygrupowa(średni kwadrat wśród - MSA), wewnątrzgrupowe(średni kwadrat w obrębie - MSW) i pełny(średnia suma kwadratowa – MST):

    Pomimo tego, że głównym celem analizy wariancji jest porównanie oczekiwań matematycznych Z grup w celu identyfikacji wpływu warunków eksperymentalnych, swoją nazwę zawdzięcza temu, że głównym narzędziem jest analiza wariancji różnego typu. Jeśli hipoteza zerowa jest prawdziwa i pomiędzy oczekiwaniami matematycznymi Z pomiędzy grupami nie ma istotnych różnic, wszystkie trzy wariancje – MSA, MSW i MST – są estymatorami wariancji σ 2 nieodłącznie związane z analizowanymi danymi. Zatem, aby przetestować hipotezę zerową H 0: μ 1 = μ 2 = ... = μ s i hipoteza alternatywna H 1: nie wszystkie μj są takie same J = 1, 2, …, Z), konieczne jest obliczenie statystyk F-kryterium, które jest stosunkiem dwóch wariancji, MSA i MSW. Test F-statystyka w jednoczynnikowej analizie wariancji

    Statystyka F-z zastrzeżeniem kryteriów F-dystrybucja z s – 1 stopnie swobody w liczniku M.S.A. I n – s stopnie swobody w mianowniku MSW. Dla danego poziomu istotności α hipoteza zerowa jest odrzucana w przypadku obliczenia F FU, nieodłączny F-dystrybucja z s – 1 n – s stopnie swobody w mianowniku. Zatem, jak pokazano na rys. 4, decydująca zasada sformułowane w następujący sposób: hipoteza zerowa H 0 odrzucone, jeśli F>FU; w przeciwnym razie nie zostanie odrzucony.

    Ryż. 4. Krytyczny obszar analizy wariancji przy testowaniu hipotezy H 0

    Jeśli hipoteza zerowa H 0 jest prawdziwe, obliczone F-statystyka jest bliska 1, gdyż jej licznik i mianownik są oszacowaniami tej samej wielkości - dyspersji σ 2 występującej w analizowanych danych. Jeśli hipoteza zerowa H 0 jest fałszywe (i istnieje znacząca różnica między oczekiwaniami matematycznymi różnych grup). F-statystyka będzie znacznie większa od jedności, ponieważ jej licznik, MSA, oprócz naturalnej zmienności danych, szacuje wpływ warunków eksperymentalnych lub różnicę między grupami, podczas gdy mianownik MSW szacuje jedynie naturalną zmienność danych . Zatem procedura ANOVA jest F-kryterium, w którym przy danym poziomie istotności α hipoteza zerowa jest odrzucana w przypadku obliczenia F-statystyki są większe niż górna wartość krytyczna FU, nieodłączny F-dystrybucja z s – 1 stopnie swobody w liczniku i n – s stopnie swobody w mianowniku, jak pokazano na rys. 4.

    Aby zilustrować jednokierunkową analizę wariancji, wróćmy do scenariusza nakreślonego na początku notatki. Celem doświadczenia jest sprawdzenie, czy spadochrony utkane z włókien syntetycznych pochodzących od różnych dostawców mają tę samą wytrzymałość. Każda grupa ma pięć spadochronów. Grupy podzielone są ze względu na dostawcę – Dostawca 1, Dostawca 2, Dostawca 3 i Dostawca 4. Pomiar wytrzymałości spadochronów odbywa się za pomocą specjalnego urządzenia, które bada tkaninę pod kątem rozdarcia z obu stron. Siłę potrzebną do rozbicia spadochronu mierzy się na specjalnej skali. Im większa siła zrywająca, tym silniejszy spadochron. Excel pozwala na analizę F-statystyki jednym kliknięciem. Przejdź przez menu DaneAnaliza danych i wybierz linię Jednokierunkowa ANOVA, wypełnij okno, które się otworzy (ryc. 5). Wyniki eksperymentów (wytrzymałość na zrywanie), niektóre statystyki opisowe oraz wyniki jednoczynnikowej analizy wariancji przedstawiono na rys. 6.

    Ryż. 5. Okno Pakiet analizy jednokierunkowej analizy wariancji Przewyższać

    Ryż. 6. Wskaźniki wytrzymałości spadochronów tkanych z włókien syntetycznych uzyskanych od różnych dostawców, statystyki opisowe i wyniki jednokierunkowej analizy wariancji

    Analiza rysunku 6 pokazuje, że istnieje pewna różnica pomiędzy średnimi z próby. Średnia wytrzymałość włókien uzyskanych od pierwszego dostawcy wynosi 19,52, od drugiego 24,26, od trzeciego 22,84, a od czwartego 21,16. Czy ta różnica jest istotna statystycznie? Rozkład siły rozrywającej przedstawiono na wykresie punktowym (rys. 7). Wyraźnie pokazuje różnice zarówno pomiędzy grupami, jak i wewnątrz grup. Gdyby każda grupa była większa, do ich analizy można by zastosować diagram łodyg i liści, wykres pudełkowy lub wykres dzwonkowy.

    Ryż. 7. Wykres rozrzutu wytrzymałości spadochronów tkanych z włókien syntetycznych uzyskanych od czterech dostawców.

    Hipoteza zerowa stwierdza, że ​​nie ma znaczących różnic pomiędzy średnimi wynikami siły: H 0: μ 1 = μ 2 = μ 3 = μ 4. Alternatywna hipoteza zakłada, że ​​istnieje co najmniej jeden dostawca, którego średnia wytrzymałość włókien różni się od pozostałych: H 1: nie wszystkie μj są takie same ( J = 1, 2, …, Z).

    Ogólna średnia (patrz rys. 6) = ŚREDNIA (D12:D15) = 21,945; aby to ustalić, możesz także uśrednić wszystkie 20 oryginalnych liczb: = ŚREDNIA(A3:D7). Obliczane są wartości wariancji Pakiet analityczny i odbijają się na płycie Analiza wariancji(patrz rys. 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (patrz kolumna SS stoły Analiza wariancji Rysunek 6). Średnie oblicza się, dzieląc te sumy kwadratów przez odpowiednią liczbę stopni swobody. Od Z= 4, a N= 20, otrzymujemy następujące wartości stopni swobody; dla SSA: s – 1= 3; dla SSW: n–c= 16; dla SST: n – 1= 19 (patrz kolumna zm). Zatem: MSA = SSA / ( s – 1)= 21,095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n – 1) = 8,463 (patrz kolumna SM). F-statystyka = MSA / MSW = 3,462 (patrz kolumna F).

    Górna wartość krytyczna FU, charakterystyczny dla F-rozkład określony wzorem =F.OBR(0,95;3;16) = 3,239. Parametry funkcji =F.OBR(): α = 0,05, licznik ma trzy stopnie swobody, a mianownik 16. Zatem obliczona F-statystyka równa 3,462 przekracza górną wartość krytyczną FU= 3,239, hipoteza zerowa zostaje odrzucona (ryc. 8).

    Ryż. 8. Obszar krytyczny analizy wariancji na poziomie istotności 0,05, jeśli licznik ma trzy stopnie swobody, a mianownik wynosi -16

    R-wartość, tj. prawdopodobieństwo, że jeśli hipoteza zerowa jest prawdziwa F-statystyka nie mniejsza niż 3,46, równa 0,041 lub 4,1% (patrz kolumna wartość p stoły Analiza wariancji Rysunek 6). Ponieważ wartość ta nie przekracza poziomu istotności α = 5%, hipotezę zerową odrzucamy. Ponadto, R-wartość wskazuje, że prawdopodobieństwo wykrycia takiej lub większej różnicy pomiędzy oczekiwaniami matematycznymi populacji generalnych, przy założeniu, że są one faktycznie takie same, wynosi 4,1%.

    Więc. Istnieje różnica między czterema przykładowymi średnimi. Hipoteza zerowa głosiła, że ​​wszystkie oczekiwania matematyczne czterech populacji są równe. W tych warunkach miarę całkowitej zmienności (tj. całkowitej zmienności SST) wytrzymałości wszystkich spadochronów oblicza się poprzez zsumowanie kwadratów różnic między każdą obserwacją X ij i ogólnie średnia . Całkowitą zmienność następnie podzielono na dwie składowe (patrz ryc. 1). Pierwszym elementem była zmienność międzygrupowa w SSA, a drugą była zmienność wewnątrzgrupowa w SSW.

    Co wyjaśnia zmienność danych? Innymi słowy, dlaczego wszystkie obserwacje nie są takie same? Jednym z powodów jest to, że różne firmy dostarczają włókna o różnej wytrzymałości. To częściowo wyjaśnia, dlaczego grupy mają różne oczekiwania matematyczne: im silniejszy wpływ warunków eksperymentalnych, tym większa różnica między oczekiwaniami matematycznymi grup. Inną przyczyną zmienności danych jest naturalna zmienność każdego procesu, w tym przypadku produkcji spadochronów. Nawet jeśli wszystkie włókna zostały zakupione od tego samego dostawcy, ich wytrzymałość nie byłaby taka sama, przy wszystkich pozostałych parametrach takich samych. Ponieważ efekt ten występuje w obrębie każdej grupy, nazywa się go zmiennością wewnątrzgrupową.

    Różnice pomiędzy średnimi z próby nazywane są zmiennością międzygrupową SSA. Część zmienności wewnątrzgrupowej, jak już wskazano, można wyjaśnić przynależnością danych do różnych grup. Jednak nawet gdyby grupy były dokładnie takie same (tj. hipoteza zerowa była prawdziwa), nadal istniałoby zróżnicowanie między grupami. Powodem tego jest naturalna zmienność procesu produkcyjnego spadochronu. Ponieważ próbki są różne, ich średnie próbki różnią się od siebie. Dlatego też, jeśli hipoteza zerowa jest prawdziwa, zarówno zmienność międzygrupowa, jak i wewnątrzgrupowa stanowi oszacowanie zmienności populacji. Jeśli hipoteza zerowa jest fałszywa, hipoteza międzygrupowa będzie większa. To właśnie ten fakt leży u podstaw F-kryteria porównywania różnic pomiędzy oczekiwaniami matematycznymi kilku grup.

    Po przeprowadzeniu jednokierunkowej analizy ANOVA i stwierdzeniu znaczących różnic między firmami nie wiadomo, który dostawca znacząco różni się od pozostałych. Wiemy tylko, że oczekiwania matematyczne populacji ogólnej nie są równe. Innymi słowy, co najmniej jedno z oczekiwań matematycznych znacząco różni się od pozostałych. Aby określić, który dostawca różni się od pozostałych, możesz użyć Procedura Tukeya, stosując porównania parami pomiędzy dostawcami. Procedura ta została opracowana przez Johna Tukeya. Następnie on i K. Kramer niezależnie modyfikowali tę procedurę dla sytuacji, w których liczebność prób różni się od siebie.

    Porównanie wielokrotne: procedura Tukeya-Kramera

    W naszym scenariuszu do porównania wytrzymałości spadochronów wykorzystano jednokierunkową analizę wariancji. Po stwierdzeniu istotnych różnic pomiędzy oczekiwaniami matematycznymi czterech grup należy określić, które grupy różnią się od siebie. Chociaż istnieje kilka sposobów rozwiązania tego problemu, opiszemy jedynie procedurę wielokrotnych porównań Tukeya-Kramera. Metoda ta jest przykładem procedury porównawczej post hoc, ponieważ testowana hipoteza jest formułowana po analizie danych. Procedura Tukeya-Kramera pozwala na jednoczesne porównanie wszystkich par grup. W pierwszym etapie obliczane są różnice XJ -XJ, Gdzie j ≠J, pomiędzy oczekiwaniami matematycznymi s(s – 1)/2 grupy. Zakres krytyczny Procedurę Tukeya-Kramera oblicza się ze wzoru:

    Gdzie Q U- górna wartość krytyczna studentyzowanego rozkładu zakresów, która ma Z stopnie swobody w liczniku i N - Z stopnie swobody w mianowniku.

    Jeżeli liczebność prób nie jest taka sama, zakres krytyczny oblicza się osobno dla każdej pary oczekiwań matematycznych. Na ostatnim etapie każdy z s(s – 1)/2 pary oczekiwań matematycznych porównuje się z odpowiednim zakresem krytycznym. Elementy pary uważa się za znacząco różne, jeśli moduł różnicowy | X j -XJ| między nimi przekracza zakres krytyczny.

    Zastosujmy procedurę Tukeya-Kramera do problemu wytrzymałości spadochronów. Ponieważ firma spadochronowa ma czterech dostawców, do sprawdzenia jest 4(4 – 1)/2 = 6 par dostawców (Rysunek 9).

    Ryż. 9. Porównania parami średnich z próby

    Ponieważ wszystkie grupy mają tę samą objętość (tj n j = n j), wystarczy obliczyć tylko jeden zakres krytyczny. Aby to zrobić, zgodnie z tabelą ANOVA(Rys. 6) wyznaczamy wartość MSW = 6,094. Następnie znajdujemy wartość Q U przy α = 0,05, Z= 4 (liczba stopni swobody w liczniku) i N- Z= 20 – 4 = 16 (liczba stopni swobody w mianowniku). Niestety nie znalazłem odpowiedniej funkcji w Excelu, więc skorzystałem z tabeli (ryc. 10).

    Ryż. 10. Wartość krytyczna studentyzowanego zakresu Q U

    Otrzymujemy:

    Ponieważ tylko 4,74 > 4,47 (patrz dolna tabela na rys. 9), istnieje statystycznie istotna różnica pomiędzy pierwszym i drugim dostawcą. Wszystkie pozostałe pary mają przykładowe środki, które nie pozwalają mówić o ich różnicach. W rezultacie średnia wytrzymałość spadochronów tkanych z włókien zakupionych od pierwszego dostawcy jest znacznie mniejsza niż u drugiego dostawcy.

    Warunki niezbędne do jednokierunkowej analizy wariancji

    Rozwiązując problem wytrzymałości spadochronów nie sprawdzaliśmy, czy warunki, w jakich możliwe jest zastosowanie spadochronu jednoczynnikowego, F-kryterium. Skąd wiesz, czy możesz użyć jednego czynnika F-kryterium przy analizie konkretnych danych eksperymentalnych? Pojedynczy czynnik F-kryterium można zastosować tylko wtedy, gdy spełnione są trzy podstawowe założenia: dane eksperymentalne muszą być losowe i niezależne, mieć rozkład normalny, a ich wariancje muszą być równe.

    Pierwsze przypuszczenie - losowość i niezależność danych- należy zawsze przeprowadzić, ponieważ poprawność każdego eksperymentu zależy od losowości wyboru i/lub procesu randomizacji. Aby uniknąć zafałszowania wyników, konieczne jest wyodrębnienie danych Z populacji ogólnych losowo i niezależnie od siebie. Podobnie dane powinny być losowo rozłożone Z poziomy interesującego nas czynnika (grupy eksperymentalne). Naruszenie tych warunków może poważnie zniekształcić wyniki analizy wariancji.

    Drugie przypuszczenie - normalność- oznacza, że ​​dane są wyodrębniane z populacji o rozkładzie normalnym. Co się tyczy T-kryteria, jednokierunkowa analiza wariancji na podstawie F-kryteria są stosunkowo mało wrażliwe na naruszenie tego warunku. Jeśli rozkład nie odbiega zbytnio od normalnego, poziom istotności F-kryterium zmienia się niewiele, szczególnie jeśli wielkość próby jest wystarczająco duża. Jeżeli warunek normalności rozkładu zostanie poważnie naruszony, należy go zastosować.

    Trzecie przypuszczenie - jednorodność wariancji- oznacza, że ​​wariancje każdej populacji są sobie równe (tj. σ 1 2 = σ 2 2 = ... = σ j 2). Założenie to pozwala podjąć decyzję, czy wariancje wewnątrzgrupowe należy rozdzielić, czy połączyć. Jeśli liczebność grup jest taka sama, warunek jednorodności wariancji ma niewielki wpływ na wnioski uzyskane za pomocą F-kryteria. Jeżeli jednak wielkości prób są nierówne, naruszenie warunku równości wariancji może poważnie zniekształcić wyniki analizy wariancji. Dlatego też należy dołożyć wszelkich starań, aby liczebność próbek była jednakowa. Jedną z metod sprawdzania założenia o jednorodności wariancji jest kryterium Levene’a opisane poniżej.

    Jeżeli ze wszystkich trzech warunków naruszony zostanie jedynie warunek jednorodności wariancji, należy zastosować procedurę podobną do T-kryterium wykorzystujące osobną wariancję (więcej szczegółów można znaleźć w artykule). Jeżeli jednak jednocześnie naruszone zostaną założenia rozkładu normalnego i jednorodności wariancji, należy znormalizować dane i zmniejszyć różnice między wariancjami lub zastosować procedurę nieparametryczną.

    Test Levene’a do badania jednorodności wariancji

    Pomimo tego F-kryterium jest stosunkowo odporne na naruszenia warunku równości wariancji w grupach rażące naruszenie tego założenia wpływa znacząco na poziom istotności i siłę kryterium; Być może jednym z najpotężniejszych jest kryterium Levene’a. Aby sprawdzić równość wariancji Z populacji ogólnej przetestujemy następujące hipotezy:

    Н 0: σ 1 2 = σ 2 2 = … = σJ 2

    H 1: nie wszystkie σ jot 2 są takie same ( J = 1, 2, …, Z)

    Zmodyfikowany test Levene’a opiera się na założeniu, że jeśli zmienność jest równa w grupach, analizę wariancji można zastosować do sprawdzenia hipotezy zerowej o równości wariancji wartości bezwzględne różnice między obserwacjami a medianami grupowymi. Należy więc najpierw obliczyć wartości bezwzględne różnic między obserwacjami i medianami w każdej grupie, a następnie przeprowadzić jednokierunkową analizę wariancji na uzyskanych wartościach bezwzględnych różnic. Aby zilustrować kryterium Levene’a, wróćmy do scenariusza nakreślonego na początku notatki. Korzystając z danych przedstawionych na ryc. 6, przeprowadzimy podobną analizę, ale w odniesieniu do modułów różnic w danych wyjściowych i medianach dla każdej próbki osobno (ryc. 11).



Nowość na stronie

>

Najpopularniejsze