Додому Порожнину рота Методи дисперсійного аналізу. Однофакторний дисперсійний аналіз

Методи дисперсійного аналізу. Однофакторний дисперсійний аналіз

5.1. Що таке дисперсійний аналіз?

Дисперсійний аналіз розроблений у 20-х роках XX століття англійським математиком та генетиком Рональдом Фішером. За даними опитування серед учених, де з'ясовувалося, хто найсильніше вплинув на біологію XX століття, першість отримав саме сер Фішер (за свої заслуги він був нагороджений лицарським званням - однією з найвищих відмінностей у Великій Британії); у цьому плані Фішер порівняємо з Чарльзом Дарвіном, який надав найбільше впливом геть біологію ХІХ століття.

Дисперсійний аналіз (Analis of variance) є окремою галуззю статистики. Він заснований на відкритому Фішером факті, що міру мінливості досліджуваної величини можна розкласти на частини, що відповідають факторам, що впливають на цю величину, і випадковим відхиленням.

Щоб зрозуміти суть дисперсійного аналізу, ми виконаємо однотипні розрахунки двічі: «вручну» (з калькулятором) та за допомогою програми Statistica. Для спрощення нашого завдання ми працюватимемо не з результатами дійсного опису різноманітності зелених жаб, а з вигаданим прикладом, який стосується порівняння жінок та чоловіків у людей.Розглянемо різноманітність зростання 12 дорослих осіб: 7 жінок та 5 чоловіків.

Таблиця 5.1.1. Приклад для однофакторного дисперсійного аналізу: дані про поле та зростання 12 людей

Проведемо однофакторний дисперсійний аналіз: порівняємо, статистично значимо чи ні чи відрізняються чоловіки і жінки в охарактеризованій групі зростання.

5.2. Тест на нормальність розподілу

Подальші міркування ґрунтуються на тому, що розподіл у вибірці, що розглядається, нормальний або близький до нормального. Якщо розподіл далеко від нормального, дисперсія (варіансу) не є адекватним заходом його мінливості. Втім, дисперсійний аналіз щодо стійкий до відхилень розподілу від нормальності.

Тест цих даних на нормальність можна провести двома різними способами. Перший: Statistics/Basic Statistics/Tables/Descriptive statistics/Вкладка Normality. У вкладці Normality можна вибрати тести нормальності розподілу. При натисканні на кнопку Frequency tables з'явиться частотна таблиця, а кнопки Histograms – гістограма. На таблиці та гістограмі будуть наведені результати різних тестів.

Другий спосіб пов'язаний з використанням відповідних можливостей при побудові гістограм. У діалозі побудови гістограм (Grafs/Histograms...) слід вибрати вкладку Advanced. У нижній частині є блок Statistics. Відзначимо на ній Shapiro-Wilk t est і Kolmogorov-Smirnov test, як показано на малюнку.

Мал. 5.2.1. Статистичні тести на нормальність розподілу у діалозі побудови гістограм

Як видно з гістограми, розподіл зростання у нашій вибірці відрізняється від нормального (у середині – «провал»).


Мал. 5.2.2. Гістограма, побудована з параметрами, вказаними на попередньому малюнку

Третій рядок у заголовку графіка вказує параметри нормального розподілу, до якого виявився найближчий розподіл. Генеральне середнє становить 173, генеральне стандартне відхилення – 10,4. Внизу у врізанні на графіку вказані результати тестів на нормальність. D – це критерій Колмогорова-Смирнова, а SW-W – Шапіро-Вилка. Як видно, для всіх використаних тестів відмінності розподілу за зростанням від нормального розподілу виявилися статистично незначними ( p у всіх випадках більше ніж 0,05).

Отже, формально кажучи, тести на відповідність розподілу нормальному не заборонили нам використовувати параметричний метод, заснований на припущенні про нормальний розподіл. Як уже сказано, дисперсійний аналіз щодо стійкий до відхилень від нормальності, тому ми ним таки скористаємося.

5.3. Однофакторний дисперсійний аналіз: обчислення «вручну»

Для характеристики мінливості зростання людей у ​​наведеному прикладі обчислимо суму квадратів відхилень (англійською позначається як SS , Sum of Squares або ) окремих значень від середнього: . Середнє значення для зростання у наведеному прикладі становить 173 сантиметри. Виходячи з цього,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Отримана величина (1192) - міра мінливості всієї сукупності даних. Однак вони складаються із двох груп, для кожної з яких можна виділити свою середню. У наведених даних середній зрістжінок – 168 см, а чоловіків – 180 см.

Обчислимо суму квадратів відхилень для жінок:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Також обчислимо суму квадратів відхилень для чоловіків:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Від чого залежить досліджувана величина відповідно до логіки дисперсійного аналізу?

Дві обчислені величини, SS f і SS m , характеризують внутрішньогрупову варіансу, яку дисперсійному аналізі прийнято називати «помилкою». Походження цієї назви пов'язане з наступною логікою.

Від чого залежить зростання людини в цьому прикладі? Насамперед, від середнього зростання людей взагалі, незалежно від їхньої статі. У другу чергу – від статі. Якщо люди однієї статі (чоловічої) вище, ніж іншої (жіночої), це можна уявити у вигляді додавання із «загальнолюдської» середньої якоїсь величини, ефекту статі. Нарешті, люди однієї статі відрізняються зростанням через індивідуальні відмінності. У рамках моделі, що описує зростання як суму загальнолюдської середньої та поправки на підлогу, індивідуальні відмінності незрозумілі, і їх можна розглядати як помилку.

Отже, відповідно до логіки дисперсійного аналізу, досліджувана величина визначається наступним чином: , де x ij - i-те значення досліджуваної величини при j-тому значенні досліджуваного фактора; - генеральне середнє; F j - Вплив j-того значення досліджуваного фактора; - «помилка», вклад індивідуальності об'єкта, до якого належить величинаx ij .

Міжгрупова сума квадратів

Отже, SS помилки = SS f + SS m = 212 + 560 = 772. Цією величиною ми описали внутрішньогрупову мінливість (при виділенні груп за статтю). Але є й друга частина мінливості – міжгрупова, яку ми назвемоSS ефекту (оскільки йдеться про ефект поділу сукупності об'єктів, що розглядаються на жінок і чоловіків).

Середнє кожної групи відрізняється від загальної середньої. Обчислюючи внесок цієї відмінності в загальну міру мінливості, ми повинні помножити відмінність групової та загальної середньої кількості об'єктів у кожній групі.

SS ефекту = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Тут виявився відкритий Фішером принцип сталості суми квадратів: SS = SS ефект + SS помилки , тобто. для цього прикладу, 1192 = 440 + 722.

Середні квадрати

Порівнюючи в нашому прикладі міжгрупову та внутрішньогрупову суми квадратів, ми можемо побачити, що перша пов'язана з варіюванням двох груп, а друга - 12 величин у 2 групах. Кількість ступенів свободи ( df ) для якогось параметра може бути визначено як різницю кількості об'єктів у групі та кількості залежностей (рівнянь), що пов'язує ці величини.

У нашому прикладі df ефекту = 2–1 = 1, а df помилки = 12–2 = 10.

Ми можемо поділити суми квадратів на число їх ступенів свободи, отримавши середні квадрати ( MS , Means of Squares). Зробивши це, ми можемо встановити, що MS - ні що інше, як варіанси («дисперсії», результат розподілу суми квадратів на ступінь свободи). Після цього ми можемо зрозуміти структуру таблиці дисперсійного аналізу. Для нашого прикладу вона матиме такий вигляд.

Ефект

Помилка

МS ефекту і МS помилки є оцінками міжгрупової та внутрішньогрупової варіанси, і, отже, їх можна порівняти за критеріємF (Критерію Снедекору, названому на честь Фішера), призначеному для порівняння варіанс. Цей критерій є просто приватним від поділу більшої варіанси на меншу. У нашому випадку це 420/77,2 = 5,440.

Визначення статистичної значущості критерію Фішера за таблицями

Якби ми визначали статистичну значущість ефекту вручну, за таблицями, нам необхідно було б порівняти отримане значення критерію F з критичним, який відповідає певному рівню статистичної значущості при заданих ступенях свободи.


Мал. 5.3.1. Фрагмент таблиці з критичними значеннями критерію F

Як можна переконатися, рівня статистичної значимості p=0,05 критичне значення критеріюF складає 4,96. Це означає, що в нашому прикладі дія статі, що вивчалася, зареєстрована з рівнем статистичної значущості 0,05.

Отриманий результат можна інтерпретувати так. Імовірність нульової гіпотези, згідно з якою середнє зростання жінок і чоловіків однакове, а зареєстрована різниця в їхньому зростанні пов'язана з випадковістю при формуванні вибірок, становить менше 5%. Це означає, що ми повинні вибрати альтернативну гіпотезу, яка полягає в тому, що середнє зростання жінок і чоловіків відрізняється.

5.4. Однофакторний дисперсійний аналіз ( ANOVA) у пакеті Statistica

У тих випадках, коли розрахунки здійснюються не вручну, а за допомогою відповідних програм (наприклад, пакета Statistica) p визначається автоматично. Можна переконатися, що вона дещо вища за критичне значення.

Щоб проаналізувати обговорюваний приклад за допомогою найпростішого варіанта дисперсійного аналізу, потрібно запустити для файлу з відповідними даними процедуру Statistics/ANOVA і вибрати у вікні Type of analysis варіант One-way ANOVA (однофакторний дисперсійний аналіз), а у вікні Specification method – варіант Qui .


Мал. 5.4.1. Діалог General ANOVA/MANOVA (Дисперсійний аналіз)

У вікні швидкого діалогу, що відкрилося, в полі Variables потрібно вказати ті стовпці, які містять дані, мінливість яких ми вивчаємо (Dependent variable list; у нашому випадку - стовпець Growth), а також стовпець, що містять значення, що розбивають досліджувану величину на групи (Catigorical predictor ( factor);у нашому випадку - стовпець Sex). У цьому варіанті аналізу, на відміну багатофакторного аналізу, може розглядатися лише одне чинник.


Мал. 5.4.2. Діалог One-Way ANOVA (Однофакторний дисперсійний аналіз)

У вікні Factor codes слід вказати ті значення фактора, що розглядається, які потрібно обробляти в ході даного аналізу. Усі наявні значення можна переглянути за допомогою кнопки Zoom; якщо, як і нашому прикладі, потрібно розглядати все значення чинника (а статі у прикладі їх лише два), можна натиснути кнопку All. Коли задані стовпці та коди фактора, що обробляються, можна натиснути кнопку OK і перейти у вікно швидкого аналізурезультатів: ANOVA Results 1, у вкладку Quick.

Мал. 5.4.3. Вкладка Quick вікна результатів дисперсійного аналізу

Кнопка All effects/Graphs дозволяє побачити, як співвідносяться середні дві групи. Над графіком вказується число ступенів свободи, а також значення F і p для фактора, що розглядається.


Мал. 5.4.4. Графічне відображення результатів дисперсійного аналізу

Кнопка All effects дозволяє отримати таблицю дисперсійного аналізу, аналогічну до описаної вище (з деякими суттєвими відмінностями).


Мал. 5.4.5. Таблиця з результатами дисперсійного аналізу (порівняйте з аналогічною табличкою, отриманою "вручну")

У нижньому рядку таблиці вказано суму квадратів, кількість ступенів свободи та середні квадрати для помилки (внутрішньогрупової мінливості). На рядок вище - аналогічні показники для досліджуваного фактора (у даному випадку- ознаки Sex), а також критерій F (Ставлення середніх квадратів ефекту до середніх квадратів помилки), і рівень його статистичної значущості. Те, що дію аналізованого чинника виявилося статистично значущим, свідчить про виділення червоним кольором.

А в першому рядку наведено дані за показником Intercept. Ця рядок таблиці представляє загадку для користувачів, що долучаються до пакета Statistica у його 6-й або пізнішій версії. Розмір Intercept (перетин, перехоплення), мабуть, пов'язані з розкладанням суми квадратів всіх значень даних (тобто. 1862 + 1692 … = 360340). Вказане для неї значення критерію F отримано шляхом розподілу MS Intercept/MS Error = 353220 / 77,2 = 4575,389 і, природно, дає дуже низьке значення p . Цікаво, що в Statistica-5 ця величина взагалі не обчислювалася, а посібники з використання пізніших версій пакета ніяк не коментують її введення. Найкраще, що може зробити біолог, що працює з пакетом Statistica-6 та наступних версій, це просто ігнорувати рядок Intercept у таблиці дисперсійного аналізу.

5.5. ANOVA та критерії Стьюдента та Фішера: що краще?

Як ви могли помітити, ті дані, які ми порівнювали за допомогою дисперсійного однофакторного аналізу, ми могли досліджувати і за допомогою критеріїв Стьюдента і Фішера. Порівняємо ці два методи. Для цього обчислимо різницю у зростанні чоловіків та жінок з використанням цих критеріїв. Для цього нам доведеться пройти шляхом Statistics / Basic Statistics / t-test, independent, by groups. Природно, Dependent variables – це змінна Growth, а Grouping variable – змінна Sex.


Мал. 5.5.1. Порівняння даних, оброблених за допомогою ANOVA, за критеріями Стьюдента та Фішера

Як можна переконатися, результат той самий, що і під час використання ANOVA. p = 0,041874 в обох випадках, як показано на рис. 5.4.5, і показаному на рис. 5.5.2 (переконайтеся у цьому самі!).


Мал. 5.5.2. Результати аналізу (докладна розшифровка таблиці результатів - у пункті, присвяченому критерію Стьюдента)

Важливо підкреслити, що хоча критерій F з математичної точки зору в аналізованому аналізі за критеріями Стьюдента і Фішера той самий, що в ANOVA (і виражає відношення варіанс), зміст його в результатах аналізу, що представляються підсумковою таблицею, зовсім інший. При порівнянні за критеріями Стьюдента і Фішера порівняння середніх значень вибірок проводиться за критерієм Стьюдента і порівняння їх мінливості проводиться за критерієм Фішера. У результатах аналізу виводиться не сама варіансу, а її квадратний корінь- стандартне відхилення.

У дисперсійному аналізі, навпаки, критерій Фішера використовується для порівняння середніх різних вибірок (як ми обговорили, це здійснюється за допомогою поділу суми квадратів на частини та порівняння середньої суми квадратів, що відповідає між- та внутрішньогруповій мінливості).

Втім, наведена відмінність стосується радше подання результатів статистичного дослідження, ніж його суті. Як зазначає, наприклад, Гланц (1999, з. 99), порівняння груп за критерієм Стьюдента можна як окремий випадокдисперсійного аналізу для двох вибірок

Отже, порівняння вибірок за критеріями Стьюдента та Фішера має одне важлива перевагаперед дисперсійним аналізом: у ньому можна порівняти вибірки з погляду їхньої мінливості. Але переваги дисперсійного аналізу все одно вагоміші. До них, наприклад, відноситься можливість одночасного порівняння кількох вибірок.

Дисперсійний аналіз – статистичний метод, призначений з метою оцінки впливу різних чинників результат експерименту, і навіть для наступного планування аналогічних експериментів.

Спочатку (1918 р.) дисперсійний аналіз розробили англійським математиком – статистиком Р.А. Фішером для обробки результатів агрономічних дослідів щодо виявлення умов отримання максимального врожаю різних сортів сільськогосподарських культур.

При постановці досвіду необхідне дотримання умов:

    Кожен варіант досвіду необхідно проводити на кількох одиницях спостереження (груп тварин, ділянок поля тощо)

    Розподіл одиниць спостереження між варіантами досвіду має бути випадковим, а чи не навмисним.

У дисперсійному аналізі використовується F-Критерій(Критерій Р.А. Фішера), що представляє відношення двох дисперсій:

де d факт, d ост – факторна (міжгрупова) та залишкова (внутрішньогрупова) дисперсії на один ступінь свободи відповідно.

Факторна та залишкова дисперсії є оцінками дисперсії сукупності, що розраховуються за вибірковими даними з урахуванням числа ступенів свободи варіації.

Факторна (міжгрупова) дисперсія пояснює варіацію результативної ознаки під впливом фактора, що вивчається.

Залишкова (внутрішньогрупова) дисперсія пояснює варіацію результативної ознаки, обумовлену впливом інших факторів (за винятком впливу фактора, що вивчається).

У сумі факторна та залишкова дисперсії дають загальну дисперсію, що виражає вплив усіх факторних ознак на результативну.

Порядок проведення дисперсійного аналізу:

1. Досвідчені дані заносяться в розрахункову таблицю і визначаються суми та середні значення в кожній групі сукупності, що вивчається, а також загальна сума і середнє значення по всій сукупності (табл.1).

Таблиця 1

Значення результативної ознаки для i-ї одиниці

у j-й групі, x ij

Число спостережень, f j

Середні (групові та загальна), х j

x 11 , x 12 , …, х 1 n

х 21 , х 22 , …, х 2 n

х m 1 , х m 2 , …, х mn

Загальна кількість спостережень nрозраховується як сума числа спостережень f jу кожній групі:

Якщо у всіх групах кількість елементів однакова, то загальна середня знаходиться з групових середніх як проста середня арифметична:

Якщо ж кількість елементів у групах різна, то загальна середня розраховується за формулою середньої арифметичної зваженої:

2. Визначається загальна дисперсія D загяк сума квадратів відхилень індивідуальних значень результативної ознаки від загальної середньої :

3. Розраховується факторна (міжгрупова) дисперсія D фактяк сума квадратів відхилень групових середніх від загальної середньої , помножених на кількість спостережень:

4. Визначається величина залишкової (внутрішньогрупової) дисперсії D остяк різниця між загальною D загта факторної D фактдисперсіями:

5. Розраховуються кількість ступенів свободи факторної
дисперсії як різниця між числом груп mта одиницею:

6. Визначається кількість ступенів свободи для залишкової дисперсії
як різниця між кількістю індивідуальних значень ознаки nта числом груп m:

7. Розраховується величина факторної дисперсії на один ступінь свободи d фактяк відношення факторної дисперсії D фактдо ступенів свободи факторної дисперсії
:

8. Визначається величина залишкової дисперсії однією ступінь свободи d остяк відношення залишкової дисперсії D остдо ступенів свободи залишкової дисперсії
:

9. Визначається розрахункове значення F-критерію F-розрах.як відношення факторної дисперсії на один ступінь свободи d фактдо залишкової дисперсії на один ступінь свободи d ост :

10. За таблицею F-критерію Фішера з урахуванням прийнятого у дослідженні рівня значущості, а також з урахуванням ступенів свободи для факторної та залишкової дисперсій знаходять теоретичне значення F табл .

5%-му рівню значущості відповідає 95%-ний рівень ймовірності, 1%-ному - 99%-ний рівень ймовірності. Найчастіше використовують 5%-ный рівень значимості.

Теоретичне значення F таблпри заданому рівні значущості визначають за таблицями на перетині рядка та стовпця, що відповідають двом ступеням свободи дисперсій:

за рядком – залишковим;

по стовпцю - факторної.

11. Результати розрахунків оформлюються до таблиці (табл.2).

Усі люди від природи прагнуть знання. (Арістотель. Метафізика)

Дисперсійний аналіз

Вступний огляд

У цьому розділі ми розглянемо основні методи, припущення та термінологію дисперсійного аналізу.

Зазначимо, що у англомовної літературі дисперсійний аналіз зазвичай називається аналізом варіації. Тому, для стислості, нижче ми іноді використовуватимемо термін ANOVA (An alysis o f va riation) для звичайного дисперсійного аналізу та термін MANOVAдля багатовимірного дисперсійного аналізу У цьому розділі ми послідовно розглянемо основні ідеї дисперсійного аналізу ( ANOVA), підступного аналізу ( ANCOVA), багатовимірного дисперсійного аналізу ( MANOVA) та багатовимірного коваріаційного аналізу ( MANCOVA). Після короткого обговорення переваг аналізу контрастів і апостеріорних критеріїв розглянемо припущення, на яких засновані методи дисперсійного аналізу. Ближче до кінця цього розділу пояснюються переваги багатовимірного підходу для аналізу повторних вимірів, порівняно з традиційним одновимірним підходом.

Основні ідеї

Ціль дисперсійного аналізу.Основною метою дисперсійного аналізу є дослідження значущості різницю між середніми. Глава (Глава 8) містить коротке запровадження дослідження статистичної значимості. Якщо ви просто порівнюєте середні у двох вибірках, дисперсійний аналіз дасть той самий результат, що й звичайний t- критерій для незалежних вибірок (якщо порівнюються дві незалежні групи об'єктів чи спостережень) або t- критерій для залежних вибірок (якщо порівнюються дві змінні одному й тому безлічі об'єктів чи спостережень). Якщо ви мало знайомі з цими умовами, радимо звернутися до вступного огляду глави (Глава 9).

Звідки походить назва Дисперсійний аналіз? Може здатися дивним, що порівняння середніх називається дисперсійним аналізом. Насправді це пов'язано з тим, що при дослідженні статистичної значущості відмінності між середніми ми насправді аналізуємо дисперсії.

Розбиття суми квадратів

Для вибірки обсягу n вибіркова дисперсія обчислюється як сума квадратів відхилень від середнього вибіркового, поділена на n-1 (обсяг вибірки мінус одиниця). Таким чином, при фіксованому обсязі вибірки n дисперсія є функція суми квадратів (відхилень), що позначається для стислості, SS(Від англійської Sum of Squares - Сума Квадратів). В основі дисперсійного аналізу лежить поділ (або розбиття) дисперсії на частини. Розглянемо наступний набір даних:

Середні дві групи істотно різні (2 і 6 відповідно). Сума квадратів відхилень всерединікожної групи дорівнює 2. Складаючи їх, отримуємо 4. Якщо тепер повторити ці обчислення без облікугрупової приналежності, тобто якщо обчислити SSвиходячи із загального середнього цих двох вибірок, то отримаємо 28. Іншими словами, дисперсія (сума квадратів), заснована на внутрішньогруповій мінливості, призводить до набагато менших значень, ніж при обчисленні на основі загальної мінливості (щодо загальної середньої). Причина цього, очевидно, полягає у суттєвій різниці між середніми значеннями, і ця різниця між середніми і пояснює існуючу різницю між сумами квадратів. Справді, якщо використовувати для аналізу наведених даних модуль Дисперсійний аналіз, будуть отримані такі результати:

Як видно з таблиці, загальна сума квадратів SS=28 розбита у сумі квадратів, обумовлену внутрішньогруповиймінливістю ( 2+2=4 ; див. другий рядок таблиці) та суму квадратів, обумовлену різницею середніх значень. (28-(2+2)=24; див. перший рядок таблиці).

SS помилок таSS ефект.Внутрішньогрупова мінливість ( SS) зазвичай називається дисперсією помилки.Це означає, що зазвичай під час проведення експерименту вона може бути передбачена чи пояснена. З іншого боку, SS ефекту(або міжгрупову мінливість) можна пояснити різницею між середніми значеннями в групах, що вивчаються. Іншими словами, приналежність до певної групи пояснюєміжгрупову мінливість, т.к. нам відомо, що ці групи мають різні середні значення.

Перевірка важливості.Основні ідеї перевірки статистичної значимості обговорюються у розділі Елементарні поняття статистики(Глава 8). У цьому розділі пояснюються причини, через які багато критеріїв використовують ставлення поясненої і непоясненої дисперсії. Приклад такого використання є сам дисперсійний аналіз. Перевірка значущості в дисперсійному аналізі полягає в порівнянні дисперсії, обумовленої міжгруповим розкидом (названої середнім квадратом ефектуабо MSефект) та дисперсії, обумовленої внутрішньогруповим розкидом (названою середнім квадратом помилкиабо MSпомилка). Якщо вірна нульова гіпотеза (рівність середніх у двох популяціях), можна очікувати порівняно невелике різницю у вибіркових середніх через випадкової мінливості. Тому при нульовій гіпотезі внутрішньогрупова дисперсія практично співпадатиме із загальною дисперсією, підрахованою без урахування групою належності. Отримані внутрішньогрупові дисперсії можна порівняти за допомогою F- критерію, що перевіряє, чи справді відношення дисперсій значно більше 1. У розглянутому вище прикладі F- критерій показує, що різницю між середніми статистично значимо.

Основна логіка дисперсійного аналізу.Підсумовуючи, можна сказати, що метою дисперсійного аналізу є перевірка статистичної значущості різниці між середніми (для груп чи змінних). Ця перевірка проводиться з допомогою аналізу дисперсії, тобто. за допомогою розбиття загальної дисперсії (варіації) на частини, одна з яких обумовлена ​​випадковою помилкою (тобто внутрішньогруповою мінливістю), а друга пов'язана з різницею середніх значень. Остання компонент дисперсії потім використовується для аналізу статистичної значущості відмінності між середніми значеннями. Якщо ця відмінність значуща, нульова гіпотеза відкидається і приймається альтернативна гіпотеза існування різниці між середніми.

Залежні та незалежні змінні.Змінні, значення яких визначається за допомогою вимірювань у ході експерименту (наприклад, бал, набраний під час тестування), називаються залежнимизмінними. Змінні, якими можна керувати під час проведення експерименту (наприклад, методи навчання чи інші критерії, що дозволяють розділити спостереження групи) називаються факторамиабо незалежнимизмінними. Докладніше ці поняття описані у розділі Елементарні поняття статистики(Глава 8).

Багатофакторний дисперсійний аналіз

У розглянутому вище простому прикладіви могли б відразу обчислити t-критерій для незалежних вибірок, використовуючи відповідну опцію модуля Основні статистики та таблиці.Отримані результати, звісно, ​​збігатимуться з результатами дисперсійного аналізу. Однак дисперсійний аналіз містить гнучкі та потужні технічні засоби, які можуть бути використані для більш складних досліджень.

Безліч факторів.Світ за своєю природою складний і багатовимірний. Ситуації, коли деяке явище повністю описується однією змінною, надзвичайно рідкісні. Наприклад, якщо ми намагаємося навчитися вирощувати великі помідори, слід розглядати фактори, пов'язані з генетичною структурою рослин, типом ґрунту, освітленістю, температурою тощо. Таким чином, при проведенні типового експерименту доводиться мати справу з великою кількістю факторів. Основна причина, через яку використання дисперсійного аналізу краще повторного порівняння двох вибірок при різних рівнях факторів за допомогою t- критерію, полягає в тому, що дисперсійний аналіз більш ефективнийі для малих вибірок, більш інформативний.

Управління факторами.Припустимо, що у розглянутому вище прикладі аналізу двох вибірок ми додамо ще один фактор, наприклад, Підлога- Gender. Нехай кожна група складається з 3 чоловіків та 3 жінок. План цього експерименту можна подати у вигляді таблиці 2 на 2:

Експеримент. Група 1 Експеримент. Група 2
Чоловіки2 6
3 7
1 5
Середнє2 6
Жінки4 8
5 9
3 7
Середнє4 8

До проведення обчислень можна помітити, що в цьому прикладі загальна дисперсія має принаймні три джерела:

(1) випадкова помилка (внутрішньогрупова дисперсія),

(2) мінливість, пов'язана з приналежністю до експериментальної групи, та

(3) мінливість, обумовлена ​​статтю об'єктів спостереження.

(Зазначимо, що існує ще одне можливе джерело мінливості – взаємодія факторів, який ми обговоримо пізніше). Що станеться, якщо ми не включатимемо підлогаgenderяк фактор при проведенні аналізу та обчислимо звичайний t-Критерій? Якщо ми обчислюватимемо суми квадратів, ігноруючи підлога -gender(тобто об'єднуючи об'єкти різної статі в одну групу при обчисленні внутрішньогрупової дисперсії, отримавши при цьому суму квадратів для кожної групи рівну SS=10, і загальну суму квадратів SS= 10+10 = 20), то отримаємо більше значення внутрішньогрупової дисперсії, ніж при більш точному аналізі з додатковим розбиттям на підгрупи підлозі - gender(при цьому внутрішньогрупові середні дорівнюватимуть 2, а загальна внутрішньогрупова сума квадратів дорівнює SS = 2+2+2+2 = 8). Ця різниця пов'язана з тим, що середнє значення для чоловіків - malesменше, ніж середнє значення для жінок –female, і це різницю у середніх значеннях збільшує сумарну внутригрупповую мінливість, якщо чинник статі не враховується. Управління дисперсією помилки збільшує чутливість (потужність) критерію.

На цьому прикладі видно ще одну перевагу дисперсійного аналізу порівняно зі звичайним t-Крітерієм для двох вибірок. Дисперсійний аналіз дозволяє вивчати кожен чинник, керуючи значеннями інших чинників. Це насправді і є основною причиною його більшої статистичної потужності (для отримання значних результатів потрібні менші обсяги вибірок). Тому дисперсійний аналіз навіть на невеликих вибірках дає статистично більше значні результати, ніж простий t- критерій.

Ефекти взаємодії

Існує ще одна перевага застосування дисперсійного аналізу порівняно із звичайним t- критерієм: дисперсійний аналіз дозволяє виявити взаємодіяміж факторами і, отже, дозволяє вивчати складніші моделі. Для ілюстрації розглянемо ще один приклад.

Головні ефекти, попарні (двофакторні) взаємодії.Припустимо, що є дві групи студентів, причому психологічно студенти першої групи налаштовані виконання поставлених завдань і більш цілеспрямовані, ніж студенти другої групи, що з більш лінивих студентів. Розіб'ємо кожну групу випадково навпіл і запропонуємо одній половині в кожній групі складне завдання, а іншій - легке. Після цього виміряємо, як напружено студенти працюють над цими завданнями. Середні значення для цього (вигаданого) дослідження показані в таблиці:

Який висновок можна зробити із цих результатів? Чи можна зробити висновок, що: (1) над складним завданням студенти працюють більш напружено; (2) цілеспрямовані студенти працюють наполегливіше, ніж ліниві? Жодне з цих тверджень не відбиває сутність систематичного характеру середніх, наведених у таблиці. Аналізуючи результати, правильніше було б сказати, що над складними завданнями працюють наполегливіше лише цілеспрямовані студенти, тоді як над легкими завданнями тільки ліниві працюють наполегливіше. Тобто характер студентів та складність завдання взаємодіючиміж собою впливають на витрачається зусилля. Це приклад парної взаємодіїміж характером студентів та складністю завдання. Зазначимо, що твердження 1 та 2 описують головні ефекти.

Взаємодія вищих порядків.У той час, як пояснити попарні взаємодії ще порівняно легко, взаємодії вищих порядків пояснити значно складніше. Уявімо, що в аналізований вище приклад введено ще один фактор підлога -Genderі ми отримали наступну таблицю середніх значень:

Які висновки можна зробити з отриманих результатів? Графіки середніх дозволяють легко інтерпретувати складні ефекти. Модуль дисперсійного аналізу дозволяє будувати ці графіки практично одним клацанням мишки.

Зображення на графіках внизу являє собою трифакторну взаємодію, що вивчається.

Дивлячись на графіки, можна сказати, що у жінок існує взаємодія між характером та складністю тесту: цілеспрямовані жінки працюють над важким завданням більш напружено, ніж над легким. У чоловіків ця ж взаємодія має зворотний характер. Видно, що опис взаємодії між факторами стає більш заплутаним.

Загальний спосіб опису взаємодій.У загальному випадкувзаємодія між факторами описується як зміни одного ефекту під впливом іншого. У розглянутому вище прикладі двофакторну взаємодію можна описати як зміну головного ефекту фактора, що характеризує складність завдання під впливом фактора, що описує характер студента. Для взаємодії трьох факторів із попереднього параграфа можна сказати, що взаємодія двох факторів (складності завдання та характеру студента) змінюється під впливом статіGender. Якщо вивчається взаємодія чотирьох чинників, можна сказати, взаємодія трьох чинників, змінюється під впливом четвертого чинника, тобто. існують різні типи взаємодій різних рівнях четвертого чинника. Виявилося, що в багатьох областях взаємодія п'яти чи навіть більшої кількості факторів не є чимось незвичайним.

Складні плани

Міжгрупові та внутрішньогрупові плани (плани з повторними вимірами)

При порівнянні двох різних груп зазвичай використовується t- критерій для незалежних вибірок (з модуля Основні статистики та таблиці). Коли порівнюються дві змінні на тому самому безлічі об'єктів (спостережень), використовується t-Критерій для залежних вибірок. Для дисперсійного аналізу також важливо залежні чи ні вибірки. Якщо є повторні виміри тих самих змінних (при різних умовахабо в різний час) для тих самих об'єктів, то говорять про наявність фактора повторних вимірів(називається також внутрішньогруповим фактором,оскільки з оцінки його значимості обчислюється внутригрупповая сума квадратів). Якщо порівнюються різні групи об'єктів (наприклад, чоловіки та жінки, три штами бактерій тощо), то різниця між групами описується міжгруповий фактор.Способи обчислення критеріїв значущості для двох описаних типів факторів різні, але їх загальна логіка та інтерпретації збігається.

Між- та внутрішньогрупові плани.У багатьох випадках експеримент вимагає включення до плану і міжгрупового фактора, і фактора повторних вимірів. Наприклад, вимірюються математичні навички студентів жіночої та чоловічої статі (де підлога -Gender-міжгруповий фактор) на початку та наприкінці семестру. Два виміри навичок кожного студента утворюють внутрішньогруповий фактор (фактор повторних вимірів). Інтерпретація головних ефектів та взаємодій для міжгрупових факторів та факторів повторних вимірювань збігається, і обидва типи факторів можуть, очевидно, взаємодіяти між собою (наприклад, жінки набувають навичок протягом семестру, а чоловіки їх втрачають).

Неповні (гніздові) плани

У багатьох випадках можна знехтувати ефектом взаємодії. Це відбувається або коли відомо, що у популяції ефект взаємодії відсутній, або коли здійснення повного факторногоплану неможливо. Наприклад, вивчається вплив чотирьох добавок до палива на витрату пального. Вибираються чотири автомобілі та чотири водії. Повний факторнийЕксперимент вимагає, щоб кожна комбінація: добавка, водій, автомобіль – з'явилися хоча б один раз. Для цього потрібно не менше 4 x 4 x 4 = 64 груп випробувань, що потребує надто великих часових витрат. Крім того, навряд чи існує взаємодія між водієм та добавкою до палива. Зважаючи на це, можна використовувати план Латинські квадрати,в якому міститься лише 16 груп випробувань (чотири добавки позначаються буквами A, B, C та D):

Латинські квадрати описані в більшості книг з планування експериментів (наприклад, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), і тут вони не будуть детально обговорюватися. Зазначимо, що латинські квадрати це неnолніплани, у яких беруть участь в повному обсязі комбінації рівнів чинників. Наприклад, водій 1 керує автомобілем 1 тільки з добавкою А водій 3 керує автомобілем 1 тільки з добавкою С. Рівні фактора добавок ( A, B, C і D) вкладені в комірки таблиці автомобіль x водій –як яйця в гнізда. Це мнемонічне правило корисне для розуміння природи гніздових чи вкладенихпланів. Модуль Дисперсійний аналізнадає прості способианаліз планів такого типу.

Коваріаційний аналіз

Основна ідея

В розділі Основні ідеїкоротко обговорювалася ідея управління факторами та те, яким чином включення адитивних факторів дозволяє зменшувати суму квадратів помилок та збільшувати статистичну потужність плану. Все це може бути поширене і на змінні з безперервним безліччю значень. Коли такі безперервні змінні включаються в план як фактори, вони називаються підступами.

Фіксовані коваріати

Припустимо, що порівнюються математичні навички двох груп студентів, які навчалися за двома різними підручниками. Припустимо, що є дані про коефіцієнт інтелекту (IQ) для кожного студента. Можна припустити, що коефіцієнт інтелекту пов'язаний з математичними навичками та використовувати цю інформацію. Для кожної з двох груп студентів можна визначити коефіцієнт кореляції між IQ і математичними навичками. Використовуючи цей коефіцієнт кореляції, можна виділити частку дисперсії в групах, що пояснюється впливом IQ і нез'ясовну частку дисперсії (див. також Елементарні поняття статистики(глава 8) та Основні статистики та таблиці(Глава 9)). Частка дисперсії, що залишилася, використовується при проведенні аналізу як дисперсія помилки. Якщо є кореляція між IQ та математичними навичками, то можна суттєво зменшити дисперсії помилки SS/(n-1) .

Вплив коваріат наF- критерій. F-критерій оцінює статистичну значущість відмінності середніх значень у групах, при цьому обчислюється відношення міжгрупової дисперсії ( MSефект) до дисперсії помилок ( MSerror) . Якщо MSerrorзменшується, наприклад, при врахуванні фактора IQ, значення Fзбільшується.

Безліч коваріат.Міркування, використані вище для однієї кваріати (IQ), легко поширюються на кілька коваріат. Наприклад, крім IQ, можна включити вимір мотивації, просторового мислення тощо. Замість звичайного коефіцієнта кореляції у своїй використовується множинний коефіцієнт кореляції.

Коли значенняF -Критерію зменшується.Іноді введення коваріату в план експерименту зменшує значення F-критерія . Зазвичай це вказує на те, що коваріати корелюються не тільки із залежною змінною (наприклад, математичними навичками), а й з факторами (наприклад, із різними підручниками). Припустимо, що IQ вимірюється наприкінці семестру, після майже річного навчання двох груп студентів за двома різними підручниками. Хоча студенти розбивалися на групи випадковим чином, може виявитися, що відмінність підручників настільки велика, що і IQ та математичні навички у різних групах сильно відрізнятимуться. У цьому випадку, каварыати не лише зменшують дисперсію помилок, а й міжгрупову дисперсію. Іншими словами, після контролю за різницею IQ у різних групах, різниця в математичних навичках вже буде несуттєвою. Можна сказати інакше. Після “виключення” впливу IQ, ненавмисно виключається вплив підручника на розвиток математичних навичок.

Кориговані середні.Коли коваріату впливає міжгруповий чинник, слід обчислювати скориговані середні, тобто. такі середні, які виходять після видалення всіх оцінок коваріату.

Взаємодія між коваріатами та факторами.Також як досліджується взаємодія між факторами, можна досліджувати взаємодію між коваріатами та між групами факторів. Припустимо, що один із підручників особливо підходить для розумних студентів. Другий підручник для розумних студентів з'їде, а для менш розумних студентів цей же підручник важкий. В результаті є позитивна кореляція між IQ і результатом навчання в першій групі (розумніші студенти, краще результат) і нульова або невелика негативна кореляція в другій групі (чим розумніший студент, тим менш ймовірне придбання математичних навичок з другого підручника). У деяких дослідженнях ця ситуація обговорюється як приклад порушення припущень коварійного аналізу. Однак так як у модулі Дисперсійний аналіз використовуються найзагальніші способи коваріаційного аналізу, можна, зокрема, оцінити статистичну значущість взаємодії між факторами та коваріатами.

Змінні коваріати

У той час, як фіксовані кваріати обговорюються в підручниках досить часто, змінні кваріати згадуються набагато рідше. Зазвичай, під час проведення експериментів з повторними вимірами, нас цікавлять розбіжності у вимірах тих самих величин у різні моменти часу. Зокрема, нас цікавить значимість цих відмінностей. Якщо одночасно з вимірюваннями залежних змінних проводиться вимірювання коваріат, можна обчислити кореляцію між коваріатою та залежною змінною.

Наприклад, можна вивчати інтерес до математики та математичні навички на початку та в кінці семестру. Цікаво було б перевірити, чи корельовані між собою зміни на користь математики зі зміною математичних навичок.

Модуль Дисперсійний аналізв STATISTICAавтоматично оцінює статистичну значущість зміни коваріат у тих планах, де це можливо.

Багатомірні плани: багатовимірний дисперсійний та коварійний аналіз

Міжгрупові плани

Всі приклади, що розглядалися раніше, включали тільки одну залежну змінну. Коли одночасно є кілька залежних змінних, зростає лише складність обчислень, а зміст та основні принципи не змінюються.

Наприклад, проводиться дослідження двох різних підручників. При цьому вивчаються успіхи студентів у вивченні фізики та математики. У цьому випадку є дві залежні змінні і потрібно з'ясувати, як впливають на них одночасно два різні підручники. Для цього можна скористатися багатовимірним дисперсійним аналізом (MANOVA). Замість одновимірного Fкритерію, використовується багатовимірний Fкритерій (l-критерій Вілкса), заснований на порівнянні матриці коваріаційної матриці помилок і міжгрупової матриці коваріаційної.

Якщо залежні змінні корелированы між собою, це кореляція повинна враховуватися при обчисленні критерію значимості. Очевидно, якщо один і той самий вимір повторюється двічі, то нічого нового отримати при цьому не можна. Якщо до наявного виміру додається корельований з ним вимір, то виходить деяка Нова інформація, але при цьому нова змінна містить надмірну інформацію, яка відображається в підступі між змінними.

Інтерпретація результатів.Якщо загальний багатовимірний критерій значимий, можна зробити висновок, що відповідний ефект (наприклад, тип підручника) значимий. Однак постають такі питання. Чи впливає тип підручника на покращення лише математичних навичок, лише фізичних навичок, або одночасно на покращення тих та інших навичок. Насправді, після отримання значущого багатовимірного критерію для окремого головного ефекту або взаємодії досліджується одномірний Fкритерій. Іншими словами, окремо досліджуються залежні змінні, які роблять внесок у значущість багатовимірного критерію.

Плани з повторними вимірами

Якщо вимірюються математичні та фізичні навички студентів на початку семестру та наприкінці, то це і є повторні виміри. Вивчення критерію значущості у таких планах це логічний розвитокодновимірного випадку. Зауважимо, що методи багатовимірного дисперсійного аналізу зазвичай також використовуються для дослідження значущості одновимірних факторів повторних вимірів, що мають більш як два рівні. Відповідні застосування будуть розглянуті пізніше у цій частині.

Підсумовування значень змінних та багатовимірний дисперсійний аналіз

Навіть досвідчені користувачі одновимірного та багатовимірного дисперсійного аналізу часто утрудняються, отримуючи різні результати при застосуванні багатовимірного дисперсійного аналізу, наприклад, для трьох змінних, і при застосуванні одновимірного дисперсійного аналізу до суми цих трьох змінних, як до однієї змінної.

Ідея підсумовуваннязмінних у тому, кожна змінна містить у собі деяку істинну змінну, що й досліджується, і навіть випадкову помилку виміру. Тому при усередненні значень змінних помилка вимірювання буде ближче до 0 для всіх вимірювань і усереднене значень буде більш надійним. Насправді, в цьому випадку застосування дисперсійного аналізу до суми змінних є розумним і є потужним методом. Однак якщо залежні змінні за своєю природою багатовимірні, підсумовування значень змінних є недоречним.

Наприклад, нехай залежні змінні складаються з чотирьох показників успіху у суспільстві. Кожен показник характеризує незалежну сторону людської діяльності (наприклад, професійний успіх, успішність у бізнесі, сімейний добробут тощо). Додавання цих змінних подібне до додавання яблука і апельсина. Сума цих змінних не буде відповідним одновимірним показником. Тому з такими даними потрібно поводитися як з багатовимірними показниками багатовимірному дисперсійному аналізі.

Аналіз контрастів та апостеріорні критерії

Чому порівнюються окремі множини середніх?

Зазвичай гіпотези щодо експериментальних даних формулюються непросто у термінах основних ефектів чи взаємодій. Прикладом може бути така гіпотеза: деякий підручник підвищує математичні навички лише в студентів чоловічої статі, тоді як інший підручник приблизно однаково ефективний обох статей, проте менш ефективний чоловікам. Можна передбачити, що ефективність підручника взаємодіє зі статтю студента. Однак цей прогноз стосується також природивзаємодії. Очікується значне різницю між статями для учнів з однієї книжці і майже залежні від статі результати для які у інших книжці. Такий тип гіпотез зазвичай досліджується за допомогою аналізу контрастів.

Аналіз контрастів

Якщо говорити коротко, аналіз контрастів дозволяє оцінювати статистичну значимість деяких лінійних комбінацій ефектів складного плану. Аналіз контрастів є головним і обов'язковим елементом будь-якого складного плану дисперсійного аналізу. Модуль Дисперсійний аналізмає досить різноманітні можливості аналізу контрастів, які дозволяють виділяти та аналізувати будь-які типи порівнянь середніх.

Апостеріорніпорівняння

Іноді внаслідок обробки експерименту виявляється несподіваний ефект. Хоча у більшості випадків творчий дослідник зможе пояснити будь-який результат, це не дає можливостей для подальшого аналізу та отримання оцінок для прогнозу. Ця проблема є однією з тих, для яких використовуються апостеріорні критерії, тобто критерії, які не використовують апріорнігіпотези. Для ілюстрації розглянемо такий експеримент. Припустимо, що у 100 картках записані числа від 1 до 10. Опустивши всі ці картки в шапку, ми випадково вибираємо 20 разів по 5 карток, і обчислюємо кожної вибірки середнє значення (середнє чисел, записаних на картки). Чи можна очікувати, що знайдуться дві вибірки, у яких середні значення значно відрізняються? Це дуже правдоподібно! Вибираючи дві вибірки з максимальним і мінімальним середнім, можна отримати різницю середніх, що відрізняється від різниці середніх, наприклад, перших двох вибірок. Цю різницю можна дослідити, наприклад, за допомогою аналізу контрастів. Якщо не вдаватися в деталі, то існує кілька так званих апостеріорнихкритеріїв, які засновані в точності на першому сценарії (взяття екстремальних середніх із 20 вибірок), тобто ці критерії засновані на виборі найбільш відмінних середніх для порівняння всіх середніх значень у плані. Ці критерії застосовуються для того, щоб суто випадково не отримати штучний ефект, наприклад, виявити значну різницю між середніми, коли його немає. Модуль Дисперсійний аналізпропонує широкий вибір таких критеріїв. Коли в експерименті, пов'язаному з кількома групами, трапляються несподівані результати, то використовуються апостеріорніпроцедури на дослідження статистичної значимості отриманих результатів.

Сума квадратів типу I, II, III та IV

Багатомірна регресія та дисперсійний аналіз

Існує тісний взаємозв'язок між методом багатовимірної регресії та дисперсійним аналізом (аналізом варіацій). І в тому, і в іншому методі досліджується лінійна модель. Якщо говорити коротко, то практично всі плани експерименту можна досліджувати за допомогою багатовимірної регресії. Розглянемо наступний простий міжгруповий 2 x 2 план.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Стовпці А та В містять коди, що характеризують рівні факторів А та В, стовпець АxВ містить добуток двох стовпців А та В. Ми можемо аналізувати ці дані за допомогою багатовимірної регресії. Змінна DVвизначається як залежна змінна, змінні від Aдо AxBяк незалежні змінні. Дослідження значущості для коефіцієнтів регресії співпадатиме з обчисленнями у дисперсійному аналізі значимості головних ефектів факторів Aі Bта ефекту взаємодії AxB.

Незбалансовані та збалансовані плани

При обчисленні кореляційної матриці для всіх змінних, наприклад для даних, зображених вище, можна помітити, що головні ефекти факторів Aі Bта ефект взаємодії AxBнекорельовані. Цю властивість ефектів називають також ортогональністю. Говорять, що ефекти Aі B - ортогональніабо незалежніодин від одного. Якщо всі ефекти в плані ортогональні один одному, як у наведеному вище прикладі, то кажуть, що план збалансований.

Збалансовані плани мають “ гарною властивістю”. Обчислення під час аналізу таких планів дуже прості. Усі обчислення зводяться до обчислення кореляції між ефектами та залежними змінними. Так як ефекти ортогональні, приватні кореляції (як у повній багатовимірноїрегресії) не обчислюються. Однак у реальному житті плани не завжди збалансовані.

Розглянемо реальні дані з нерівним числом спостережень у осередках.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Якщо закодувати ці дані як вище та обчислити кореляційну матрицю для всіх змінних, то виявиться, що фактори плану корелюються один з одним. Фактори в плані тепер не ортогональні і такі плани називаються незбалансованими.Зауважимо, що в прикладі, що розглядається, кореляція між факторами повністю пов'язана з відмінністю частот 1 і -1 в стовпцях матриці даних. Іншими словами, плани експериментів з нерівними обсягами осередків (точніше, непропорційними обсягами) будуть незбалансованими, це означає, що головні ефекти та взаємодії змішуватимуться. І тут для обчислення статистичної значущості ефектів необхідно повністю обчислювати багатовимірну регресію. Тут є кілька стратегій.

Сума квадратів типу I, II, III та IV

Сума квадратів типуIіIII. Для вивчення значущості кожного фактора в багатовимірній моделі можна обчислювати приватну кореляцію кожного фактора за умови, що всі інші фактори вже враховані в моделі. Можна також вводити фактори в модель покроковим способом, фіксуючи всі фактори, що вже введені в модель і ігноруючи всі інші фактори. Взагалі, в цьому і полягає різниця між типом IIIі типомIсуми квадратів (ця термінологія була введена в SAS, див. наприклад, SAS, 1982; детальне обговорення можна також знайти в Searle, 1987, стор. 461; Woodward, Bonett, and Brecht, 1990, стор. 216; або Milliken and Johnson, 1984, стор 138).

Сума квадратів типуІІ.Наступна “проміжна” стратегія формування моделі полягає: у контролі всіх основних ефектів щодо значимості окремого головного ефекту; у контролі всіх основних ефектів та всіх попарних взаємодій, коли досліджується значимість окремої попарної взаємодії; у контролі всіх основних ефектів всіх попарних взаємодій та всіх взаємодій трьох факторів; щодо окремого взаємодії трьох чинників тощо. Суми квадратів для ефектів, що обчислюються таким способом, називаються типомIIсуми квадратів. Отже, типIIсуми квадратів контролює всі ефекти того ж порядку та нижче, ігноруючи всі ефекти вищого порядку.

Сума квадратів типуIV. Нарешті, для деяких спеціальних планів із пропущеними осередками (неповними планами) можна обчислювати, так звані, типу IVсуми квадратів. Цей метод обговорюватиметься пізніше у зв'язку з неповними планами (планами з пропущеними осередками).

Інтерпретація гіпотези про суму квадратів типу I, II та III

Суму квадратів типуIIIнайлегше інтерпретувати. Нагадаємо, що суми квадратів типуIIIдосліджують ефекти після контролю всіх інших ефектів. Наприклад, після знаходження статистично значущого типуIIIефекту для фактора Aу модулі Дисперсійний аналіз, можна сказати, що існує єдиний значущий ефект фактора Aпісля введення всіх інших ефектів (факторів) і відповідно інтерпретувати цей ефект. Ймовірно, у 99% усіх додатків дисперсійного аналізу саме цей тип критерію цікавить дослідника. Цей тип суми квадратів зазвичай обчислюється в модулі Дисперсійний аналізза замовчуванням, незалежно від того вибрано опцію Регресійний підхідчи ні (стандартні підходи прийняті в модулі Дисперсійний аналізобговорюються нижче).

Значні ефекти, отримані за допомогою сум квадратів типуабо типуIIсуми квадратів інтерпретувати не так просто. Найкраще їх інтерпретувати в контексті покрокової багатовимірної регресії. Якщо при використанні суми квадратів типуIголовний ефект фактора В виявився значимим (після включення в модель фактора А, але перед додаванням взаємодії між А і В), можна зробити висновок, що існує значний головний ефект фактора В, за умови, що немає взаємодії між факторами А і В. (Якщо при використання критерію типуIII, фактор В також виявився значним, то можна зробити висновок, що існує значний головний ефект фактора B, після введення в модель всіх інших факторів та їх взаємодій).

У термінах маргінальних середніх гіпотези типуIі типуIIзазвичай немає простої інтерпретації. У таких випадках кажуть, що не можна інтерпретувати значущість ефектів, розглядаючи лише маргінальні середні. Швидше представлені pзначень середніх мають відношення до складної гіпотези, яка комбінує середні та обсяг вибірки. Наприклад, типIIгіпотези для фактора А в простому прикладі плану 2 x 2, що раніше розглядаються (див. Woodward, Bonett, and Brecht, 1990, стор 219):

nij- Число спостережень в осередку

uij- Середнє значення в осередку

n. j- маргінальне середнє

Якщо не вдаватися в деталі (детальніше див. Milliken and Johnson, 1984, глава 10), то ясно, що це не прості гіпотези і в більшості випадків жодна з них не має особливого інтересу у дослідника. Однак існують випадки, коли гіпотези типуIможуть бути цікавими.

Обчислювальний підхід у модулі, що приймається за умовчанням Дисперсійний аналіз

За замовчуванням, якщо не зазначено опцію Регресійний підхід, модуль Дисперсійний аналізвикористовує модель середніх по осередках. Для цієї моделі характерно, що суми квадратів для різних ефектів обчислюються для лінійних комбінацій середніх значень осередків. У повному факторному експерименті це призводить до сум квадратів, які збігаються з сумами квадратів, які раніше обговорювали як тип III. Однак у опції Сплановані порівняння(у вікні Результати дисперсійного аналізу), користувач може перевіряти гіпотезу щодо будь-якої лінійної комбінації зважених або незважених середніх по осередках. Таким чином, користувач може перевіряти не лише гіпотези типуIIIале гіпотези будь-якого типу (включаючи типIV). Цей загальний підхід є особливо корисним, коли досліджуються плани з пропущеними осередками (так звані неповні плани).

Для повних факторних планів цей підхід корисно також використовувати у випадках, коли хочуть аналізувати зважені маргінальні середні. Наприклад, припустимо, що в аналізованому раніше простому 2 x 2 плані, потрібно порівняти виважені (за рівнями фактора B) маргінальні середні для фактора А. Це буває корисним, коли розподіл спостережень по осередках не готувалося експериментатором, а будувалося випадково, і ця випадковість відображається у розподілі числа спостережень за рівнями фактора B у сукупності.

Наприклад, є фактор – вік вдів. Можлива вибірка респондентів розбита на дві групи: молодше 40 років та старше 40 (фактор В). Другий чинник (фактор А) у плані - отримували чи ні соціальну підтримку вдови у певному агентстві (при цьому одні вдови були обрані випадково, інші служили як контроль). У цьому випадку розподіл удів за віком у вибірці відображає дійсний розподіл вдів за віком у сукупності. Оцінка ефективності групи соціальної підтримкивдів по всім вікомбуде відповідати виважене середнє для двох вікових груп (з вагами, що відповідають числу спостережень у групі).

Сплановані порівняння

Зауважимо, що сума запроваджених коефіцієнтів контрастів не обов'язково дорівнює 0 (нулю). Натомість програма автоматично вносити поправки, щоб відповідні гіпотези не змішувалися із загальним середнім.

Для ілюстрації цього повернемося знову до простого 2 x 2 плану, розглянутого раніше. Нагадаємо, що числа спостережень у осередках цього незбалансованого плану -1, 2, 3, і 1. Припустимо, що ми хочемо порівняти зважені середні маргінальні для фактора А (зважені з частотою рівнів фактора В). Можна ввести коефіцієнти розмаїття:

Зауважимо, що ці коефіцієнти не дають у сумі 0. Програма встановлюватиме коефіцієнти так, що в сумі вони даватиму 0, і при цьому зберігатимуться їх відносні значення, тобто:

1/3 2/3 -3/4 -1/4

Ці контрасти порівнюватимуть зважені середні для фактора А.

Гіпотези про головне середнє.Гіпотеза, у тому, що ні зважене головне середнє дорівнює 0 може досліджуватися з допомогою коефіцієнтів:

Гіпотеза про те, що зважене головне середнє 0 перевіряється за допомогою:

У жодному разі програма не здійснює коригування коефіцієнтів контрастів.

Аналіз планів із пропущеними осередками (неповні плани)

Факторні плани, що містять порожні осередки (обробка комбінацій осередків, у яких немає спостережень), називаються неповними. У таких планах деякі фактори зазвичай не ортогональні і деякі взаємодії не можуть бути обчислені. Взагалі не існує кращого методуаналізу таких планів

Регресійний підхід

У деяких старих програмах, які ґрунтуються на аналізі планів дисперсійного аналізу за допомогою багатовимірної регресії, фактори в неповних планах за замовчуванням задаються звичайним чином (начебто план повний). Потім проводиться багатовимірний регресійний аналіздля цих фіктивно закодованих факторів. На жаль, цей метод призводить до результатів, які дуже важко, або навіть неможливо, інтерпретувати, оскільки неясно, як кожен ефект бере участь у лінійній комбінації середніх значень. Розглянемо наступний приклад.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропущено

Якщо виконуватиметься багатовимірна регресія виду Залежна змінна = Константа + Фактор A + Фактор B, то гіпотеза про значимість факторів A і B в термінах лінійних середніх комбінацій виглядає так:

Фактор A: Осередок A1, B1 = Осередок A2, B1

Фактор B: Осередок A1, B1 = Осередок A1, B2

Цей випадок простий. У складніших планах неможливо фактично визначити, що точно досліджуватиметься.

Середні осередки, підхід дисперсійного аналізу , гіпотези типу IV

Підхід, який рекомендується в літературі і який здається кращим – дослідження осмислених (з точки зору дослідницьких завдань) апріорнихгіпотез про середні, що спостерігаються в осередках плану. Докладне обговорення цього підходу можна знайти в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987) або Woodward, Bonett, and Brecht (1990). Суми квадратів, асоційовані з гіпотезами про лінійну комбінацію середніх у неповних планах, що досліджують оцінки частини ефектів, називаються також сумами квадратів IV.

Автоматична генерація гіпотез типуIV. Коли багатофакторні плани мають складний характер пропущених осередків, бажано визначити ортогональні (незалежні) гіпотези, дослідження яких еквівалентне дослідженню основних ефектів чи взаємодій. Були розвинені алгоритмічні (обчислювальні) стратегії (засновані на псевдозворотній матриці плану) для генерування ваги для таких порівнянь. На жаль, остаточні гіпотези визначаються не єдиним чином. Звичайно, вони залежать від порядку, в якому були визначені ефекти і рідко допускають просту інтерпретацію. Тому рекомендується уважно вивчити характер пропущених осередків, потім формулювати гіпотези типуIV, які найбільш змістовно відповідають цілям дослідження. Потім дослідити ці гіпотези, використовуючи опцію Сплановані порівнянняу вікні Результати. Найлегший шлях задати порівняння у цьому випадку – вимагати введення вектора контрастів для всіх факторів разому вікні Сплановані порівняння.Після виклику діалогового вікна Сплановані порівняннябудуть показані всі групи поточного плануі позначені ті, що пропущені.

Пропущені осередки та перевірка специфічного ефекту

Існує кілька типів планів, у яких розташування пропущених осередків невипадково, але ретельно сплановано, що дозволяє проводити простий аналіз головних ефектів не торкаючись інших ефектів. Наприклад, коли необхідна кількість комірок у плані недоступна, часто використовуються плани. Латинські квадратидля оцінювання основних ефектів кількох чинників із великою кількістю рівнів. Наприклад, 4 x 4 x 4 x 4 факторний план потребує 256 осередків. У той же час можна використовувати Греко-латинський квадратдля оцінки головних ефектів, маючи лише 16 осередків у плані (глава Планування експерименту, том IV містить детальний опис таких планів). Неповні плани, в яких головні ефекти (і деякі взаємодії) можуть бути оцінені за допомогою простих лінійних середніх комбінацій, називаються збалансованими неповними планами.

У збалансованих планах стандартний (за замовчуванням) метод генерування контрастів (ваг) для головних ефектів і взаємодій буде проводити аналіз таблиці дисперсій, в якій суми квадратів для відповідних ефектів не змішуються один з одним. Опція Специфічний ефектвікна Результатибуде генерувати пропущені контрасти, записуючи нуль у пропущені комірки плану. Відразу після того, як буде запрошено опцію Специфічний ефектдля користувача, який вивчає деяку гіпотезу, з'являється таблиця результатів із фактичними вагами. Зауважимо, що у збалансованому плані, суми квадратів відповідних ефектів обчислюються тільки, якщо ці ефекти ортогональні (незалежні) всім іншим головним ефектам та взаємодіям. В іншому випадку потрібно скористатися опцією Сплановані порівняннявивчення змістовних порівнянь між середніми.

Пропущені осередки та об'єднані ефекти/члени помилки

Якщо опція Регресійний підхіду стартовій панелі модуля Дисперсійний аналізне вибрано, то при обчисленні суми квадратів для ефектів використовуватиметься модель середніх за комірками (установка за замовчуванням). Якщо план не збалансований, то при поєднанні неортогональних ефектів (див. вище обговорення опції Пропущені осередки та специфічний ефект) можна отримати суму квадратів, що складається з неортогональних (або перекриваються) компонентів. Отримані при цьому результати зазвичай не інтерпретовані. Тому треба бути дуже обережним під час виборів та реалізації складних неповних експериментальних планів.

Існує багато книг із детальним обговоренням планів різного типу. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), але така інформація лежить поза межами цього підручника. Тим не менш, пізніше в цьому розділі буде продемонстровано аналіз різного типупланів.

Припущення та ефекти порушення припущень

Відхилення від припущення щодо нормальності розподілів

Припустимо, що залежна змінна виміряна у числовій шкалі. Припустимо також, що залежна змінна має нормальний розподіл усередині кожної групи. Дисперсійний аналізмістить широкий набір графіків та статистик для обґрунтування цього припущення.

Ефекти порушення.Взагалі Fкритерій дуже стійкий до відхилення від нормальності (докладні результати див. у роботі Lindman, 1974). Якщо ексцес більший за 0, то значення статистики Fможе стати дуже маленьким. Нульова гіпотеза у своїй приймається, хоча може бути й неправильна. Ситуація змінюється на протилежну, коли ексцес менший за 0. Асиметрія розподілу зазвичай незначно впливає на Fстатистику. Якщо кількість спостережень у осередку досить велика, то відхилення від нормальності не має особливого значення в силу центральної граничної теореми, відповідно до якої, розподіл середнього значення близький до нормального, незалежно від початкового розподілу. Детальне обговорення стійкості FСтатистики можна знайти в Box and Anderson (1955), або Lindman (1974).

Однорідність дисперсії

Припущення.Передбачається, що дисперсії різних груп плану однакові. Це припущення називається припущенням про однорідності дисперсії.Згадаймо, що на початку цього розділу, описуючи обчислення суми квадратів помилок, ми робили підсумовування всередині кожної групи. Якщо дисперсії у двох групах відрізняються один від одного, то додавання їх не дуже природно і не дає оцінки загальної внутрішньогрупової дисперсії (оскільки в цьому випадку загальної дисперсії взагалі не існує). Модуль Дисперсійний аналіз -ANOVA/MANOVAмістить великий набір статистичних критеріїввиявлення відхилень від припущень однорідності дисперсії

Ефекти порушення.Ліндман (Lindman 1974, стор 33) показує, що Fкритерій цілком стійкий щодо порушення припущень однорідності дисперсії ( неоднорідністьдисперсії, див. також Box, 1954a, 1954b; Hsu, 1938).

Спеціальний випадок: кореленість середніх та дисперсій.Бувають випадки, коли Fстатистика може ввести в оману.Це буває, коли в осередках плану середні значення корелюються з дисперсією. Модуль Дисперсійний аналіздозволяє будувати діаграми розсіювання дисперсії або стандартного відхиленнящодо середніх виявлення такої кореляції. Причина, через яку така кореляція небезпечна, полягає в наступному. Уявімо, що є 8 осередків у плані, 7 з яких мають майже однакове середнє, а в одному осередку середнє набагато більше за інших. Тоді Fкритерій може виявити статистично значущий ефект. Але припустимо, що у осередку з великим середнім значенням і дисперсія значно більше інших, тобто. середнє значення і дисперсія в осередках залежні (що більше середнє, то більше вписувалося дисперсія). І тут велике середнє значення ненадійно, оскільки може бути викликано великий дисперсією даних. Однак Fстатистика, заснована на об'єднаноюдисперсії всередині осередків, фіксуватиме велике середнє, хоча критерії, засновані на дисперсії у кожному осередку, в повному обсязі відмінності середніх вважатимуть значимими.

Такий характер даних (велике середнє і велика дисперсія) - часто зустрічається, коли є спостереження, що різко виділяються. Одне або два різко виділяються спостережень сильно зміщують середнє значення і дуже збільшують дисперсію.

Однорідність дисперсії та підступів

Припущення.У багатовимірних планах, з багатовимірними залежними вимірами, також застосовуються припущення однорідності дисперсії, описані раніше. Однак так як існують багатомірні залежні змінні, то потрібно так само, щоб їх взаємні кореляції (коваріації) були однорідними по всіх осередках плану. Модуль Дисперсійний аналізпропонує різні способи перевірки цих припущень.

Ефекти порушення. Багатовимірний аналог F- критерію - λ-критерій Вілкса. Не так багато відомо про стійкість (робастність) λ-критерію Вілкса щодо порушення зазначених вище припущень. Тим не менш, так як інтерпретація результатів модуля Дисперсійний аналізґрунтується зазвичай на значущості одновимірних ефектів (після встановлення значущості загального критерію), обговорення робастності стосується переважно одномірного дисперсійного аналізу. Тому має бути уважно досліджено значущість одновимірних ефектів.

Спеціальний випадок: підступний аналіз.Особливо серйозні порушення однорідності дисперсії/коваріацій можуть відбуватися, коли до плану включаються коваріати. Зокрема, якщо кореляція між коваріатами і залежними вимірами різна в різних осередках плану, може бути неправильне тлумачення результатів. Слід пам'ятати, що в коваріаційному аналізі, по суті, проводиться регресійний аналіз усередині кожного осередку для того, щоб виділити ту частину дисперсії, яка відповідає коваріату. Припущення про однорідність дисперсії/коваріації передбачає, що цей регресійний аналіз проводиться за наступному обмеженні: всі регресійні рівняння (нахили) для всіх осередків однакові. Якщо це не передбачається, то можуть виникнути великі помилки. Модуль Дисперсійний аналізмає кілька спеціальних критеріїв для перевірки цього припущення. Можна порадити використовувати ці критерії, щоб переконатися, що регресійні рівняння для різних осередків приблизно однакові.

Сферичність та складна симетрія: причини використання багатовимірного підходу до повторних вимірів у дисперсійному аналізі

У планах, що містять фактори повторних вимірювань з більш ніж двома рівнями, застосування одновимірного дисперсійного аналізу потребує додаткових припущень: припущення складної симетрії та припущення сферичності. Ці припущення рідко виконуються (див. нижче). Тому в останні роки багатовимірний дисперсійний аналіз завоював популярність у таких планах (обидва підходи поєднані в модулі Дисперсійний аналіз).

Припущення про складну симетріюПрипущення складної симетрії у тому, що дисперсії (загальні внутригрупповые) і ковариации (по групам) щодо різних повторних вимірів однорідні (однакові). Це достатня умова для того, щоб одномірний критерій F для повторних вимірювань був обґрунтованим (тобто видані F-значення в середньому відповідали F-розподілу). Проте в даному випадку ця умова не є необхідною.

Припущення про сферичність.Припущення про сферичність є необхідною та достатньою умовою того, щоб F-критерій був обґрунтованим. Воно у тому, що у груп всі спостереження незалежні і однаково розподілені. Природа цих припущень, а також вплив їх порушень зазвичай не дуже добре описані в книгах дисперсійного аналізу - ця буде описана в наступних параграфах. Там буде показано, що результати одновимірного підходу можуть відрізнятися від результатів багатовимірного підходу, і буде пояснено, що це означає.

Необхідність незалежності гіпотез.Загальний спосіб аналізу даних у дисперсійному аналізі – це припасування моделі. Якщо щодо моделі, що відповідає даним, є деякі апріорнігіпотези, то дисперсія розбивається для перевірки цих гіпотез (критерії основних ефектів, взаємодій). З погляду обчислень, цей підхід генерує кілька контрастів (множина порівнянь середніх у плані). Однак якщо контрасти не незалежні один від одного, розбиття дисперсій стає беззмістовним. Наприклад, якщо два контрасти Aі Bтотожні і виділяється відповідна їм частина з дисперсії, то та сама частина виділяється двічі. Наприклад, безглуздо і безглуздо виділяти дві гіпотези: "середнє в осередку 1 вище середнього в осередку 2" і "середнє в осередку 1 вище середнього в осередку 2". Отже, гіпотези мають бути незалежні або ортогональні.

Незалежні гіпотези при повторних вимірах.Загальний алгоритм, реалізований у модулі Дисперсійний аналіз, намагатиметься для кожного ефекту генерувати незалежні (ортогональні) контрасти. Для фактора повторних вимірювань ці контрасти задають безліч гіпотез щодо різницьміж рівнями аналізованого фактора. Однак якщо ці різниці корелюються всередині груп, то результуючі контрасти не є більш незалежними. Наприклад, у навчанні, де учні вимірюються тричі за один семестр, може статися, що зміни між 1 і 2 виміром негативно корелюють зі зміною між 2 та 3 вимірами суб'єктів. Ті, хто більшу частину матеріалу освоїв між 1 і 2 вимірами, освоюють меншу частину протягом того часу, який пройшов між 2 і 3 виміром. Насправді, для більшості випадків, де дисперсійний аналіз використовуються при повторних вимірах, можна припустити, що зміни за рівнями корелюються суб'єктами. Однак коли це трапляється, припущення про складну симетрію та припущення про сферичність не виконуються і незалежні контрасти не можуть бути обчислені.

Вплив порушень та способи їх виправлення.Коли припущення про складну симетрію або сферичність не виконуються, дисперсійний аналіз може видати помилкові результати. До того, як були розроблені багатовимірні процедури, було запропоновано кілька припущень для компенсації порушень цих припущень. (див., наприклад, роботи Greenhouse & Geisser, 1959 та Huynh & Feldt, 1970). Ці методи досі широко використовуються (тому вони представлені в модулі Дисперсійний аналіз).

Підхід багатовимірного дисперсійного аналізу до повторних вимірів.Загалом проблеми складної симетрії та сферичності відносяться до того факту, що безліч контрастів, включених у дослідження ефектів факторів повторних вимірів (з числом рівнів більшим, ніж 2) не незалежні один від одного. Однак їм не обов'язково бути незалежними, якщо використовується багатовимірнийкритерій для одночасної перевірки статистичного значеннядвох чи більше контрастів фактора повторних вимірів. Це є причиною того, що методи багатовимірного дисперсійного аналізу стали частіше використовуватися для перевірки значущості факторів одновимірних повторних вимірів з більш ніж 2 рівнями. Цей підхід широко поширений, тому що він, у загальному випадку, не вимагає припущення про складну симетрію та припущення про сферичність.

Випадки, в яких підхід багатовимірного дисперсійного аналізу не може бути використаний.Існують приклади (плани), коли підхід багатовимірного дисперсійного аналізу може бути застосований. Зазвичай це випадки, коли є невелика кількість суб'єктів у плані та багато рівнів у факторі повторних вимірів. Тоді для проведення багатовимірного аналізу може бути замало спостережень. Наприклад, якщо є 12 суб'єктів, p = 4 фактора повторних вимірювань, і кожен фактор має k = 3 рівнів. Тоді взаємодія 4-х факторів "витрачатиме" (k-1) P = 2 4 = 16 степенів свободи. Проте є лише 12 суб'єктів, отже, у цьому прикладі багатовимірний тест може бути проведено. Модуль Дисперсійний аналізсамостійно виявить ці спостереження та обчислить лише одномірні критерії.

Відмінності в одновимірних та багатовимірних результатах.Якщо дослідження включає велику кількість повторних вимірювань, можуть виникнути випадки, коли одновимірний підхід дисперсійного аналізу до повторних вимірювань дає результати, які сильно відрізняються від тих, які були отримані при багатовимірному підході. Це означає, що різниці між рівнями відповідних повторних вимірів корелюються суб'єктами. Іноді цей факт представляє певний самостійний інтерес.

Багатомірний дисперсійний аналіз та структурне моделювання рівнянь

В останні роки моделювання структурних рівнянь стало популярним як альтернатива багатовимірному аналізу дисперсії (див. наприклад, Bagozzi and Yi, 1989; Bagozzi, Yi, and Singh, 1991; Cole, Maxwell, Arvey, and Salas, 1993). Цей підхід дозволяє перевіряти гіпотези не тільки про середні в різних групах, але так само і про кореляційні матриці залежних змінних. Наприклад, можна послабити припущення про однорідність дисперсії та підступів і явно включити в модель для кожної групи дисперсії та підступності помилки. Модуль STATISTICAМоделювання структурними рівняннями (SEPATH) (див. Том III) дозволяє проводити такий аналіз.

Загальні визначення

Метою дисперсійного аналізу (ANOVA – Analysis of Variation) є перевірка значущості різниці між середніми у різних групах з допомогою порівняння дисперсій цих груп. Поділ загальної дисперсії на кілька джерел (пов'язаних з різними ефектами в плані) дозволяє порівняти дисперсію, викликану різницею між групами, з дисперсією, викликаною внутрішньогруповою мінливістю.

Перевірена гіпотеза у тому, що різницю між групами немає. При істинності нульової гіпотези оцінка дисперсії, пов'язаної з внутрішньогруповою мінливістю, повинна бути близька до оцінки міжгрупової дисперсії. При хибності - важливо відхилятися.

Загалом дисперсійний аналіз може бути поділений на декілька видів:

  • одномірний (одна залежна змінна) та багатовимірний (кілька залежних змінних);

  • однофакторний (одна групуюча змінна) і багатофакторний (кілька групуючих змінних) з можливою взаємодією між факторами;

  • з простими вимірами (залежна змінна вимірюється лише один раз) та з повторними (залежна змінна вимірюється кілька разів).

У STATISITICAреалізовано всі відомі моделі дисперсійного аналізу.

У STATISITICAдисперсійний аналіз можна провести за допомогою модуля Дисперсійний аналіз у блоці STATISITICA Base (Аналіз -> Дисперсійний аналіз (ТАК)). Для побудови моделі спеціального виду використовується повна версіяДисперсійного аналізу, представлена ​​у модулях Загальні лінійні моделі, Узагальнені лінійні та нелінійні моделі, Загальні регресійні моделі, Загальні моделі приватних найменших квадратів з блоку Поглиблені методи аналізу (STATISTICA Advanced Linear/Non-Linear Models).

на початок

Покроковий приклад у STATISTICA

Ми ілюструватимемо можливості дисперсійного аналізу в STATISITICAрозглядаючи покроковий модельний приклад.

Вихідний файл даних визначає сукупність людей із різним рівнем доходу, освіти, віку та статі. Розглянемо, як впливають рівень освіти, вік та стать на рівень доходу.

За віком усі люди були поділені на чотири групи:

  • до 30 років;

  • від 31 до 40 років;

  • від 41 до 50 років;

  • від 51 року.

За рівнем освіти стався поділ на 5 груп:

  • незакінчене середнє;

  • середня;

  • середнє професійне;

  • незакінчена вища;

  • вища.

Так як дані модельні, то отримані результати будуть носити в основному якісний характер та ілюструватиме спосіб проведення аналізу.

Крок 1. Вибір аналізу

Виберемо дисперсійний аналіз із меню: Аналіз -> Поглиблені методи аналізу -> Загальні лінійні моделі.

Мал. 1. Вибір дисперсійного аналізу з випадаючого меню STATISTICA

Далі відкриється вікно, де представлені різні види аналізу. Вибираємо Вигляд аналізуФакторний дисперсійний аналіз.


Мал. 2. Вибір виду аналізу

У цьому вікні також можна вибрати спосіб побудови моделі: діалоговий режим або використовувати майстер аналізу. Виберемо діалоговий режим.

Крок 2. Завдання змінних

З відкритого файлу даних виберемо змінні для аналізу, натисніть кнопку Змінні, ви берете:

Дохід- Залежна змінна,

Рівень освіти, Підлогаі Вік- категоріальні фактори (предиктор).

Зауважимо, що Коди факторіву цьому прикладі можна не ставити. При натисканні на кнопку OK, STATISTICAзадасть їх автоматично.


Мал. 3. Завдання змінних

Крок 3. Зміна опцій

Звернемося до вкладки Опціїу вікні GLM Факторний ТАК.


Мал. 4. Вкладка Опції

У цьому діалоговому вікні ви можете:

  • вибрати випадкові фактори;

  • встановити тип параметризації моделі;

  • вказати тип сум квадратів (SS), є 6 різних сум квадратів (SS);

  • увімкнути проведення крос-перевірки.

Залишимо всі установки за замовчуванням (цього досить у більшості випадків) і натиснемо кнопку ОК.

Крок 4. Аналіз результатів – перегляд усіх ефектів

Результати аналізу можна переглянути у вікні Результатиза допомогою вкладок та групи кнопок. Розглянемо, наприклад, вкладку Підсумки.


Мал. 5. Вікно аналізу результатів: вкладка Підсумки

З цієї вкладки можна отримати доступ до всіх основних результатів. Для отримання додаткових результатів скористайтеся іншими вкладками. Кнопка Меншедозволяє змінити діалогове вікно результатів, видаливши вкладки, які зазвичай не використовуються.

При натисканні кнопки Перевірити всі ефектиотримуємо таку таблицю.


Мал. 6. Таблиця всіх ефектів

Ця таблиця виводить основні результати аналізу: суми квадратів, рівня свободи, значення F-критерію, рівні значимості.

Для зручності дослідження значущі ефекти (p<.05) выделены красным цветом. Два главных эффекта (Рівень освітиі Вік) та деякі взаємодії в даному прикладі є значущими (p<.05).

Крок 5. Аналіз результатів – перегляд заданих ефектів

Щоб подивитися, яким чином середній рівень доходу відрізняється за категоріями, найзручніше скористатися графічними засобами. При натисканні на кнопку Усі ефекти/графікиз'явиться наступне діалогове вікно.


Мал. 7. Вікно Таблиця всіх ефектів

У вікні перераховані всі ефекти, що розглядаються. Статистично значущі ефекти позначені *.

Наприклад, виберемо ефект Вік, в групі Відображативкажемо Таблицюта натиснемо ОК. З'явиться таблиця, в якій для кожного рівня ефекту наведено середнє значення залежної змінної (Дохід), величина стандартної помилки та межі довірчих меж.


Мал. 8. Таблиця з описовими статистиками за рівнями змінної Вік

Цю таблицю зручно подати у графічному вигляді. Для цього оберемо Графікв групі Відображатидіалогового вікна Таблицявсіх ефектів та натиснемо ОК. З'явиться відповідний графік.


Мал. 9. Графік залежності середнього доходу від віку

З графіка ясно видно, що між групами людей різного віку є різниця на рівні доходу. Що вік, то більше вписувалося дохід.

Аналогічні операції проведемо взаємодії кількох чинників. У діалоговому вікні оберемо Підлога*Вікта натиснемо ОК.


Мал. 10. Графік залежності середнього доходу від статі та віку

Отримано несподіваний результат: для опитаних людей віком до 50 років рівень доходу зростає з віком і не залежить від статі; для опитаних людей старше 50 років жінки мають значно більший дохід, ніж чоловіки.

Варто збудувати отриманий графік у розрізі рівня освіти. Можливо, така закономірність порушується у деяких категоріях чи, навпаки, має універсальний характер. Для цього оберемо Рівень освіти * Підлога* Вікта натиснемо ОК.


Мал. 11. Графік залежності середнього доходу від статі, віку, рівня освіти

Бачимо, що отримана залежність не характерна для середньої та середньої професійної освіти. В інших випадках вона справедлива.

Крок 6. Аналіз результатів – оцінка якості моделі

Вище переважно використовувалися графічні засоби дисперсійного аналізу. Розгляньмо деякі інші корисні результати, які можна отримати.

По-перше, цікаво подивитися, яку частку мінливості пояснюють аналізовані фактори та їх взаємодії. Для цього у вкладці Підсумкинатиснемо на кнопку Загальна модель R. З'явиться така таблиця.

Мал. 12. Таблиця SS моделі та SS залишків

Число в стовпці Множин. R2 – квадрат множинного коефіцієнта кореляції; воно показує, яку частку мінливості пояснює побудована модель. У нашому випадку R2 = 0.195, що говорить про невисоку якість моделі. Справді, рівень доходу впливають як чинники, внесені в модель.

Крок 7. Аналіз результатів – аналіз контрастів

Часто потрібно як встановити відмінність у середньому значенні залежної змінної для різних категорій, а й встановити величину відмінності для заданих категорій. І тому слід досліджувати контрасти.

Вище було показано, що рівень доходу для чоловіків і жінок значно відрізняється для віку від 51, в інших випадках різниця не значуща. Виведемо різницю в рівні доходу для чоловіків і жінок віком понад 51 рік і між 40 і 50 роками.

Для цього перейдемо у вкладку Контрастиі виставимо всі значення в такий спосіб.


Мал. 13. Вкладка Контрасти

При натисканні кнопки Обчислитиз'явиться кілька таблиць. Нас цікавить таблиця з оцінками контрастів.


Мал. 14. Таблиця Оцінки контрастів

Можна зробити такі висновки:

  • для чоловіків та жінок старше 51 року різниця в рівні доходу становить 48,7 тис. дол. Різниця значуща;

  • для чоловіків та жінок віком від 41 до 50 років різниця в рівні доходу становить 1,73 тис. дол. Різниця не значуща.

Аналогічно можна задати складніші контрасти або скористатися одним із заздалегідь заданих наборів.

Крок 8. Додаткові результати

Використовуючи інші вкладки вікна результатів, можна отримати такі результати:

  • середні значення залежної змінної для вибраного ефекту – вкладка Середні;

  • перевірка апостеріорних критеріїв (post hoc) – вкладка Апостеріорні;

  • перевірка зроблених щодо дисперсійного аналізу припущень – вкладка Припущення;

  • побудова профілів відгуку/бажаності – вкладка Профілі;

  • аналіз залишків – вкладка Залишки;

  • висновок матриць, що використовуються в аналізі – вкладка Матриці;

  • Застосування статистики у цій нотатці буде показано на наскрізному прикладі. Припустимо, що ви – керівник виробництва у компанії Perfect Parachute («Ідеальний парашут»). Парашути виготовляються із синтетичних волокон, що постачаються чотирма різними постачальниками. Однією з основних характеристик парашута є його міцність. Вам необхідно переконатися, що всі волокна, що поставляються, мають однакову міцність. Щоб відповісти на це питання, слід розробити схему експерименту, під час якого вимірюється міцність парашутів, зітканих із синтетичних волокон різних постачальників. Інформація, отримана під час експерименту, дозволить визначити, який постачальник забезпечують найбільшу міцність парашутів.

    Багато програм пов'язані з експериментами, у яких розглядається кілька груп чи рівнів одного чинника. Деякі фактори, наприклад температура випалу кераміки, можуть мати кілька числових рівнів (тобто 300°, 350°, 400° і 450°). Інші фактори, наприклад, розташування товарів у супермаркеті, можуть мати категоріальні рівні (наприклад, перший постачальник, другий постачальник, третій постачальник, четвертий постачальник). Однофакторні експерименти, в ході яких експериментальні одиниці випадково розподіляються по групах або рівнях фактора, називаються повністю рандомізованими.

    ВикористанняF-критерія для оцінки різниць між кількома математичними очікуваннями

    Якщо числові вимірювання фактора в групах є безперервними та виконуються деякі додаткові умови, для порівняння математичних очікувань кількох груп застосовується дисперсійний аналіз (ANOVA - An alysis o f Va riance). Дисперсійний аналіз, який використовує повністю рандомізовані плани, називається однофакторною процедурою ANOVA. У певному сенсі термін дисперсійний аналіз є неточним, оскільки у цьому аналізі порівнюються різниці між математичними очікуваннями груп, а чи не між дисперсіями. Проте, порівняння математичних очікувань здійснюється саме на основі аналізу варіації даних. У процедурі ANOVA повна варіація результатів вимірювань поділяється на міжгрупову та внутрішньогрупову (рис. 1). Внутрішньогрупова варіація пояснюється помилкою експерименту, а міжгрупова – ефектами умов експерименту. Символ зпозначає кількість груп.

    Мал. 1. Поділ варіації у повністю рандомізованому експерименті

    Завантажити нотатку у форматі або , приклади у форматі

    Припустимо, що згруп вилучено із незалежних генеральних сукупностей, що мають нормальний розподіл та однакову дисперсію. Нульова гіпотеза у тому, що математичні очікування генеральних сукупностей однакові: Н 0: μ 1 = μ 2 = … = μ с. Альтернативна гіпотеза свідчить, що не всі математичні очікування однакові: Н 1: не всі μ j однакові j= 1, 2, …, с).

    На рис. 2 представлена ​​справжня нульова гіпотеза про математичні очікування п'яти порівнюваних груп за умови, що генеральні сукупності мають нормальний розподіл та однакову дисперсію. П'ять генеральних сукупностей, пов'язаних із різними рівнями чинника, ідентичні. Отже, вони накладаються одна на одну, маючи однакові математичне очікування, варіацію та форму.

    Мал. 2. П'ять генеральних сукупностей мають однакове математичне очікування: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

    З іншого боку, припустимо, що насправді нульова гіпотеза є хибною, причому четвертий рівень має найбільше математичне очікування, перший рівень - трохи менше математичне очікування, а інші рівні - однакові і менші математичні очікування (рис. 3). Зверніть увагу на те, що за винятком величини математичних очікувань всі п'ять генеральних сукупностей ідентичні (тобто мають однакову мінливість та форму).

    Мал. 3. Спостерігається ефект умов експерименту: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

    При перевірці гіпотези про рівність математичних очікувань кількох генеральних сукупностей повна варіація поділяється на дві частини: міжгрупову варіацію, обумовлену різницею між групами, та внутрішньогрупову, обумовлену різницею між елементами, що належать одній групі. Повна варіація виражається повною сумою квадратів (SST – sum of squares total). Оскільки нульова гіпотеза полягає в тому, що математичні очікування всіх згруп рівні між собою, повна варіація дорівнює сумі квадратів різниць між окремими спостереженнями та загальним середнім (середнє середніх), обчисленим за всіма вибірками. Повна варіація:

    де - загальне середнє, X ij - i-e спостереження в j-ї групи або рівні, n j- кількість спостережень у j-ї групи, n - Загальна кількістьспостережень переважають у всіх групах (тобто. n = n 1 + n 2 + … + n c), з- кількість груп, що вивчаються або рівнів.

    Міжгрупова варіація, звана зазвичай міжгруповою сумою квадратів (SSA – sum of squares among groups), дорівнює сумі квадратів різниць між вибірковим середнім кожної групи jта загальним середнім , помножених на об'єм відповідної групи n j:

    де з- кількість груп, що вивчаються, або рівнів, n j- кількість спостережень у j-ї групи, j- середнє значення j-ї групи, - загальне середнє.

    Внутрігрупова варіація, звана зазвичай внутрішньогруповою сумою квадратів (SSW – sum of squares withing groups), дорівнює сумі квадратів різниць між елементами кожної групи і середнім вибірковим цієї групи j:

    де Хij - i-й елемент j-ї групи, j- середнє значення j-ї групи.

    Оскільки порівняння піддаються зрівнів фактора, міжгрупова сума квадратів має з 1степенів свободи. Кожен з зрівнів має n j – 1 ступенями свободи, тому внутрішньогрупова сума квадратів має n- зступенів свободи, та

    Крім того, загальна сума квадратів має n – 1 ступенів свободи, оскільки кожне спостереження Хijпорівнюється із загальним середнім, обчисленим за всіма nспостереженням. Якщо кожну з цих сум поділити на відповідну кількість ступенів свободи, виникнуть три види дисперсії: міжгрупова(mean square among - MSA), внутрішньогрупова(mean square within - MSW) та повна(Mean Square Total - MST):

    Незважаючи на те, що основне призначення дисперсійного аналізу - порівняти математичні очікування згруп, щоб виявити ефект умов експерименту, його назва обумовлена ​​тим, що основним інструментом є аналіз дисперсій різного типу. Якщо нульова гіпотеза є істинною, і між математичними очікуваннями згруп немає істотних відмінностей, всі три дисперсії – MSA, MSW та MST – є оцінками дисперсії σ 2, властивої аналізованим даним. Таким чином, щоб перевірити нульову гіпотезу Н 0: μ 1 = μ 2 = … = μ ста альтернативну гіпотезу Н 1: не всі μ j однакові j = 1, 2, …, з), необхідно обчислити статистику F-критерію, що представляє собою відношення двох дисперсій, MSA та MSW. Тестова F-статистика в однофакторному дисперсійному аналізі

    Статистика F-Критерія підпорядковується F-розподілу з з 1ступенями свободи у чисельнику MSAі n – зступенями свободи у знаменнику MSW. При заданому рівні значимості нульова гіпотеза відхиляється, якщо обчислена F FU, властивого F-розподілу з з 1 n – зступенями свободи у знаменнику. Таким чином, як показано на рис. 4, вирішальне правилоформулюється так: нульова гіпотеза Н 0відхиляється, якщо F > FU; в іншому випадку вона не відхиляється.

    Мал. 4. Критична область дисперсійного аналізу під час перевірки гіпотези Н 0

    Якщо нульова гіпотеза Н 0є істинною, обчислена F-статистика близька до 1, оскільки її чисельник і знаменник є оцінками однієї і тієї ж величини - дисперсії 2, властивої аналізованим даним. Якщо нульова гіпотеза Н 0є хибною (і між математичними очікуваннями різних груп існує значна різниця), обчислена F-статистика буде набагато більше одиниці, оскільки її чисельник, MSA, крім природної мінливості даних, оцінює ефект умов експерименту чи різниці між групами, тоді як знаменник MSW оцінює лише природну мінливість даних. Таким чином, процедура ANOVA є F-критерій, у якому при заданому рівні значущості нульова гіпотеза відхиляється, якщо обчислена F-Статистика більше верхнього критичного значення FU, властивого F-розподілу з з 1ступенями свободи в чисельнику та n – зступенями свободи у знаменнику, як показано на рис. 4.

    Для ілюстрації однофакторного дисперсійного аналізу повернемося до сценарію, викладеного на початку нотатки. Мета експерименту - визначити, чи мають парашути, зіткані із синтетичного волокна, отриманого від різних постачальників, однакову міцність. У кожній із груп зіткано по п'ять парашутів. Групи розділені за постачальниками- Постачальник 1, Постачальник 2, Постачальник 3 і Постачальник 4. Міцність парашутів вимірюється за допомогою спеціального пристрою, що зазнає тканини на розрив з двох сторін. Сила, потрібна для розриву парашута, вимірюється за особливою шкалою. Чим вища сила розриву, тим міцніше парашут. Excel дозволяє провести аналіз F-Статистики одним кліком. Пройдіть меню ДаніАналіз даних, і виберіть рядок Однофакторний дисперсійний аналіз, заповніть вікно, що відкрилося (рис. 5). Результати експерименту (сила розриву), деякі описові статистики та результати однофакторного дисперсійного аналізу представлені на рис. 6.

    Мал. 5. Вікно Однофакторний дисперсійний аналіз Пакету аналізу Excel

    Мал. 6. Показники міцності парашутів, зітканих із синтетичних волокон, отриманих від різних постачальників, описові статистики та результати однофакторного дисперсійного аналізу

    Аналіз малюнка 6 показує, що між вибірковими середніми спостерігається певна різниця. Середня міцність волокон, отриманих від першого постачальника, дорівнює 19,52, від другого – 24,26, від третього – 22,84 та від четвертого – 21,16. Чи можна назвати цю різницю статистично значущою? Розподіл сили розриву продемонстровано на діаграмі розкиду (рис. 7). На ній ясно помітні різниці як між групами, так і всередині них. Якби обсяг кожної групи був більшим, для їх аналізу можна було б застосувати діаграму «ствол та листя», блокову діаграму або графік нормального розподілу.

    Мал. 7. Діаграма розкиду міцності парашутів, зітканих із синтетичних волокон, отриманих від чотирьох постачальників

    Нульова гіпотеза стверджує, що серед середніми показниками міцності немає істотних відмінностей: Н 0: μ 1 = μ 2 = μ 3 = μ 4. Альтернативна гіпотеза полягає в тому, що існує принаймні один постачальник, у якого середня міцність волокон відрізняється від інших: Н 1: не всі μ j однакові ( j = 1, 2, …, з).

    Загальне середнє (див. рис. 6) = СРЗНАЧ(D12: D15) = 21,945; для визначення також можна усереднити всі 20 вихідних чисел: СРЗНАЧ(A3:D7). Значення дисперсій розраховуються Пакетом аналізуі відображаються у табличці Дисперсійний аналіз(див. рис. 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (див. колонку SSтаблиці Дисперсійний аналізмалюнку 6). Середні значення обчислюються шляхом розподілу цих сум квадратів відповідну кількість ступенів свободи. Оскільки з= 4, а n= 20, отримуємо такі значення ступенів свободи; для SSA: з 1= 3; для SSW: n – c= 16; для SST: n – 1= 19 (див. колонку df). Таким чином: MSA = SSA / ( з 1)= 21,095; MSW = SSW / ( n – c) = 6,094; MST = SST / ( n – 1) = 8,463 (див. колонку MS). F-статистика = MSA / MSW = 3,462 (див. колонку F).

    Верхнє критичне значення FU, характерне для F-розподілу, визначається за формулою = F.ОБР (0,95; 3; 16) = 3,239. Параметри функції =F.ОБР(): α = 0,05, чисельник має три ступені свободи, а знаменник - 16. Таким чином, обчислена F-статистика, що дорівнює 3,462, перевищує верхнє критичне значення FU= 3239, нульова гіпотеза відхиляється (рис. 8).

    Мал. 8. Критична область дисперсійного аналізу при рівні значущості, що дорівнює 0,05, якщо чисельник має три ступені свободи, а знаменник -16

    р-значення, тобто. ймовірність того, що за істинної нульової гіпотези F-статистика не менше 3,46, дорівнює 0,041 або 4,1% (див. колонку р-Значеннятаблиці Дисперсійний аналізмалюнку 6). Оскільки ця величина не перевищує значення α = 5%, нульова гіпотеза відхиляється. Більш того, р-значення свідчить у тому, що можливість виявити таку чи велику різницю між математичними очікуваннями генеральних сукупностей за умови, що вони однакові, дорівнює 4,1%.

    Отже. Між чотирма середніми вибірковими існує різниця. Нульова гіпотеза полягала у тому, що це математичні очікування чотирьох генеральних сукупностей рівні між собою. У цих умовах міра повної мінливості (тобто повна варіація SST) міцності всіх парашутів обчислюється шляхом підсумовування квадратів різниць між кожним спостереженням X ijта загальним середнім . Потім повна варіація поділялася на два компоненти (див. рис. 1). Перший компонент був міжгруповою варіацією SSA, а другий - внутрішньогрупову SSW.

    Чим пояснюється мінливість даних? Інакше кажучи, чому всі спостереження однакові? Одна з причин полягає в тому, що різні фірми постачають волокна різної міцності. Це частково пояснює, чому групи мають різні математичні очікування: чим сильніший ефект умов експерименту, тим більша різниця між математичними очікуваннями груп. Інший причиною мінливості даних є природна мінливість будь-якого процесу, у разі - виробництва парашутів. Навіть якби всі волокна купувалися в одного і того ж постачальника, їхня міцність була б неоднаковою за інших рівних умов. Оскільки цей ефект проявляється у кожній із груп, він називається внутрішньогруповою варіацією.

    Різниці між вибірковими середніми називаються міжгруповою варіацією SSA. Частина внутрішньогрупової варіації, як зазначалося, пояснюється належністю даних різним групам. Однак навіть якби групи були абсолютно однаковими (тобто нульова гіпотеза була б істинною), міжгрупова варіація все одно існувала. Причина цього полягає у природній мінливості процесу виробництва парашутів. Оскільки вибірки різні, їх середні вибіркові відрізняються один від одного. Отже, якщо нульова гіпотеза є істинною, як міжгрупова, так і внутрішньогрупова мінливість є оцінкою мінливості генеральної сукупності. Якщо нульова гіпотеза є хибною, міжгрупова гіпотеза буде більшою. Саме цей факт лежить в основі F-Критерію для порівняння різниць між математичними очікуваннями кількох груп.

    Після виконання однофакторного дисперсійного аналізу та виявлення значної різниці між фірмами залишається невідомим, який із постачальників істотно відрізняється від інших. Нам відомо лише, що математичні очікування генеральних сукупностей не рівні. Інакше висловлюючись, по крайнього заходу одне з математичних очікувань суттєво відрізняється від інших. Щоб визначити, який постачальник відрізняється від інших, можна скористатися процедурою Тьюкі, що використовує попарне порівняння між постачальниками Ця процедура була розроблена Джоном Тьюкі. Згодом і К. Крамер незалежно друг від друга модифікували цю процедуру для ситуацій, у яких обсяги вибірок відрізняються друг від друга.

    Множинне порівняння: процедура Тьюкі-Крамера

    У нашому сценарії для порівняння міцності парашутів використовувався однофакторний дисперсійний аналіз. Виявивши значні різницю між математичними очікуваннями чотирьох груп, необхідно визначити, які саме групи відрізняються друг від друга. Хоча існує кілька способів вирішити це завдання, ми опишемо лише процедуру множинного порівняння Тьюкі-Крамера. Цей метод є прикладом процедур апостеріорного порівняння (post hoc comparison), оскільки гіпотеза, що перевіряється, формулюється після аналізу даних. Процедура Тьюкі-Крамера дозволяє одночасно порівняти всі пари груп. На першому етапі обчислюються різниці Xj - Xj, де j ≠j, між математичними очікуваннями с(с – 1)/2груп. Критичний розмахпроцедури Тьюкі-Крамера обчислюється за такою формулою:

    де Q U- верхнє критичне значення розподілу стюдентизованого розмаху, що має зступенів свободи в чисельнику та n - зступенів свободи у знаменнику.

    Якщо обсяги вибірок не однакові, критичний розмах обчислюється кожної пари математичних очікувань окремо. На останньому етапі кожна з с(с – 1)/2пар математичних очікувань порівнюється із відповідним критичним розмахом. Елементи пари є значно різними, якщо модуль різниці | X j - Xj| між ними перевищує критичний розмах.

    Застосуємо процедуру Тьюкі-Крамера до завдання міцності парашутів. Оскільки компанія, яка виробляє парашути, має чотири постачальники, слід перевірити 4(4 – 1)/2 = 6 пар постачальників (рис. 9).

    Мал. 9. Попарні порівняння вибіркових середніх

    Оскільки всі групи мають однаковий обсяг (тобто всі n j = n j), достатньо обчислити лише один критичний розмах. Для цього за таблицею Дисперсійний аналіз(Рис. 6) визначимо величину MSW = 6,094. Потім знайдемо величину Q Uпри α = 0,05, з= 4 (число ступенів свободи в чисельнику) та n- з= 20 - 4 = 16 (число ступенів свободи в знаменнику). На жаль, я не знайшов відповідної функції в Excel, тому скористався таблицею (рис. 10).

    Мал. 10. Критичне значення стюдентизованого розмаху Q U

    Отримуємо:

    Оскільки лише 4,74> 4,47 (див. нижню таблицю рис. 9), статистично значуща різниця існує між першим та другим постачальником. Всі інші пари мають вибіркові середні, які не дозволяють говорити про їхню відмінність. Отже, середня міцність парашутів, зітканих з волокон, придбаних у першого постачальника, значно менше, ніж у другого.

    Необхідні умови однофакторного дисперсійного аналізу

    При вирішенні задачі про міцність парашутів ми не перевіряли, чи виконуються умови, за яких можна використовувати однофакторний F-Критерій. Як дізнатися, чи можна застосовувати однофакторний F-Критерій під час аналізу конкретних експериментальних даних? Однофакторний F-Критерій можна застосовувати тільки якщо виконуються три основні припущення: експериментальні дані повинні бути випадковими і незалежними, мати нормальний розподіл, а їх дисперсії повинні бути однаковими.

    Перше припущення - випадковість та незалежність даних- повинно виконуватися завжди, оскільки коректність будь-якого експерименту залежить від випадковості вибору та процесу рандомізації. Щоб уникнути спотворення результатів, необхідно, щоб дані витягувалися з згенеральних сукупностей випадково та незалежно один від одного. Аналогічно дані повинні бути випадковим чином розподіленими за зрівням цікавого для нас фактора (експериментальним групам). Порушення цих умов може серйозно спотворити результати дисперсійного аналізу.

    Друге припущення - нормальність- означає, що дані вилучені із нормально розподілених генеральних сукупностей. Як і для t-критерія, однофакторний дисперсійний аналіз на основі F-Критерія відносно мало чутливий до порушення цієї умови. Якщо розподіл не дуже відрізняється від нормального, рівень значущості F-Критерію змінюється мало, особливо якщо обсяг вибірок досить великий. Якщо ж умова нормальності розподілу порушується серйозно, слід застосовувати .

    Третє припущення - однорідність дисперсії- означає, що дисперсії кожної генеральної сукупності рівні між собою (тобто σ 1 2 = σ 2 2 = … = σ j 2). Це припущення дозволяє вирішити, розділяти чи поєднувати внутрішньогрупові дисперсії. Якщо обсяги груп збігаються, умова однорідності дисперсії слабко впливає висновки, отримані з допомогою F-Критерія. Однак, якщо обсяги вибірок неоднакові, порушення умови рівності дисперсій може серйозно спотворити результати дисперсійного аналізу. Таким чином, слід прагнути того, щоб обсяги вибірок були однаковими. Одним із методів перевірки припущення про однорідність дисперсії є критерій Левене, описаний нижче.

    Якщо з усіх трьох умов порушується лише умова однорідності дисперсії, можна застосовувати процедуру, аналогічну t-критерію, що використовує роздільну дисперсію (докладніше див). Однак, якщо припущення про нормальний розподіл та однорідність дисперсії порушуються одночасно, необхідно виконати нормалізацію даних та зменшити різницю між дисперсіями або застосувати непараметричну процедуру.

    Критерій Левене для перевірки однорідності дисперсії

    Незважаючи на те що F-Критерій щодо стійкий до порушень умови про рівність дисперсій у групах, грубе порушення цього припущення істотно впливає на рівень значущості та потужність критерію. Можливо, одним із найпотужніших є критерій Левене. Для перевірки рівності дисперсій згенеральних сукупностей перевіримо такі гіпотези:

    Н 0: σ 1 2 = σ 2 2 = … = σj 2

    Н 1: не всі σ j 2однакові ( j = 1, 2, …, з)

    Модифікований критерій Левене ґрунтується на твердженні, що якщо мінливість у групах однакова, для перевірки нульової гіпотези про рівність дисперсій можна застосувати аналіз дисперсії абсолютних величин різниці між спостереженнями та медіанами груп. Отже, спочатку слід обчислити абсолютні величини різниць між спостереженнями та медіанами у кожній групі, а потім виконати однофакторний дисперсійний аналіз отриманих абсолютних величин різниць. Для ілюстрації критерію Левене повернемося до сценарію, викладеного на початку нотатки. Використовуючи дані, подані на рис. 6, проведемо аналогічний аналіз, але щодо модулів різниць вихідних даних та медіан з кожної вибірки окремо (рис. 11).



Нове на сайті

>

Найпопулярніше