У дома Протезиране и имплантиране Еднопосочен дисперсионен анализ. Факторен и дисперсионен анализ в Excel с автоматизирани изчисления

Еднопосочен дисперсионен анализ. Факторен и дисперсионен анализ в Excel с автоматизирани изчисления

Упражнение . Студентите от 1-ви курс бяха анкетирани, за да идентифицират дейностите, на които посвещават свободното си време. Проверете дали разпределението на вербалните и невербалните предпочитания на учениците се различава.

Решениеизвършва се с помощта на калкулатор.
Намиране на групови средни стойности:

нП 1П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ср 15.6 17

Нека обозначим с p - броя нива на фактора (p=2). Броят на измеренията на всяко ниво е еднакъв и равен на q=5.
Последният ред съдържа групови средни стойности за всяко факторно ниво.
Общата средна стойност може да се получи като средноаритметично от средните стойности на групата:
(1)
Разпространението на груповите средни стойности на процента на неуспех спрямо общата средна стойност се влияе както от промените в нивото на разглеждания фактор, така и от случайни фактори.
За да се вземе предвид влиянието на този фактор, общата дисперсия на извадката се разделя на две части, първата от които се нарича фактор S 2 f, а втората се нарича остатъчен S 2 rest.
За да вземем предвид тези компоненти, първо изчисляваме обща сумаопция за квадратни отклонения от общата средна стойност:

и факторната сума на квадратните отклонения на груповите средни от общата средна, която характеризира влиянието на този фактор:

Последният израз се получава чрез заместване на всяка опция в израза R с общата групова средна стойност за даден фактор.
Остатъчната сума на квадратите на отклоненията се получава като разликата:
R почивка = R общо - R f
За да се определи общата дисперсия на извадката, е необходимо да се раздели R total на броя на измерванията pq:

и за да се получи безпристрастната обща дисперсия на извадката, този израз трябва да се умножи по pq/(pq-1):

Съответно, за дисперсия на безпристрастна факторна извадка:

където p-1 е броят на степените на свобода на дисперсията на безпристрастната факторна извадка.
За да се оцени влиянието на даден фактор върху промените в разглеждания параметър, се изчислява стойността:

Тъй като съотношението на две извадкови дисперсии S 2 f и S 2 rest се разпределя съгласно закона на Фишер-Снедекор, получената стойност на f obs се сравнява със стойността на функцията на разпределение

в критичната точка f cr, съответстваща на избраното ниво на значимост a.
Ако f obs >f cr, тогава факторът има значително влияние и трябва да се вземе предвид, в противен случай има незначителен ефект, който може да бъде пренебрегнат.
За изчисляване на Rob и Rf могат да се използват и следните формули:
(4)
(5)
Намираме общата средна стойност по формула (1):
За да изчислим Rtot с помощта на формула (4), съставяме таблица от 2 квадрата: опция:
нП 2 1П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общата средна стойност се изчислява по формула (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Намираме R f с помощта на формула (5):
R f = 5(15,6 2 + 17 2) - 2 16,3 2 = 4,9
Получаваме R почивка: R почивка = R общо - R f = 278,1 - 4,9 = 273,2
Ние определяме фактора и остатъчните дисперсии:


Ако средните стойности случайна величина, изчислени за отделни извадки са еднакви, тогава оценките на факторните и остатъчните дисперсии са безпристрастни оценки на общата дисперсия и се различават незначително.
След това сравнението на оценките на тези дисперсии с помощта на критерия на Фишер трябва да покаже, че няма причина да се отхвърли нулевата хипотеза за равенството на факторните и остатъчните дисперсии.
Оценката на факторната дисперсия е по-малка от оценката на остатъчната дисперсия, така че можем незабавно да потвърдим валидността на нулевата хипотеза за равенството на математическите очаквания в слоевете на извадката.
С други думи, в този пример факторът Ф не оказва значително влияние върху случайната променлива.
Нека проверим нулевата хипотеза H 0: равенство на средните стойности на x.
Намерете f obs.

За ниво на значимост α=0,05, числа на степени на свобода 1 и 8, намираме fcr от таблицата за разпределение на Fisher-Snedecor.
f cr (0,05; 1; 8) = 5,32
Поради факта, че f наблюдава< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
С други думи, разпределението на вербалните и невербалните предпочитания на учениците е различно.

Упражнение. Заводът разполага с четири линии за производство на облицовъчни плочки. От всяка линия бяха избрани на случаен принцип 10 плочки по време на смяна и тяхната дебелина (mm) беше измерена. Отклоненията от номиналния размер са дадени в таблицата. Необходимо е да се установи при ниво на значимост a = 0,05, че има зависимост на производството на висококачествени плочки от производствената линия (фактор А).

Упражнение. При ниво на значимост a = 0,05, изследвайте ефекта на цвета на боята върху експлоатационния живот на покритието.

Пример №1. Проведени са 13 теста, от които 4 на първо факторно ниво, 4 на второ, 3 на трето и 2 на четвърто ниво. Използвайки метода на дисперсионния анализ при ниво на значимост 0,05, тествайте нулевата хипотеза за равенството на груповите средни стойности. Предполага се, че пробите са взети от нормални популации с равни дисперсии. Резултатите от теста са показани в таблицата.

Решение:
Намиране на групови средни стойности:

нП 1П 2П 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ср 1.4 1.43 1.33 1.32

Нека обозначим с p - броя нива на фактора (p=4). Броят на измеренията на всяко ниво е: 4,4,3,2
Последният ред съдържа групови средни стойности за всяко факторно ниво.
Общата средна стойност се изчислява по формулата:

За да изчислим Общо с помощта на формула (4), съставяме таблица от 2 квадрата: опция:

нП 2 1П 2 2П 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Общата сума на квадратите на отклоненията се намира по формулата:


Намираме S f по формулата:


Получаваме S почивка: S почивка = S общо - S f = 0,0293 - 0,0263 = 0,003
Определяме факторната дисперсия:

и остатъчна дисперсия:

Ако средните стойности на случайна променлива, изчислени за отделни проби, са еднакви, тогава оценките на фактора и остатъчните дисперсии са безпристрастни оценки на общата дисперсия и не се различават значително.
След това сравнението на оценките на тези дисперсии с помощта на критерия на Фишер трябва да покаже, че няма причина да се отхвърли нулевата хипотеза за равенството на факторните и остатъчните дисперсии.
Оценката на факторната дисперсия е по-голяма от оценката на остатъчната дисперсия, така че можем веднага да твърдим, че нулевата хипотеза за равенството на математическите очаквания в слоевете на извадката не е вярна.
С други думи, в този пример факторът Ф оказва значително влияние върху случайната променлива.
Нека проверим нулевата хипотеза H 0: равенство на средните стойности на x.
Намерете f obs.

За ниво на значимост α=0,05, числа на степени на свобода 3 и 12, намираме fcr от таблицата за разпределение на Fisher-Snedecor.
f cr (0,05; 3; 12) = 3,49
Поради факта, че f наблюдавано > f cr, приемаме нулевата хипотеза за значителното влияние на фактора върху резултатите от експериментите (отхвърляме нулевата хипотеза за равенството на груповите средни стойности). С други думи, груповите средства като цяло се различават значително.

Пример №2. В училището има 5 шести класа. Психологът има за задача да установи дали средното ниво на ситуативна тревожност е еднакво в часовете. За целта те са дадени в таблицата. Проверете нивото на значимост α=0,05, допускането, че средната ситуационна тревожност в класовете не се различава.

Пример №3. За изследване на стойността на X бяха проведени 4 теста за всяко от петте нива на фактор F. Резултатите от теста са показани в таблицата. Разберете дали влиянието на фактор F върху стойността на X е значително. Вземете α = 0,05. Предполага се, че пробите са взети от нормални популации с равни дисперсии.

Пример №4. Да приемем, че в педагогическия експеримент са участвали три групи от по 10 ученици. Прилага се групово различни методиобучение: в първия - традиционен (F 1), във втория - базиран на компютърни технологии (F 2), в третия - метод, който широко използва задачи за самостоятелна работа(F 3). Знанията се оценяваха по десетобална система.
Необходимо е да се обработят получените изпитни данни и да се направи заключение дали влиянието на метода на обучение е значимо, като се приеме за ниво на значимост α = 0,05.
Резултатите от изпита са дадени в таблица, F j е нивото на фактор x ij - оценката на i-тия ученик по метода F j.

Факторно ниво

Пример №5. Показани са резултатите от конкурсното сортоизпитване на културите (добив в сантиметри от хектар). Всеки сорт е тестван в четири парцела. Използвайки анализ на дисперсията, проучете ефекта на сорта върху добива. Установете значимостта на влиянието на фактора (делът на междугруповата вариация в общата вариация) и значимостта на експерименталните резултати при ниво на значимост 0,05.
Производителност в участъци за сортоизпитване

Разнообразие Производителност по реплики c. от ха
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

Използването на статистика в тази бележка ще бъде илюстрирано с междусекторен пример. Да приемем, че сте производствен мениджър в Perfect Parachute. Парашутите са изработени от синтетични влакна, доставени от четири различни доставчика. Една от основните характеристики на парашута е неговата здравина. Трябва да се уверите, че всички доставени влакна са с еднаква здравина. За да се отговори на този въпрос, трябва да се създаде експериментален дизайн за измерване на здравината на парашутите, изтъкани от синтетични влакна. различни доставчици. Информацията, получена от този експеримент, ще определи кой доставчик предоставя най-издръжливите парашути.

Много приложения включват експерименти, които разглеждат множество групи или нива на един фактор. Някои фактори, като например температурата на изпичане на керамика, може да имат множество числени нива (т.е. 300°, 350°, 400° и 450°). Други фактори, като местоположението на артикулите в супермаркет, могат да имат категорични нива (напр. първи доставчик, втори доставчик, трети доставчик, четвърти доставчик). Еднофакторни експерименти, при които експерименталните единици са разпределени на случаен принцип към групи или факторни нива, се наричат ​​напълно рандомизирани.

ИзползванеЕ-критерии за оценка на различията между няколко математически очаквания

Ако числените измервания на фактор в групи са непрекъснати и някои допълнителни условия, за да се сравнят математическите очаквания на няколко групи, се използва дисперсионен анализ(ANOVA - Ананализ о f Vaрианс). Анализът на дисперсията с помощта на напълно рандомизирани дизайни се нарича еднопосочна ANOVA процедура. В някои отношения терминът анализ на дисперсията е погрешно наименование, тъй като сравнява разликите между очакваните стойности на групите, а не между дисперсиите. Сравнението на математическите очаквания обаче се извършва точно на базата на анализ на вариациите на данните. В процедурата ANOVA общата вариация в резултатите от измерването се разделя на междугрупови и вътрегрупови (фиг. 1). Вариациите в рамките на групата се обясняват с експериментална грешка, а вариациите между групите се обясняват с ефектите на експерименталните условия. Символ собозначава броя на групите.

Ориз. 1. Вариация на разделяне в напълно рандомизиран експеримент

Изтеглете бележката в или формат, примери във формат

Нека се преструваме, че сгрупи, извлечени от независими общи популации, с нормално разпределение и същата дисперсия. Нулевата хипотеза е това математически очакванияпопулациите са еднакви: H 0: μ 1 = μ 2 = ... = μ s. Алтернативната хипотеза гласи, че не всички математически очаквания са еднакви: H 1: не всички μ j са еднакви й= 1, 2, …, s).

На фиг. Фигура 2 представя истинската нулева хипотеза за математическите очаквания на петте сравнявани групи, при условие че популациите имат нормално разпределение и една и съща вариация. Пет общи популации, свързани с на различни нивафакторите са идентични. Следователно те се наслагват един върху друг, като имат едно и също математическо очакване, вариация и форма.

Ориз. 2. Пет генерални съвкупности имат едно и също математическо очакване: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

От друга страна, да предположим, че всъщност нулевата хипотеза е невярна, като четвъртото ниво има най-високата очаквана стойност, първото ниво има малко по-ниска очаквана стойност, а останалите нива имат същите и дори по-ниски очаквани стойности ( Фигура 3). Имайте предвид, че с изключение на очакваните стойности, всичките пет популации са идентични (т.е. имат една и съща променливост и форма).

Ориз. 3. Ефектът от експерименталните условия се наблюдава: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Когато се тества хипотезата за равенството на математическите очаквания на няколко генерални съвкупности, общата вариация се разделя на две части: междугрупова вариация, дължаща се на разликите между групите, и вътрешногрупова вариация, дължаща се на разликите между елементи, принадлежащи към една и съща група. Общата вариация се изразява чрез общата сума на квадратите (SST – sum of squares total). Тъй като нулевата хипотеза е, че математическите очаквания на всички сгрупите са равни помежду си, общата вариация е равна на сумата от квадратите на разликите между отделните наблюдения и общата средна стойност (средна средна), изчислена за всички проби. Пълна вариация:

Където - обща авария, X ij - аз-e наблюдение в й- група или ниво, n j- брой наблюдения в йта група, н - обща суманаблюдения във всички групи (т.е. н = н 1 + n 2 + … + n c), с- брой изучавани групи или нива.

Вариация между групите, обикновено наричана междугрупова сума от квадрати (SSA - сума от квадрати между групи), е равна на сумата от квадратите на разликите между средната стойност на извадката от всяка група йи общо средно , умножено по обема на съответната група n j:

Където с- брой изучавани групи или нива, n j- брой наблюдения в йта група, й- средна стойност йта група, - обща средна стойност.

Вариация в рамките на групата, обикновено наричана вътрешногрупова сума от квадрати (SSW - сума от квадрати в рамките на групите), е равна на сумата от квадрати на разликите между елементите на всяка група и средната стойност на извадката от тази група й:

Където хij - азти елемент йта група, й- средна стойност йта група.

Тъй като се сравняват сфакторни нива, междугруповата сума на квадратите има s – 1степени на свобода. Всеки от снива има n j – 1 степени на свобода, така че вътрешногруповият сбор от квадрати има н- Сстепени на свобода и

В допълнение, общата сума на квадратите има н – 1 степени на свобода, тъй като всяко наблюдение хijсе сравнява с общата средна стойност, изчислена за всички ннаблюдения. Ако всяка от тези суми се раздели на съответния брой степени на свобода, възникват три вида дисперсия: интергрупа(среден квадрат сред - MSA), вътрешногрупови(среден квадрат в рамките на - MSW) и пълен(общ среден квадрат - MST):

Въпреки факта, че основната цел на дисперсионния анализ е да се сравнят математическите очаквания сгрупи за идентифициране на ефекта от експерименталните условия, името му се дължи на факта, че основният инструмент е анализът на отклоненията различни видове. Ако нулевата хипотеза е вярна, и между математическите очаквания сгрупи няма значителни разлики, и трите дисперсии - MSA, MSW и MST - са оценки на дисперсията σ 2присъщи на анализираните данни. По този начин, за да тестваме нулевата хипотеза H 0: μ 1 = μ 2 = ... = μ sи алтернативна хипотеза H 1: не всички μ j са еднакви й = 1, 2, …, с), е необходимо да се изчисли статистика Е-критерий, който е отношението на две дисперсии, MSA и MSW. Тест Е-статистика при еднопосочен дисперсионен анализ

Статистика Е- подчинени на критерии Е-разпределение с s – 1степени на свобода в числителя M.S.A.И n – sстепени на свобода в знаменателя М.С.В.. За дадено ниво на значимост α, нулевата хипотеза се отхвърля, ако изчисленото Е ЕU, присъщо Е-разпределение с s – 1 n – sстепени на свобода в знаменателя. Така, както е показано на фиг. 4, решаващо правилоформулирана по следния начин: нулева хипотеза H 0отхвърлен ако F>FU; иначе не се отхвърля.

Ориз. 4. Критична област на дисперсионен анализ при тестване на хипотеза H 0

Ако нулевата хипотеза H 0е вярно, изчислено Е-статистиката е близка до 1, тъй като нейният числител и знаменател са оценки на една и съща величина - дисперсията σ 2, присъща на анализираните данни. Ако нулевата хипотеза H 0е невярно (и има значителна разлика между математическите очаквания на различните групи), изчислено Е- статистиката ще бъде много по-голяма от единица, тъй като нейният числител, MSA, оценява, в допълнение към естествената променливост на данните, ефекта от експерименталните условия или разликата между групите, докато знаменателят MSW оценява само естествената променливост на данните . По този начин процедурата ANOVA е Е-критерий, при който при дадено ниво на значимост α нулевата хипотеза се отхвърля, ако изчисленото Е-статистиките са по-големи от горната критична стойност ЕU, присъщо Е-разпределение с s – 1степени на свобода в числителя и n – sстепени на свобода в знаменателя, както е показано на фиг. 4.

За да илюстрираме еднопосочния анализ на дисперсията, нека се върнем към сценария, очертан в началото на бележката. Целта на експеримента е да се установи дали парашутите, изтъкани от синтетични влакна, получени от различни доставчици, имат еднаква здравина. Всяка група има пет парашута. Групите са разделени по към доставчици - Доставчик 1, Доставчик 2, Доставчик 3 и Доставчик 4. Якостта на парашутите се измерва с помощта на специално устройство, което тества тъканта за разкъсване от двете страни. Силата, необходима за счупване на парашут, се измерва на специална скала. Колкото по-висока е силата на скъсване, толкова по-здрав е парашутът. Excel ви позволява да анализирате Е- статистика с едно кликване. Преминете през менюто ДанниАнализ на даннии изберете линията Еднопосочна ANOVA, попълнете прозореца, който се отваря (фиг. 5). Експерименталните резултати (якост на скъсване), някои описателни статистики и резултатите от еднопосочен анализ на дисперсията са представени на фиг. 6.

Ориз. 5. Прозорец Еднопосочен анализ на пакета за анализ на отклоненията Excel

Ориз. 6. Индикатори за якост на парашути, изтъкани от синтетични влакна, получени от различни доставчици, описателна статистика и резултати от еднопосочен анализ на дисперсията

Анализът на фигура 6 показва, че има известна разлика между средните стойности на извадката. Средната якост на влакната, получени от първия доставчик е 19,52, от втория - 24,26, от третия - 22,84 и от четвъртия - 21,16. Статистически значима ли е тази разлика? Разпределението на силата на разкъсване е показано в диаграмата на разсейване (фиг. 7). То ясно показва различията както между, така и вътре в групите. Ако всяка група беше по-голяма по размер, за анализирането им можеше да се използва диаграма на стъбла и листа, графика в кутия или диаграма на звънец.

Ориз. 7. Диаграма на дисперсия на якост за парашути, изтъкани от синтетични влакна, получени от четирима доставчика.

Нулевата хипотеза гласи, че няма значителни разлики между средните резултати за сила: H 0: μ 1 = μ 2 = μ 3 = μ 4. Алтернативна хипотеза е, че има поне един доставчик, чиято средна здравина на влакната се различава от останалите: H 1: не всички μ j са еднакви ( й = 1, 2, …, с).

Обща средна стойност (вижте фиг. 6) = AVERAGE(D12:D15) = 21,945; за да определите, можете също да усредните всички 20 оригинални числа: = СРЕДНО(A3:D7). Изчисляват се стойностите на дисперсията Пакет за анализи се отразяват в табелата Дисперсионен анализ(вижте фиг. 6): SSA = 63.286, SSW = 97.504, SST = 160.790 (вижте колоната ССмаси Дисперсионен анализФигура 6). Средните стойности се изчисляват чрез разделяне на тези суми от квадрати на съответния брой степени на свобода. Тъй като с= 4, а н= 20, получаваме следните стойности на степените на свобода; за SSA: s – 1= 3; за SSW: n–c= 16; за SST: n – 1= 19 (вижте колоната df). Така: MSA = SSA / ( s – 1)= 21.095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n – 1) = 8,463 (вижте колоната Г-ЦА). Е-статистика = MSA / MSW = 3,462 (вижте колоната Е).

Горен критична стойност ЕU, характерни за Е-разпределение, определено по формулата =F.OBR(0,95;3;16) = 3,239. Параметри на функцията =F.OBR(): α = 0,05, числителят има три степени на свобода, а знаменателят има 16. Така изчислената Е-статистиката, равна на 3,462, надвишава горната критична стойност ЕU= 3.239, нулевата хипотеза се отхвърля (фиг. 8).

Ориз. 8. Критична област на дисперсионен анализ при ниво на значимост 0,05, ако числителят има три степени на свобода, а знаменателят е -16

Р-стойност, т.е. вероятността, че ако нулевата хипотеза е вярна Е-статистика не по-малка от 3,46, равна на 0,041 или 4,1% (вижте колоната p-стойностмаси Дисперсионен анализФигура 6). Тъй като тази стойност не надвишава нивото на значимост α = 5%, нулевата хипотеза се отхвърля. Освен това, Р-стойност показва, че вероятността за откриване на такава или по-голяма разлика между математическите очаквания на генералните съвкупности, при условие че те всъщност са еднакви, е равна на 4,1%.

Така. Има разлика между четирите примерни средни стойности. Нулевата хипотеза беше, че всички математически очаквания на четирите популации са равни. При тези условия се изчислява мярка за общата променливост (т.е. общата вариация на SST) на силата на всички парашути чрез сумиране на квадратите на разликите между всяко наблюдение X ijи общо средно . След това общата вариация беше разделена на два компонента (виж Фиг. 1). Първият компонент беше междугруповата вариация в SSA, а втората беше вътрешногруповата вариация в SSW.

Какво обяснява променливостта в данните? С други думи, защо всички наблюдения не са еднакви? Една от причините е, че различните компании доставят влакна с различна здравина. Това отчасти обяснява защо групите имат различни математически очаквания: колкото по-силен е ефектът от експерименталните условия, толкова по-голяма е разликата между математическите очаквания на групите. Друга причина за променливостта на данните е естествената променливост на всеки процес, в в такъв случай- производство на парашути. Дори ако всички влакна бяха закупени от един и същи доставчик, здравината им нямаше да бъде еднаква при равни други условия. Тъй като този ефект възниква във всяка група, той се нарича вариация в рамките на групата.

Разликите между средните стойности на извадката се наричат ​​междугрупова вариация SSA. Част от вариацията в рамките на групата, както вече беше посочено, се обяснява с принадлежността на данните различни групи. Въпреки това, дори ако групите бяха напълно еднакви (т.е. нулевата хипотеза беше вярна), вариация между групите пак щеше да съществува. Причината за това е естествената променливост на процеса на производство на парашут. Тъй като пробите са различни, техните средни стойности на извадката се различават една от друга. Следователно, ако нулевата хипотеза е вярна, променливостта между и в рамките на групата представлява оценка на променливостта на популацията. Ако нулевата хипотеза е невярна, хипотезата между групите ще бъде по-голяма. Именно този факт е в основата Е-критерии за сравняване на различията между математическите очаквания на няколко групи.

След извършване на еднопосочен ANOVA и установяване на значителна разлика между фирмите, остава неизвестно кой доставчик е значително различен от останалите. Знаем само, че математическите очаквания на генералните съвкупности не са еднакви. С други думи, поне едно от математическите очаквания е значително различно от останалите. За да определите кой доставчик е различен от останалите, можете да използвате Процедура Тъки, използвайки сравнения по двойки между доставчици. Тази процедура е разработена от John Tukey. Впоследствие той и К. Крамер независимо модифицират тази процедура за ситуации, в които размерите на извадките се различават един от друг.

Множествено сравнение: процедура Тъки-Крамер

В нашия сценарий беше използван еднопосочен анализ на дисперсията за сравняване на силата на парашутите. След като са открити значителни разлики между математическите очаквания на четирите групи, е необходимо да се определи кои групи се различават една от друга. Въпреки че има няколко начина за решаване на този проблем, ние ще опишем само процедурата за множествено сравнение на Tukey-Kramer. Този метод е пример за процедури за post hoc сравнение, тъй като хипотезата, която се тества, се формулира след анализ на данните. Процедурата на Tukey-Kramer позволява всички двойки групи да бъдат сравнени едновременно. На първия етап се изчисляват разликите хй й, Където j ≠й, между математическите очаквания s(s – 1)/2групи. Критичен обхватПроцедурата на Tukey-Kramer се изчислява по формулата:

Където Q U- горната критична стойност на студентизираното разпределение на диапазона, която има сстепени на свобода в числителя и н - Сстепени на свобода в знаменателя.

Ако размерите на извадката не са еднакви, критичният диапазон се изчислява за всяка двойка математически очаквания поотделно. На последния етап всеки от s(s – 1)/2двойки математически очаквания се сравняват със съответния критичен диапазон. Елементите на една двойка се считат за значително различни, ако модулът на разликата | X j й| между тях надхвърля критичния диапазон.

Нека приложим процедурата на Тъки-Крамер към проблема за здравината на парашутите. Тъй като парашутната компания има четирима доставчици, има 4(4 – 1)/2 = 6 двойки доставчици за проверка (Фигура 9).

Ориз. 9. Сравнения по двойки на извадкови средни стойности

Тъй като всички групи имат еднакъв обем (т.е. всички n j = n j), достатъчно е да се изчисли само един критичен диапазон. За да направите това, според таблицата ANOVA(фиг. 6) определяме стойността MSW = 6,094. След това намираме стойността Q Uпри α = 0,05, с= 4 (брой степени на свобода в числителя) и н- С= 20 – 4 = 16 (броят на степените на свобода в знаменателя). За съжаление не намерих съответната функция в Excel, затова използвах таблицата (фиг. 10).

Ориз. 10. Критична стойност на студентизирания диапазон Q U

Получаваме:

Тъй като само 4,74 > 4,47 (вижте долната таблица на фиг. 9), съществува статистически значима разлика между първия и втория доставчик. Всички останали двойки имат примерни средства, които не ни позволяват да говорим за техните различия. Следователно средната якост на парашутите, изтъкани от влакна, закупени от първия доставчик, е значително по-малка от тази на втория.

Необходими условия за еднопосочен дисперсионен анализ

При решаването на проблема със здравината на парашутите не проверихме дали условията, при които е възможно да се използва еднофакторен Е-критерий. Как да разберете дали можете да използвате един фактор Е-критерий при анализиране на конкретни експериментални данни? Единичен фактор Е-критерият може да се приложи само ако са изпълнени три основни допускания: експерименталните данни трябва да са случайни и независими, да имат нормално разпределение и дисперсиите им да са равни.

Първо предположение - произволност и независимост на данните- винаги трябва да се извършва, тъй като коректността на всеки експеримент зависи от случайността на избора и/или процеса на рандомизация. За да се избегнат отклонения в резултатите, е необходимо данните да бъдат извлечени от сгенерални съвкупности на случаен принцип и независимо една от друга. По същия начин данните трябва да бъдат разпределени на случаен принцип снива на фактора, който ни интересува (експериментални групи). Нарушаването на тези условия може сериозно да изкриви резултатите от дисперсионния анализ.

Второ предположение - нормалност- означава, че данните са извлечени от нормално разпределени популации. Що се отнася до T-критерии, еднопосочен дисперсионен анализ въз основа на Е-критерият е относително малко чувствителен към нарушаване на това условие. Ако разпределението не се отклонява твърде значително от нормалното, нивото на значимост Е-критерият се променя малко, особено ако размерът на извадката е достатъчно голям. Ако условието за нормалност на разпределението е сериозно нарушено, трябва да се приложи.

Трето предположение - хомогенност на дисперсията- означава, че дисперсиите на всяка популация са равни една на друга (т.е. σ 1 2 = σ 2 2 = ... = σ j 2). Това предположение позволява да се реши дали да се отделят или да се обединят вариациите в рамките на групата. Ако размерите на групите са еднакви, условието за хомогенност на дисперсията има малък ефект върху заключенията, получени с помощта на Е- критерии. Въпреки това, ако размерите на извадката са неравни, нарушаването на условието за равенство на дисперсиите може сериозно да изкриви резултатите от анализа на дисперсията. Следователно трябва да се положат усилия, за да се гарантира, че размерите на извадката са еднакви. Един от методите за проверка на предположението за хомогенност на дисперсията е критерият Левенописани по-долу.

Ако от всичките три условия е нарушено само условието за хомогенност на дисперсията, процедура, подобна на T-критерий, използващ отделна вариация (за повече подробности вижте). Въпреки това, ако предположения за нормална дистрибуцияи хомогенността на дисперсията е нарушена в същото време, е необходимо да се нормализират данните и да се намалят разликите между дисперсиите или да се приложи непараметрична процедура.

Тест на Левен за тестване на хомогенността на дисперсията

Макар че Е- критерият е относително устойчив на нарушения на условието за равенство на дисперсиите в групи; грубото нарушение на това предположение значително влияе върху нивото на значимост и мощност на критерия. Може би един от най-мощните е критерият Левен. За проверка на равенството на дисперсиите собщи популации, ще тестваме следните хипотези:

Н 0: σ 1 2 = σ 2 2 = … = σй 2

H 1: Не всички σ j 2са същите ( й = 1, 2, …, с)

Модифицираният тест на Levene се основава на твърдението, че ако променливостта в групите е еднаква, анализът на дисперсията на абсолютните стойности на разликите между наблюденията и груповите медиани може да се използва за тестване на нулевата хипотеза за равенство на дисперсиите. Така че първо трябва да изчислите абсолютните стойности на разликите между наблюденията и медианите във всяка група и след това да извършите еднопосочен анализ на дисперсията на получените абсолютни стойности на разликите. За да илюстрираме критерия на Левен, нека се върнем към сценария, очертан в началото на бележката. Използвайки данните, представени на фиг. 6, ще проведем подобен анализ, но по отношение на модулите на разликите в изходните данни и медианите за всяка извадка поотделно (фиг. 11).

Дисперсионен анализ

1. Концепция за дисперсионен анализ

Дисперсионен анализе анализ на изменчивостта на даден признак под въздействието на всякакви контролирани променливи фактори. В чуждестранната литература дисперсионният анализ често се нарича ANOVA, което се превежда като анализ на променливостта (Analysis of Variance).

ANOVA проблемсе състои в изолиране на променливост от различен вид от общата променливост на черта:

а) променливост, дължаща се на действието на всяка от изследваните независими променливи;

б) променливост, дължаща се на взаимодействието на изследваните независими променливи;

в) случайна променливост, дължаща се на всички други неизвестни променливи.

Променливостта, дължаща се на действието на изследваните променливи и тяхното взаимодействие, е свързана със случайната променливост. Индикатор за тази връзка е F тестът на Фишер.

Формулата за изчисляване на критерия F включва оценки на дисперсиите, т.е. параметрите на разпределението на атрибута, следователно критерият F е параметричен критерий.

Колкото повече променливостта на дадена черта се дължи на изследваните променливи (фактори) или тяхното взаимодействие, толкова по-висока е емпирични критериални стойности.

Нула хипотезата при анализа на дисперсията ще гласи, че средните стойности на изследваната ефективна характеристика са еднакви във всички градации.

алтернатива хипотезата ще твърди, че средните стойности на получената характеристика в различните градации на изследвания фактор са различни.

Анализът на дисперсията ни позволява да посочим промяна в характеристика, но не показва посокатези промени.

Нека започнем нашето разглеждане на дисперсионния анализ с най-простия случай, когато изучаваме действието само на единпроменлива (един фактор).

2. Еднопосочен дисперсионен анализ за несвързани проби

2.1. Цел на метода

Методът на еднофакторния дисперсионен анализ се използва в случаите, когато се изследват промени в ефективна характеристика под влияние на променящи се условия или градации на фактор. В тази версия на метода влиянието на всяка от градациите на фактора е различенпроби от предмети. Трябва да има поне три степени на фактора. (Може да има две градации, но в този случай няма да можем да установим нелинейни зависимости и изглежда по-разумно да използваме по-прости).

Непараметрична версия на този тип анализ е H тестът на Kruskal-Wallis.

Хипотези

H 0: Разликите между степени на фактор (различни условия) не са по-големи от случайни разлики във всяка група.

H 1: Разликите между факторните степени (различни условия) са по-големи от случайните разлики във всяка група.

2.2. Ограничения на еднопосочния дисперсионен анализ за несвързани проби

1. Еднопосочният анализ на дисперсията изисква най-малко три градации на фактора и поне два субекта във всяка градация.

2. Получената характеристика трябва да бъде нормално разпределена в изследваната проба.

Вярно е, че обикновено не се посочва дали говорим за разпределение на характеристиката в цялата изследвана извадка или в тази част от нея, която съставлява дисперсионния комплекс.

3. Пример за решаване на проблем с помощта на метода на еднопосочен дисперсионен анализ за несвързани проби, използвайки примера:

Три различни групи от шест субекта получиха списъци от десет думи. На първата група думите се представят с ниска скорост - 1 дума за 5 секунди, на втората група със средна скорост - 1 дума на 2 секунди и на третата група с висока скорост - 1 дума в секунда. Беше предвидено, че ефективността на възпроизвеждане зависи от скоростта на представяне на думата. Резултатите са представени в табл. 1.

Брой възпроизведени думи маса 1

Предмет №

ниска скорост

Средната скорост

висока скорост

обща сума

H 0: Разлики в обхвата на производството на думи междугрупите не са по-изразени от случайните разлики вътревсяка група.

H1: Разлики в обема на производството на думи междугрупите са по-изразени от случайните разлики вътревсяка група. Използвайки експерименталните стойности, представени в табл. 1, ще установим някои стойности, които ще са необходими за изчисляване на критерия F.

Изчисляването на основните величини за еднопосочен дисперсионен анализ е представено в таблицата:

таблица 2

Таблица 3

Последователност от операции при еднопосочен дисперсионен анализ за несвързани проби

Често срещано в тази и следващите таблици обозначението SS е съкращение за „сума на квадрати“. Това съкращение се използва най-често в преводните източници.

СС фактозначава променливостта на характеристиката поради действието на изследвания фактор;

СС в общи линии- обща изменчивост на признака;

С C.A.-променливост поради неотчетени фактори, „случайна” или „остатъчна” променливост.

Г-ЦА- „среден квадрат“, или математическото очакване на сумата от квадрати, средната стойност на съответната SS.

df - броят на степените на свобода, които при разглеждане на непараметрични критерии обозначаваме с гръцка буква v.

Заключение: H 0 се отхвърля. H 1 се приема. Разликите в припомнянето на думи между групите са по-големи от случайните разлики във всяка група (α=0,05). И така, скоростта на представяне на думите влияе върху обема на тяхното възпроизвеждане.

Пример за решаване на проблема в Excel е представен по-долу:

Първоначални данни:

Използвайки командата: Инструменти->Анализ на данни->Еднопосочна ANOVA, получаваме следните резултати:

Еднофакторен дисперсионен моделизглежда като

Където Xjj-стойността на изследваната променлива, получена върху g-нивофактор (r = 1, 2,..., T)такаооо сериен номер (j- 1,2,..., P);/y - ефект, дължащ се на влиянието на i-то ниво на фактора; д^. - случаен компонент или смущение, причинено от влиянието на неконтролируеми фактори, т.е. вариация на променлива в рамките на индивидуално ниво.

Под факторно нивосе отнася до някаква негова мярка или състояние, например количеството на приложения тор, вида на топенето на метала или партидния брой части и т.н.

Основни предпоставки на дисперсионния анализ.

1. Математическо очакване на смущение ? (/ - е равно на нула за всяко i,тези.

  • 2. Смущенията са взаимно независими.
  • 3. Дисперсията на смущението (или променливата Xy) е постоянна за всеки ij>тези.

4. Смущението e# (или променливата Xy) има нормален закон на разпределение N( 0; а 2).

Влиянието на факторните нива може да бъде като фиксирани, или систематичен(модел I) и случаен(модел II).

Да предположим, например, че е необходимо да се установи дали има значителни разлики между партиди от продукти по отношение на някакъв показател за качество, т.е. проверка на влиянието върху качеството на един фактор - партида от продукти. Ако включим всички партиди суровини в изследването, тогава влиянието на нивото на такъв фактор е систематично (модел I) и получените заключения са приложими само за онези отделни партиди, които са включени в изследването; ако включим само произволно избрана част от партиите, тогава влиянието на фактора е случайно (модел II). В многофакторните комплекси е възможен смесен модел III, при който някои фактори имат произволни нива, докато други имат фиксирани нива.

Нека разгледаме тази задача по-подробно. Нека има Tпартиди продукти. Избрани от всяка партида съответно p L, p 2 ,p tпродукти (за простота приемаме, че u = n 2 =... = p t = p).Представяме стойностите на показателя за качество на тези продукти под формата на матрица за наблюдение


Необходимо е да се провери значимостта на влиянието на продуктовите партиди върху тяхното качество.

Ако приемем, че елементите на редовете на матрицата за наблюдение са числени стойности (реализации) на случайни променливи X t, X 2 ,..., X t,изразяващи качеството на продуктите и имащи нормален закон на разпределение с математически очаквания, респ a v a 2, ..., a tи идентични дисперсии a 2, тогава тази задачасе свежда до тестване на нулева хипотеза #0: a v = a 2l = ... = А t, извършено при дисперсионен анализ.

Нека означим осредняването по някакъв индекс със звездичка (или точка) вместо с индекс, тогава средно аритметичнокачество на продуктите от партидата i, или средна групаза i-то ниво на фактора, приема формата

А обща средна стойност -

Нека разгледаме сумата от квадратите на отклоненията на наблюденията от общата средна стойност x„:

или Q = Q, + Въпрос 2+ ?>з Последен срок

тъй като сумата от отклоненията на стойностите на променливата от нейната средна стойност, т.е. ? 1.g y - x) е равно на нула. ) =x

Първият член може да бъде записан във формата

В резултат на това получаваме следната идентичност:

и т.н. _

Където Q = Y,х [ x ij _ x„, I 2 - общ,или пълен,сума на квадратите на отклоненията; 7=1

Q, -н^)

Ново в сайта

>

Най - известен