Mājas Mutes dobums Dispersijas analīzes metodes. Vienvirziena ANOVA

Dispersijas analīzes metodes. Vienvirziena ANOVA

5.1. Kas notika dispersijas analīze?

Dispersijas analīzi 20. gadsimta 20. gados izstrādāja angļu matemātiķis un ģenētiķis Ronalds Fišers. Saskaņā ar zinātnieku aptauju, kurā tika noskaidrots, kam bija vislielākā ietekme uz 20. gadsimta bioloģiju, čempionu saņēma sers Fišers (par viņa nopelniem viņam tika piešķirts bruņinieka tituls - viens no augstākajiem apbalvojumiem Lielbritānijā) ; šajā ziņā Fišers ir salīdzināms ar Čārlzu Darvinu, vislielāko ietekmi uz 19. gadsimta bioloģiju.

Dispersijas analīze tagad ir atsevišķa statistikas nozare. Tas ir balstīts uz Fišera atklāto faktu, ka pētāmā lieluma mainīguma mēru var sadalīt daļās, kas atbilst šo daudzumu ietekmējošiem faktoriem un nejaušām novirzēm.

Lai saprastu dispersijas analīzes būtību, viena veida aprēķinus veiksim divas reizes: “manuāli” (ar kalkulatoru) un izmantojot programmu Statistica. Lai vienkāršotu savu uzdevumu, mēs nestrādāsim ar faktiskā zaļo varžu daudzveidības apraksta rezultātiem, bet gan ar fiktīvu piemēru, kas attiecas uz mātīšu un tēviņu salīdzināšanu cilvēkiem. Apsveriet 12 pieaugušo auguma dažādību: 7 sievietes un 5 vīrieši.

5.1.1. tabula. Piemērs vienvirziena ANOVA: dati par 12 cilvēku dzimumu un augumu

Veiksim vienvirziena dispersijas analīzi: salīdziniet, vai raksturotajā grupā vīrieši un sievietes atšķiras pēc auguma statistiski nozīmīgi vai nē.

5.2. Normālā sadalījuma pārbaude

Papildu argumentācija ir balstīta uz faktu, ka sadalījums aplūkotajā paraugā ir normāls vai tuvu normālam. Ja sadalījums ir tālu no normāla, dispersija (dispersija) nav adekvāts tās mainīguma mērs. Tomēr dispersijas analīze ir relatīvi izturīga pret sadalījuma novirzēm no normalitātes.

Šo datu normalitātes pārbaudi var veikt divos dažādos veidos. Vispirms: Statistika / Pamatstatistika / Tabulas / Aprakstošā statistika / Normalitātes cilne. Cilnē Normalitāte Varat izvēlēties, kādus normalitātes testus izmantot. Noklikšķinot uz pogas Frekvenču tabulas, parādīsies frekvenču tabula, un poga Histogrammas parādīs histogrammu. Tabulā un histogrammā būs redzami dažādu testu rezultāti.

Otrā metode ir saistīta ar atbilstošu iespēju izmantošanu, veidojot histogrammas. Dialoglodziņā histogrammu veidošanai (Grafs/Histograms...) atlasiet cilni Papildu. Apakšā ir statistikas bloks. Atzīmēsim uz tā Shapiro-Wilk t est un Kolmogorova-Smirnova tests, kā parādīts attēlā.

Rīsi. 5.2.1. Statistiskie testi sadalījuma normalitātei histogrammas zīmēšanas dialoglodziņā

Kā redzams no histogrammas, augšanas sadalījums mūsu paraugā atšķiras no parastā (vidū ​​ir “atteice”).


Rīsi. 5.2.2. Histogramma, kas izveidota ar parametriem, kas norādīti iepriekšējā attēlā

Trešā rindiņa grafika nosaukumā norāda normālā sadalījuma parametrus, kuriem novērotais sadalījums izrādījās vistuvākais. Kopējais vidējais ir 173, un kopējā standarta novirze ir 10,4. Zemāk esošajā diagrammā redzami normalitātes testu rezultāti. D ir Kolmogorova-Smirnova tests, un SW-W ir Šapiro-Vilka tests. Kā redzams, visiem izmantotajiem testiem atšķirības starp augstuma sadalījumu un normālo sadalījumu izrādījās statistiski nenozīmīgas ( lpp visos gadījumos lielāks par 0,05).

Tātad, formāli runājot, testi, lai sadalījums būtu normāls, mums “neaizliedza” izmantot parametrisko metodi, kas balstīta uz normālā sadalījuma pieņēmumu. Kā jau minēts, dispersijas analīze ir salīdzinoši izturīga pret novirzēm no normas, tāpēc mēs to joprojām izmantosim.

5.3. Vienvirziena dispersijas analīze: manuāli aprēķini

Lai raksturotu cilvēku auguma mainīgumu dotajā piemērā, aprēķināsim noviržu kvadrātā summu (angļu valodā apzīmēta kā SS , kvadrātu summa vai ) atsevišķas vērtības no vidējā: . Auguma vidējā vērtība iepriekš minētajā piemērā ir 173 centimetri. Pamatojoties uz to,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Iegūtā vērtība (1192) ir visas datu kopas mainīguma mērs. Tomēr tie sastāv no divām grupām, no kurām katrai var būt savs vidējais rādītājs. Dotajos datos vidēja auguma sievietes - 168 cm, bet vīrieši - 180 cm.

Aprēķināsim sieviešu noviržu kvadrātu summu:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Mēs aprēķinām arī vīriešu noviržu kvadrātu summu:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

No kā ir atkarīga pētāmā vērtība saskaņā ar dispersijas analīzes loģiku?

divas aprēķinātās vērtības, SS f Un SS m , raksturo grupas iekšējo variāciju, ko dispersijas analīzē parasti sauc par “kļūdu”. Šī nosaukuma izcelsme ir saistīta ar šādu loģiku.

Kas šajā piemērā nosaka cilvēka augumu? Pirmkārt, par cilvēku vidējo augumu kopumā, neatkarīgi no viņu dzimuma. Otrkārt - no grīdas. Ja viena dzimuma cilvēki (vīrietis) ir garāki par otru (sieviete), to var attēlot kā papildinājumu kādas vērtības “universālajam” vidējam rādītājam, dzimuma efektam. Visbeidzot, viena dzimuma cilvēki atšķiras pēc auguma individuālo atšķirību dēļ. Modelī, kas apraksta augstumu kā cilvēka vidējā un dzimuma korekcijas summu, individuālās atšķirības nav izskaidrojamas un var tikt uzskatītas par "kļūdu".

Tātad saskaņā ar dispersijas analīzes loģiku pētāmā vērtība tiek noteikta šādi: , Kur x ij - pētāmā daudzuma i-tā vērtība pie pētāmā faktora j-tās vērtības; - vispārējais vidējais; Fj - pētāmā faktora j-tās vērtības ietekme; - “kļūda”, objekta, uz kuru attiecas vērtība, individualitātes ieguldījumsx ij .

Starpgrupu kvadrātu summa

Tātad, SS kļūdas = SS f + SS m = 212 + 560 = 772. Ar šo vērtību mēs aprakstījām grupas iekšējo mainīgumu (atšķirot grupas pēc dzimuma). Bet ir arī otra mainīguma daļa – starpgrupu mainīgums, ko mēs sauksimSS efekts (jo mēs runājam par aplūkojamo objektu kopuma sadalīšanas efektu sievietēm un vīriešiem).

Katras grupas vidējais rādītājs atšķiras no kopējā vidējā. Aprēķinot šīs atšķirības ieguldījumu kopējā mainīguma mērī, mums ir jāreizina starpība starp grupu un kopējo vidējo ar objektu skaitu katrā grupā.

SS efekts = = 7 × (168–173) 2 + 5 × (180–173) 2 = 7 × 52 + 5 × 72 = 7 × 25 + 5 × 49 = 175 + 245 = 420.

Šeit izpaudās Fišera atklātais kvadrātu summas nemainīguma princips: SS = efekts SS + kļūda SS , t.i. šajā piemērā 1192 = 440 + 722.

Vidējie kvadrāti

Salīdzinot starpgrupu un iekšgrupu kvadrātu summas mūsu piemērā, mēs varam redzēt, ka pirmā ir saistīta ar divu grupu variācijām, bet otrā ir saistīta ar 12 vērtībām 2 grupās. Brīvības pakāpju skaits ( df ) kādam parametram var definēt kā starpību starp objektu skaitu grupā un atkarību (vienādojumu) skaitu, kas savieno šos lielumus.

Mūsu piemērā df efekts = 2–1 = 1, A df kļūdas = 12–2 = 10.

Mēs varam dalīt kvadrātu summas ar to brīvības pakāpju skaitu, iegūstot vidējos kvadrātus ( JAUNKUNDZE , Kvadrātu līdzekļi). Kad tas ir izdarīts, mēs varam to konstatēt JAUNKUNDZE - nekas vairāk kā variācijas (“dispersijas”, kvadrātu summas dalīšanas rezultāts ar brīvības pakāpju skaitu). Pēc šī atklājuma mēs varam saprast ANOVA tabulas struktūru. Mūsu piemērā tas izskatīsies šādi:

Efekts

Kļūda

MS efekts Un MS kļūdas ir starpgrupu un iekšējās grupas dispersijas aprēķini, un tāpēc tos var salīdzināt saskaņā ar kritērijuF (Snedecor kritērijs, nosaukts Fišera vārdā), paredzēts variāciju salīdzināšanai. Šis kritērijs ir vienkārši koeficients, kurā lielākā variācija tiek dalīta ar mazāko. Mūsu gadījumā tas ir 420 / 77,2 = 5,440.

Fišera testa statistiskās nozīmīguma noteikšana, izmantojot tabulas

Ja efekta statistisko nozīmīgumu noteiktu manuāli, izmantojot tabulas, mums būtu jāsalīdzina iegūtā kritērija vērtība F ar kritisko vērtību, kas atbilst noteiktam statistiskās nozīmīguma līmenim noteiktām brīvības pakāpēm.


Rīsi. 5.3.1. Tabulas fragments ar kritiskām kritērija vērtībām F

Kā redzat, statistiskā nozīmīguma līmenim p=0,05 kritērija kritiskā vērtība irF ir 4,96. Tas nozīmē, ka mūsu piemērā pētītā dzimuma ietekme tika reģistrēta statistiskā nozīmīguma līmenī 0,05.

Iegūto rezultātu var interpretēt šādi. Nulles hipotēzes varbūtība, saskaņā ar kuru sieviešu un vīriešu vidējais augums ir vienāds un reģistrētā auguma atšķirība ir nejaušības dēļ izlases atlasē, ir mazāka par 5%. Tas nozīmē, ka jāizvēlas alternatīvā hipotēze, ka sieviešu un vīriešu vidējais augums ir atšķirīgs.

5.4. Vienvirziena dispersijas analīze ( ANOVA) Statistica pakotnē

Gadījumos, kad aprēķini tiek veikti nevis manuāli, bet izmantojot atbilstošas ​​programmas (piemēram, Statistica pakotni), vērtību lpp noteikts automātiski. Varat pārbaudīt, vai tā ir nedaudz lielāka par kritisko vērtību.

Lai analizētu apspriežamo piemēru, izmantojot visvienkāršāko dispersijas analīzes versiju, failam ar atbilstošajiem datiem ir jāpalaiž statistikas/ANOVA procedūra un logā Analīzes veids atlasiet vienvirziena ANOVA opcija un dialoglodziņā Ātrās specifikācijas. opciju Specifikācijas metodes logā.


Rīsi. 5.4.1. Dialog General ANOVA/MANOVA (dispersijas analīze)

Atvērtajā ātrā dialoga logā laukā Mainīgie jānorāda tās kolonnas, kurās ir dati, kuru mainīgumu mēs pētām (Atkarīgo mainīgo saraksts; mūsu gadījumā kolonna Izaugsme), kā arī kolonna, kurā ir vērtības ​kas sadala pētāmo vērtību grupās (kategoriskais prognozētājs (faktors); mūsu gadījumā kolonna Dzimums). Šajā analīzes versijā atšķirībā no daudzfaktoru analīzes var ņemt vērā tikai vienu faktoru.


Rīsi. 5.4.2. Dialoga vienvirziena ANOVA (vienvirziena dispersijas analīze)

Logā Faktoru kodi jānorāda tās attiecīgā faktora vērtības, kuras ir jāapstrādā šīs analīzes laikā. Visas pieejamās vērtības var apskatīt, izmantojot tālummaiņas pogu; ja, tāpat kā mūsu piemērā, jums ir jāņem vērā visas faktora vērtības (un dzimumam mūsu piemērā ir tikai divas), varat noklikšķināt uz pogas Visas. Kad ir norādītas apstrādājamās kolonnas un faktoru kodi, varat noklikšķināt uz Labi un pāriet uz logu ātra analīze rezultāti: ANOVA rezultāti 1, cilnē Ātrā.

Rīsi. 5.4.3. ANOVA rezultātu loga ātrā cilne

Poga Visi efekti/grafiki ļauj redzēt, kā salīdzināt divu grupu vidējos rādītājus. Virs grafika ir norādīts brīvības pakāpju skaits, kā arī attiecīgā faktora F un p vērtības.


Rīsi. 5.4.4. ANOVA rezultātu grafiskais attēlojums

Poga Visi efekti ļauj iegūt dispersijas tabulu, kas ir līdzīga iepriekš aprakstītajai (ar dažām būtiskām atšķirībām).


Rīsi. 5.4.5. Tabula ar dispersijas analīzes rezultātiem (salīdzināt ar līdzīgu tabulu, kas iegūta “manuāli”)

Tabulas apakšējā rindā ir parādīta kvadrātu summa, brīvības pakāpju skaits un kļūdas vidējie kvadrāti (mainība grupas ietvaros). Iepriekš redzamajā rindā ir līdzīgi rādītāji pētāmajam faktoram (in šajā gadījumā- zīme Dzimums), kā arī kritērijs F (efekta vidējo kvadrātu attiecība pret kļūdas vidējiem kvadrātiem) un tās statistiskās nozīmīguma līmeni. To, ka apskatāmā faktora ietekme izrādījās statistiski nozīmīga, liecina sarkanā krāsa.

Un pirmajā rindā ir parādīti dati par indikatoru “Pārtvert”. Šis Tabulas rinda sniedz noslēpumu lietotājiem, kuri pievienojas Statistica tās 6. vai jaunākā versijā. Pārtveršanas vērtība, iespējams, ir saistīta ar visu datu vērtību kvadrātu summas sadalījumu (t.i., 1862 + 1692 ... = 360340). Tam norādītā F kritērija vērtība tika iegūta dalot MS pārtveršana/MS kļūda = 353220 / 77,2 = 4575,389 un, protams, sniedz ļoti lielu zema vērtība lpp . Interesanti, ka programmā Statistica-5 šī vērtība vispār netika aprēķināta, un jaunāko pakotnes versiju lietošanas rokasgrāmatās nekādi nav komentēti tās ieviešana. Iespējams, labākais, ko var darīt biologs, kurš izmanto Statistica-6 un jaunākas versijas, ir vienkārši ignorēt rindu Intercept ANOVA tabulā.

5.5. ANOVA un Studenta un Fišera t-testi: kurš ir labāks?

Kā jūs, iespējams, pamanījāt, datus, ko salīdzinājām, izmantojot vienvirziena dispersijas analīzi, mēs varētu pārbaudīt arī, izmantojot Stjudenta un Fišera testus. Salīdzināsim šīs divas metodes. Lai to izdarītu, aprēķināsim vīriešu un sieviešu auguma atšķirību, izmantojot šos kritērijus. Lai to izdarītu, mums būs jāiet ceļš Statistika / Pamatstatistika / t-tests, neatkarīgs, pa grupām. Protams, atkarīgie mainīgie ir izaugsmes mainīgais, bet grupēšanas mainīgais ir dzimuma mainīgais.


Rīsi. 5.5.1. Ar ANOVA apstrādāto datu salīdzinājums, izmantojot Stjudenta un Fišera testus

Kā redzat, rezultāts ir tāds pats kā izmantojot ANOVA. lpp = 0,041874 abos gadījumos, kā parādīts attēlā. 5.4.5, un parādīts attēlā. 5.5.2 (skatieties paši!).


Rīsi. 5.5.2. Analīzes rezultāti (detalizēts rezultātu tabulas skaidrojums - Studenta pārbaudījumam veltītajā rindkopā)

Ir svarīgi uzsvērt, ka, lai gan F kritērijs no matemātiskā viedokļa aplūkotajā analīzē saskaņā ar Stjudenta un Fišera testiem ir tāds pats kā ANOVA (un izsaka dispersijas koeficientu), tā nozīme analīzes rezultātos, kas parādīti fināla galds ir pavisam cits. Salīdzinot ar Stjudenta un Fišera testiem, izlases vidējo salīdzināšanu veic ar Stjudenta testu, bet to mainīguma salīdzināšanu ar Fišera testu. Analīzes rezultāti parāda nevis pašu variāciju, bet gan to Kvadrātsakne- standarta novirze.

No otras puses, ANOVA izmanto Fišera testu, lai salīdzinātu dažādu paraugu vidējos lielumus (kā mēs runājām, tas tiek darīts, sadalot kvadrātu summu daļās un salīdzinot to kvadrātu vidējo summu, kas atbilst starp grupas un grupas iekšienē mainīgums).

Tomēr iepriekš minētā atšķirība attiecas uz statistikas pētījuma rezultātu izklāstu, nevis uz tā būtību. Piemēram, kā norāda Glantz (1999, 99. lpp.), grupu salīdzināšanu, izmantojot Stjudenta t testu, var uzskatīt par īpašs gadījums dispersijas analīze diviem paraugiem.

Tātad, paraugu salīdzināšanai, izmantojot Studenta un Fišera testus, ir viena lieta svarīga priekšrocība pirms dispersijas analīzes: tajā paraugus var salīdzināt to mainīguma ziņā. Taču dispersijas analīzes priekšrocības joprojām ir nozīmīgākas. Tie ietver, piemēram, iespēju vienlaikus salīdzināt vairākus paraugus.

Dispersijas analīze ir statistikas metode, kas izstrādāta, lai novērtētu dažādu faktoru ietekmi uz eksperimenta rezultātu, kā arī turpmākai līdzīgu eksperimentu plānošanai.

Sākotnēji (1918. gadā) dispersijas analīzi izstrādāja angļu matemātiķis un statistiķis R.A. Fišeram apstrādāt agrotehnisko eksperimentu rezultātus, lai noteiktu apstākļus dažādu šķirņu lauksaimniecības kultūru maksimālās ražas iegūšanai.

Veicot eksperimentu, ir jāievēro šādi nosacījumi:

    Katrs eksperimenta variants jāveic vairākās novērošanas vienībās (dzīvnieku grupās, lauka daļās utt.)

    Novērošanas vienību sadalījumam starp eksperimentālajiem variantiem jābūt nejaušam, nevis apzinātam.

ANOVA lietojumi F- kritērijs(R.A. Fišera kritērijs), kas atspoguļo divu dispersiju attiecību:

kur d fakts, d atlikums ir attiecīgi faktoriālās (starpgrupu) un atlikušās (grupas iekšējās) dispersijas atkarībā no brīvības pakāpes.

Faktoru un atlikušās dispersijas ir populācijas dispersijas aprēķini, kas aprēķināti no izlases datiem, ņemot vērā variācijas brīvības pakāpju skaitu.

Faktoriālā (starpgrupu) dispersija izskaidro efektīvā raksturlieluma variāciju pētāmā faktora ietekmē.

Atlikušā (grupas) dispersija izskaidro efektīvā raksturlieluma variāciju citu faktoru ietekmes dēļ (izņemot pētāmā faktora ietekmi).

Summējot, faktora un atlikušās dispersijas dod kopējo dispersiju, izsakot visu faktoru raksturlielumu ietekmi uz rezultēto.

Dispersijas analīzes veikšanas procedūra:

1. Eksperimentālie dati tiek ievadīti aprēķinu tabulā un tiek noteikti apjomi un vidējās vērtības katrā pētāmo populāciju grupā, kā arī kopējais apjoms un vidējā vērtība visai populācijai (1. tabula).

1. tabula

Iegūtā raksturlieluma vērtība i-tajai vienībai

j-tajā grupā x ij

Novērojumu skaits, f j

Vidējais (grupa un kopsumma), x j

x 11, x 12, …, x 1 n

x 21, x 22, …, x 2 n

x m 1, x m 2, ..., x mn

Kopējais novērojumu skaits n aprēķina kā novērojumu skaita summu f j katrā grupā:

Ja visām grupām ir vienāds elementu skaits, tad kopējais vidējais tiek atrasts no grupas līdzekļiem kā vienkāršs vidējais aritmētiskais:

Ja elementu skaits grupās ir atšķirīgs, tad kopējais vidējais aprēķina, izmantojot vidējo svērto aritmētisko formulu:

2. Tiek noteikta kopējā dispersija D vispār kā iegūtā raksturlieluma individuālo vērtību noviržu kvadrātu summu no kopējā vidējā :

3. Tiek aprēķināta faktoriālā (starpgrupu) dispersija D fakts kā grupas vidējo noviržu summa kvadrātā no kopējā vidējā , reizināts ar novērojumu skaitu:

4. Tiek noteikta atlikušās (grupas iekšējās) dispersijas vērtība D ost kā starpība starp kopējo D vispār un faktoriāls D fakts dispersijas:

5. Aprēķināt faktora brīvības pakāpju skaitu
dispersiju kā starpību starp grupu skaitu m un vienība:

6. Noteikts atlikušās dispersijas brīvības pakāpju skaits
kā atšķirība starp raksturlieluma individuālo vērtību skaitu n un grupu skaitu m:

7. Aprēķināta faktoru dispersijas vērtība uz vienu brīvības pakāpi d fakts kā faktoru dispersijas koeficientu D fakts līdz faktoru dispersijas brīvības pakāpju skaitam
:

8. Noteikta atlikušās dispersijas vērtība uz vienu brīvības pakāpi d ost kā atlikušās dispersijas koeficientu D ost līdz atlikušās dispersijas brīvības pakāpju skaitam
:

9. Tiek noteikta F-kritērija aprēķinātā vērtība F- aprēķins kā faktoru dispersijas attiecība pret brīvības pakāpi d fakts līdz atlikušajai dispersijai uz vienu brīvības pakāpi d ost :

10. Izmantojot Fišera F testa tabulu, ņemot vērā pētījumā pieņemto nozīmīguma līmeni, kā arī ņemot vērā faktoru un atlikušo dispersiju brīvības pakāpes, tiek atrasta teorētiskā vērtība. F tabula .

5% nozīmīguma līmenis atbilst 95% varbūtības līmenim, un 1% nozīmīguma līmenis atbilst 99% varbūtības līmenim. Vairumā gadījumu tiek izmantots 5% nozīmīguma līmenis.

Teorētiskā vērtība F tabula noteiktā nozīmīguma līmenī nosaka no tabulām rindas un kolonnas krustpunktā, kas atbilst divām dispersiju brīvības pakāpēm:

pa rindu – atlikums;

pēc kolonnas – faktoriāls.

11. Aprēķinu rezultāti atspoguļoti tabulā (2.tabula).

Visi cilvēki pēc būtības tiecas pēc zināšanām. (Aristotelis. Metafizika)

Dispersijas analīze

Ievada pārskats

Šajā sadaļā mēs apskatīsim ANOVA pamatmetodes, pieņēmumus un terminoloģiju.

Ņemiet vērā, ka angļu valodas literatūrā dispersijas analīzi parasti sauc par variācijas analīzi. Tāpēc īsuma labad zemāk mēs dažreiz izmantosim šo terminu ANOVA (An analīze o f va riāciju) parastajai ANOVA un terminam MANOVA daudzfaktoru dispersijas analīzei. Šajā sadaļā mēs secīgi apskatīsim galvenās dispersijas analīzes idejas ( ANOVA), kovariācijas analīze ( ANCOVA), daudzfaktoru dispersijas analīze ( MANOVA) un daudzfaktoru kovariācijas analīze ( MANCOVA). Pēc īsas diskusijas par kontrasta analīzes un post hoc testu priekšrocībām, aplūkosim pieņēmumus, uz kuriem balstās ANOVA metodes. Šīs sadaļas beigās ir izskaidrotas daudzfaktoru pieejas priekšrocības atkārtotu pasākumu analīzei salīdzinājumā ar tradicionālo vienfaktoru pieeju.

Galvenās idejas

Dispersijas analīzes mērķis. Dispersijas analīzes galvenais mērķis ir izpētīt vidējo atšķirību nozīmīgumu. nodaļa (8. nodaļa) sniedz īsu ievadu statistiskā nozīmīguma izpētē. Ja jūs vienkārši salīdzināt divu paraugu vidējos rādītājus, dispersijas analīze sniegs tādu pašu rezultātu kā parastā analīze. t- tests neatkarīgiem paraugiem (ja tiek salīdzinātas divas neatkarīgas objektu grupas vai novērojumi) vai t- atkarīgo paraugu kritērijs (ja vienā un tajā pašā objektu vai novērojumu kopā tiek salīdzināti divi mainīgie). Ja neesat pazīstams ar šiem kritērijiem, iesakām skatīt ievaddaļas pārskatu (9. nodaļa).

No kurienes cēlies nosaukums Dispersijas analīze? Var šķist dīvaini, ka vidējo salīdzināšanas procedūru sauc par dispersijas analīzi. Patiesībā tas ir tāpēc, ka, pārbaudot vidējo atšķirību statistisko nozīmīgumu, mēs faktiski analizējam atšķirības.

Kvadrātu summas sadalīšana

Izlases lielumam n izlases dispersiju aprēķina kā noviržu summu kvadrātā no parauga vidējās vērtības, kas dalīta ar n-1 (izlases lielums mīnus viens). Tādējādi fiksētam izlases lielumam n dispersija ir kvadrātu (noviržu) summas funkcija, kas apzīmēta īsuma labad, SS(no angļu valodas Sum of Squares — Sum of Squares). Dispersijas analīzes pamatā ir dispersijas sadalīšana (vai sadalīšana) daļās. Apsveriet šādu datu kopu:

Abu grupu vidējie rādītāji būtiski atšķiras (attiecīgi 2 un 6). Noviržu kvadrātā summa iekšā katra grupa ir vienāda ar 2. Tos saskaitot, iegūstam 4. Ja tagad atkārtojam šos aprēķinus izņemot grupas piederība, tas ir, ja mēs aprēķinām SS pamatojoties uz abu paraugu kopējo vidējo vērtību, mēs iegūstam 28. Citiem vārdiem sakot, dispersija (kvadrātu summa), kas balstīta uz mainīgumu grupā, rada daudz mazākas vērtības nekā tad, ja to aprēķina, pamatojoties uz kopējo mainīgumu (attiecībā pret kopējais vidējais). Iemesls tam acīmredzami ir būtiska atšķirība starp vidējiem, un šī atšķirība starp vidējo izskaidro pastāvošo atšķirību starp kvadrātu summām. Faktiski, ja izmantojat moduli, lai analizētu dotos datus Dispersijas analīze, tiks iegūti šādi rezultāti:

Kā redzams no tabulas, kopējā kvadrātu summa SS=28 dala ar kvadrātu summu, kas dota ar iekšgrupa mainīgums ( 2+2=4 ; sk. tabulas otro rindu) un kvadrātu summu vidējo vērtību starpības dēļ. (28-(2+2)=24; skat. tabulas pirmo rindu).

SS kļūdas unSS efekts. Mainība grupas iekšienē ( SS) parasti sauc par dispersiju kļūdas. Tas nozīmē, ka to parasti nevar paredzēt vai izskaidrot, kad tiek veikts eksperiments. Citā pusē, SS efekts(vai starpgrupu mainīgumu) var izskaidrot ar atšķirībām starp pētījuma grupu vidējiem rādītājiem. Citiem vārdiem sakot, piederība noteiktai grupai skaidro starpgrupu mainīgums, jo mēs zinām, ka šīm grupām ir dažādi līdzekļi.

Nozīmīguma pārbaude. Nodaļā ir aplūkotas statistiskās nozīmīguma pārbaudes pamatidejas Statistikas pamatjēdzieni(8. nodaļa). Šajā nodaļā ir arī izskaidroti iemesli, kāpēc daudzos testos tiek izmantota izskaidrotās un neizskaidrojamās dispersijas attiecība. Šāda lietojuma piemērs ir pati dispersijas analīze. Nozīmīguma pārbaude ANOVA ir balstīta uz dispersijas salīdzināšanu starp grupu dispersiju (saukta vidējais kvadrātveida efekts vai JAUNKUNDZEEfekts) un dispersiju, ko izraisa grupas iekšējās variācijas (sauktas vidējā kvadrātā kļūda vai JAUNKUNDZEkļūda). Ja nulles hipotēze (vidējo vienādība abās populācijās) ir patiesa, tad varētu sagaidīt salīdzinoši nelielas atšķirības izlases vidējos nejaušās variācijas dēļ. Tāpēc saskaņā ar nulles hipotēzi grupas iekšējā dispersija praktiski sakritīs ar kopējo dispersiju, kas aprēķināta, neņemot vērā piederību grupai. Iegūtās grupas iekšējās novirzes var salīdzināt, izmantojot F- tests, kas pārbauda, ​​vai dispersijas koeficients ir ievērojami lielāks par 1. Iepriekš apskatītajā piemērā F- kritērijs parāda, ka starpība starp vidējiem ir statistiski nozīmīga.

Dispersijas analīzes pamatloģika. Rezumējot, ANOVA mērķis ir pārbaudīt vidējo (grupu vai mainīgo lielumu) atšķirības statistisko nozīmīgumu. Šī pārbaude tiek veikta, izmantojot dispersijas analīzi, t.i. sadalot kopējo dispersiju (variāciju) daļās, no kurām viena ir nejaušas kļūdas (tas ir, grupas iekšējā mainīguma) dēļ, bet otrā ir saistīta ar vidējo vērtību atšķirībām. Pēc tam pēdējo dispersijas komponentu izmanto, lai analizētu starpības statistisko nozīmīgumu. Ja šī atšķirība ir nozīmīga, nulles hipotēze tiek noraidīta un tiek pieņemta alternatīvā hipotēze, ka starp līdzekļiem pastāv atšķirība.

Atkarīgie un neatkarīgie mainīgie. Tiek izsaukti mainīgie, kuru vērtības nosaka mērījumi eksperimenta laikā (piemēram, testa rezultāts). atkarīgi mainīgie. Mainīgos, kurus var kontrolēt eksperimentā (piemēram, mācību metodes vai citus kritērijus novērojumu sadalīšanai grupās) sauc faktoriem vai neatkarīgs mainīgie. Šie jēdzieni ir sīkāk aprakstīti nodaļā Statistikas pamatjēdzieni(8. nodaļa).

Daudzfaktoru dispersijas analīze

Iepriekš minētajā vienkāršs piemērs jūs varētu nekavējoties aprēķināt t-testu neatkarīgiem paraugiem, izmantojot atbilstošo moduļa opciju Pamatstatistika un tabulas. Iegūtie rezultāti dabiski sakritīs ar dispersijas analīzes rezultātiem. Tomēr ANOVA satur elastīgas un spēcīgas metodes, kuras var izmantot daudz sarežģītākos pētījumos.

Daudzi faktori. Pasaule pēc būtības ir sarežģīta un daudzdimensionāla. Situācijas, kad noteiktu parādību pilnībā apraksta viens mainīgais, ir ārkārtīgi reti. Piemēram, ja mēs cenšamies iemācīties audzēt lielus tomātus, mums jāņem vērā faktori, kas saistīti ar auga ģenētisko struktūru, augsnes tipu, gaismu, temperatūru utt. Tādējādi, veicot tipisku eksperimentu, ir jārisina liels skaits faktoru. Galvenais iemesls, kāpēc ANOVA izmantošana ir ieteicama, nevis atkārtota divu paraugu salīdzināšana dažādos faktoru līmeņos, izmantojot t- kritērijs ir tāds, ka dispersijas analīze ir vairāk efektīvs un maziem paraugiem informatīvāks.

Faktoru vadība. Pieņemsim, ka iepriekš apskatītajā divu paraugu analīzes piemērā mēs pievienojam vēl vienu faktoru, piemēram, Stāvs- Dzimums. Katrā grupā ir 3 vīrieši un 3 sievietes. Šī eksperimenta dizainu var attēlot tabulas 2 x 2 veidā:

Eksperimentējiet. 1. grupa Eksperimentējiet. 2. grupa
Vīrieši2 6
3 7
1 5
Vidēji2 6
Sievietes4 8
5 9
3 7
Vidēji4 8

Pirms aprēķinu veikšanas varat pamanīt, ka šajā piemērā kopējai dispersijai ir vismaz trīs avoti:

(1) nejauša kļūda (grupas dispersijas ietvaros),

(2) mainīgums, kas saistīts ar dalību eksperimentālajā grupā, un

(3) mainīgums novērojamo objektu dzimuma dēļ.

(Ņemiet vērā, ka ir vēl viens iespējamais mainīguma avots - faktoru mijiedarbība, par kuru mēs runāsim vēlāk). Kas notiks, ja mēs neiekļausim stāvsdzimums kā faktoru analīzē un aprēķināt parasto t- kritērijs? Ja mēs aprēķinām kvadrātu summas, ignorējot stāvs -dzimums(t.i., apvienojot dažādu dzimumu objektus vienā grupā, aprēķinot grupas iekšējo dispersiju, tādējādi katrai grupai iegūstot kvadrātu summu, kas vienāda ar SS=10, un kopējā kvadrātu summa SS= 10+10 = 20), tad iegūstam lielāku iekšējās grupas dispersijas vērtību nekā ar precīzāku analīzi ar papildus sadalīšanu apakšgrupās atbilstoši daļēji dzimums(šajā gadījumā vidējais grupas iekšējais rādītājs būs vienāds ar 2, un kopējā kvadrātu summa grupas iekšienē būs vienāda ar SS = 2+2+2+2 = 8). Šī atšķirība ir saistīta ar to, ka vidējā vērtība par vīriešiem - tēviņi mazāk nekā vidēji par sievietes -sieviete, un šī līdzekļu atšķirība palielina vispārējo mainīgumu grupas ietvaros, ja dzimums netiek ņemts vērā. Kļūdu dispersijas kontrole palielina testa jutību (jaudu).

Šis piemērs parāda vēl vienu dispersijas analīzes priekšrocību salīdzinājumā ar parasto t- kritērijs diviem paraugiem. Dispersijas analīze ļauj izpētīt katru faktoru, kontrolējot atlikušo faktoru vērtības. Tas faktiski ir galvenais iemesls tās lielākai statistiskajai jaudai (lai iegūtu jēgpilnus rezultātus, ir nepieciešams mazāks izlases lielums). Šī iemesla dēļ dispersijas analīze pat maziem paraugiem sniedz statistiski vairāk nozīmīgus rezultātus nekā vienkārši t- kritērijs.

Mijiedarbības efekti

Ir vēl viena dispersijas analīzes priekšrocība salīdzinājumā ar parasto t- kritērijs: dispersijas analīze ļauj atklāt mijiedarbība starp faktoriem un tāpēc ļauj pētīt sarežģītākus modeļus. Lai ilustrētu, apsveriet citu piemēru.

Galvenie efekti, pāru (divu faktoru) mijiedarbība. Pieņemsim, ka ir divas skolēnu grupas, un psiholoģiski pirmās grupas skolēni ir apņēmības pilni pildīt uzdotos uzdevumus un ir mērķtiecīgāki nekā otrās grupas skolēni, kas sastāv no slinkākiem skolēniem. Pēc nejaušības principa sadalīsim katru grupu uz pusēm un katras grupas vienai pusei dosim sarežģītu uzdevumu, bet otrai – vieglu uzdevumu. Pēc tam mēs novērtēsim, cik smagi skolēni strādā pie šiem uzdevumiem. Šī (izdomātā) pētījuma vidējie rādītāji ir parādīti tabulā:

Kādus secinājumus var izdarīt no šiem rezultātiem? Vai varam secināt, ka: (1) skolēni intensīvāk strādā pie sarežģīta uzdevuma; (2) Vai motivēti studenti strādā vairāk nekā slinki studenti? Neviens no šiem apgalvojumiem neatspoguļo tabulā parādīto līdzekļu sistemātiskā rakstura būtību. Analizējot rezultātus, pareizāk būtu teikt, ka tikai motivēti skolēni vairāk strādā pie sarežģītiem uzdevumiem, bet tikai slinki skolēni vairāk strādā pie viegliem uzdevumiem. Citiem vārdiem sakot, skolēnu raksturs un uzdevuma sarežģītība mijiedarbojoties ietekmēt viens otru uz ieguldītajām pūlēm. Tas ir piemērs pāru mijiedarbība starp skolēnu raksturu un uzdevuma sarežģītību. Ņemiet vērā, ka 1. un 2. apgalvojumi apraksta galvenie efekti.

Augstākas kārtas mijiedarbības. Lai gan pāru mijiedarbību joprojām ir samērā viegli izskaidrot, augstākas pakāpes mijiedarbību ir daudz grūtāk izskaidrot. Iedomāsimies, ka iepriekš aplūkotajā piemērā ir ieviests vēl viens faktors stāvs -Dzimums un mēs saņēmām šādu vidējo rādītāju tabulu:

Kādus secinājumus tagad var izdarīt no iegūtajiem rezultātiem? Vidējie grafiki ļauj viegli interpretēt sarežģītus efektus. ANOVA modulis ļauj izveidot šos grafikus ar gandrīz vienu peles klikšķi.

Attēls zemāk esošajos grafikos attēlo pētāmo trīs faktoru mijiedarbību.

Aplūkojot grafikus, mēs varam secināt, ka sievietēm pastāv mijiedarbība starp personību un pārbaudes grūtībām: motivētas sievietes vairāk strādā pie grūta uzdevuma nekā pie viegla. Vīriešiem šī pati mijiedarbība ir pretēja. Var redzēt, ka faktoru mijiedarbības apraksts kļūst mulsinošāks.

Vispārīgs veids, kā aprakstīt mijiedarbību. IN vispārējs gadījums faktoru mijiedarbība tiek raksturota kā viena efekta izmaiņas cita ietekmes ietekmē. Iepriekš apskatītajā piemērā divu faktoru mijiedarbību var raksturot kā uzdevuma sarežģītību raksturojošā faktora galvenās ietekmes izmaiņas skolēna raksturu raksturojošā faktora ietekmē. Par trīs iepriekšējās rindkopas faktoru mijiedarbību var teikt, ka divu faktoru (uzdevuma sarežģītības un skolēna rakstura) mijiedarbība mainās atkarībā no dzimumsDzimums. Ja tiek pētīta četru faktoru mijiedarbība, var teikt, ka triju faktoru mijiedarbība mainās ceturtā faktora ietekmē, t.i. Ir dažādi mijiedarbības veidi dažādos ceturtā faktora līmeņos. Izrādās, ka daudzās jomās piecu vai pat vairāku faktoru mijiedarbība nav nekas neparasts.

Sarežģīti plāni

Starpgrupu un grupas iekšējie modeļi (atkārtotu pasākumu modeļi)

Salīdzinot divas dažādas grupas, to parasti izmanto t- kritērijs neatkarīgiem paraugiem (no moduļa Pamatstatistika un tabulas). Salīdzinot divus mainīgos lielumus vienā objektu kopā (novērojumos), tas tiek izmantots t-atkarīgo paraugu kritērijs. Dispersijas analīzei ir svarīgi arī, vai paraugi ir atkarīgi vai nav. Ja ir atkārtoti mērījumi tiem pašiem mainīgajiem (ar dažādi apstākļi vai dažādos laikos) tiem pašiem objektiem, tad viņi runā par klātbūtni atkārtotu pasākumu faktors(ko sauc arī par grupas iekšējais faktors, jo, lai novērtētu tās nozīmīgumu, tiek aprēķināta kvadrātu summa grupā). Ja salīdzina dažādas objektu grupas (piemēram, vīrieši un sievietes, trīs baktēriju celmi utt.), tad tiek aprakstīta atšķirība starp grupām starpgrupu faktors. Metodes nozīmīguma kritēriju aprēķināšanai diviem aprakstītajiem faktoru veidiem ir atšķirīgas, taču to vispārējā loģika un interpretācijas ir vienādas.

Starpgrupu un iekšgrupu plāni. Daudzos gadījumos eksperimentā ir nepieciešams iekļaut gan starp subjektu faktoru, gan atkārtotu mērījumu faktoru. Piemēram, tiek mērītas sieviešu un vīriešu matemātikas prasmes (kur stāvs -Dzimums-starpgrupu faktors) semestra sākumā un beigās. Divi katra skolēna prasmju rādītāji veido grupas iekšējo faktoru (atkārtotu pasākumu faktoru). Galvenās ietekmes un mijiedarbības interpretācija starp priekšmetiem un atkārtotu mērījumu faktoriem ir konsekventa, un abu veidu faktori acīmredzami var savstarpēji mijiedarboties (piemēram, sievietes semestra laikā iegūst prasmes, bet vīrieši tās zaudē).

Nepilnīgi (ligzdoti) plāni

Daudzos gadījumos mijiedarbības efektu var neņemt vērā. Tas notiek vai nu tad, kad ir zināms, ka populācijā nav mijiedarbības efekta, vai arī tad, kad tiek īstenota pilnīga faktoriāls plāns nav iespējams. Piemēram, tiek pētīta četru degvielas piedevu ietekme uz degvielas patēriņu. Izvēlētas četras automašīnas un četri vadītāji. Pilns faktoriāls eksperiments prasa, lai katra kombinācija: piedeva, vadītājs, automašīna parādās vismaz vienu reizi. Tam ir vajadzīgas vismaz 4 x 4 x 4 = 64 testu grupas, kas ir pārāk laikietilpīgi. Turklāt, visticamāk, nav nekādas mijiedarbības starp vadītāju un degvielas piedevu. Ņemot to vērā, varat izmantot plānu latīņu kvadrāti, kurā ir tikai 16 testa grupas (četras piedevas ir apzīmētas ar burtiem A, B, C un D):

Latīņu kvadrāti ir aprakstīti lielākajā daļā grāmatu par eksperimentālo dizainu (piemēram, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), un šeit tie netiks sīkāk apspriesti. Ņemiet vērā, ka latīņu kvadrāti ir Navnpilns konstrukcijas, kurās nav iekļautas visas faktoru līmeņu kombinācijas. Piemēram, vadītājs 1 vada automašīnu 1 tikai ar piedevu A, vadītājs 3 vada automašīnu 1 tikai ar piedevu C. Faktoru līmeņi piedevas ( A, B, C un D) ir ligzdotas tabulas šūnās automašīna x vadītājs - kā olas ligzdās. Šī mnemonika ir noderīga dabas izpratnei ligzdots vai ligzdots plāniem. Modulis Dispersijas analīze nodrošina vienkāršus veidusšāda veida plānu analīze.

Kovariācijas analīze

galvenā doma

Nodaļā Galvenās idejasĪsi tika apspriesta ideja par faktoru kontroli un to, kā aditīvu faktoru iekļaušana samazina kļūdu kvadrātu summu un palielina konstrukcijas statistisko jaudu. To visu var attiecināt uz mainīgajiem lielumiem ar nepārtrauktu vērtību kopu. Ja šādi nepārtraukti mainīgie ir iekļauti dizainā kā faktori, tos sauc kovariāti.

Fiksētie kovariāti

Pieņemsim, ka mēs salīdzinām divu skolēnu grupu matemātikas prasmes, kuras tika mācītas, izmantojot divas dažādas mācību grāmatas. Pieņemsim arī, ka katram skolēnam ir pieejami intelekta koeficienta (IQ) dati. Varat pieņemt, ka IQ ir saistīts ar matemātikas prasmēm, un izmantot šo informāciju. Katrai no divām skolēnu grupām var aprēķināt korelācijas koeficientu starp IQ un matemātikas prasmēm. Izmantojot šo korelācijas koeficientu, ir iespējams izdalīt dispersijas proporciju grupās, kas izskaidrojamas ar IQ ietekmi un neizskaidrojamu dispersijas proporciju (sk. arī Statistikas pamatjēdzieni(8. nodaļa) un Pamatstatistika un tabulas(9. nodaļa)). Atlikušo dispersijas daļu analīzē izmanto kā kļūdu dispersiju. Ja pastāv korelācija starp IQ un matemātikas prasmēm, kļūdu dispersiju var ievērojami samazināt SS/(n-1) .

Kovariātu ietekme uzF- kritērijs. F- kritērijs novērtē vidējo vērtību atšķirības statistisko nozīmīgumu grupās un aprēķina starpgrupu dispersijas attiecību ( JAUNKUNDZEefekts) līdz kļūdas dispersijai ( JAUNKUNDZEkļūda) . Ja JAUNKUNDZEkļūda samazinās, piemēram, ņemot vērā IQ koeficientu, vērtību F palielinās.

Daudz kovariantu. Iepriekš izmantoto argumentāciju vienam kovariātam (IQ) var viegli attiecināt uz vairākiem kovariātiem. Piemēram, papildus IQ var iekļaut motivācijas, telpiskās domāšanas u.c. mērījumus. Parastā korelācijas koeficienta vietā tiek izmantots daudzkārtējais korelācijas koeficients.

Kad vērtībaF -kritēriji samazinās. Dažreiz kovariātu ieviešana eksperimentālajā dizainā samazina nozīmi F- kritēriji . Tas parasti norāda, ka kovariāti ir saistīti ne tikai ar atkarīgo mainīgo (piemēram, matemātikas prasmēm), bet arī ar faktoriem (piemēram, dažādām mācību grāmatām). Pieņemsim, ka IQ tiek mērīts semestra beigās, pēc gandrīz gadu ilgas mācīšanas divām studentu grupām, izmantojot divas dažādas mācību grāmatas. Lai gan skolēni grupās tika iedalīti nejauši, iespējams, ka mācību grāmatu atšķirības ir tik lielas, ka gan IQ, gan matemātikas prasmes dažādās grupās ļoti atšķiras. Šajā gadījumā kovariācijas samazina ne tikai kļūdu dispersiju, bet arī starpgrupu dispersiju. Citiem vārdiem sakot, pēc IQ atšķirību kontroles dažādās grupās atšķirības matemātikas prasmēs vairs nav nozīmīgas. Var teikt savādāk. Pēc IQ ietekmes “izslēgšanas” netīši tiek izslēgta mācību grāmatas ietekme uz matemātisko prasmju attīstību.

Koriģētie vidējie rādītāji. Ja kovariāts ietekmē starpsubjektu faktoru, ir jāaprēķina pielāgoti līdzekļi, t.i. tie līdzekļi, kas iegūti pēc visu kovariantu aplēšu noņemšanas.

Kovariātu un faktoru mijiedarbība. Tāpat kā tiek pārbaudīta mijiedarbība starp faktoriem, var pārbaudīt mijiedarbību starp kovariātiem un starp faktoru grupām. Teiksim, kāda no mācību grāmatām ir īpaši piemērota gudriem skolēniem. Otrā mācību grāmata ir garlaicīga gudriem skolēniem, un tā pati mācību grāmata ir grūta mazāk gudriem skolēniem. Rezultātā ir pozitīva korelācija starp IQ un mācīšanās rezultātu pirmajā grupā (gudrāki skolēni, labāki rezultāti) un nulle vai neliela negatīva korelācija otrajā grupā (jo gudrāks skolēns, jo mazāka iespēja apgūt matemātiskās prasmes no otrās mācību grāmatas). Dažos pētījumos šī situācija tiek aplūkota kā piemērs kovariācijas analīzes pieņēmumu pārkāpumam. Tomēr, tā kā ANOVA modulī tiek izmantotas visizplatītākās kovariācijas analīzes metodes, ir iespējams īpaši novērtēt faktoru un kovariātu mijiedarbības statistisko nozīmīgumu.

Mainīgie kovariāti

Ja fiksētie kovariāti mācību grāmatās tiek apspriesti diezgan bieži, mainīgie kovarianti tiek minēti daudz retāk. Parasti, veicot eksperimentus ar atkārtotiem mērījumiem, mūs interesē atšķirības vienādu daudzumu mērījumos dažādos laika punktos. Proti, mūs interesē šo atšķirību nozīme. Ja kovariātus mēra vienlaikus ar atkarīgo mainīgo lielumu mērījumiem, var aprēķināt korelāciju starp kovariātu un atkarīgo mainīgo.

Piemēram, matemātikas interesi un matemātikas prasmes varētu izpētīt semestra sākumā un beigās. Būtu interesanti pārbaudīt, vai izmaiņas interesē par matemātiku ir saistītas ar izmaiņām matemātikas prasmēs.

Modulis Dispersijas analīze V STATISTIKA automātiski novērtē kovariātu izmaiņu statistisko nozīmīgumu dizainā, ja iespējams.

Daudzfaktoru modeļi: daudzfaktoru dispersijas un kovariācijas analīze

Starpgrupu plāni

Visi iepriekš apspriestie piemēri ietvēra tikai vienu atkarīgo mainīgo. Ja vienlaikus ir vairāki atkarīgie mainīgie, palielinās tikai aprēķinu sarežģītība, bet saturs un pamatprincipi nemainās.

Piemēram, pētījums tiek veikts par divām dažādām mācību grāmatām. Paralēli tiek pētītas skolēnu sekmes fizikas un matemātikas apguvē. Šajā gadījumā ir divi atkarīgi mainīgie, un jums ir jānoskaidro, kā divas dažādas mācību grāmatas tos ietekmē vienlaikus. Lai to izdarītu, varat izmantot daudzfaktoru dispersijas analīzi (MANOVA). Nevis viendimensionāls F kritērijs, tiek izmantots daudzdimensionāls F tests (Vilksa l tests), pamatojoties uz kļūdu kovariācijas matricas un starpgrupu kovariācijas matricas salīdzinājumu.

Ja atkarīgie mainīgie ir savstarpēji saistīti, tad šī korelācija jāņem vērā, aprēķinot nozīmīguma kritēriju. Acīmredzot, ja vienu un to pašu mērījumu atkārto divas reizes, tad neko jaunu nevar iegūt. Ja ar to korelēts mērījums tiek pievienots esošam mērījumam, tad daži jaunu informāciju, bet jaunais mainīgais satur lieku informāciju, kas atspoguļojas mainīgo lielumu kovariācijā.

Rezultātu interpretācija. Ja kopējais daudzfaktoru tests ir nozīmīgs, mēs varam secināt, ka atbilstošais efekts (piemēram, mācību grāmatas veids) ir nozīmīgs. Tomēr rodas šādi jautājumi. Vai mācību grāmatas veids ietekmē tikai matemātikas prasmju, tikai fizisko prasmju vai abu prasmju uzlabošanos? Faktiski pēc nozīmīga daudzfaktoru testa iegūšanas tiek pārbaudīts vienfaktoru tests, lai noteiktu individuālo galveno efektu vai mijiedarbību. F kritērijs. Citiem vārdiem sakot, atkarīgie mainīgie, kas veicina daudzfaktoru testa nozīmīgumu, tiek pārbaudīti atsevišķi.

Atkārtotu pasākumu modeļi

Ja skolēnu matemātikas un fizikas prasmes mēra semestra sākumā un beigās, tad tie ir atkārtoti mērījumi. Nozīmīguma kritērija izpēte šādos plānos ir loģiskā attīstība viendimensijas korpuss. Ņemiet vērā, ka dispersijas metožu daudzfaktoru analīze parasti tiek izmantota arī, lai pārbaudītu to vienfaktoru atkārtotu mērījumu faktoru nozīmi, kuriem ir vairāk nekā divi līmeņi. Atbilstošie pieteikumi tiks apspriesti vēlāk šajā daļā.

Mainīgo vērtību summēšana un daudzfaktoru dispersijas analīze

Pat pieredzējušiem vienfaktoru un daudzfaktoru dispersijas analīzes lietotājiem bieži ir grūti iegūt atšķirīgus rezultātus, piemērojot daudzfaktoru dispersijas analīzi, piemēram, trīs mainīgajiem, un piemērojot vienfaktoru dispersijas analīzi šo trīs mainīgo summai, it kā bija viens mainīgais.

Ideja summēšana mainīgie ir tas, ka katrs mainīgais satur kādu patiesu mainīgo, kas tiek pētīts, kā arī nejaušu mērījumu kļūdu. Tāpēc, aprēķinot mainīgo lielumu vidējās vērtības, mērījumu kļūda visiem mērījumiem būs tuvāk 0 un vidējās vērtības būs ticamākas. Faktiski šajā gadījumā ANOVA piemērošana mainīgo lielumu summai ir saprātīga un tā ir spēcīga metode. Tomēr, ja atkarīgie mainīgie pēc būtības ir daudzdimensionāli, mainīgo vērtību summēšana nav piemērota.

Piemēram, atkarīgie mainīgie sastāv no četriem rādītājiem panākumi sabiedrībā. Katrs rādītājs raksturo pilnīgi neatkarīgu cilvēka darbības aspektu (piemēram, profesionālie panākumi, panākumi biznesā, ģimenes labklājība utt.). Šo mainīgo pievienošana ir kā ābolu un apelsīnu pievienošana. Šo mainīgo lielumu summa nebūtu piemērots viendimensionāls rādītājs. Tāpēc šādi dati ir jāuzskata par daudzdimensionāliem rādītājiem daudzfaktoru dispersijas analīze.

Kontrasta analīze un post hoc testi

Kāpēc tiek salīdzinātas atsevišķas vidējo rādītāju kopas?

Parasti hipotēzes par eksperimentālajiem datiem tiek formulētas ne tikai galveno efektu vai mijiedarbības izteiksmē. Piemērs varētu būt šāda hipotēze: noteikta mācību grāmata uzlabo matemātikas prasmes tikai studentiem vīriešiem, savukārt cita mācību grāmata ir aptuveni vienlīdz efektīva abiem dzimumiem, bet joprojām ir mazāk efektīva vīriešiem. Var paredzēt, ka mācību grāmatu efektivitāte mijiedarbojas ar studentu dzimumu. Taču arī šī prognoze ir spēkā daba mijiedarbības. Sagaidāma būtiska atšķirība starp dzimumiem skolēniem, kuri izmanto vienu grāmatu, un praktiski neatkarīgi rezultāti pēc dzimuma skolēniem, kuri izmanto otru grāmatu. Šāda veida hipotēzes parasti pārbauda, ​​izmantojot kontrasta analīzi.

Kontrastu analīze

Īsāk sakot, kontrasta analīze ļauj novērtēt noteiktu sarežģītu efektu lineāru kombināciju statistisko nozīmīgumu. Kontrasta analīze ir jebkura sarežģīta ANOVA plāna galvenais un obligātais elements. Modulis Dispersijas analīze ir diezgan dažādas kontrasta analīzes iespējas, kas ļauj izolēt un analizēt jebkāda veida līdzekļu salīdzinājumu.

A posteriori salīdzinājumiem

Dažreiz eksperimenta apstrādes rezultātā tiek atklāts negaidīts efekts. Lai gan vairumā gadījumu radošs pētnieks spēs izskaidrot jebkuru rezultātu, tas neļauj veikt turpmāku analīzi un aplēses prognozēšanai. Šī problēma ir viena no tām, kurām a posteriori kritēriji, tas ir, kritēriji, kurus neizmanto priekšroka hipotēzes. Lai ilustrētu, apsveriet šādu eksperimentu. Pieņemsim, ka ir 100 kārtis, kurās ir skaitļi no 1 līdz 10. Ieliekot visas šīs kārtis cepurē, nejauši atlasām 5 kārtis 20 reizes un aprēķinām vidējo vērtību (uz kartītēm rakstīto skaitļu vidējo) katram paraugam. Vai var sagaidīt, ka būs divi paraugi, kuru vidējie rādītāji būtiski atšķiras? Tas ir ļoti ticami! Atlasot divus paraugus ar maksimālo un minimālo vidējo, jūs varat iegūt vidējo atšķirību, kas ļoti atšķiras no vidējo, piemēram, pirmo divu paraugu atšķirības. Šo atšķirību var izpētīt, piemēram, izmantojot kontrasta analīzi. Neiedziļinoties detaļās, ir vairāki t.s a posteriori kritēriji, kas ir balstīti tieši uz pirmo scenāriju (ņemot ekstrēmus līdzekļus no 20 paraugiem), t.i., šie kritēriji ir balstīti uz visdažādāko līdzekļu izvēli, lai salīdzinātu visus līdzekļus projektā. Šie kritēriji tiek izmantoti, lai nodrošinātu, ka mākslīgais efekts netiek iegūts tikai nejauši, piemēram, lai noteiktu būtisku atšķirību starp līdzekļiem, ja tādas nav. Modulis Dispersijas analīze piedāvā plašu šādu kritēriju klāstu. Ja eksperimentā, kurā iesaistītas vairākas grupas, tiek konstatēti negaidīti rezultāti, tad a posteriori iegūto rezultātu statistiskā nozīmīguma pārbaudes procedūras.

I, II, III un IV tipa kvadrātu summa

Daudzfaktoru regresija un dispersijas analīze

Pastāv cieša saikne starp daudzfaktoru regresijas metodi un dispersijas analīzi (dispersijas analīzi). Abās metodēs tiek pētīts lineārais modelis. Īsāk sakot, gandrīz visus eksperimentālos projektus var pārbaudīt, izmantojot daudzfaktoru regresiju. Apsveriet šādu vienkāršo starpgrupu 2 x 2 dizainu.

D.V. A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

A un B kolonnās ir kodi, kas raksturo faktoru A un B līmeņus, kolonnā AxB ir divu kolonnu A un B reizinājums. Šos datus varam analizēt, izmantojot daudzfaktoru regresiju. Mainīgs D.V. definēts kā atkarīgs mainīgais, mainīgie no A pirms tam AxB kā neatkarīgi mainīgie. Regresijas koeficientu nozīmīguma izpēte sakritīs ar faktoru galveno efektu nozīmīguma dispersijas analīzē veiktajiem aprēķiniem. A Un B un mijiedarbības efekts AxB.

Nesabalansēti un sabalansēti plāni

Aprēķinot korelācijas matricu visiem mainīgajiem lielumiem, piemēram, iepriekš attēlotajiem datiem, jūs ievērosiet, ka faktoru galvenā ietekme A Un B un mijiedarbības efekts AxB nekorelēts. Šo efektu īpašību sauc arī par ortogonalitāti. Viņi saka sekas A Un B - ortogonāls vai neatkarīgs viens no otra. Ja visi efekti plānā ir ortogonāli viens otram, kā iepriekš minētajā piemērā, tad tiek uzskatīts, ka plāns ir līdzsvarots.

Līdzsvarotiem plāniem ir “ labs īpašums" Aprēķini šādu plānu analīzei ir ļoti vienkārši. Visi aprēķini ir saistīti ar korelācijas aprēķināšanu starp efektiem un atkarīgajiem mainīgajiem. Tā kā efekti ir ortogonāli, daļējas korelācijas (kā pilnībā daudzdimensionāls regresijas) netiek aprēķinātas. Tomēr reālajā dzīvē plāni ne vienmēr ir līdzsvaroti.

Apskatīsim reālos datus ar nevienlīdzīgu novērojumu skaitu šūnās.

Faktors A Faktors B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ja mēs kodējam šos datus, kā norādīts iepriekš, un aprēķinām korelācijas matricu visiem mainīgajiem, mēs atklājam, ka dizaina faktori ir savstarpēji saistīti. Faktori plānā vairs nav ortogonāli, un šādus plānus sauc nesabalansēts.Ņemiet vērā, ka aplūkotajā piemērā korelācija starp faktoriem ir pilnībā saistīta ar 1 un -1 biežuma atšķirību datu matricas kolonnās. Citiem vārdiem sakot, eksperimentālie modeļi ar nevienlīdzīgiem šūnu tilpumiem (precīzāk, nesamērīgiem apjomiem) būs nelīdzsvaroti, kas nozīmē, ka tiks sajaukti galvenie efekti un mijiedarbība. Šajā gadījumā ir jāaprēķina pilna daudzfaktoru regresija, lai aprēķinātu ietekmes statistisko nozīmīgumu. Šeit ir vairākas stratēģijas.

I, II, III un IV tipa kvadrātu summa

Kvadrātu summas veidsesUnIII. Lai pārbaudītu katra faktora nozīmīgumu daudzfaktoru modelī, var aprēķināt katra faktora daļējo korelāciju ar nosacījumu, ka visi pārējie faktori jau ir ņemti vērā modelī. Varat arī ievadīt faktorus modelī pakāpeniski, tverot visus modelī jau ievadītos faktorus un ignorējot visus citus faktorus. Kopumā šī ir atšķirība starp veids III Un veidses kvadrātu summa (šī terminoloģija tika ieviesta SAS, sk., piemēram, SAS, 1982; detalizētu diskusiju var atrast arī Searle, 1987, 461. lpp.; Woodward, Bonett un Brecht, 1990, 216. lpp.; vai Milliken un Johnson, 1984, 138. lpp.).

Kvadrātu summas veidsII. Nākamā “starpposma” modeļa veidošanas stratēģija sastāv no: visu galveno efektu kontrole, pārbaudot viena galvenā efekta nozīmīgumu; visu galveno efektu un visu pāru mijiedarbības kontrolēšanā, pārbaudot atsevišķas pāru mijiedarbības nozīmīgumu; visu pāru mijiedarbības un visu trīs faktoru mijiedarbības visu galveno seku kontrole; pētot trīs faktoru individuālo mijiedarbību utt. Šādi aprēķināto efektu kvadrātu summas sauc veidsII kvadrātu summa. Tātad, veidsII kvadrātu summas vadīklas visiem vienādas un zemākas kārtas efektiem, vienlaikus ignorējot visus augstākas kārtas efektus.

Kvadrātu summas veidsIV. Visbeidzot, dažiem īpašiem plāniem ar trūkstošām šūnām (nepilnīgiem plāniem) ir iespējams aprēķināt t.s veids IV kvadrātu summa. Šī metode tiks apspriesta vēlāk saistībā ar nepilnīgiem projektiem (dizainiem ar trūkstošām šūnām).

I, II un III tipa kvadrātu summas hipotēzes interpretācija

Kvadrātu summa veidsIII visvieglāk interpretējams. Atgādināt, ka kvadrātu summas veidsIII pārbaudiet ietekmi pēc visu pārējo efektu kontroles. Piemēram, pēc statistiski nozīmīgas atrašanas veidsIII ietekme uz faktoru A modulī Dispersijas analīze, mēs varam teikt, ka ir viena būtiska faktora ietekme A, pēc visu pārējo efektu (faktoru) ieviešanas un attiecīgi interpretējiet šo efektu. Iespējams, 99% no visām ANOVA lietojumprogrammām šis ir testa veids, kas pētnieku interesē. Šāda veida kvadrātu summu parasti aprēķina modulo Dispersijas analīze pēc noklusējuma neatkarīgi no tā, vai opcija ir atlasīta Regresijas pieeja vai nē (modulī pieņemtās standarta pieejas Dispersijas analīze apspriests tālāk).

Nozīmīgi efekti, kas iegūti, izmantojot kvadrātu summas veids vai veidsII kvadrātu summas nav tik vienkārši interpretējamas. Tos vislabāk interpretēt pakāpeniskas daudzfaktoru regresijas kontekstā. Ja, izmantojot kvadrātu summu veidses faktora B galvenā ietekme bija nozīmīga (pēc faktora A iekļaušanas modelī, bet pirms A un B mijiedarbības pievienošanas), varam secināt, ka pastāv būtiska B faktora galvenā ietekme, ja nav mijiedarbības starp faktoriem A un B. (Ja izmanto kritēriju veidsIII, faktors B arī izrādījās nozīmīgs, tad pēc visu pārējo faktoru un to mijiedarbības ieviešanas modelī varam secināt, ka pastāv būtiska faktora B galvenā ietekme).

Runājot par marginālo nozīmē hipotēzi veidses Un veidsII parasti nav vienkāršas interpretācijas. Šajos gadījumos tiek teikts, ka nevar interpretēt efektu nozīmi, aplūkojot tikai marginālos līdzekļus. Drīzāk pasniegts lpp līdzekļi ir saistīti ar sarežģītu hipotēzi, kas apvieno līdzekļus un izlases lielumu. Piemēram, veidsII faktora A hipotēzes vienkāršajā 2 x 2 dizaina piemērā, kas tika apspriests iepriekš, būtu šādas (sk. Woodward, Bonett un Brecht, 1990, 219. lpp.):

nij- novērojumu skaits šūnā

uij- vidējā vērtība šūnā

n. j- marginālais vidējais

Neiedziļinoties detaļās (sīkāk skat. Milliken un Johnson, 1984, 10. nodaļu), ir skaidrs, ka tās nav vienkāršas hipotēzes un vairumā gadījumu neviena no tām pētnieku īpaši neinteresē. Tomēr ir gadījumi, kad hipotēzes veidses var būt interesanti.

Noklusējuma skaitļošanas pieeja modulī Dispersijas analīze

Noklusējums, ja opcija nav atzīmēta Regresijas pieeja, modulis Dispersijas analīze lietojumiem šūnu vidējais modelis. Šim modelim ir raksturīgs tas, ka kvadrātu summas dažādiem efektiem tiek aprēķinātas lineārām šūnu vidējo kombinācijām. Pilnā faktoriālā eksperimentā rezultātā tiek iegūtas kvadrātu summas, kas ir tādas pašas kā kvadrātu summas, kas tika apspriestas iepriekš kā veids III. Tomēr opcijā Plānotie salīdzinājumi(logā ANOVA rezultāti), lietotājs var pārbaudīt hipotēzi pret jebkuru lineāru svērto vai nesvērto šūnu vidējo kombināciju. Tādējādi lietotājs var pārbaudīt ne tikai hipotēzes veidsIII, bet jebkura veida hipotēzes (ieskaitot veidsIV). Šī vispārējā pieeja ir īpaši noderīga, pārbaudot dizainus ar trūkstošām šūnām (saukti par nepilnīgiem dizainiem).

Pilniem faktoriālajiem projektiem šī pieeja ir noderīga arī tad, ja vēlas analizēt svērtos robežvidus. Piemēram, pieņemsim, ka vienkāršajā 2 x 2 dizainā, kas tika aplūkots iepriekš, mums ir jāsalīdzina svērtais (pēc faktoru līmeņiem B) faktora A robežvidēji. Tas ir noderīgi, ja novērojumu sadalījumu šūnās nav sagatavojis eksperimentētājs, bet gan tas tika izveidots nejauši, un šī nejaušība atspoguļojas novērojumu skaita sadalījumā pa faktora B līmeņiem agregāts.

Piemēram, ir faktors – atraitņu vecums. Iespējamā respondentu izlase ir sadalīta divās grupās: jaunāki par 40 gadiem un vecāki par 40 gadiem (B faktors). Otrs faktors (A faktors) plānā bija tas, vai atraitnes saņēma sociālo atbalstu no kādas aģentūras (dažas atraitnes tika izvēlētas nejauši, citas kalpoja kā kontroles). Šajā gadījumā atraitņu sadalījums pēc vecuma izlasē atspoguļo faktisko atraitņu sadalījumu pēc vecuma populācijā. Grupas efektivitātes novērtējums sociālais atbalsts atraitnes pie visi vecumi atbildīs vidējam svērtajam rādītājam divām vecuma grupām (ar svariem, kas atbilst novērojumu skaitam grupā).

Plānotie salīdzinājumi

Ņemiet vērā, ka ievadīto kontrasta koeficientu summa ne vienmēr ir vienāda ar 0 (nulle). Tā vietā programma automātiski veiks korekcijas, lai nodrošinātu, ka atbilstošās hipotēzes netiek sajauktas ar kopējo vidējo rādītāju.

Lai to ilustrētu, atgriezīsimies pie vienkāršā 2 x 2 plāna, kas tika apspriests iepriekš. Atgādinām, ka novērojumu skaits šīs nelīdzsvarotās konstrukcijas šūnās ir -1, 2, 3 un 1. Pieņemsim, ka mēs vēlamies salīdzināt faktora A svērtos robežvidus (svērts pēc faktora B līmeņu biežuma). Varat ievadīt kontrasta koeficientus:

Ņemiet vērā, ka šie koeficienti nesummējas līdz 0. Programma iestatīs koeficientus tā, lai tie saskaitītu līdz 0, un to relatīvās vērtības tiks saglabātas, t.i.:

1/3 2/3 -3/4 -1/4

Šie kontrasti salīdzinās faktora A svērtos vidējos.

Hipotēzes par galveno vidējo. Hipotēzi, ka nesvērtais galvenais vidējais rādītājs ir 0, var izpētīt, izmantojot koeficientus:

Hipotēze, ka svērtais galvenais vidējais ir 0, tiek pārbaudīta, izmantojot:

Programma nekādā gadījumā neregulē kontrasta attiecības.

Plānu ar trūkstošām šūnām analīze (nepilnīgi plāni)

Faktoriālie modeļi, kas satur tukšas šūnas (apstrādājot šūnu kombinācijas, kurām nav novērojumu), tiek saukti par nepilnīgiem. Šādos veidos daži faktori parasti nav ortogonāli, un dažas mijiedarbības nevar aprēķināt. Vispār neeksistē labākā metodešādu plānu analīze.

Regresijas pieeja

Dažās vecākās programmās, kas paļaujas uz ANOVA dizainu analīzi, izmantojot daudzfaktoru regresiju, faktori nepilnīgajos plānos tiek norādīti pēc noklusējuma kā parasti (it kā dizains būtu pabeigts). Tad daudzdimensionāls regresijas analīzešiem fiktīvajiem kodētajiem faktoriem. Diemžēl šī metode rada rezultātus, kurus ir ļoti grūti, ja ne neiespējami interpretēt, jo nav skaidrs, kā katrs efekts veicina lineāro līdzekļu kombināciju. Apsveriet šādu vienkāršo piemēru.

Faktors A Faktors B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Nokavēts

Ja veicam formas daudzfaktoru regresiju Atkarīgais mainīgais = konstante + faktors A + faktors B, tad hipotēze par faktoru A un B nozīmi lineāro vidējo kombināciju izteiksmē izskatās šādi:

Faktors A: šūna A1,B1 = šūna A2,B1

Faktors B: šūna A1, B1 = šūna A1, B2

Šis gadījums ir vienkāršs. Sarežģītākos projektos nav iespējams faktiski noteikt, kas tieši tiks pārbaudīts.

Šūnu līdzekļi, ANOVA pieeja , IV tipa hipotēzes

Literatūrā ieteiktā pieeja, kas šķiet vēlama, ir jēgpilna (pētāmo jautājumu ziņā) studēšana. priekšroka hipotēzes par plāna šūnās novērotajiem līdzekļiem. Detalizēta diskusija par šo pieeju ir atrodama Dodge (1985), Heiberger (1989), Milliken un Johnson (1984), Searle (1987) vai Woodward, Bonett un Brecht (1990). Kvadrātu summas, kas saistītas ar hipotēzēm par lineāro vidējo kombināciju nepilnīgos projektos, kas pārbauda daļu efektu aplēses, sauc arī par kvadrātu summām. IV.

Automātiska tipa hipotēžu ģenerēšanaIV. Ja daudzfaktoru modeļiem ir sarežģīti trūkstošie šūnu modeļi, ir vēlams definēt ortogonālas (neatkarīgas) hipotēzes, kuru izpēte ir līdzvērtīga galveno efektu vai mijiedarbības pārbaudei. Ir izstrādātas algoritmiskās (skaitļošanas) stratēģijas (pamatojoties uz pseido-inverso dizaina matricu), lai ģenerētu piemērotus svarus šādiem salīdzinājumiem. Diemžēl galīgās hipotēzes nav definētas unikālā veidā. Protams, tie ir atkarīgi no secības, kādā sekas tika identificētas, un reti pieļauj vienkāršu interpretāciju. Tāpēc ieteicams rūpīgi izpētīt trūkstošo šūnu būtību, pēc tam formulēt hipotēzes veidsIV, kas visnozīmīgākajā veidā atbilst pētījuma mērķiem. Pēc tam izpētiet šīs hipotēzes, izmantojot opciju Plānotie salīdzinājumi logā rezultātus. Vienkāršākais veids, kā šajā gadījumā norādīt salīdzinājumus, ir pieprasīt kontrastu vektora ieviešanu visiem faktoriem kopā logā Plānotie salīdzinājumi. Pēc dialoglodziņa izsaukšanas Plānotie salīdzinājumi tiks parādītas visas grupas pašreizējais plāns un tie, kas ir garām, ir atzīmēti.

Trūkst šūnas un specifiska efekta pārbaude

Ir vairāki dizaina veidi, kuros trūkstošo šūnu atrašanās vieta nav nejauša, bet ir rūpīgi plānota, ļaujot vienkārši analizēt galvenos efektus, neietekmējot citus efektus. Piemēram, ja plānā nav pieejams nepieciešamais šūnu skaits, plāni bieži tiek izmantoti Latīņu kvadrāti lai novērtētu vairāku faktoru galveno ietekmi ar lielu skaitu līmeņu. Piemēram, 4 x 4 x 4 x 4 faktoriālam dizainam ir nepieciešamas 256 šūnas. Tajā pašā laikā jūs varat izmantot Grieķu-latīņu laukums lai novērtētu galvenos efektus tikai ar 16 šūnām dizainā (nodaļa Eksperimentu plānošana, IV sējums, satur šādu plānu detalizētu aprakstu). Tiek saukti nepilnīgi modeļi, kuros galvenos efektus (un dažas mijiedarbības) var novērtēt, izmantojot vienkāršas lineāras līdzekļu kombinācijas. līdzsvaroti nepilnīgi plāni.

Līdzsvarotos projektos standarta (noklusējuma) metode kontrastu (svaru) ģenerēšanai galvenajiem efektiem un mijiedarbībām pēc tam izveidos dispersiju analīzes tabulu, kurā attiecīgo efektu kvadrātu summas netiek sajauktas viena ar otru. Opcija Specifiski efekti logs rezultātusģenerēs trūkstošos kontrastus, ierakstot nulli trūkstošajām plāna šūnām. Tūlīt pēc opcijas pieprasīšanas Specifiski efekti Lietotājam, kurš pārbauda kādu hipotēzi, tiek parādīta rezultātu tabula ar faktiskajiem svariem. Ņemiet vērā, ka līdzsvarotā dizainā atbilstošo efektu kvadrātu summas tiek aprēķinātas tikai tad, ja šie efekti ir ortogonāli (neatkarīgi) visiem pārējiem galvenajiem efektiem un mijiedarbībām. Pretējā gadījumā jums ir jāizmanto opcija Plānotie salīdzinājumi izpētīt jēgpilnus salīdzinājumus starp līdzekļiem.

Trūkst šūnu un apvienoti efektu/kļūdu termini

Ja iespēja Regresijas pieeja moduļa sākuma panelī Dispersijas analīze nav atlasīts, šūnu vidējais modelis tiks izmantots, aprēķinot efektu kvadrātu summu (noklusējuma iestatījums). Ja dizains nav līdzsvarots, tad, apvienojot neortogonālus efektus (skatiet iepriekš diskusijas par opciju Izlaistas šūnas un specifiskais efekts) var iegūt kvadrātu summu, kas sastāv no neortogonāliem (vai pārklājošiem) komponentiem. Iegūtie rezultāti parasti nav interpretējami. Tāpēc ir jābūt ļoti uzmanīgiem, izvēloties un īstenojot sarežģītus nepabeigtus eksperimentālos projektus.

Ir daudz grāmatu ar detalizētām diskusijām par dažāda veida plāniem. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken un Johnson, 1984; Searle, 1987; Woodward un Bonett, 1990), taču šāda veida informācija neietilpst šīs mācību grāmatas ietvaros. Tomēr analīze tiks parādīta vēlāk šajā sadaļā. dažādi veidi plāniem.

Pieņēmumi un pieņēmumu pārkāpšanas sekas

Novirze no normālo sadalījumu pieņēmuma

Pieņemsim, ka atkarīgais mainīgais tiek mērīts skaitliskā skalā. Pieņemsim arī, ka atkarīgais mainīgais parasti ir sadalīts katrā grupā. Dispersijas analīze satur plašu grafiku un statistikas datu klāstu, lai atbalstītu šo pieņēmumu.

Traucējumu sekas. Pavisam F tests ir ļoti izturīgs pret novirzēm no normas (detalizētus rezultātus skatīt Lindman, 1974). Ja kurtoze ir lielāka par 0, tad statistikas vērtība ir F var kļūt ļoti mazs. Nulles hipotēze tiek pieņemta, lai gan tā var nebūt patiesa. Situācija ir pretēja, ja kurtoze ir mazāka par 0. Sadalījuma šķībums parasti maz ietekmē F statistika. Ja novērojumu skaits šūnā ir pietiekami liels, tad novirze no normas nav īpaši nozīmīga, jo centrālā robežu teorēma, saskaņā ar kuru vidējās vērtības sadalījums ir tuvu normālam, neatkarīgi no sākotnējā sadalījuma. Detalizēta diskusija par ilgtspējību F statistiku var atrast Box and Anderson (1955) vai Lindman (1974).

Dispersijas vienveidība

Pieņēmumi. Tiek pieņemts, ka dažādu dizaina grupu dispersijas ir vienādas. Šo pieņēmumu sauc par pieņēmumu dispersijas viendabīgums. Atgādinām, ka šīs sadaļas sākumā, aprakstot kļūdu kvadrātu summas aprēķinu, mēs veicām summēšanu katras grupas ietvaros. Ja dispersijas divās grupās atšķiras viena no otras, tad to saskaitīšana nav ļoti dabiska un nesniedz kopējās grupas iekšējās dispersijas novērtējumu (jo šajā gadījumā kopējās dispersijas nav vispār). Modulis Dispersijas analīze -ANOVA/MANOVA satur lielu komplektu statistikas kritēriji noviržu noteikšana no dispersijas viendabīguma pieņēmumiem.

Traucējumu sekas. Lindmans (1974, 33. lpp.) parāda, ka F kritērijs ir diezgan stabils attiecībā uz dispersijas homogenitātes pieņēmumu pārkāpumu ( neviendabīgums dispersiju, skatīt arī Box, 1954a, 1954b; Hsu, 1938).

Īpašs gadījums: vidējo un dispersiju korelācija. Ir reizes, kad F statistika var maldināt. Tas notiek, ja dizaina šūnu līdzekļi ir korelēti ar dispersiju. Modulis Dispersijas analīzeļauj veidot dispersijas izkliedes vai standarta novirze attiecībā pret vidējiem, lai noteiktu šādu korelāciju. Iemesls, kāpēc šī korelācija ir bīstama, ir šāds. Iedomāsimies, ka plānā ir 8 šūnas, no kurām 7 ir gandrīz vienādas vidējās vērtības, un vienā šūnā vidējais ir daudz augstāks nekā pārējās. Tad F tests var noteikt statistiski nozīmīgu efektu. Bet pieņemsim, ka šūnā ar lielu vidējo vērtību dispersija ir ievērojami lielāka nekā pārējām, t.i. vidējā vērtība un dispersija šūnās ir atkarīgas (jo augstāks vidējais, jo lielāka dispersija). Šajā gadījumā liela vidējā vērtība ir neuzticama, jo to var izraisīt liela datu atšķirība. Tomēr F statistika, pamatojoties uz vienoti dispersija šūnās atspoguļos lielo vidējo, lai gan testos, kuru pamatā ir dispersija katrā šūnā, visas līdzekļu atšķirības neuzskatīs par nozīmīgām.

Šāda veida dati (liela vidējā un liela dispersija) bieži rodas, ja novērojumi ir novirzīti. Viens vai divi novirzes novērojumi ievērojami maina vidējo vērtību un ievērojami palielina dispersiju.

Izkliedes un kovariācijas homogenitāte

Pieņēmumi. Daudzfaktoru modeļi ar daudzfaktoru atkarīgiem mērījumiem arī piemēro iepriekš aprakstīto pieņēmumu par dispersijas viendabīgumu. Tomēr, tā kā ir daudzfaktoru atkarīgi mainīgie, ir arī nepieciešams, lai to savstarpējās korelācijas (kovariācijas) būtu vienādas visās dizaina šūnās. Modulis Dispersijas analīze piedāvā dažādus veidus, kā pārbaudīt šos pieņēmumus.

Traucējumu sekas. Daudzdimensiju analogs F- kritērijs - Vilksa λ-tests. Nav daudz zināms par Vilksa λ testa robustumu attiecībā uz iepriekšminēto pieņēmumu pārkāpumiem. Tomēr, tā kā moduļa interpretācijas rezultāti Dispersijas analīze parasti balstās uz vienfaktoru efektu nozīmīgumu (pēc vispārējā kritērija nozīmīguma noteikšanas), diskusija par robustumu galvenokārt attiecas uz vienfaktoru dispersijas analīzi. Tāpēc ir rūpīgi jāizpēta vienfaktoru efektu nozīme.

Īpašs gadījums: kovariācijas analīze.Īpaši nopietni dispersijas/kovariācijas homogenitātes pārkāpumi var rasties, ja projektā ir iekļauti kovarianti. Jo īpaši, ja korelācija starp kovariātiem un atkarīgajiem rādītājiem atšķiras dažādās konstrukcijas šūnās, var rasties nepareiza rezultātu interpretācija. Atcerieties, ka kovariācijas analīze būtībā veic regresijas analīzi katrā šūnā, lai izolētu to dispersijas daļu, ko nosaka kovariāts. Pieņēmuma dispersijas/kovariācijas viendabīgums liecina, ka šī regresijas analīze tiek veikta plkst. šādu ierobežojumu: visi regresijas vienādojumi (slīpumi) ir vienādi visām šūnām. Ja tas nav gaidāms, var parādīties lielas kļūdas. Modulis Dispersijas analīze ir vairāki īpaši kritēriji, lai pārbaudītu šo pieņēmumu. Ir ieteicams izmantot šos kritērijus, lai nodrošinātu, ka regresijas vienādojumi dažādām šūnām ir aptuveni vienādi.

Sfēriskums un kompleksā simetrija: iemesli, kāpēc dispersijas analīzē atkārtotiem mērījumiem tiek izmantota daudzfaktoru pieeja

Dizainos, kas satur atkārtotu mērījumu faktorus ar vairāk nekā diviem līmeņiem, vienfaktoru ANOVA izmantošanai ir nepieciešami papildu pieņēmumi: savienojuma simetrijas pieņēmums un sfēriskuma pieņēmums. Šie pieņēmumi tiek izpildīti reti (skatīt zemāk). Tāpēc pēdējos gados šādos dizainos popularitāti ir ieguvusi daudzfaktoru dispersijas analīze (abas pieejas ir apvienotas modulī Dispersijas analīze).

Kompleksās simetrijas pieņēmums Savienojumu simetrijas pieņēmums ir tāds, ka dispersijas (dalītas grupās) un kovariācijas (dalītas grupās) dažādiem atkārtotiem mērījumiem ir viendabīgas (vienādas). Tas ir pietiekams nosacījums, lai atkārtotu mērījumu vienfaktora F tests būtu derīgs (t.i., ziņotās F vērtības vidēji atbilst F sadalījumam). Tomēr šajā gadījumā šis nosacījums nav nepieciešams.

Sfēriskuma pieņēmums. Sfēriskuma pieņēmums ir nepieciešams un pietiekams nosacījums, lai F tests būtu derīgs. Tas sastāv no tā, ka grupās visi novērojumi ir neatkarīgi un vienādi sadalīti. Šo pieņēmumu būtība un to pārkāpšanas ietekme parasti nav labi aprakstīta grāmatās par ANOVA — tie tiks apskatīti turpmākajās rindkopās. Tiks arī parādīts, ka viendimensiju pieejas rezultāti var atšķirties no daudzfaktoru pieejas rezultātiem, un tiks paskaidrots, ko tas nozīmē.

Nepieciešamība pēc hipotēžu neatkarības. Vispārējais veids, kā analizēt datus ANOVA, ir modeļa montāža. Ja attiecībā pret modeli, kas atbilst datiem, daži ir priekšroka hipotēzes, tad dispersija tiek sadalīta, lai pārbaudītu šīs hipotēzes (galveno efektu, mijiedarbības kritēriji). No skaitļošanas viedokļa šī pieeja rada kontrastu kopu (plāna līdzekļu salīdzinājumu kopa). Tomēr, ja kontrasti nav neatkarīgi viens no otra, dispersiju sadalīšana kļūst bezjēdzīga. Piemēram, ja divi kontrasti A Un B ir identiski un tiek iegūta atbilstošā dispersijas daļa, tad viena un tā pati daļa tiek iegūta divas reizes. Piemēram, ir muļķīgi un bezjēdzīgi identificēt divas hipotēzes: "vidējais rādītājs 1. šūnā ir augstāks nekā vidējais 2. šūnā" un "vidējais rādītājs šūnā 1 ir augstāks par vidējo 2. šūnā". Tātad hipotēzēm jābūt neatkarīgām vai ortogonālām.

Neatkarīgas hipotēzes atkārtotos mēros. Modulī realizēts vispārējais algoritms Dispersijas analīze, mēģinās ģenerēt neatkarīgus (ortogonālus) kontrastus katram efektam. Attiecībā uz atkārtoto mērījumu faktoru šie kontrasti sniedz daudzas hipotēzes par atšķirības starp aplūkojamā faktora līmeņiem. Tomēr, ja šīs atšķirības ir korelētas grupās, tad iegūtie kontrasti vairs nav neatkarīgi. Piemēram, mācībās, kur studenti tiek mērīti trīs reizes vienā semestrī, var gadīties, ka izmaiņas starp 1. un 2. mērījumu negatīvi korelē ar izmaiņām starp 2. un 3. mācību priekšmetu mērījumu. Tie, kas apguvuši lielāko daļu materiāla starp 1. un 2. dimensiju, apgūst mazāku daļu laikā, kas pagāja starp 2. un 3. dimensiju. Faktiski vairumā gadījumu, kad ANOVA tiek izmantota atkārtotiem mērījumiem, var pieņemt, ka līmeņu izmaiņas ir korelētas starp subjektiem. Tomēr, ja tas notiek, kompleksās simetrijas pieņēmums un sfēriskuma pieņēmums nav spēkā, un nevar aprēķināt neatkarīgus kontrastus.

Pārkāpumu ietekme un to novēršanas veidi. Ja netiek ievēroti sarežģītie simetrijas vai sfēriskuma pieņēmumi, ANOVA var radīt kļūdainus rezultātus. Pirms daudzfaktoru procedūras tika pietiekami izstrādātas, tika ierosināti vairāki pieņēmumi, lai kompensētu šo pieņēmumu pārkāpumus. (Skatiet, piemēram, Greenhouse & Geisser, 1959 un Huynh & Feldt, 1970). Šīs metodes joprojām tiek plaši izmantotas (tāpēc tās ir parādītas modulī Dispersijas analīze).

Daudzfaktoru dispersijas analīzes pieeja atkārtotiem mērījumiem. Kopumā kompleksās simetrijas un sfēriskuma problēmas ir saistītas ar to, ka atkārtotu mērījumu faktoru ietekmes pētījumā iekļautās kontrastu kopas (ar vairāk nekā 2 līmeņiem) nav viena no otras neatkarīgas. Tomēr, ja tie tiek izmantoti, tiem nav jābūt neatkarīgiem daudzdimensionāls vienlaicīgas pārbaudes kritērijs statistiskā nozīme divu vai vairāku atkārtotu mērījumu faktoru kontrasti. Tas ir iemesls, kāpēc dispersijas metožu daudzfaktoru analīze tiek arvien vairāk izmantota, lai pārbaudītu vienfaktoru atkārtotu mērījumu faktoru nozīmīgumu ar vairāk nekā 2 līmeņiem. Šī pieeja ir plaši pieņemta, jo tai parasti nav nepieciešama sarežģīta simetrija vai sfēriskums.

Gadījumi, kad nevar izmantot daudzfaktoru dispersijas analīzes pieeju. Ir piemēri (dizaini), kuros nevar piemērot daudzfaktoru dispersijas analīzes pieeju. Tie parasti ir gadījumi, kad noformējumā ir neliels priekšmetu skaits un daudzos līmeņos atkārtoto mērījumu faktorā. Tad var būt pārāk maz novērojumu, lai veiktu daudzfaktoru analīzi. Piemēram, ja ir 12 priekšmeti, lpp = 4 atkārtotu pasākumu faktors, un katram faktoram ir k = 3 līmeņi. Tad “patērēs” 4 faktoru mijiedarbība (k-1)P = 2 4 = 16 brīvības pakāpes. Tomēr ir tikai 12 subjekti, tāpēc šajā piemērā nevar veikt daudzfaktoru testu. Modulis Dispersijas analīze patstāvīgi atklās šos novērojumus un aprēķinās tikai viendimensijas kritērijus.

Atšķirības vienfaktoru un daudzfaktoru rezultātos. Ja pētījums ietver lielu skaitu atkārtotu mērījumu, var būt gadījumi, kad vienfaktoru atkārtotu mērījumu ANOVA pieeja rada rezultātus, kas ļoti atšķiras no tiem, kas iegūti ar daudzfaktoru pieeju. Tas nozīmē, ka atšķirības starp atbilstošo atkārtoto pasākumu līmeņiem ir savstarpēji saistītas. Dažreiz šis fakts ir neatkarīgs.

Dispersijas daudzfaktoru analīze un strukturālo vienādojumu modelēšana

Pēdējos gados strukturālo vienādojumu modelēšana ir kļuvusi populāra kā alternatīva daudzfaktoru dispersijas analīzei (sk., piemēram, Bagozzi un Yi, 1989; Bagozzi, Yi un Singh, 1991; Cole, Maxwell, Arvey un Salas, 1993). . Šī pieeja ļauj pārbaudīt hipotēzes ne tikai par vidējiem rādītājiem dažādās grupās, bet arī par atkarīgo mainīgo korelācijas matricām. Piemēram, var mīkstināt pieņēmumus par dispersiju un kovariāciju homogenitāti un katras grupas modelī skaidri iekļaut kļūdu dispersijas un kovariācijas. Modulis STATISTIKAStrukturālo vienādojumu modelēšana (SEPATH) (sk. III sējumu) ļauj veikt šādu analīzi.

Vispārīgas definīcijas

Dispersijas analīzes (ANOVA – Analysis of Variation) mērķis ir pārbaudīt vidējo atšķirību nozīmīgumu dažādās grupās, salīdzinot šo grupu dispersijas. Kopējās dispersijas sadalīšana vairākos avotos (kas attiecināma uz dažādiem dizaina efektiem), ļauj salīdzināt atšķirības starp grupu variācijām ar dispersiju, ko rada atšķirības grupas iekšienē.

Pārbaudāmā hipotēze ir tāda, ka starp grupām nav atšķirību. Ja nulles hipotēze ir patiesa, dispersijas novērtējumam, kas saistīts ar mainīgumu grupas iekšienē, ir jābūt tuvu starpgrupu dispersijas aplēsei. Ja tas ir nepatiess, ir svarīgi novirzīties.

Kopumā dispersijas analīzi var iedalīt vairākos veidos:

  • viendimensionāls (viens atkarīgais mainīgais) un daudzdimensionāls (vairāki atkarīgi mainīgie);

  • viendimensiju (viens grupēšanas mainīgais) un daudzfaktoru (vairāki grupēšanas mainīgie) ar iespējamu faktoru mijiedarbību;

  • ar vienkāršiem mērījumiem (atkarīgais mainīgais tiek mērīts tikai vienu reizi) un ar atkārtotiem mērījumiem (atkarīgais mainīgais tiek mērīts vairākas reizes).

IN STATISTIKA Ir ieviesti visi zināmie dispersijas analīzes modeļi.

IN STATISTIKA dispersijas analīzi var veikt, izmantojot blokā esošo ANOVA moduli STATISITICA bāze (Analīze —> dispersijas analīze (DA)). Lai izveidotu īpaša veida modeli, izmantojiet pilna versija Dispersijas analīze, kas sniegta moduļos Vispārīgi lineārie modeļi, Vispārinātie lineārie un nelineārie modeļi, Vispārējie regresijas modeļi, Vispārīgi privātie modeļi mazākie kvadrāti no bloka Uzlabotas analīzes metodes (STATISTICA uzlabotie lineārie/nelineārie modeļi).

uz sākumu

Soli pa solim piemērs STATISTIKA

Mēs ilustrēsim ANOVA spēku STATISTIKA, aplūkojot soli pa solim modeļa piemēru.

Avota datu failā ir aprakstīta cilvēku kopa ar dažādu ienākumu līmeni, izglītību, vecumu un dzimumu. Apskatīsim, kā izglītības līmenis, vecums un dzimums ietekmē ienākumu līmeni.

Pēc vecuma visi cilvēki tika iedalīti četrās grupās:

  • līdz 30 gadiem;

  • no 31 līdz 40 gadiem;

  • no 41 līdz 50 gadiem;

  • no 51 gada vecuma.

Pēc izglītības līmeņa tika iedalīts 5 grupās:

  • nepilnīga sekundārā;

  • vidējais;

  • vidējā profesionālā;

  • nepabeigta augstākā izglītība;

  • augstāks.

Tā kā tie ir modeļa dati, iegūtie rezultāti galvenokārt būs kvalitatīvi un ilustrē analīzes veikšanas metodi.

1. darbība: analīzes atlase

Izvēlnē atlasīsim dispersijas analīzi: Analīze -> Papildu analīzes metodes -> Vispārīgie lineārie modeļi.

Rīsi. 1. Nolaižamajā izvēlnē STATISTIKA atlasiet ANOVA

Pēc tam tiks atvērts logs, kurā tiek parādīti dažādi analīzes veidi. Izvēlieties Analīzes veidsFaktoriālā dispersijas analīze.


Rīsi. 2. Analīzes veida izvēle

Šajā logā varat arī izvēlēties, kā izveidot modeli: dialoga režīmu vai izmantot analīzes vedni. Izvēlamies dialoga režīmu.

2. darbība: mainīgo iestatīšana

Atvērtajā datu failā atlasiet analīzei mainīgos, noklikšķiniet uz pogas Mainīgie lielumi, jūs lietojat:

Ienākumi- atkarīgais mainīgais,

Izglītības līmenis, Stāvs Un Vecums– kategoriskie faktori (prognozētāji).

ievērojiet, tas Faktoru kodišajā vienkāršajā piemērā jums tas nav jānorāda. Kad nospiežat pogu labi, STATISTIKA iestatīs tos automātiski.


Rīsi. 3. Mainīgo lielumu iestatīšana

3. darbība: opciju maiņa

Dosimies uz cilni Iespējas logā GLM Factorial JĀ.


Rīsi. 4. Opciju cilne

Šajā dialoglodziņā varat:

  • izvēlēties nejaušus faktorus;

  • iestatīt modeļa parametrizācijas veidu;

  • norādiet kvadrātu summu veidu (SS), ir 6 dažādas kvadrātu summas (SS);

  • iespējot savstarpēju pārbaudi.

Atstāsim visus noklusējuma iestatījumus (vairumā gadījumu tas ir pietiekami) un nospiediet pogu labi.

4. darbība. Analizējiet rezultātus — skatiet visus efektus

Analīzes rezultātus var apskatīt logā rezultātus izmantojot cilnes un pogu grupas. Apsveriet, piemēram, cilni Rezultāti.


Rīsi. 5. Rezultātu analīzes logs: cilne Rezultāti

Šajā cilnē varat piekļūt visiem galvenajiem rezultātiem. Lai iegūtu vairāk rezultātu, izmantojiet citas cilnes. Poga Mazākļauj mainīt rezultātu dialoglodziņu, noņemot cilnes, kas parasti netiek izmantotas.

Kad tiek nospiesta poga Pārbaudiet visus efektus mēs iegūstam šādu tabulu.


Rīsi. 6. Visu efektu tabula

Šajā tabulā ir parādīti galvenie analīzes rezultāti: kvadrātu summas, brīvības pakāpes, F-testa vērtības, nozīmīguma līmeņi.

Pētījuma ērtībai nozīmīga ietekme (lpp<.05) выделены красным цветом. Два главных эффекта (Izglītības līmenis Un Vecums), un dažas mijiedarbības šajā piemērā ir nozīmīgas (lpp<.05).

5. solis. Rezultātu analīze – norādīto efektu apskate

Labākais veids, kā noskaidrot, kā vidējie ienākumi atšķiras dažādās kategorijās, ir izmantot grafiskos rīkus. Kad nospiežat pogu Visi efekti/grafikas Parādīsies šāds dialoglodziņš.


Rīsi. 7. Logu tabula ar visiem efektiem

Logā ir uzskaitīti visi izskatāmie efekti. Statistiski nozīmīga ietekme ir atzīmēta ar *.

Piemēram, atlasīsim efektu Vecums, grupā Displejs norādīsim Tabula un noklikšķiniet labi. Tiek parādīta tabula, kurā parādīta atkarīgā mainīgā vidējā vērtība katram efekta līmenim. (Ienākumi), standarta kļūdas vērtība un ticamības robežas.


Rīsi. 8. Tabula ar aprakstošu statistiku pa mainīgā Vecums līmeņiem

Šo tabulu ir ērti attēlot grafiskā formā. Šim nolūkam mēs izvēlamies Grafiks grupā Displejs dialoglodziņš Tabula visi efekti un nospiediet labi. Parādīsies atbilstošais grafiks.


Rīsi. 9. Vidējo ienākumu un vecuma grafiks

Grafikā skaidri redzams, ka starp dažāda vecuma cilvēku grupām pastāv ienākumu līmeņa atšķirības. Jo lielāks vecums, jo lielāki ienākumi.

Mēs veiksim līdzīgas darbības vairāku faktoru mijiedarbībai. Dialoglodziņā izvēlamies Stāvs*Vecums un noklikšķiniet labi.


Rīsi. 10. Vidējo ienākumu grafiks atkarībā no dzimuma un vecuma

Tika iegūts negaidīts rezultāts: aptaujātajiem cilvēkiem vecumā līdz 50 gadiem ienākumu līmenis pieaug līdz ar vecumu un nav atkarīgs no dzimuma; Aptaujātajiem cilvēkiem, kas vecāki par 50 gadiem, sievietēm ir ievērojami lielāki ienākumi nekā vīriešiem.

Ir vērts izveidot iegūto grafiku izglītības līmeņa ziņā. Varbūt šis modelis dažās kategorijās tiek pārkāpts vai, gluži pretēji, ir universāls. Šim nolūkam mēs izvēlamies Izglītības līmenis * Stāvs* Vecums un noklikšķiniet labi.


Rīsi. 11. Vidējo ienākumu grafiks atkarībā no dzimuma, vecuma, izglītības līmeņa

Redzam, ka no tā izrietošā atkarība nav raksturīga vidējai un vidējai profesionālajai izglītībai. Citos gadījumos tas ir godīgi.

6. solis. Rezultātu analīze - modeļa kvalitātes novērtējums

Iepriekš galvenokārt tika izmantoti grafiskie dispersijas analīzes līdzekļi. Apskatīsim dažus citus noderīgus rezultātus, ko var iegūt.

Pirmkārt, ir interesanti redzēt, cik lielu dispersiju izskaidro attiecīgie faktori un to mijiedarbība. Lai to izdarītu, cilnē Rezultāti noklikšķiniet uz pogas Vispārīgie R modeļi. Parādīsies šāda tabula.

Rīsi. 12. SS modeļa un SS atlikuma tabula

Skaitlis kolonnā Iestatīt. R2 – daudzkārtējās korelācijas koeficients kvadrātā; tas parāda, kādu mainīguma proporciju izskaidro konstruētais modelis. Mūsu gadījumā R2 = 0,195, kas norāda uz modeļa zemo kvalitāti. Faktiski ienākumu līmeni ietekmē ne tikai modelī iekļautie faktori.

7. solis. Rezultātu analīze – kontrasta analīze

Bieži vien ir nepieciešams ne tikai noteikt atkarīgā mainīgā lieluma vidējās vērtības atšķirību dažādām kategorijām, bet arī noteikt atšķirības lielumu noteiktām kategorijām. Lai to izdarītu, ir jāizpēta kontrasti.

Iepriekš tika parādīts, ka ienākumu līmenis vīriešiem un sievietēm būtiski atšķiras vecumā virs 51, citos gadījumos atšķirība nav būtiska. Atvasināsim ienākumu līmeņu atšķirību vīriešiem un sievietēm vecumā virs 51 gada un no 40 līdz 50 gadiem.

Lai to izdarītu, dodieties uz cilni Kontrasti un iestatiet visas vērtības šādi.


Rīsi. 13. Kontrastu cilne

Kad tiek nospiesta poga Aprēķināt Parādīsies vairākas tabulas. Mūs interesē tabula ar kontrasta aprēķiniem.


Rīsi. 14. Kontrastu novērtēšanas tabula

Var izdarīt šādus secinājumus:

  • vīriešiem un sievietēm, kas vecāki par 51 gadu, ienākumu starpība ir USD 48,7 tūkstoši Atšķirība ir ievērojama;

  • vīriešiem un sievietēm vecumā no 41 līdz 50 gadiem ienākumu starpība ir USD 1,73 tūkstoši Atšķirība nav būtiska.

Tāpat varat iestatīt sarežģītākus kontrastus vai izmantot kādu no iepriekš definētajām kopām.

8. darbība: papildu rezultāti

Izmantojot pārējās rezultātu loga cilnes, varat iegūt šādus rezultātus:

  • atkarīgā mainīgā vidējās vērtības atlasītajam efektam – cilne Vidēji;

  • a posteriori kritēriju pārbaude (post hoc) – cilne A posteriori;

  • pārbaudot ANOVA izdarītos pieņēmumus – tab Pieņēmumi;

  • ēkas reakcijas/vēlamības profili – cilne Profili;

  • Atlieku analīze – tab Pārpalikumi;

  • analīzē izmantoto matricu izvade – tab Matricas;

  • Statistikas izmantošana šajā piezīmē tiks ilustrēta ar transversālu piemēru. Pieņemsim, ka esat Perfect Parachute ražošanas vadītājs. Izpletņi ir izgatavoti no sintētiskām šķiedrām, ko piegādā četri dažādi piegādātāji. Viena no galvenajām izpletņa īpašībām ir tā izturība. Jums jānodrošina, lai visas piegādātās šķiedras būtu vienādas stiprības. Lai atbildētu uz šo jautājumu, ir jāizstrādā eksperimentāls dizains, lai izmērītu no sintētiskām šķiedrām austu izpletņu izturību. dažādi piegādātāji. Šajā eksperimentā iegūtā informācija noteiks, kurš piegādātājs nodrošina visizturīgākos izpletņus.

    Daudzas lietojumprogrammas ietver eksperimentus, kuros tiek ņemtas vērā vairākas viena faktora grupas vai līmeņi. Dažiem faktoriem, piemēram, keramikas apdedzināšanas temperatūrai, var būt vairāki skaitļu līmeņi (t.i., 300°, 350°, 400° un 450°). Citiem faktoriem, piemēram, preču atrašanās vietai lielveikalā, var būt kategoriski līmeņi (piemēram, pirmais piegādātājs, otrais piegādātājs, trešais piegādātājs, ceturtais piegādātājs). Viena faktora eksperimentus, kuros eksperimentālās vienības nejauši iedala grupās vai faktoru līmeņos, sauc par pilnībā randomizētiem.

    LietošanaF-kritērijus atšķirību novērtēšanai starp vairākām matemātiskām cerībām

    Ja faktora skaitliskie mērījumi grupās ir nepārtraukti un ir izpildīti daži papildu nosacījumi, vairāku grupu matemātisko gaidu salīdzināšanai izmanto dispersijas analīzi (ANOVA). An analīze o f Va riance). Dispersijas analīzi, izmantojot pilnīgi randomizētus modeļus, sauc par vienvirziena ANOVA procedūru. Dažos veidos termins dispersijas analīze ir nepareizs lietojums, jo tas salīdzina atšķirības starp grupu paredzamajām vērtībām, nevis dispersijas. Taču matemātisko gaidu salīdzinājums tiek veikts tieši, pamatojoties uz datu variāciju analīzi. ANOVA procedūrā kopējā mērījumu rezultātu variācija tiek sadalīta starp grupām un grupu iekšienē (1. att.). Izmaiņas starp grupām ir izskaidrojamas ar eksperimentālu kļūdu, savukārt atšķirības starp grupām tiek izskaidrotas ar eksperimentālo apstākļu ietekmi. Simbols Ar apzīmē grupu skaitu.

    Rīsi. 1. Sadalīšanas variants pilnīgi nejaušā eksperimentā

    Lejupielādējiet piezīmi formātā vai formātā, piemērus formātā

    Izliksimies tā Ar grupas tiek iegūtas no neatkarīgām populācijām, kurām ir normāls sadalījums un vienāda dispersija. Nulles hipotēze ir tāda, ka populāciju matemātiskās cerības ir vienādas: H 0: μ 1 = μ 2 = ... = μ s. Alternatīvā hipotēze apgalvo, ka ne visas matemātiskās cerības ir vienādas: H 1: ne visi μ j ir vienādi j= 1, 2, …, s).

    Attēlā 2. attēlā parādīta patiesā nulles hipotēze par piecu salīdzināto grupu matemātiskajām cerībām, ja populācijām ir normāls sadalījums un vienāda dispersija. Piecas populācijas, kas saistītas ar dažādiem faktora līmeņiem, ir identiskas. Līdz ar to tie ir uzlikti viens otram, un tiem ir vienādas matemātiskās cerības, variācijas un forma.

    Rīsi. 2. Piecām vispārējām populācijām ir vienādas matemātiskās cerības: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

    No otras puses, pieņemsim, ka patiesībā nulles hipotēze ir nepatiesa, kur ceturtajam līmenim ir visaugstākā paredzamā vērtība, pirmajam līmenim ir nedaudz zemāka paredzamā vērtība, bet pārējiem līmeņiem ir tādas pašas un pat zemākas paredzamās vērtības ( 3. attēls). Ņemiet vērā, ka, izņemot paredzamās vērtības, visas piecas populācijas ir identiskas (tas ir, tām ir vienāda mainība un forma).

    Rīsi. 3. Tiek novērota eksperimentālo apstākļu ietekme: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

    Pārbaudot hipotēzi par vairāku vispārējo populāciju matemātisko gaidu vienādību, kopējā variācija tiek sadalīta divās daļās: starpgrupu variācijā, kas rodas atšķirību dēļ starp grupām, un intragrupas variācijā, kas saistīta ar atšķirībām starp elementiem, kas pieder vienai grupai. Kopējo variāciju izsaka ar kopējo kvadrātu summu (SST – sum of squares total). Tā kā nulles hipotēze ir tāda, ka visu matemātiskās cerības Ar grupas ir vienādas viena ar otru, kopējā variācija ir vienāda ar atšķirību kvadrātā starp atsevišķiem novērojumiem un kopējo vidējo (vidējo vērtību), kas aprēķināta visām paraugiem. Pilna variācija:

    Kur - vispārējais vidējais, X ij - i-e novērojumi iekšā j- grupa vai līmenis, n j- novērojumu skaits j grupa, n - Kopā novērojumi visās grupās (t.i. n = n 1 + n 2 + … + n c), Ar- pētīto grupu vai līmeņu skaits.

    Variācija starp grupām, ko parasti sauc par starpgrupu kvadrātu summu (SSA — kvadrātu summa starp grupām), ir vienāda ar katras grupas izlases vidējo atšķirību kvadrātu summu. j un kopējais vidējais , reizināts ar atbilstošās grupas tilpumu n j:

    Kur Ar- pētīto grupu vai līmeņu skaits, n j- novērojumu skaits j grupa, j- vidējā vērtība j grupa, - kopējais vidējais.

    Variācijas grupas ietvaros, ko parasti sauc par grupas iekšējo kvadrātu summu (SSW — grupu kvadrātu summa), ir vienāda ar katras grupas elementu atšķirību kvadrātu summu un šīs grupas izlases vidējo j:

    Kur Xij - i th elements j grupa, j- vidējā vērtība j th grupa.

    Tā kā tie tiek salīdzināti Ar faktoru līmeņi, ir starpgrupu kvadrātu summa s – 1 brīvības pakāpes. Katrs no Ar līmeņi ir n j – 1 brīvības pakāpes, tāpēc ir iekšgrupas kvadrātu summa n- Ar brīvības pakāpes un

    Turklāt kopējā kvadrātu summa ir n – 1 brīvības pakāpes, kopš katra novērojuma Xij tiek salīdzināts ar kopējo vidējo, kas aprēķināts visam n novērojumiem. Ja katru no šīm summām dala ar atbilstošo brīvības pakāpju skaitu, rodas trīs dispersijas veidi: starpgrupa(vidējais kvadrāts starp — MSA), iekšgrupa(vidējais kvadrāts robežās — MSW) un pilns(vidējais kvadrāts kopā — MST):

    Neskatoties uz to, ka dispersijas analīzes galvenais mērķis ir salīdzināt matemātiskās cerības Ar grupām, lai identificētu eksperimentālo apstākļu ietekmi, tās nosaukums radies tādēļ, ka galvenais instruments ir dažāda veida dispersiju analīze. Ja nulles hipotēze ir patiesa, un starp matemātiskajām cerībām Ar grupām nav būtisku atšķirību, visas trīs dispersijas - MSA, MSW un MST - ir dispersijas aprēķini σ 2 raksturīgi analizētajiem datiem. Tādējādi, lai pārbaudītu nulles hipotēzi H 0: μ 1 = μ 2 = ... = μ s un alternatīva hipotēze H 1: ne visi μ j ir vienādi j = 1, 2, …, Ar), nepieciešams aprēķināt statistiku F-kritēriju, kas ir divu dispersiju, MSA un MSW, attiecība. Pārbaude F-statistika vienvirziena dispersijas analīzē

    Statistika F- saskaņā ar kritērijiem F-izplatīšana ar s – 1 brīvības pakāpes skaitītājā M.S.A. Un n – s brīvības pakāpes saucējā M.S.W.. Noteiktam nozīmīguma līmenim α nulles hipotēze tiek noraidīta, ja aprēķināts F FU, raksturīgs F-izplatīšana ar s – 1 n – s brīvības pakāpes saucējā. Tādējādi, kā parādīts attēlā. 4, izšķirošais noteikums formulēts šādi: nulles hipotēze H 0 noraidīts, ja F>FU; pretējā gadījumā tas netiek noraidīts.

    Rīsi. 4. Kritiskā dispersijas analīzes joma, pārbaudot hipotēzi H 0

    Ja nulles hipotēze H 0 ir taisnība, aprēķināts F-statistika ir tuvu 1, jo tās skaitītājs un saucējs ir viena un tā paša daudzuma aprēķini - analizētajiem datiem raksturīgā dispersija σ 2. Ja nulles hipotēze H 0 ir nepatiess (un pastāv būtiska atšķirība starp dažādu grupu matemātiskajām cerībām), aprēķināts F-statistika būs daudz lielāka par vienu, jo tās skaitītājs MSA papildus datu dabiskajai mainīgumam novērtē eksperimentālo apstākļu ietekmi vai atšķirību starp grupām, savukārt saucējs MSW novērtē tikai datu dabisko mainīgumu. . Tādējādi ANOVA procedūra ir F-kritērijs, kurā pie noteiktā nozīmīguma līmeņa α nulles hipotēze tiek noraidīta, ja aprēķinātais F-statistika ir lielāka par augšējo kritisko vērtību FU, raksturīgs F-izplatīšana ar s – 1 brīvības pakāpes skaitītājā un n – s brīvības pakāpes saucējā, kā parādīts attēlā. 4.

    Lai ilustrētu vienvirziena dispersijas analīzi, atgriezīsimies pie piezīmes sākumā aprakstītā scenārija. Eksperimenta mērķis ir noskaidrot, vai izpletņiem, kas austi no sintētiskām šķiedrām, kas iegūtas no dažādiem piegādātājiem, ir vienāda stiprība. Katrai grupai ir pieci izpletņi. Grupas tiek sadalītas pēc piegādātāja - Piegādātājs 1, Piegādātājs 2, Piegādātājs 3 un Piegādātājs 4. Izpletņu stiprumu mēra, izmantojot speciālu ierīci, kas pārbauda auduma plīsumu no abām pusēm. Izpletņa laušanai nepieciešamais spēks tiek mērīts pēc īpašas skalas. Jo lielāks lūšanas spēks, jo spēcīgāks ir izpletnis. Excel ļauj analizēt F- statistika ar vienu klikšķi. Iet cauri izvēlnei DatiDatu analīze un atlasiet līniju Vienvirziena ANOVA, aizpildiet atvērto logu (5. att.). Eksperimentālie rezultāti (pārrāvuma izturība), daži aprakstošie statistikas dati un vienvirziena dispersijas analīzes rezultāti ir parādīti attēlā. 6.

    Rīsi. 5. Logs Vienvirziena dispersijas analīzes pakotnes analīze Excel

    Rīsi. 6. No dažādiem piegādātājiem iegūto no sintētiskajām šķiedrām austo izpletņu stiprības rādītāji, aprakstošā statistika un vienvirziena dispersijas analīzes rezultāti

    6. attēla analīze parāda, ka starp parauga vidējiem rādītājiem ir zināma atšķirība. No pirmā piegādātāja iegūto šķiedru vidējā stiprība ir 19,52, no otrā - 24,26, no trešā - 22,84 un no ceturtā - 21,16. Vai šī atšķirība ir statistiski nozīmīga? Pārrāvuma spēka sadalījums ir parādīts izkliedes diagrammā (7. att.). Tas skaidri parāda atšķirības gan starp grupām, gan to iekšienē. Ja katra grupa būtu lielāka, to analīzei varētu izmantot stumbra un lapu diagrammu, kastes diagrammu vai zvanu diagrammu.

    Rīsi. 7. Stiprības dispersijas diagramma izpletņiem, kas austi no sintētiskām šķiedrām, kas iegūtas no četriem piegādātājiem.

    Nulles hipotēze nosaka, ka starp vidējiem stiprības rādītājiem nav būtisku atšķirību: H 0: μ 1 = μ 2 = μ 3 = μ 4. Alternatīva hipotēze ir tāda, ka ir vismaz viens piegādātājs, kura vidējā šķiedras stiprība atšķiras no citiem: H 1: ne visi μ j ir vienādi ( j = 1, 2, …, Ar).

    Kopējais vidējais (skat. 6. att.) = VIDĒJAIS(D12:D15) = 21,945; lai noteiktu, varat arī aprēķināt vidējo vērtību visiem 20 sākotnējiem skaitļiem: = VIDĒJS(A3:D7). Tiek aprēķinātas dispersijas vērtības Analīzes pakete un tiek atspoguļoti plāksnē Dispersijas analīze(sk. 6. att.): SSA = 63,286, SSW = 97,504, SST = 160,790 (sk. kolonnu SS tabulas Dispersijas analīze 6. attēls). Vidējos rādītājus aprēķina, šīs kvadrātu summas dalot ar atbilstošu brīvības pakāpju skaitu. Tāpēc ka Ar= 4, a n= 20, mēs iegūstam šādas brīvības pakāpju vērtības; SSA: s – 1= 3; SSW: n–c= 16; SST: n-1= 19 (skatīt kolonnu df). Tādējādi: MSA = SSA / ( s – 1)= 21,095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n-1) = 8,463 (sk. sleju JAUNKUNDZE). F-statistika = MSA / MSW = 3,462 (skatiet sleju F).

    Augstākā kritiskā vērtība FU, raksturīgs F-izplatījums, ko nosaka pēc formulas =F.OBR(0,95;3;16) = 3,239. Funkcijas =F.OBR() parametri: α = 0,05, skaitītājam ir trīs brīvības pakāpes, bet saucējam ir 16. Tādējādi aprēķinātā F-statistika, kas vienāda ar 3,462, pārsniedz augšējo kritisko vērtību FU= 3,239, nulles hipotēze tiek noraidīta (8. att.).

    Rīsi. 8. Kritiskais dispersijas analīzes apgabals ar nozīmīguma līmeni 0,05, ja skaitītājam ir trīs brīvības pakāpes un saucējs ir -16

    R-vērtība, t.i. varbūtība, ka, ja nulles hipotēze ir patiesa F-statistika ne mazāka par 3,46, kas vienāda ar 0,041 vai 4,1% (sk. kolonnu p-vērtība tabulas Dispersijas analīze 6. attēls). Tā kā šī vērtība nepārsniedz nozīmīguma līmeni α = 5%, nulles hipotēze tiek noraidīta. Turklāt, R-vērtība norāda, ka varbūtība atklāt šādu vai lielāku atšķirību starp vispārējo populāciju matemātiskajām cerībām, ja tās faktiski ir vienādas, ir vienāda ar 4,1%.

    Tātad. Pastāv atšķirība starp četriem izlases līdzekļiem. Nulles hipotēze bija tāda, ka visas četru populāciju matemātiskās cerības ir vienādas. Šādos apstākļos visu izpletņu izturības kopējās mainīguma (t.i., kopējās SST variācijas) mērījums tiek aprēķināts, summējot katra novērojuma atšķirības kvadrātā. X ij un kopējais vidējais . Pēc tam kopējās variācijas tika sadalītas divās komponentēs (sk. 1. att.). Pirmais komponents bija SSA atšķirības starp grupām, bet otrais bija SSW atšķirības grupā.

    Kas izskaidro datu mainīgumu? Citiem vārdiem sakot, kāpēc visi novērojumi nav vienādi? Viens no iemesliem ir tas, ka dažādi uzņēmumi piegādā dažāda stipruma šķiedras. Tas daļēji izskaidro, kāpēc grupām ir atšķirīgas matemātiskās cerības: jo spēcīgāka ir eksperimentālo apstākļu ietekme, jo lielāka atšķirība starp grupu matemātiskajām cerībām. Vēl viens datu mainīguma iemesls ir jebkura procesa dabiskā mainīgums, šajā gadījumā izpletņu ražošana. Pat ja visas šķiedras iegādātos no viena piegādātāja, to stiprums nebūtu vienāds, ja visas pārējās lietas būtu vienādas. Tā kā šis efekts rodas katrā grupā, to sauc par variāciju grupas ietvaros.

    Atšķirības starp izlases vidējiem sauc par starpgrupu variāciju SSA. Daļa no grupas iekšējās variācijas, kā jau norādīts, ir izskaidrojama ar datu piederību dažādām grupām. Tomēr, pat ja grupas būtu tieši tādas pašas (t.i., nulles hipotēze bija patiesa), atšķirības starp grupām joprojām pastāv. Iemesls tam ir izpletņu ražošanas procesa dabiskā mainīgums. Tā kā paraugi ir atšķirīgi, to izlases līdzekļi atšķiras viens no otra. Tāpēc, ja nulles hipotēze ir patiesa, gan starp grupu, gan tās iekšienē mainīgums ir populācijas mainīguma novērtējums. Ja nulles hipotēze ir nepatiesa, hipotēze starp grupām būs lielāka. Šis fakts ir pamatā F-kritērijus, lai salīdzinātu atšķirības starp vairāku grupu matemātiskajām cerībām.

    Pēc vienvirziena ANOVA veikšanas un būtisku atšķirību konstatēšanas starp firmām paliek nezināms, kurš piegādātājs būtiski atšķiras no pārējiem. Mēs zinām tikai to, ka vispārējo populāciju matemātiskās cerības nav vienādas. Citiem vārdiem sakot, vismaz viena no matemātiskajām cerībām būtiski atšķiras no pārējām. Lai noteiktu, kurš piegādātājs atšķiras no citiem, varat izmantot Tukey procedūra, izmantojot pāru salīdzinājumus starp piegādātājiem. Šo procedūru izstrādāja Džons Tukijs. Pēc tam viņš un K. Krāmers neatkarīgi pārveidoja šo procedūru situācijām, kad izlases lielumi atšķiras viens no otra.

    Vairāki salīdzinājumi: Tukey-Kramer procedūra

    Mūsu scenārijā tika izmantota vienvirziena dispersijas analīze, lai salīdzinātu izpletņu spēku. Konstatējot būtiskas atšķirības starp četru grupu matemātiskajām cerībām, ir jānosaka, kuras grupas atšķiras viena no otras. Lai gan ir vairāki veidi, kā atrisināt šo problēmu, mēs aprakstīsim tikai Tukey-Kramer vairāku salīdzināšanas procedūru. Šī metode ir post hoc salīdzināšanas procedūru piemērs, jo pārbaudāmā hipotēze tiek formulēta pēc datu analīzes. Tukey-Kramer procedūra ļauj salīdzināt visus grupu pārus vienlaicīgi. Pirmajā posmā tiek aprēķinātas atšķirības Xj -Xj, Kur j ≠j, starp matemātiskām cerībām s(s – 1)/2 grupas. Kritiskais tvērums Tukey-Kramer procedūru aprēķina pēc formulas:

    Kur Q U- studentizētā diapazona sadalījuma augšējā kritiskā vērtība, kurai ir Ar brīvības pakāpes skaitītājā un n - Ar brīvības pakāpes saucējā.

    Ja izlases lielumi nav vienādi, kritisko diapazonu aprēķina katram matemātisku gaidu pārim atsevišķi. Pēdējā posmā katrs no s(s – 1)/2 matemātisko gaidu pāri tiek salīdzināti ar atbilstošo kritisko diapazonu. Pāra elementus uzskata par būtiski atšķirīgiem, ja starpības modulis | X j -Xj| starp tiem pārsniedz kritisko diapazonu.

    Pielietosim Tukey-Kramer procedūru izpletņu izturības problēmai. Tā kā izpletņlēcēju uzņēmumam ir četri piegādātāji, ir jāpārbauda 4 (4 – 1)/2 = 6 piegādātāju pāri (9. attēls).

    Rīsi. 9. Izlases vidējo salīdzinājumi pa pāriem

    Tā kā visām grupām ir vienāds apjoms (t.i., visām n j = n j), pietiek aprēķināt tikai vienu kritisko diapazonu. Lai to izdarītu, saskaņā ar tabulu ANOVA(6. att.) nosakām vērtību MSW = 6,094. Tad mēs atrodam vērtību Q U pie α = 0,05, Ar= 4 (brīvības pakāpju skaits skaitītājā) un n- Ar= 20 – 4 = 16 (brīvības pakāpju skaits saucējā). Diemžēl Excel neatradu atbilstošo funkciju, tāpēc izmantoju tabulu (10. att.).

    Rīsi. 10. Studentizētā diapazona kritiskā vērtība Q U

    Mēs iegūstam:

    Tā kā tikai 4,74 > 4,47 (sk. 9. att. apakšējo tabulu), pastāv statistiski nozīmīga atšķirība starp pirmo un otro piegādātāju. Visiem pārējiem pāriem ir izlases līdzekļi, kas neļauj runāt par to atšķirībām. Līdz ar to no pirmā piegādātāja iegādātajām šķiedrām austo izpletņu vidējā izturība ir ievērojami mazāka nekā otrajam.

    Nepieciešamie nosacījumi vienvirziena dispersijas analīzei

    Risinot izpletņu stipruma problēmu, nepārbaudījām, vai nosacījumi, kādos ir iespējams izmantot vienfaktoru F- kritērijs. Kā jūs zināt, vai varat izmantot vienu faktoru F- kritērijs, analizējot konkrētus eksperimentālos datus? Viens faktors F-kritēriju var piemērot tikai tad, ja ir izpildīti trīs pamatpieņēmumi: eksperimentālajiem datiem jābūt nejaušiem un neatkarīgiem, ar normālu sadalījumu un to dispersijām jābūt vienādām.

    Pirmais minējums - nejaušība un datu neatkarība- vienmēr ir jāveic, jo jebkura eksperimenta pareizība ir atkarīga no izvēles nejaušības un/vai nejaušības procesa. Lai izvairītos no rezultātu novirzīšanas, ir nepieciešams iegūt datus no Ar vispārējās populācijas nejauši un neatkarīgi viena no otras. Tāpat dati ir jāsadala nejauši Ar mūs interesējošā faktora līmeņi (eksperimentālās grupas). Šo nosacījumu pārkāpšana var nopietni izkropļot dispersijas analīzes rezultātus.

    Otrais minējums - normalitāte- nozīmē, ka dati tiek iegūti no parasti sadalītām populācijām. Kas attiecas uz t-kritēriji, vienvirziena dispersijas analīze, pamatojoties uz F-kritēriji ir salīdzinoši maz jutīgi pret šī nosacījuma pārkāpumiem. Ja sadalījums pārāk būtiski neatšķiras no normas, nozīmības līmenis F-kritērijs mainās maz, īpaši, ja izlases lielums ir pietiekami liels. Ja tiek nopietni pārkāpts sadalījuma normalitātes nosacījums, tas jāpiemēro.

    Trešais minējums - dispersijas viendabīgums- nozīmē, ka katras populācijas dispersijas ir vienādas viena ar otru (t.i., σ 1 2 = σ 2 2 = ... = σ j 2). Šis pieņēmums ļauj izlemt, vai atdalīt vai apvienot grupas iekšējās novirzes. Ja grupu lielumi ir vienādi, dispersijas homogenitātes nosacījumam ir maza ietekme uz secinājumiem, kas iegūti, izmantojot F- kritēriji. Tomēr, ja izlases lielumi ir nevienlīdzīgi, dispersiju vienlīdzības nosacījuma pārkāpums var nopietni izkropļot dispersijas analīzes rezultātus. Tāpēc ir jācenšas nodrošināt, lai izlases lielums būtu vienāds. Viena no dispersijas homogenitātes pieņēmuma pārbaudes metodēm ir kritērijs Levene aprakstīts tālāk.

    Ja no visiem trim nosacījumiem tiek pārkāpts tikai dispersijas viendabīguma nosacījums, procedūra ir līdzīga t-kritēriju, izmantojot atsevišķu dispersiju (sīkāku informāciju skatīt). Tomēr, ja vienlaicīgi tiek pārkāpti pieņēmumi par normālo sadalījumu un dispersijas viendabīgumu, ir nepieciešams normalizēt datus un samazināt atšķirības starp dispersijām vai piemērot neparametrisku procedūru.

    Levēna tests dispersijas homogenitātes pārbaudei

    Lai gan F-kritērijs ir salīdzinoši izturīgs pret dispersiju vienlīdzības nosacījuma pārkāpumiem grupās, rupjš šī pieņēmuma pārkāpums būtiski ietekmē kritērija nozīmīguma un spēka līmeni. Varbūt viens no visspēcīgākajiem ir kritērijs Levene. Lai pārbaudītu dispersiju vienādību Ar vispārējās populācijās, mēs pārbaudīsim šādas hipotēzes:

    Н 0: σ 1 2 = σ 2 2 = … = σj 2

    H 1: Ne viss σ j 2 ir vienādi ( j = 1, 2, …, Ar)

    Modificētais Levēna tests ir balstīts uz apgalvojumu, ka, ja mainīgums grupās ir vienāds, dispersiju analīzi absolūtajās atšķirību vērtībās starp novērojumiem un grupu mediānas var izmantot, lai pārbaudītu nulles hipotēzi par dispersiju vienādību. Tātad vispirms ir jāaprēķina novērojumu un mediānu atšķirību absolūtās vērtības katrā grupā un pēc tam jāveic vienvirziena dispersijas analīze par iegūtajām atšķirību absolūtajām vērtībām. Lai ilustrētu Levēna kritēriju, atgriezīsimies pie piezīmes sākumā izklāstītā scenārija. Izmantojot attēlā parādītos datus. 6, mēs veiksim līdzīgu analīzi, bet attiecībā uz sākotnējo datu un mediānu atšķirību moduļiem katram paraugam atsevišķi (11. att.).



Jaunums vietnē

>

Populārākais