Ev Çocuk diş hekimliği Varyans analizi. Tek yönlü ANOVA

Varyans analizi. Tek yönlü ANOVA

) yalnızca iki popülasyonu karşılaştırmayı amaçlamaktadır. Bununla birlikte, daha fazla sayıda grubun ikili karşılaştırmaları için sıklıkla yanlış kullanılır (Şekil 1), bu da sözde duruma neden olur. çoklu karşılaştırma etkisi(İngilizce) çoklu karşılaştırmalar; Glanz 1999, s. 101-104). Bu etkiden ve bununla nasıl başa çıkılacağından daha sonra bahsedeceğiz. Aynı yazıda ilkeleri anlatacağım tek yönlü varyans analizi, sadece amaçlanan eşzamanlı iki veya daha fazla grubun ortalamalarının karşılaştırılması. Varyans analizinin ilkeleri BİR analiz Ö F evet riance, ANOVA) 1920'lerde geliştirildi. Sör Ronald Aylmer Fisher Ronald Aylmer Fisher) - "Modern istatistiğin temellerini neredeyse tek başına atan bir dahi" (Hald 1998).

Şu soru ortaya çıkabilir: neden karşılaştırma için kullanılan yöntem? ortalama değerler denir dağıtıcı analiz? Mesele şu ki, ortalama değerler arasındaki farkı belirlerken aslında analiz edilen popülasyonların varyanslarını karşılaştırıyoruz. Ancak, ilk önce ilk şeyler...

Sorunun formülasyonu

Aşağıdaki örnek kitaptan alınmıştır Maindonald & Braun(2010). Üç farklı deneme koşulunda (trt, tedavi) - su üzerinde (su), gübre (besin) ilaveli bir ortamda ve ayrıca gübre ve herbisit 2,4-D (besin+24D) ilaveli bir ortamda:

# Veri içeren bir tablo oluşturun: domates<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) #Sonuca bakalım: ağırlık ağırlık trt 1 1,50 Su 2 1,90 Su 3 1,30 Su 4 1,50 Su 5 2,40 Su 6 1,50 Su 7 1,50 Besin 8 1,20 Besin 9 1,20 Besin 10 2,10 Besin 11 2,90 Besin 12 1,60 Besin 13 1,9 0 Besin+24D 14 1,60 Besin+24D 15 0,80 Besin+24D 16 1,15 Besin+24D 17 0,90 Besin+24D 18 1,60 Besin+24D


Trt değişkeni üç seviyeli bir faktördür. Gelecekte deneysel koşulların daha net karşılaştırılabilmesi için “su” seviyesini taban seviyesi yapacağız. referans), yani. R'nin diğer tüm seviyeleri karşılaştıracağı seviye. Bu, relevel() işlevi kullanılarak yapılabilir:


Mevcut verilerin özelliklerini daha iyi anlamak için, grup ortalamaları arasında gözlenen farkların önemsiz olduğunu ve rastgele faktörlerin etkisinden kaynaklandığını (yani gerçekte elde edilen tüm bitki ağırlığı ölçümleri normal dağılmış bir popülasyondan gelir) kullanarak bunu görselleştirelim:

Söz konusu örneğin duruma karşılık geldiğini bir kez daha vurgulayalım. tek faktörlü varyans analizi: bir faktörün etkisi incelenir - büyüme koşulları (üç seviyeli - Su, Besin ve Besin + 24D), ilgilendiğimiz yanıt değişkeni - bitki ağırlığı.

Ne yazık ki, bir araştırmacının popülasyonun tamamını inceleme fırsatı neredeyse hiç olmuyor. O halde yukarıdaki sıfır hipotezinin yalnızca örnek verilerle doğru olup olmadığını nasıl bileceğiz? Bu soruyu farklı şekilde formüle edebiliriz: Normal dağılıma sahip tek bir popülasyondan rastgele örnekler çekilerek grup ortalamaları arasında gözlemlenen farklılıkları elde etme olasılığı nedir?? Bu soruyu cevaplamak için, karşılaştırılan gruplar arasındaki farkların büyüklüğünü niceliksel olarak karakterize edecek istatistiksel bir kritere ihtiyacımız var.

Varyans analizi, özelliklerin değerlerindeki farklılıkların (çeşitliliğin) belirlenmesine dayanarak rastgele seçilen farklı gruplardaki faktör ve performans özellikleri arasındaki ilişkiyi değerlendirmek için kullanılan istatistiksel bir yöntemdir. Varyans analizi, incelenen popülasyonun tüm birimlerinin aritmetik ortalamadan sapmalarının analizine dayanmaktadır. Sapmaların ölçüsü olarak dağılım (B) alınır - sapmaların ortalama karesi. Bir faktör özelliğinin (faktör) etkisinin neden olduğu sapmalar, rastgele koşulların neden olduğu sapmaların büyüklüğü ile karşılaştırılır. Bir faktör özelliğinden kaynaklanan sapmalar rastgele sapmalardan daha önemli ise, faktörün ortaya çıkan özellik üzerinde önemli bir etkiye sahip olduğu kabul edilir.

Dağılımın hesaplanması için her seçeneğin (özelliğin kayıtlı her sayısal değeri) aritmetik ortalamadan sapma değerlerinin karesi alınır. Bu olumsuz işaretlerden kurtulur. Daha sonra bu sapmalar (farklılar) toplanır ve gözlem sayısına bölünür, yani. ortalama sapmalar. Böylece varyans değerleri elde edilir.

Varyans analizinin kullanımında önemli bir metodolojik önem, numunenin doğru seçilmesidir. Amaç ve hedeflere bağlı olarak, numune grupları birbirinden bağımsız olarak rastgele oluşturulabilir (örneğin, yüksek tansiyonun felç gelişimi üzerindeki etkisi gibi bazı göstergeleri incelemek için kontrol ve deney grupları). Bu tür örneklere bağımsız denir.

Çoğu zaman, faktörlere maruz kalmanın sonuçları aynı örnek grupta (örneğin, aynı hastalar) maruziyetten önce ve sonra (tedavi, önleme, rehabilitasyon önlemleri) incelenir, bu tür örneklere bağımlı denir.

Bir faktörün etkisini test eden varyans analizine tek faktörlü analiz (tek değişkenli analiz) adı verilir. Birden fazla faktörün etkisi araştırılırken çok faktörlü bir yöntem kullanılır. varyans analizi(çok değişkenli analiz).

Faktör özellikleri, incelenen olguyu etkileyen özelliklerdir.

Etkili özellikler, faktör özelliklerinin etkisi altında değişen özelliklerdir.

Varyans analizini kullanma koşulları:

Çalışmanın amacı, bir (en fazla 3) faktörün sonuç üzerindeki etkisinin gücünü belirlemek veya çeşitli faktörlerin (cinsiyet ve yaş, fiziksel aktivite ve beslenme vb.) birleşik etkisinin gücünü belirlemektir.

İncelenen faktörler birbirinden bağımsız (ilişkisiz) olmalıdır. Örneğin, iş tecrübesi ile çocukların yaşı, boyu ve kilosu vb.nin ortak etkisini incelemek imkansızdır. Nüfusun morbiditesi hakkında.

Araştırma için grupların seçimi rastgele (rastgele seçim) yapılmaktadır. Seçeneklerin seçiminde rastgelelik ilkesinin uygulanmasıyla bir dağılım kompleksinin organizasyonuna rastgelelik (İngilizce'den çevrilmiştir - rastgele), yani. rastgele seçilmiştir.

Hem niceliksel hem de niteliksel (niteliksel) özellikler kullanılabilir.

Tek yönlü varyans analizi yapılırken aşağıdakiler önerilir (kullanım için gerekli bir koşul):

1. Analiz edilen grupların dağılımının normalliği veya örnek grupların normal dağılıma sahip genel popülasyonlara uygunluğu.

2. Gözlemlerin gruplar halinde dağılımının bağımsızlığı (ilişkililiği değil).

3. Gözlemlerin sıklığının (tekrarlanmasının) mevcudiyeti.

İlk olarak sıfır hipotezi formüle edilir, yani incelenen faktörlerin ortaya çıkan özelliğin değerleri üzerinde herhangi bir etkisinin olmadığı ve elde edilen farkların rastgele olduğu varsayılır.

Daha sonra, sıfır hipotezinin doğru olması koşuluyla, gözlemlenen (veya daha güçlü) farkların elde edilme olasılığının ne olduğunu belirleriz.

Bu olasılık küçükse sıfır hipotezini reddeder ve çalışma sonuçlarının istatistiksel olarak anlamlı olduğu sonucuna varırız. Bu, üzerinde çalışılan faktörlerin etkisinin kanıtlandığı anlamına gelmez (bu, her şeyden önce bir araştırma planlaması meselesidir), ancak sonucun şansa bağlı olması da pek olası değildir.

Varyans analizinin uygulanmasına ilişkin tüm koşullar karşılanırsa, toplam varyansın ayrıştırılması matematiksel olarak şöyle görünür:

Dahili. = Dgerçek + D kalan.,

Dahili. - Varyantın genel ortalamadan dağılımı ile karakterize edilen, gözlemlenen değerlerin (varyant) toplam dağılımı. Bir özelliğin varyasyonunu, bu varyasyonu belirleyen tüm faktörlerin etkisi altında bütünüyle ölçer. Genel çeşitlilik, gruplar arası ve grup içi çeşitlilikten oluşur;

Dfact - faktöriyel (gruplar arası) dağılım, her gruptaki ortalamalardaki farkla karakterize edilir ve her grubun farklılaştığı, incelenen faktörün etkisine bağlıdır. Örneğin, pnömoninin klinik seyrinin etiyolojik faktörü açısından farklılık gösteren gruplarda, geçirilen ortalama yatak günü düzeyi aynı değildir - gruplar arası çeşitlilik gözlenir.

Dinlen. - varyantın gruplar içindeki dağılımını karakterize eden artık (grup içi) varyans. Rastgele değişimi yansıtır, yani. Belirlenmemiş faktörlerin etkisi altında ortaya çıkan ve grubun temelini oluşturan faktör olan özelliğe bağlı olmayan varyasyonun bir kısmı. İncelenen özelliğin çeşitliliği, hem organize edilmiş (araştırmacı tarafından belirlenen) hem de rastgele (bilinmeyen) faktörler olan bazı hesaba katılmamış rastgele faktörlerin etkisinin gücüne bağlıdır.

Bu nedenle toplam varyasyon (varyans), faktöriyel varyasyon adı verilen organize (verili) faktörlerin ve organize olmayan faktörlerin neden olduğu varyasyondan oluşur; artık değişim (rastgele, bilinmiyor).

N örneklem büyüklüğü için örneklem varyansı, örneklem ortalamasından sapmaların karelerinin toplamının n-1'e bölünmesiyle hesaplanır (örneklem büyüklüğü eksi bir). Bu nedenle, sabit bir örneklem büyüklüğü n için varyans, kareler toplamının (sapmaların) bir fonksiyonudur ve kısaca SS (İngiliz Kareler Toplamı'ndan) olarak gösterilir. Aşağıda, örnek varyansını veya varyans tahminini dikkate aldığımızı çok iyi bildiğimizden, genellikle örnek kelimesini atlıyoruz. Varyans analizi, varyansın parçalara veya bileşenlere bölünmesine dayanır. Aşağıdaki veri kümesini göz önünde bulundurun:

İki grubun ortalamaları önemli ölçüde farklıdır (sırasıyla 2 ve 6). Her gruptaki sapmaların karesi toplamı 2'dir. Bunları topladığımızda 4 elde ederiz. Şimdi bu hesaplamaları grup üyeliğini hesaba katmadan tekrarlarsak, yani SS'yi bu iki örneğin genel ortalamasına göre hesaplarsak, 28 değerini alın. Başka bir deyişle, grup içi değişkenliğe dayalı varyans (toplam kareler), genel değişkenliğe (genel ortalamaya göre) dayalı olarak hesaplananlardan çok daha küçük değerlerle sonuçlanır. Bunun nedeni elbette ortalamalar arasındaki anlamlı farktır ve ortalamalar arasındaki bu fark kareler toplamları arasındaki mevcut farkı açıklamaktadır.

SS St.St. HANIM F P
Etki 24.0 24.0 24.0 .008
Hata 4.0 1.0

Tablodan da anlaşılacağı üzere; toplam tutar kareler SS = 28 bileşenlere bölünmüştür: grup içi değişkenliğe bağlı karelerin toplamı (2+2=4; tablonun ikinci satırına bakınız) ve gruplar arasındaki ortalama değerlerdeki farka bağlı karelerin toplamı (28 -(2+2)=24; ilk tablo satırına bakın). Bu tablodaki MS'nin, SS'ye eşit ortalama karenin serbestlik derecesi sayısına (d.f.) bölümü olduğuna dikkat edin.

Yukarıdaki basit örnekte bağımsız örnekler için t testini hemen hesaplayabilirsiniz. Elde edilen sonuçlar doğal olarak varyans analizi sonuçlarıyla örtüşecektir.

Ancak belirli bir olgunun tamamen tek bir değişken tarafından tanımlandığı durumlar son derece nadirdir. Örneğin büyük domates yetiştirmeyi öğrenmeye çalışıyorsak bitkinin genetik yapısı, toprak tipi, ışık, sıcaklık vb. gibi faktörleri göz önünde bulundurmalıyız. Bu nedenle, tipik bir deneyi yürütürken çok sayıda faktörle uğraşmak gerekir. ANOVA'nın kullanılmasının, bir dizi t testi kullanılarak farklı faktör seviyelerindeki iki numunenin tekrarlanan karşılaştırmalarına tercih edilmesinin ana nedeni, ANOVA'nın büyük ölçüde daha verimli ve küçük numuneler için daha bilgilendirici olmasıdır.

Yukarıda tartışılan iki örnekli analiz örneğinde, örneğin Cinsiyet gibi başka bir faktör eklediğimizi varsayalım. Şimdi her grubun 3 erkek ve 3 kadından oluşmasına izin verin. Bu deneyin planı bir tablo şeklinde sunulabilir:

Hesaplamaları yapmadan önce bu örnekte toplam varyansın en az üç kaynağı olduğunu fark edebilirsiniz:

1) rastgele hata (grup içi varyans),

2) deney grubuna ait olmakla ilişkili değişkenlik

3) gözlem nesnelerinin cinsiyetine bağlı değişkenlik.

Değişkenliğin başka bir olası kaynağının daha bulunduğunu unutmayın; faktörlerin etkileşimi, bunu daha sonra tartışacağız). Analize cinsiyeti bir faktör olarak dahil etmezsek ve düzenli bir t testi hesaplarsak ne olur? Cinsiyeti göz ardı ederek karelerin toplamlarını hesaplarsak (yani, grup içi varyansı hesaplarken farklı cinsiyetteki nesneleri bir grupta birleştirerek ve her grup için SS = 10'a eşit bir kareler toplamı ve SS = 10+10'a eşit kareler toplamı elde edersek) = 20), o zaman cinsiyete göre alt gruplara ek bölünme ile daha doğru bir analize göre daha büyük bir grup içi varyans değeri elde edeceğiz (bu durumda, grup içi ortalamalar 2'ye eşit olacaktır ve grup içi toplam karelerin toplamı SS = 2+2+2+2 = 8'e eşit olacaktır.

Dolayısıyla, ek bir faktörün (cinsiyet) eklenmesiyle artık varyans azaldı. Bunun nedeni, erkeklerin ortalamasının kadınların ortalamasından daha küçük olması ve ortalamalardaki bu farklılığın, cinsiyet dikkate alınmadığında genel grup içi değişkenliği arttırmasıdır. Hata varyansının kontrol edilmesi testin duyarlılığını (gücünü) artırır.

Bu örnek, olağan iki örnekli t testiyle karşılaştırıldığında varyans analizinin başka bir avantajını göstermektedir. Varyans analizi, diğer faktörlerin değerlerini kontrol ederek her bir faktörü incelemenize olanak tanır. Aslında istatistiksel gücünün daha yüksek olmasının ana nedeni budur (anlamlı sonuçlar elde etmek için daha küçük örneklem boyutları gerekir). Bu nedenle, küçük örneklerde bile varyans analizi, basit bir t-testinden istatistiksel olarak daha anlamlı sonuçlar üretir.

Egzersiz yapmak . 1. sınıf öğrencilerine boş zamanlarını ayırdıkları etkinlikleri belirlemek için anket uygulandı. Öğrencilerin sözlü ve sözsüz tercihlerinin dağılımının farklı olup olmadığını kontrol edin.

Çözüm hesap makinesi kullanılarak gerçekleştirilir.
Grup ortalamalarını bulma:

NP1P2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ortalama 15.6 17

Faktörün düzey sayısını p olarak gösterelim (p=2). Her seviyedeki boyut sayısı aynı ve q=5'e eşittir.
Son satır, her faktör düzeyi için grup ortalamalarını içerir.
Genel ortalama, grup ortalamalarının aritmetik ortalaması olarak elde edilebilir:
(1)
Grup ortalama başarısızlık oranlarının genel ortalamaya göre yayılması, hem dikkate alınan faktörün seviyesindeki değişikliklerden hem de rastgele faktörlerden etkilenir.
Bu faktörün etkisini hesaba katmak için, toplam örnek varyansı iki parçaya bölünür; bunlardan birincisine faktör S 2 f, ikincisine ise artık S 2 geri kalanı adı verilir.
Bu bileşenleri hesaba katmak için öncelikle genel ortalamadan sapmaların karelerinin toplamı hesaplanır:

ve bu faktörün etkisini karakterize eden, grup ortalamalarının genel ortalamadan sapmalarının karelerinin faktör toplamı:

Son ifade, R ifadesindeki her seçeneğin belirli bir faktör için toplam grup ortalaması ile değiştirilmesiyle elde edilir.
Sapmaların karelerinin kalan toplamı fark olarak elde edilir:
R dinlenme = R toplam - R f
Toplam örnek varyansını belirlemek için R toplamını ölçüm sayısına pq bölmek gerekir:

ve tarafsız toplam örnek varyansını elde etmek için bu ifadenin pq/(pq-1) ile çarpılması gerekir:

Buna göre tarafsız faktör örnek varyansı için:

burada p-1 tarafsız faktör örnek varyansının serbestlik derecesi sayısıdır.
Bir faktörün, söz konusu parametredeki değişiklikler üzerindeki etkisini değerlendirmek için değer hesaplanır:

İki örnek varyans S 2 f ve S 2 rest'in oranı Fisher-Snedecor yasasına göre dağıtıldığından, elde edilen f obs değeri, dağılım fonksiyonunun değeriyle karşılaştırılır.

seçilen anlamlılık düzeyi a'ya karşılık gelen kritik nokta f cr'de.
Eğer f obs >f cr ise faktörün önemli bir etkisi vardır ve dikkate alınmalıdır, aksi halde ihmal edilebilecek kadar önemsiz bir etkisi vardır.
R obs ve Rf'yi hesaplamak için aşağıdaki formüller de kullanılabilir:
(4)
(5)
Genel ortalamayı formül (1) kullanarak buluyoruz:
Formül (4)'ü kullanarak Rtot'u hesaplamak için 2 kareden oluşan bir tablo hazırlıyoruz: seçenek:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Genel ortalama, formül (1) kullanılarak hesaplanır:

Rtoplam = 1322 + 1613 - 5 2 16,3 2 = 278,1
Formül (5)'i kullanarak Rf'yi buluyoruz:
Rf = 5(15,6 2 + 17 2) - 2 16,3 2 = 4,9
R dinlenmesini elde ederiz: R dinlenme = R toplamı - R f = 278,1 - 4,9 = 273,2
Faktör ve artık varyansları belirliyoruz:


Ortalama değerler ise rastgele değişken Bireysel örnekler için hesaplanan , aynıysa, faktör ve artık varyansların tahminleri genel varyansın tarafsız tahminleridir ve önemsiz derecede farklılık gösterir.
Daha sonra Fisher kriteri kullanılarak bu varyansların tahminlerinin karşılaştırılması, faktör ve artık varyansların eşitliği hakkındaki sıfır hipotezini reddetmek için hiçbir neden olmadığını göstermelidir.
Faktör dağılım tahmini, artık dağılım tahmininden daha azdır, dolayısıyla eşitlikle ilgili sıfır hipotezinin geçerliliğini hemen iddia edebiliriz. matematiksel beklentiler katmanları örnekleyerek.
Başka bir deyişle, bu örnekte Ф faktörünün rastgele değişken üzerinde anlamlı bir etkisi yoktur.
H 0 sıfır hipotezini kontrol edelim: x'in ortalama değerlerinin eşitliği.
F obs'u bulun.

Anlamlılık seviyesi α=0,05, serbestlik derecesi sayıları 1 ve 8 için Fisher-Snedecor dağılım tablosundan fcr'yi buluyoruz.
f cr (0,05; 1; 8) = 5,32
f gözlemlendiği için< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Başka bir deyişle öğrencilerin sözlü ve sözsüz tercihlerinin dağılımı farklılık göstermektedir.

Egzersiz yapmak. Tesisin kaplama fayans üretimi için dört hattı bulunmaktadır. Her hattan bir vardiya sırasında rastgele 10 adet karo seçilerek kalınlıkları (mm) ölçüldü. Nominal boyuttan sapmalar tabloda verilmiştir. Yüksek kaliteli fayans üretiminin üretim hattına (faktör A) bağımlılığının a = 0,05 anlamlılık düzeyinde belirlenmesi gerekmektedir.

Egzersiz yapmak. Boya renginin kaplamanın servis ömrü üzerindeki etkisini a = 0,05 anlamlılık düzeyinde araştırın.

Örnek No.1. 4'ü birinci faktör düzeyinde, 4'ü ikinci, 3'ü üçüncü ve 2'si dördüncü faktör düzeyinde olmak üzere 13 test gerçekleştirilmiştir. Varyans analizi yöntemini 0,05 anlamlılık düzeyinde kullanarak, grup ortalamalarının eşitliği hakkındaki boş hipotezi test edin. Örneklerin eşit varyanslara sahip normal popülasyonlardan alındığı varsayılmaktadır. Test sonuçları tabloda gösterilmektedir.

Çözüm:
Grup ortalamalarını bulma:

NP1P2P3S4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ortalama 1.4 1.43 1.33 1.32

Faktörün düzey sayısını p olarak gösterelim (p=4). Her seviyedeki boyut sayısı: 4,4,3,2
Son satır, her faktör düzeyi için grup ortalamalarını içerir.
Genel ortalama şu formül kullanılarak hesaplanır:

Formül (4)'ü kullanarak Stotal'ı hesaplamak için 2 kareden oluşan bir tablo oluştururuz: seçenek:

NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Sapmaların karelerinin toplamı şu formül kullanılarak bulunur:


Aşağıdaki formülü kullanarak S f'yi buluyoruz:


S dinlenmesini elde ederiz: S dinlenme = S toplam - S f = 0,0293 - 0,0263 = 0,003
Faktör dağılımını belirliyoruz:

ve artık varyans:

Bireysel numuneler için hesaplanan bir rastgele değişkenin ortalama değerleri aynıysa, faktör ve artık varyansların tahminleri genel varyansın tarafsız tahminleridir ve önemli ölçüde farklılık göstermez.
Daha sonra Fisher kriteri kullanılarak bu varyansların tahminlerinin karşılaştırılması, faktör ve artık varyansların eşitliği hakkındaki sıfır hipotezini reddetmek için hiçbir neden olmadığını göstermelidir.
Faktör dağılımının tahmini, artık dağılım tahmininden daha büyüktür, dolayısıyla örnek katmanlar arasındaki matematiksel beklentilerin eşitliği hakkındaki sıfır hipotezinin doğru olmadığını hemen söyleyebiliriz.
Başka bir deyişle, bu örnekte Ф faktörünün rastgele değişken üzerinde önemli bir etkisi vardır.
H 0 sıfır hipotezini kontrol edelim: x'in ortalama değerlerinin eşitliği.
F obs'u bulun.

Anlamlılık düzeyi α=0,05, serbestlik derecesi sayıları 3 ve 12 için Fisher-Snedecor dağılım tablosundan fcr'yi buluyoruz.
f cr (0,05; 3; 12) = 3,49
Gözlemlenen f > f cr olması nedeniyle, faktörün deney sonuçları üzerindeki anlamlı etkisine ilişkin sıfır hipotezini kabul ediyoruz (grup ortalamalarının eşitliğine ilişkin sıfır hipotezini reddediyoruz). Başka bir deyişle, grup ortalamaları bir bütün olarak önemli ölçüde farklılık göstermektedir.

Örnek No. 2. Okulda 5 altıncı sınıf bulunmaktadır. Psikologun görevi, sınıflardaki ortalama durumsal kaygı düzeyinin aynı olup olmadığını belirlemektir. Bu amaçla tabloda verilmiştir. Sınıflardaki ortalama durumsal kaygının farklı olmadığı varsayımı olan α=0,05 anlamlılık düzeyini kontrol edin.

Örnek No. 3. X'in değerini incelemek için, F faktörünün beş seviyesinin her birinde 4 test gerçekleştirildi. Test sonuçları tabloda gösterilmektedir. F faktörünün X'in değeri üzerindeki etkisinin α = 0,05 olduğunu bulun. Örneklerin eşit varyanslara sahip normal popülasyonlardan alındığı varsayılmaktadır.

Örnek No. 4. Pedagojik deneye her biri 10 öğrenciden oluşan üç grubun katıldığını varsayalım. Gruplar halinde uygulanır çeşitli metodlar eğitim: ilkinde - geleneksel (F 1), ikincisinde - bilgisayar teknolojisine dayalı (F 2), üçüncüsünde - görevlerin yaygın olarak kullanıldığı bir yöntem bağımsız iş(F3). Bilgi on puanlık bir sistem kullanılarak değerlendirildi.
Elde edilen sınav verilerinin işlenerek öğretim yönteminin etkisinin anlamlı olup olmadığı konusunda anlamlılık düzeyi olarak α = 0,05 alınarak bir sonuca varılması gerekmektedir.
Sınav sonuçları tabloda verilmiştir, Fj, x ij faktörünün seviyesidir - i. öğrencinin F j yöntemini kullanarak değerlendirilmesi.

Faktör seviyesi

Örnek No. 5. Mahsullere yönelik rekabetçi çeşitlilik testinin sonuçları gösterilmektedir (hektar başına santimetre cinsinden verim). Her çeşit dört parselde test edildi. Varyans analizi yöntemini kullanarak çeşitliliğin verim üzerindeki etkisini inceleyin. Faktörün etkisinin önemini (gruplar arası varyasyonun toplam varyasyondaki payı) ve deneysel sonuçların önemini 0,05 anlamlılık düzeyinde belirleyin.
Çeşit test alanlarında verimlilik

Çeşitlilik Tekrarlara göre verimlilik c. ha'dan
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

Varyans analizi

1. Varyans analizi kavramı

Varyans analizi Herhangi bir kontrollü değişken faktörün etkisi altında bir özelliğin değişkenliğinin analizidir. Yabancı literatürde varyans analizi sıklıkla ANOVA olarak anılır ve bu, değişkenlik analizi (Varyans Analizi) olarak tercüme edilir.

ANOVA sorunu farklı türdeki değişkenliği bir özelliğin genel değişkenliğinden ayırmayı içerir:

a) incelenen bağımsız değişkenlerin her birinin etkisinden kaynaklanan değişkenlik;

b) incelenen bağımsız değişkenlerin etkileşiminden kaynaklanan değişkenlik;

c) diğer tüm bilinmeyen değişkenlerden kaynaklanan rastgele değişkenlik.

İncelenen değişkenlerin etkisinden ve bunların etkileşiminden kaynaklanan değişkenlik, rastgele değişkenlik ile ilişkilidir. Bu ilişkinin bir göstergesi Fisher'in F testidir.

F kriterini hesaplama formülü, varyans tahminlerini, yani özelliğin dağılım parametrelerini içerir, dolayısıyla F kriteri parametrik bir kriterdir.

Bir özelliğin değişkenliği, incelenen değişkenlerden (faktörlerden) veya bunların etkileşiminden ne kadar fazla kaynaklanıyorsa, o kadar yüksek olur. ampirik kriter değerleri.

Sıfır varyans analizindeki hipotez, çalışılan etkili özelliğin ortalama değerlerinin tüm derecelendirmelerde aynı olduğunu belirtecektir.

Alternatif hipotez, incelenen faktörün farklı derecelerinde ortaya çıkan özelliğin ortalama değerlerinin farklı olduğunu belirtecektir.

Varyans analizi, bir özellikteki değişikliği belirtmemize izin verir, ancak bunu belirtmez. yön bu değişiklikler.

Varyans analizini değerlendirmemize en basit durumla başlayalım; yalnızca değişkenin eylemini incelediğimizde bir değişken (bir faktör).

2. İlgisiz örnekler için tek yönlü varyans analizi

2.1. Yöntemin amacı

Tek faktörlü varyans analizi yöntemi, etkili bir özellikteki değişikliklerin, bir faktörün değişen koşullarının veya derecelerinin etkisi altında incelendiği durumlarda kullanılır. Yöntemin bu versiyonunda, faktörün derecelendirilmesinin her birinin etkisi şu şekildedir: farklı konu örnekleri. Faktörün en az üç derecelendirmesi olmalıdır. (İki derecelendirme olabilir ancak bu durumda doğrusal olmayan bağımlılıklar kuramayacağız ve daha basit olanları kullanmak daha mantıklı görünüyor).

Bu tür analizin parametrik olmayan bir versiyonu Kruskal-Wallis H testidir.

hipotezler

H 0: Faktör dereceleri arasındaki farklar (farklı koşullar), her grup içindeki rastgele farklardan daha büyük değildir.

H 1: Faktör dereceleri arasındaki farklar (farklı koşullar), her grup içindeki rastgele farklardan daha büyüktür.

2.2. İlişkisiz Örnekler İçin Tek Yönlü Varyans Analizinin Sınırlamaları

1. Tek yönlü varyans analizi, faktörün en az üç derecelendirilmesini ve her derecelendirmede en az iki konunun olmasını gerektirir.

2. Ortaya çıkan karakteristik, incelenen örnekte normal şekilde dağılmalıdır.

Doğru, genellikle incelenen numunenin tamamındaki özelliğin dağılımından mı yoksa dağılım kompleksini oluşturan kısmından mı bahsettiğimiz belirtilmez.

3. Örnek kullanılarak ilgisiz örnekler için tek yönlü varyans analizi yöntemini kullanarak bir problemin çözülmesine bir örnek:

Altı kişiden oluşan üç farklı gruba on kelimelik listeler verildi. Kelimeler birinci gruba 5 saniyede 1 kelime olmak üzere düşük hızda, ikinci gruba 2 saniyede 1 kelime olmak üzere ortalama hızda, üçüncü gruba ise saniyede 1 kelime olmak üzere yüksek hızda sunuldu. Çoğaltma performansının kelime sunumunun hızına bağlı olacağı tahmin ediliyordu. Sonuçlar Tabloda sunulmaktadır. 1.

Çoğaltılan kelime sayısı tablo 1

Konu No.

düşük hız

ortalama sürat

yüksek hız

toplam tutar

H 0: Kelime üretim aralığındaki farklılıklar arasında gruplar rastgele farklılıklardan daha belirgin değildir içeri her grup.

H1: Kelime üretim hacmindeki farklılıklar arasında gruplar rastgele farklılıklardan daha belirgindir içeri her grup. Tabloda sunulan deneysel değerlerin kullanılması. 1'de F kriterini hesaplamak için gerekli olacak bazı değerleri oluşturacağız.

Tek yönlü varyans analizi için ana büyüklüklerin hesaplanması tabloda sunulmaktadır:

Tablo 2

Tablo 3

İlgisiz örnekler için tek yönlü varyans analizinde işlem sırası

Bu ve sonraki tablolarda sıklıkla bulunan SS tanımı, "kareler toplamı"nın kısaltmasıdır. Bu kısaltma çoğunlukla tercüme edilmiş kaynaklarda kullanılır.

SS hakikat incelenen faktörün etkisine bağlı olarak özelliğin değişkenliği anlamına gelir;

SS genel olarak- özelliğin genel değişkenliği;

S CA.- hesaba katılmayan faktörlerden kaynaklanan değişkenlik, "rastgele" veya "artık" değişkenlik.

HANIM- “ortalama kare” veya kareler toplamının matematiksel beklentisi, karşılık gelen SS'nin ortalama değeri.

df - parametrik olmayan kriterleri göz önünde bulundurduğumuzda Yunan harfiyle gösterdiğimiz serbestlik derecesi sayısı v.

Sonuç: H 0 reddedilir. H 1 kabul edilir. Gruplar arasındaki kelime hatırlama farklılıkları, her grup içindeki rastgele farklardan daha büyüktü (α=0.05). Dolayısıyla kelimelerin sunulma hızı, çoğaltılma hacmini etkiler.

Sorunu Excel'de çözmenin bir örneği aşağıda sunulmuştur:

İlk veri:

Şu komutu kullanarak: Araçlar->Veri Analizi->Tek Yönlü ANOVA, aşağıdaki sonuçları elde ederiz:

Bu notta istatistiklerin kullanımı kesişen bir örnekle gösterilecektir. Diyelim ki Perfect Parachute'ta üretim müdürüsünüz. Paraşütler dört farklı tedarikçi tarafından sağlanan sentetik elyaflardan yapılmıştır. Paraşütün temel özelliklerinden biri gücüdür. Tedarik edilen tüm elyafların aynı mukavemette olduğundan emin olmanız gerekir. Bu soruyu cevaplamak için sentetik elyaftan dokunan paraşütlerin mukavemetini ölçecek deneysel bir tasarım tasarlanmalıdır. farklı tedarikçiler. Bu deneyden elde edilen bilgiler, hangi tedarikçinin en dayanıklı paraşütleri sağladığını belirleyecek.

Birçok uygulama, tek bir faktörün birden fazla grubunu veya düzeyini dikkate alan deneyleri içerir. Seramik pişirme sıcaklığı gibi bazı faktörlerin birden fazla sayısal seviyesi olabilir (örn. 300°, 350°, 400° ve 450°). Bir süpermarkette ürünlerin konumu gibi diğer faktörlerin kategorik seviyeleri olabilir (örneğin, birinci tedarikçi, ikinci tedarikçi, üçüncü tedarikçi, dördüncü tedarikçi). Deney birimlerinin gruplara veya faktör düzeylerine rastgele atandığı tek faktörlü deneylere tamamen randomize denir.

KullanımF-çeşitli matematiksel beklentiler arasındaki farkları değerlendirme kriterleri

Bir faktörün gruplar halinde sayısal ölçümleri sürekli ise ve bazı ek koşullar, çeşitli grupların matematiksel beklentilerini karşılaştırmak, varyans analizi (ANOVA - Bir analiz Ö F Va Riance). Tamamen rastgele tasarımlar kullanılarak yapılan varyans analizine tek yönlü ANOVA prosedürü denir. Bazı yönlerden varyans analizi terimi yanlış bir isimdir çünkü varyanslar yerine grupların beklenen değerleri arasındaki farkları karşılaştırır. Bununla birlikte, matematiksel beklentilerin karşılaştırılması, tam olarak veri değişiminin analizine dayanarak gerçekleştirilir. ANOVA prosedüründe ölçüm sonuçlarındaki toplam varyasyon, gruplar arası ve grup içi olarak bölünür (Şekil 1). Grup içi varyasyon deneysel hatayla, gruplar arası varyasyon ise deneysel koşulların etkisiyle açıklanmaktadır. Sembol İle grup sayısını ifade eder.

Pirinç. 1. Tamamen Rastgele Bir Deneyde Varyasyonu Bölümlendirme

Notu veya formatında indirin, formattaki örnekler

Öyleymiş gibi yapalım İle bağımsızlardan çıkarılan gruplar genel popülasyonlar normal dağılıma ve aynı varyansa sahiptir. Boş hipotez, popülasyonların matematiksel beklentilerinin aynı olduğudur: H 0: μ 1 = μ 2 = ... = μ s. Alternatif hipotez, tüm matematiksel beklentilerin aynı olmadığını belirtir: H 1: μj'lerin hepsi aynı değildir J= 1, 2, …, s).

İncirde. Şekil 2, popülasyonların normal dağılıma ve aynı varyansa sahip olması koşuluyla, karşılaştırılan beş grubun matematiksel beklentilerine ilişkin gerçek sıfır hipotezini sunmaktadır. İlişkili beş genel popülasyon farklı seviyelerde faktörler aynıdır. Sonuç olarak, aynı matematiksel beklentiye, varyasyona ve şekle sahip olarak üst üste bindirilirler.

Pirinç. 2. Beş genel popülasyon aynı matematiksel beklentiye sahiptir: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

Öte yandan, dördüncü seviyenin en yüksek beklenen değere sahip olduğu, birinci seviyenin biraz daha düşük beklenen değere sahip olduğu ve geri kalan seviyelerin aynı ve hatta daha düşük beklenen değerlere sahip olduğu sıfır hipotezinin aslında yanlış olduğunu varsayalım ( Figür 3). Beklenen değerler haricinde beş popülasyonun hepsinin aynı olduğunu (yani aynı değişkenliğe ve şekle sahip olduklarını) unutmayın.

Pirinç. 3. Deney koşullarının etkisi gözlenir: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Çeşitli genel popülasyonların matematiksel beklentilerinin eşitliği hakkındaki hipotezi test ederken, toplam varyasyon iki kısma ayrılır: gruplar arasındaki farklardan kaynaklanan gruplar arası varyasyon ve aynı gruba ait öğeler arasındaki farklardan kaynaklanan grup içi varyasyon. Toplam varyasyon, toplam kareler toplamı (SST – toplam kareler toplamı) ile ifade edilir. Sıfır hipotezi herkesin matematiksel beklentilerinin olduğu yönünde olduğundan İle gruplar birbirine eşitse, toplam varyasyon, bireysel gözlemler arasındaki farkların karelerinin toplamına ve tüm numuneler için hesaplanan genel ortalamaya (ortalamaların ortalaması) eşittir. Tam varyasyon:

Nerede - genel ortalama, X ij - Ben-e gözlem J-grup veya seviye, nj- gözlem sayısı J grup, N - Toplam tüm gruplardaki gözlemler (ör. N = N 1 + n 2 + … + nc), İle- çalışılan grup veya seviye sayısı.

Gruplar arası varyasyon Genellikle gruplar arası kareler toplamı (SSA – gruplar arasındaki karelerin toplamı) olarak adlandırılan, her grubun örnek ortalamaları arasındaki farkların karelerinin toplamına eşittir J ve genel ortalama karşılık gelen grubun hacmiyle çarpılır nj:

Nerede İle- çalışılan grup veya seviye sayısı, nj- gözlem sayısı J grup, J- ortalama değer J grup, - genel ortalama.

Grup içi varyasyon genellikle grup içi kareler toplamı (SSW - gruplar içindeki karelerin toplamı) olarak adlandırılan, her grubun elemanları arasındaki farkların karelerinin toplamına ve bu grubun örnek ortalamasına eşittir J:

Nerede Xben - Ben inci eleman J grup, J- ortalama değer J grup.

Karşılaştırıldıkları için İle faktör seviyeleri, gruplar arası kareler toplamı s – 1özgürlük derecesi. Her biri İle seviyeleri vardır nj – 1 serbestlik derecesi, dolayısıyla grup içi kareler toplamı N- İle serbestlik dereceleri ve

Ayrıca toplam kareler toplamı N – 1 Her gözlemden bu yana serbestlik derecesi Xben tümü üzerinden hesaplanan genel ortalamayla karşılaştırılır. N gözlemler. Bu toplamların her biri karşılık gelen serbestlik derecesine bölünürse, üç tür dağılım ortaya çıkar: gruplar arası(ortalama kare - MSA), grup içi(ortalama kare - MSW) ve tam dolu(ortalama kare toplamı - MST):

Varyans analizinin asıl amacı matematiksel beklentileri karşılaştırmak olmasına rağmen İle Deney koşullarının etkisini belirlemek için gruplara verilen ad, ana aracın varyans analizi olmasından kaynaklanmaktadır. farklı şekiller. Sıfır hipotezi doğruysa ve matematiksel beklentiler arasındaysa İle Gruplar arasında önemli bir fark yoktur; üç varyansın tümü (MSA, MSW ve MST) varyans tahminleridir σ2 analiz edilen verilerin doğasında vardır. Böylece sıfır hipotezini test etmek için H 0: μ 1 = μ 2 = ... = μ s ve alternatif hipotez H 1: μj'lerin hepsi aynı değildir J = 1, 2, …, İle), istatistikleri hesaplamak gerekir F-kriter, iki varyansın, MSA ve MSW'nin oranıdır. Ölçek F-tek yönlü varyans analizinde istatistikler

İstatistik F-kriterlere tabi F-ile dağıtım s – 1 payda serbestlik derecesi M.S.A. Ve n-s paydadaki serbestlik derecesi M.S.W.. Belirli bir anlamlılık düzeyi α için, hesaplanan değer aşağıdaki durumlarda sıfır hipotezi reddedilir: F Fsen, doğuştan F-ile dağıtım s – 1 n-s paydadaki serbestlik dereceleri. Böylece, Şekil 2'de gösterildiği gibi. 4, belirleyici kuralşu şekilde formüle edilmiştir: boş hipotez H 0 eğer reddedilirse F>Fsen; aksi takdirde reddedilmez.

Pirinç. 4. Bir hipotezi test ederken kritik varyans analizi alanı H 0

Sıfır hipotezi ise H 0 doğru, hesaplanmış F-istatistik 1'e yakındır, çünkü payı ve paydası aynı miktarın tahminleridir - analiz edilen verilerin doğasında bulunan σ2 dağılımı. Sıfır hipotezi ise H 0 yanlıştır (ve farklı grupların matematiksel beklentileri arasında önemli bir fark vardır), hesaplanmıştır F-istatistik birden çok daha büyük olacaktır çünkü payı MSA, verilerin doğal değişkenliğine ek olarak deneysel koşulların etkisini veya gruplar arasındaki farkı tahmin ederken, payda MSW yalnızca verilerin doğal değişkenliğini tahmin eder. . Bu nedenle ANOVA prosedürü F-belirli bir anlamlılık seviyesi α'da, hesaplanan değerin geçerli olması durumunda boş hipotezin reddedildiği kriter F-istatistikler üst kritik değerden büyük Fsen, doğuştan F-ile dağıtım s – 1 paydaki serbestlik dereceleri ve n-s Paydadaki serbestlik derecesi, Şekil 2'de gösterildiği gibi. 4.

Tek yönlü varyans analizini göstermek için notun başında özetlenen senaryoya dönelim. Deneyin amacı, farklı tedarikçilerden temin edilen sentetik elyaflardan dokunan paraşütlerin aynı mukavemete sahip olup olmadığını tespit etmektir. Her grubun beş paraşütü vardır. Gruplar şu şekilde bölünür: tedarikçilere - Tedarikçi 1, Tedarikçi 2, Tedarikçi 3 ve Tedarikçi 4. Paraşütlerin mukavemeti, kumaşın her iki taraftan yırtılmasını test eden özel bir cihaz kullanılarak ölçülür. Paraşütü kırmak için gereken kuvvet özel bir ölçekte ölçülür. Kopma kuvveti ne kadar yüksek olursa paraşüt o kadar güçlü olur. Excel analiz etmenizi sağlar F-tek tıklamayla istatistikler. Menüde gezinme VeriVeri analizi ve satırı seçin Tek yönlü ANOVA, açılan pencereyi doldurun (Şek. 5). Deneysel sonuçlar (kırılma mukavemeti), bazı tanımlayıcı istatistikler ve tek yönlü varyans analizinin sonuçları Şekil 1'de sunulmaktadır. 6.

Pirinç. 5. Pencere Varyans Analizi Paketinin Tek Yönlü Analizi excel

Pirinç. 6. Farklı tedarikçilerden elde edilen sentetik elyaflardan dokunmuş paraşütlerin mukavemet göstergeleri, tanımlayıcı istatistikler ve tek yönlü varyans analizi sonuçları

Şekil 6'nın analizi örnek ortalamalar arasında bazı farklılıklar olduğunu göstermektedir. Birinci tedarikçiden elde edilen liflerin ortalama mukavemeti 19,52, ikinci tedarikçiden 24,26, üçüncü tedarikçiden 22,84 ve dördüncü tedarikçiden 21,16'dır. Bu fark istatistiksel olarak anlamlı mıdır? Kopma kuvvetinin dağılımı dağılım grafiğinde gösterilmektedir (Şekil 7). Gruplar arası ve grup içi farklılıkları açıkça göstermektedir. Her grubun boyutu daha büyük olsaydı, bunları analiz etmek için bir kök-yaprak diyagramı, kutu grafiği veya çan grafiği kullanılabilirdi.

Pirinç. 7. Dört tedarikçiden temin edilen sentetik elyaflardan dokunmuş paraşütler için mukavemet dağılımı diyagramı.

Boş hipotez, ortalama güç puanları arasında anlamlı bir fark olmadığını belirtir: H 0: μ 1 = μ 2 = μ 3 = μ 4. Alternatif bir hipotez, ortalama elyaf mukavemeti diğerlerinden farklı olan en az bir tedarikçinin var olduğudur: H 1: μj'lerin hepsi aynı değildir ( J = 1, 2, …, İle).

Genel ortalama (bkz. Şekil 6) = ORTALAMA(D12:D15) = 21,945; belirlemek için ayrıca 20 orijinal sayının tümünün ortalamasını alabilirsiniz: = ORTALAMA(A3:D7). Varyans değerleri hesaplanır Analiz paketi ve plakaya yansıtılır Varyans analizi(bkz. Şekil 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (bkz. sütun SS tablolar Varyans analiziŞekil 6). Ortalamalar, bu kareler toplamlarının uygun serbestlik derecesine bölünmesiyle hesaplanır. Çünkü İle= 4, bir N= 20, aşağıdaki serbestlik derecesi değerlerini elde ederiz; SSA için: s – 1= 3; SSW için: n-c= 16; SST için: n – 1= 19 (bkz. sütun df). Böylece: MSA = SSA / ( s – 1)= 21.095; MSW = SSW / ( n-c) = 6,094; MST = SST / ( n – 1) = 8,463 (bkz. sütun HANIM). F-istatistik = MSA / MSW = 3,462 (bkz. sütun F).

Üst kritik değer Fsen, nin kişilik özelliği F-dağıtım, =F.OBR(0,95;3;16) = 3,239 formülüyle belirlenir. Fonksiyon parametreleri =F.OBR(): α = 0,05, payın üç serbestlik derecesi vardır ve paydanın 16'sı vardır. Böylece hesaplanan F-3.462'ye eşit olan istatistik üst kritik değeri aşıyor Fsen= 3,239 ise sıfır hipotezi reddedilir (Şekil 8).

Pirinç. 8. Payın üç serbestlik derecesine sahip olması ve paydanın -16 olması durumunda 0,05 anlamlılık düzeyinde varyans analizinin kritik bölgesi

R-değer, yani sıfır hipotezinin doğru olması olasılığı F-istatistikler 3,46'dan az olmamalı, 0,041 veya %4,1'e eşit olmalıdır (bkz. sütun p değeri tablolar Varyans analiziŞekil 6). Bu değer α = %5 anlamlılık düzeyini aşmadığından sıfır hipotezi reddedilir. Dahası, R-değeri, genel popülasyonun matematiksel beklentileri arasında, gerçekte aynı olması koşuluyla, bu veya daha büyük bir farkın tespit edilme olasılığının %4,1'e eşit olduğunu göstermektedir.

Bu yüzden. Dört örnek ortalama arasında bir fark vardır. Boş hipotez, dört popülasyonun tüm matematiksel beklentilerinin eşit olduğu yönündeydi. Bu koşullar altında, tüm paraşütlerin kuvvetinin toplam değişkenliğinin (yani toplam SST değişiminin) bir ölçüsü, her gözlem arasındaki farkların karelerinin toplanmasıyla hesaplanır. X ij ve genel ortalama . Daha sonra toplam varyasyon iki bileşene ayrıldı (bkz. Şekil 1). İlk bileşen SSA'daki gruplar arası varyasyon, ikincisi ise SSW'deki grup içi varyasyondu.

Verilerdeki değişkenliği ne açıklıyor? Başka bir deyişle, neden tüm gözlemler aynı değil? Bunun bir nedeni, farklı şirketlerin farklı dayanıklılıktaki elyafları tedarik etmesidir. Bu kısmen grupların neden farklı matematiksel beklentilere sahip olduğunu açıklamaktadır: Deney koşullarının etkisi ne kadar güçlü olursa, grupların matematiksel beklentileri arasındaki fark da o kadar büyük olur. Veri değişkenliğinin bir başka nedeni de herhangi bir sürecin doğal değişkenliğidir. bu durumda- paraşüt üretimi. Tüm elyaflar aynı tedarikçiden satın alınsa bile diğer her şey eşit olduğundan mukavemetleri aynı olmaz. Bu etki her grupta meydana geldiğinden buna grup içi varyasyon denir.

Örnek ortalamaları arasındaki farklara gruplar arası varyasyon SSA adı verilir. Grup içi varyasyonun bir kısmı, daha önce de belirtildiği gibi, verilerin bağlantısıyla açıklanmaktadır. farklı gruplar. Bununla birlikte, gruplar tamamen aynı olsa bile (yani sıfır hipotezi doğruysa), gruplar arası varyasyon hala mevcut olacaktır. Bunun nedeni paraşüt üretim sürecinin doğal değişkenliğidir. Örnekler farklı olduğundan örnek ortalamaları da birbirinden farklıdır. Bu nedenle, sıfır hipotezi doğruysa, hem grup içi hem de grup içi değişkenlik, popülasyon değişkenliğinin bir tahminini temsil eder. Sıfır hipotezi yanlışsa, gruplar arası hipotez daha büyük olacaktır. Altında yatan bu gerçek F-çeşitli grupların matematiksel beklentileri arasındaki farklılıkları karşılaştırmaya yönelik kriterler.

Tek yönlü ANOVA gerçekleştirilip firmalar arasında anlamlı bir fark bulunduktan sonra hangi tedarikçinin diğerlerinden önemli ölçüde farklı olduğu bilinmiyor. Sadece genel popülasyonun matematiksel beklentilerinin eşit olmadığını biliyoruz. Başka bir deyişle, matematiksel beklentilerden en az biri diğerlerinden önemli ölçüde farklıdır. Hangi tedarikçinin diğerlerinden farklı olduğunu belirlemek için şunları kullanabilirsiniz: Tukey prosedürü Tedarikçiler arasında ikili karşılaştırmalar kullanılarak. Bu prosedür John Tukey tarafından geliştirilmiştir. Daha sonra o ve K. Kramer, numune boyutlarının birbirinden farklı olduğu durumlar için bu prosedürü bağımsız olarak değiştirdiler.

Çoklu karşılaştırma: Tukey-Kramer prosedürü

Senaryomuzda paraşütlerin gücünü karşılaştırmak için tek yönlü varyans analizi kullanıldı. Dört grubun matematiksel beklentileri arasında anlamlı farklılıklar bulunduğundan hangi grupların birbirinden farklı olduğunu belirlemek gerekir. Bu sorunu çözmenin birkaç yolu olmasına rağmen, biz yalnızca Tukey-Kramer çoklu karşılaştırma prosedürünü anlatacağız. Bu yöntem, post hoc karşılaştırma prosedürlerinin bir örneğidir çünkü test edilen hipotez, veri analizinden sonra formüle edilir. Tukey-Kramer prosedürü tüm grup çiftlerinin aynı anda karşılaştırılmasına olanak tanır. İlk aşamada farklar hesaplanır XJ -XJ, Nerede j ≠J, matematiksel beklentiler arasında a(lar – 1)/2 gruplar. Kritik kapsam Tukey-Kramer prosedürü aşağıdaki formülle hesaplanır:

Nerede Soru-Cevap- öğrencileştirilmiş aralık dağılımının üst kritik değeri; İle paydaki serbestlik dereceleri ve N - İle paydadaki serbestlik dereceleri.

Örneklem büyüklükleri aynı değilse her bir matematiksel beklenti çifti için kritik aralık ayrı ayrı hesaplanır. Son aşamada her biri a(lar – 1)/2 matematiksel beklenti çiftleri karşılık gelen kritik aralıkla karşılaştırılır. Fark modülü | Xj -XJ| aralarındaki kritik aralığı aşıyor.

Tukey-Kramer prosedürünü paraşütlerin gücü problemine uygulayalım. Paraşüt şirketinin dört tedarikçisi olduğundan, kontrol edilecek 4(4 – 1)/2 = 6 çift tedarikçi vardır (Şekil 9).

Pirinç. 9. Örnek ortalamalarının ikili karşılaştırmaları

Tüm gruplar aynı hacme sahip olduğundan (yani tümü nj = nj), yalnızca bir kritik aralığı hesaplamak yeterlidir. Bunu yapmak için tabloya göre ANOVA(Şekil 6) MSW = 6,094 değerini belirliyoruz. Daha sonra değeri buluyoruz Soru-Cevapα = 0,05'te, İle= 4 (paydaki serbestlik derecesi sayısı) ve N- İle= 20 – 4 = 16 (paydadaki serbestlik derecesi sayısı). Maalesef ilgili işlevi Excel'de bulamadım, bu yüzden tabloyu kullandım (Şekil 10).

Pirinç. 10. Kritik değeröğrenci kapsamı Soru-Cevap

Şunu elde ederiz:

Yalnızca 4,74 > 4,47 olduğundan (bkz. Şekil 9'un alt tablosu), birinci ve ikinci tedarikçi arasında istatistiksel olarak anlamlı bir fark vardır. Diğer tüm çiftlerin, farklılıkları hakkında konuşmamıza izin vermeyen örnek araçları vardır. Sonuç olarak, birinci tedarikçiden satın alınan elyaflardan dokunan paraşütlerin ortalama mukavemeti, ikinci tedarikçiden önemli ölçüde daha azdır.

Tek yönlü varyans analizi için gerekli koşullar

Paraşütlerin gücü sorununu çözerken, tek faktörlü bir paraşüt kullanmanın mümkün olduğu koşulların olup olmadığını kontrol etmedik. F-kriter. Tek faktörlü kullanıp kullanamayacağınızı nasıl anlarsınız? F-belirli deneysel verileri analiz ederken kriter? Tek faktör F-kriter ancak üç temel varsayımın karşılanması durumunda uygulanabilir: deneysel veriler rastgele ve bağımsız olmalı, normal dağılıma sahip olmalı ve varyansları eşit olmalıdır.

İlk tahmin - Rastgelelik ve veri bağımsızlığı- Herhangi bir deneyin doğruluğu seçimin rastgeleliğine ve/veya rastgeleleştirme sürecine bağlı olduğundan her zaman gerçekleştirilmelidir. Sonuçların saptırılmasını önlemek için verilerin çıkarılması gerekir. İle genel popülasyonlar rastgele ve birbirlerinden bağımsız olarak. Benzer şekilde, veriler rastgele dağıtılmalıdır. İle ilgilendiğimiz faktörün düzeyleri (deney grupları). Bu koşulların ihlali, varyans analizinin sonuçlarını ciddi şekilde bozabilir.

İkinci tahmin - normallik- Verilerin normal dağılıma sahip popülasyonlardan elde edildiği anlamına gelir. gelince T-kriterler, temel alınan tek yönlü varyans analizi F-kriterler bu koşulun ihlaline nispeten daha az duyarlıdır. Dağılım normalden çok fazla sapmıyorsa anlamlılık düzeyi F-kriter, özellikle örneklem boyutu yeterince büyükse çok az değişir. Dağılımın normalliği koşulu ciddi şekilde ihlal ediliyorsa uygulanmalıdır.

Üçüncü tahmin - varyansın homojenliği- her popülasyonun varyanslarının birbirine eşit olduğu anlamına gelir (yani σ 1 2 = σ 2 2 = ... = σ j 2). Bu varsayım, kişinin grup içi varyansları ayırmaya veya bir araya toplamaya karar vermesine olanak tanır. Grup büyüklükleri aynı ise, varyansın homojenliği koşulunun, kullanılarak elde edilen sonuçlar üzerinde çok az etkisi vardır. F-kriterler. Ancak örneklem büyüklükleri eşit değilse, varyansların eşitliği koşulunun ihlali, varyans analizi sonuçlarını ciddi şekilde bozabilir. Bu nedenle örneklem büyüklüklerinin eşit olmasına dikkat edilmelidir. Varyansın homojenliği varsayımını kontrol etme yöntemlerinden biri kriterdir. Levene Aşağıda açıklanan.

Her üç koşuldan yalnızca varyansın homojenliği koşulu ihlal edilirse, benzer bir prosedür T- Ayrı varyans kullanan kriter (daha fazla ayrıntı için bkz.). Ancak eğer varsayımlar normal dağılım Aynı zamanda varyansların homojenliği de ihlal ediliyorsa, verileri normalize edip varyanslar arasındaki farkları azaltmak veya parametrik olmayan bir prosedür uygulamak gerekir.

Varyansın homojenliğini test etmek için Levene testi

Rağmen F- kriter, gruplardaki varyansların eşitliği koşulunun ihlaline karşı nispeten dirençlidir; bu varsayımın büyük ölçüde ihlali, kriterin anlamlılık düzeyini ve gücünü önemli ölçüde etkiler. Belki de en güçlü olanlardan biri kriterdir Levene. Varyansların eşitliğini kontrol etmek için İle genel popülasyonlar için aşağıdaki hipotezleri test edeceğiz:

Н 0: σ 1 2 = σ 2 2 = … = σJ 2

H 1: Hepsi değil σj2 aynıdır ( J = 1, 2, …, İle)

Değiştirilmiş Levene testi, eğer değişkenlik gruplar arasında eşitse, varyans analizinin varyansların eşitliğine ilişkin sıfır hipotezini test etmek için kullanılabileceği önermesine dayanmaktadır. mutlak değerler gözlemler ve grup medyanları arasındaki farklar. Bu nedenle, öncelikle her gruptaki gözlemler ve medyanlar arasındaki farkların mutlak değerlerini hesaplamalı, ardından farklılıkların ortaya çıkan mutlak değerleri üzerinde tek yönlü varyans analizi yapmalısınız. Levene'nin kriterini açıklamak için notun başında özetlenen senaryoya dönelim. Şekil 2'de sunulan verileri kullanarak. Şekil 6'da benzer bir analiz yapacağız, ancak her numune için başlangıç ​​verileri ve medyanlardaki farklılık modülleri ile ilgili olarak ayrı ayrı (Şekil 11).



Sitede yeni

>

En popüler