بيت طب أسنان الأطفال تحليل التباين. تحليل التباين (ANOVA) أحادي الاتجاه

تحليل التباين. تحليل التباين (ANOVA) أحادي الاتجاه

) يهدف إلى مقارنة مجموعتين من السكان على وجه الحصر. ومع ذلك، غالبا ما يتم استخدامه بشكل غير صحيح لإجراء مقارنات زوجية لعدد أكبر من المجموعات (الشكل 1)، والذي يسبب ما يسمى. تأثير المقارنة المتعددة(إنجليزي) مقارنات متعددة؛غلانز 1999، ص. 101-104). وسنتحدث عن هذا التأثير وكيفية التعامل معه لاحقا. في نفس المنشور سأصف المبادئ تحليل التباين في اتجاه واحد، مخصص فقط ل متزامنمقارنة وسائل مجموعتين أو أكثر. مبادئ تحليل التباين انتحليل سو فا rianance، ANOVA) تم تطويرها في عشرينيات القرن العشرين. السير رونالد ايلمر فيشر رونالد ايلمر فيشر) - "عبقري وضع بمفرده تقريبًا أسس الإحصاء الحديث" (توقف 1998).

قد يطرح السؤال: لماذا الطريقة المستخدمة للمقارنة متوسطتسمى القيم مشتتتحليل؟ والحقيقة هي أنه عند تحديد الفرق بين القيم المتوسطة، فإننا في الواقع نقوم بمقارنة تباينات المجموعات السكانية التي تم تحليلها. ومع ذلك، الأشياء الأولى أولا ...

بيان المشكلة

المثال أدناه مأخوذ من الكتاب ميندونالد & براون(2010). توجد بيانات عن وزن الطماطم (النبات بأكمله؛ الوزن بالكيلوجرام)، والتي تمت زراعتها لمدة شهرين في ظل ثلاثة ظروف تجريبية مختلفة (trt، من علاج) - على الماء (الماء)، في بيئة مع إضافة الأسمدة (المغذيات)، وكذلك في بيئة مع إضافة الأسمدة ومبيدات الأعشاب 2،4-D (المغذيات + 24D):

# إنشاء جدول بالبيانات:طماطم<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) #لننظر إلى النتيجة:الوزن الوزن trt 1 1.50 الماء 2 1.90 الماء 3 1.30 الماء 4 1.50 الماء 5 2.40 الماء 6 1.50 الماء 7 1.50 المغذيات 8 1.20 المغذيات 9 1.20 المغذيات 10 2.10 المغذيات 11 2.90 المغذيات 12 1.60 المغذيات 13 1.90 المغذيات + 24 د 14 1.60 المغذيات + 24 د 15 0.80 المغذيات + 24 د 16 1.15 المغذيات + 24 د 17 0.90 المغذيات + 24 د 18 1.60 المغذيات + 24 د


المتغير trt هو عامل ذو ثلاثة مستويات. ومن أجل مقارنة أوضح للظروف التجريبية في المستقبل، سنجعل مستوى "الماء" هو المستوى الأساسي. مرجع)، أي. المستوى الذي سيقارن به R جميع المستويات الأخرى. يمكن القيام بذلك باستخدام الدالة relevel() :


لفهم خصائص البيانات المتاحة بشكل أفضل، دعونا نتصورها باستخدام الاختلافات الملحوظة بين متوسطات المجموعة والتي تعتبر غير مهمة وناجمة عن تأثير العوامل العشوائية (أي، في الواقع، جميع قياسات وزن النبات التي تم الحصول عليها تأتي من مجموعة سكانية واحدة موزعة بشكل طبيعي):

دعونا نؤكد مرة أخرى أن المثال قيد النظر يتوافق مع الحالة عامل واحدتحليل التباين: تمت دراسة تأثير عامل واحد - ظروف النمو (بثلاثة مستويات - الماء والمغذيات والمغذيات + 24 د) على متغير الاستجابة الذي يهمنا - وزن النبات.

لسوء الحظ، لا تتاح للباحث أبدًا الفرصة لدراسة جميع السكان. كيف إذن نعرف ما إذا كانت الفرضية الصفرية أعلاه صحيحة باستخدام بيانات العينة فقط؟ يمكننا صياغة هذا السؤال بشكل مختلف: ما هو احتمال الحصول على فروق ملحوظة بين وسائل المجموعة عن طريق سحب عينات عشوائية من مجموعة سكانية واحدة موزعة بشكل طبيعي؟ للإجابة على هذا السؤال، نحتاج إلى معيار إحصائي يصف كميًا حجم الاختلافات بين المجموعات المقارنة.

تحليل التباين هو أسلوب إحصائي لتقييم العلاقة بين العامل وخصائص الأداء في مجموعات مختلفة، يتم اختيارها عشوائياً، بناءً على تحديد الفروق (التنوع) في قيم الخصائص. يعتمد تحليل التباين على تحليل انحرافات جميع وحدات المجتمع محل الدراسة عن الوسط الحسابي. كمقياس للانحرافات، يتم أخذ التشتت (B) - متوسط ​​مربع الانحرافات. تتم مقارنة الانحرافات الناجمة عن تأثير سمة العامل (العامل) بحجم الانحرافات الناجمة عن الظروف العشوائية. إذا كانت الانحرافات الناجمة عن خاصية عامل أكثر أهمية من الانحرافات العشوائية، فإن العامل يعتبر له تأثير كبير على الخاصية الناتجة.

ومن أجل حساب التشتت، يتم تربيع قيم انحراف كل خيار (كل قيمة عددية مسجلة للخاصية) عن الوسط الحسابي. هذا يتخلص من العلامات السلبية. ثم يتم جمع هذه الانحرافات (الاختلافات) وتقسيمها على عدد الملاحظات، أي. متوسط ​​الانحرافات. وبذلك يتم الحصول على قيم التباين.

من الأهمية المنهجية الهامة لاستخدام تحليل التباين الاختيار الصحيح للعينة. اعتمادا على الهدف والغايات، يمكن تشكيل مجموعات العينة بشكل عشوائي بشكل مستقل عن بعضها البعض (مجموعات ضابطة وتجريبية لدراسة بعض المؤشرات، على سبيل المثال، تأثير ارتفاع ضغط الدم على تطور السكتة الدماغية). تسمى هذه العينات مستقلة.

في كثير من الأحيان، تتم دراسة نتائج التعرض للعوامل في نفس مجموعة العينة (على سبيل المثال، نفس المرضى) قبل وبعد التعرض (تسمى هذه العينات العلاج والوقاية وإعادة التأهيل)؛

ويسمى تحليل التباين، الذي يختبر تأثير عامل واحد، تحليل العامل الواحد (التحليل أحادي المتغير). عند دراسة تأثير أكثر من عامل، يتم استخدام طريقة متعددة العوامل. تحليل التباين(تحليل متعدد المتغيرات).

الخصائص العاملية هي تلك الخصائص التي تؤثر على الظاهرة قيد الدراسة.

الخصائص الفعالة هي تلك الخصائص التي تتغير تحت تأثير خصائص العامل.

شروط استخدام تحليل التباين:

الهدف من الدراسة هو تحديد قوة تأثير عامل واحد (حتى 3) على النتيجة أو تحديد قوة التأثير المشترك للعوامل المختلفة (الجنس والعمر والنشاط البدني والتغذية، وما إلى ذلك).

يجب أن تكون العوامل التي تتم دراستها مستقلة (غير مرتبطة) ببعضها البعض. على سبيل المثال، من المستحيل دراسة التأثير المشترك لخبرة العمل والعمر والطول والوزن للأطفال، وما إلى ذلك. على معدلات الإصابة بالسكان.

يتم اختيار مجموعات الدراسة بشكل عشوائي (اختيار عشوائي). يُطلق على تنظيم مجمع التشتت مع تطبيق مبدأ العشوائية في اختيار الخيارات اسم العشوائية (مترجم من الإنجليزية - عشوائي) ، أي. تم اختياره عشوائيا.

يمكن استخدام الخصائص الكمية والنوعية (العزوية).

عند إجراء تحليل التباين الأحادي يوصى (شرط ضروري للاستخدام):

1. الحالة الطبيعية لتوزيع المجموعات التي تم تحليلها أو تطابق مجموعات العينات مع عامة السكان مع التوزيع الطبيعي.

2. الاستقلال (وليس الارتباط) لتوزيع الملاحظات في المجموعات.

3. مدى توفر تكرار (تكرار) الملاحظات.

أولاً يتم صياغة الفرضية الصفرية، أي أنه يفترض أن العوامل قيد الدراسة ليس لها أي تأثير على قيم الخاصية الناتجة وتكون الفروق التي تم الحصول عليها عشوائية.

ثم نحدد ما هو احتمال الحصول على الفروق المرصودة (أو الأقوى) بشرط أن تكون الفرضية الصفرية صحيحة.

فإذا كان هذا الاحتمال صغيرا فإننا نرفض الفرضية الصفرية ونستنتج أن نتائج الدراسة ذات دلالة إحصائية. وهذا لا يعني أن تأثير العوامل قيد الدراسة قد تم إثباته (هذه مسألة تتعلق بالتخطيط للبحث في المقام الأول)، ولكن لا يزال من غير المرجح أن تكون النتيجة نتيجة للصدفة.

إذا تم استيفاء جميع شروط تطبيق تحليل التباين، فإن تحليل التباين الإجمالي رياضياً يبدو كما يلي:

تحويلة. = دفاكت + د راحة،

تحويلة. - التشتت الكلي للقيم المرصودة (المتغير) والذي يتميز بتشتت المتغير عن المتوسط ​​العام. يقيس تباين السمة في مجملها تحت تأثير جميع العوامل التي تسببت في هذا التباين. يتكون التنوع الشامل من التنوع بين المجموعات وداخل المجموعات؛

Dfact - التشتت العاملي (بين المجموعات)، ويتميز باختلاف الوسائل في كل مجموعة ويعتمد على تأثير العامل قيد الدراسة الذي يتم من خلاله التمييز بين كل مجموعة. على سبيل المثال، في المجموعات التي تختلف في العامل المسبب للمرض للمسار السريري للالتهاب الرئوي، فإن متوسط ​​مستوى قضاء يوم في السرير ليس هو نفسه - لوحظ التنوع بين المجموعات.

د استراحة. - التباين المتبقي (داخل المجموعة)، والذي يميز تشتت المتغير داخل المجموعات. يعكس الاختلاف العشوائي، أي. جزء من التباين الذي يحدث تحت تأثير عوامل غير محددة ولا يعتمد على الخاصية - العامل الذي يشكل أساس المجموعة. يعتمد تباين السمة المدروسة على قوة تأثير بعض العوامل العشوائية غير المحسوبة، سواء العوامل المنظمة (التي حددها الباحث) أو العوامل العشوائية (غير المعروفة).

ولذلك، فإن التباين الكلي (التباين) يتكون من التباين الناجم عن عوامل منظمة (معطاة)، تسمى التباين العاملي والعوامل غير المنظمة، أي. التباين المتبقي (عشوائي، غير معروف).

بالنسبة لحجم العينة n، يتم حساب تباين العينة كمجموع الانحرافات المربعة عن متوسط ​​العينة مقسومًا على n-1 (حجم العينة ناقص واحد). وهكذا، بالنسبة لحجم العينة الثابت n، يكون التباين دالة لمجموع المربعات (الانحرافات)، ويشار إليها، للإيجاز، بـ SS (من مجموع المربعات الإنجليزية). في ما يلي، غالبًا ما نحذف كلمة عينة، مع العلم جيدًا أننا نفكر في تباين العينة أو تقدير التباين. يعتمد تحليل التباين على تقسيم التباين إلى أجزاء أو مكونات. خذ بعين الاعتبار مجموعة البيانات التالية:

تختلف وسائل المجموعتين بشكل كبير (2 و 6 على التوالي). مجموع الانحرافات المربعة داخل كل مجموعة هو 2. وبجمعها نحصل على 4. إذا كررنا الآن هذه الحسابات دون الأخذ في الاعتبار عضوية المجموعة، أي إذا حسبنا SS على أساس المتوسط ​​الإجمالي لهاتين العينتين، فإننا احصل على قيمة 28. بمعنى آخر، يؤدي التباين (مجموع المربعات) بناءً على التباين داخل المجموعة إلى قيم أصغر بكثير من تلك المحسوبة على أساس التباين الإجمالي (بالنسبة للمتوسط ​​الإجمالي). ومن الواضح أن السبب في ذلك هو وجود اختلاف كبير بين المتوسطات، وهذا الاختلاف بين المتوسطات يفسر الفرق الحالي بين مجموع المربعات.

سس سانت سانت. آنسة ف ص
تأثير 24.0 24.0 24.0 .008
خطأ 4.0 1.0

وكما يتبين من الجدول، المبلغ الإجماليالمربعات SS = 28 مقسمة إلى مكونات: مجموع المربعات بسبب التباين داخل المجموعة (2+2=4؛ انظر الصف الثاني من الجدول) ومجموع المربعات بسبب اختلاف القيم المتوسطة بين المجموعات (28 -(2+2)=24؛ انظر صف الجدول الأول). لاحظ أن MS في هذا الجدول هو متوسط ​​المربع الذي يساوي SS مقسومًا على عدد درجات الحرية (d.f.).

في المثال البسيط أعلاه، يمكنك على الفور حساب اختبار t للعينات المستقلة. ومن الطبيعي أن تتطابق النتائج التي تم الحصول عليها مع نتائج تحليل التباين.

ومع ذلك، فإن الحالات التي يتم فيها وصف ظاهرة معينة بالكامل بواسطة متغير واحد، نادرة للغاية. على سبيل المثال، إذا كنا نحاول تعلم كيفية زراعة طماطم كبيرة، فيجب أن نأخذ في الاعتبار العوامل المتعلقة بالتركيب الوراثي للنبات، ونوع التربة، والضوء، ودرجة الحرارة، وما إلى ذلك. وبالتالي، عند إجراء تجربة نموذجية، يتعين على المرء التعامل مع عدد كبير من العوامل. السبب الرئيسي وراء تفضيل استخدام ANOVA على المقارنات المتكررة لعينتين عند مستويات عوامل مختلفة باستخدام سلسلة من اختبارات t هو أن ANOVA أكثر كفاءة إلى حد كبير، وبالنسبة للعينات الصغيرة، فهي أكثر إفادة.

لنفترض أنه في مثال تحليل العينتين الذي تمت مناقشته أعلاه، أضفنا عاملاً آخر، على سبيل المثال، الجنس. لتتكون كل مجموعة الآن من 3 رجال و3 نساء. ويمكن عرض خطة هذه التجربة على شكل جدول:

قبل إجراء الحسابات، يمكنك ملاحظة أنه في هذا المثال، يحتوي التباين الإجمالي على ثلاثة مصادر على الأقل:

1) خطأ عشوائي (التباين داخل المجموعة)،

2) التباين المرتبط بالانتماء إلى المجموعة التجريبية

3) التباين بسبب جنس كائنات المراقبة.

لاحظ أن هناك مصدرًا آخر محتملًا للتباين - وهو تفاعل العوامل، والذي سنناقشه لاحقًا). ماذا يحدث إذا لم ندرج الجنس كعامل في التحليل وقمنا بحساب اختبار t العادي؟ إذا قمنا بحساب مجموع المربعات متجاهلين الجنس (أي دمج الكائنات من جنسين مختلفين في مجموعة واحدة عند حساب التباين داخل المجموعة والحصول على مجموع المربعات لكل مجموعة يساوي SS = 10 ومجموع المربعات الإجمالي SS = 10+10) = 20)، فسنحصل على قيمة أكبر للتباين داخل المجموعة مقارنة بتحليل أكثر دقة مع تقسيم إضافي إلى مجموعات فرعية حسب الجنس (في هذه الحالة، ستكون المتوسطات داخل المجموعة مساوية لـ 2، والإجمالي داخل المجموعة مجموع المربعات سيكون مساوياً لـ SS = 2+2+2+2 = 8).

لذلك، مع إدخال عامل إضافي: الجنس، انخفض التباين المتبقي. وذلك لأن المتوسط ​​بالنسبة للرجال أصغر من المتوسط ​​بالنسبة للنساء، وهذا الاختلاف في الوسائل يزيد من التباين الإجمالي داخل المجموعة عندما لا يؤخذ الجنس في الاعتبار. التحكم في تباين الخطأ يزيد من حساسية (قوة) الاختبار.

يوضح هذا المثال ميزة أخرى لتحليل التباين مقارنة باختبار t المعتاد المكون من عينتين. يتيح لك تحليل التباين دراسة كل عامل من خلال التحكم في قيم العوامل الأخرى. وهذا، في الواقع، هو السبب الرئيسي لقوتها الإحصائية الأكبر (يلزم وجود أحجام أصغر للعينات للحصول على نتائج ذات معنى). ولهذا السبب، فإن تحليل التباين، حتى على العينات الصغيرة، يؤدي إلى نتائج ذات دلالة إحصائية أكثر من اختبار t البسيط.

يمارس . تم إجراء استطلاع لطلاب السنة الأولى لتحديد الأنشطة التي يكرسون لها أوقات فراغهم. التحقق مما إذا كان توزيع التفضيلات اللفظية وغير اللفظية للطلاب يختلف.

حلنفذت باستخدام الآلة الحاسبة.
إيجاد متوسطات المجموعة:

نص 1ص 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
متوسط ​​× 15.6 17

لنشير إلى p - عدد مستويات العامل (p=2). عدد الأبعاد في كل مستوى هو نفسه ويساوي q=5.
يحتوي الصف الأخير على متوسطات المجموعة لكل مستوى عامل.
ويمكن الحصول على المتوسط ​​الكلي باعتباره الوسط الحسابي لمعدلات المجموعة:
(1)
ويتأثر انتشار متوسط ​​معدلات فشل المجموعة بالنسبة إلى المتوسط ​​العام بكل من التغيرات في مستوى العامل قيد النظر والعوامل العشوائية.
ولمراعاة تأثير هذا العامل، تم تقسيم التباين الكلي للعينة إلى قسمين، الأول يسمى العامل S 2 f، والثاني يسمى العامل S 2 المتبقي.
ومن أجل أخذ هذه المكونات في الاعتبار، يتم أولاً حساب المجموع الإجمالي للانحرافات المربعة عن المتوسط ​​الإجمالي:

وعامل مجموع الانحرافات التربيعية لمتوسطات المجموعة عن المتوسط ​​العام الذي يميز تأثير هذا العامل:

يتم الحصول على التعبير الأخير عن طريق استبدال كل خيار في التعبير R بمتوسط ​​المجموعة الإجمالي لعامل معين.
يتم الحصول على المجموع المتبقي من الانحرافات التربيعية كالفرق:
الراحة R = إجمالي R - R f
لتحديد إجمالي تباين العينة، من الضروري قسمة إجمالي R على عدد القياسات pq:

وللحصول على التباين الإجمالي غير المتحيز للعينة، يجب ضرب هذا التعبير بـ pq/(pq-1):

وفقًا لذلك، بالنسبة لتباين عينة العامل غير المتحيز:

حيث p-1 هو عدد درجات الحرية لتباين عينة العامل غير المتحيز.
من أجل تقييم تأثير عامل ما على التغيرات في المعلمة قيد النظر، يتم حساب القيمة:

بما أن النسبة بين تبايني العينة S 2 f وS 2 Rest يتم توزيعها وفقًا لقانون فيشر سنديكور، تتم مقارنة القيمة الناتجة لـ f obs بقيمة دالة التوزيع

عند النقطة الحرجة f cr المقابلة لمستوى الأهمية المحدد أ.
فإذا كان fobs >f cr فإن العامل له تأثير كبير ويجب أن يؤخذ بعين الاعتبار، وإلا كان له تأثير ضئيل يمكن إهماله.
لحساب Rob وRf يمكن أيضًا استخدام الصيغ التالية:
(4)
(5)
نجد المتوسط ​​العام باستخدام الصيغة (1):
لحساب Rtot باستخدام الصيغة (4)، نرسم جدولاً مكونًا من مربعين: الخيار:
نص 2 1ص22
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

يتم حساب المتوسط ​​​​الكلي باستخدام الصيغة (1):

رتو = 1322 + 1613 - 5 2 16.3 2 = 278.1
نجد R f باستخدام الصيغة (5):
ص و = 5(15.6 2 + 17 2) - 2 16.3 2 = 4.9
نحصل على راحة R: راحة R = إجمالي R - R f = 278.1 - 4.9 = 273.2
نحدد العامل والتباينات المتبقية:


إذا كانت القيم المتوسطة متغير عشوائي، المحسوبة للعينات الفردية هي نفسها، فإن تقديرات العامل والتباينات المتبقية هي تقديرات غير متحيزة للتباين العام وتختلف بشكل كبير.
ثم يجب أن تظهر مقارنة تقديرات هذه التباينات باستخدام معيار فيشر أنه لا يوجد سبب لرفض الفرضية الصفرية حول مساواة العامل والتباين المتبقي.
تقدير التشتت العاملي أقل من تقدير التشتت المتبقي، لذا يمكننا التأكد فورًا من صحة فرضية العدم للمساواة التوقعات الرياضيةعن طريق أخذ العينات الطبقات.
بمعنى آخر، في هذا المثال، العامل Ф ليس له تأثير كبير على المتغير العشوائي.
دعونا نتحقق من الفرضية الصفرية H 0: تساوي القيم المتوسطة لـ x.
ابحث عن f obs.

بالنسبة لمستوى الأهمية α=0.05، ودرجات الحرية رقم 1 و8، نجد fcr من جدول توزيع Fisher-Snedecor.
و كر (0.05؛ 1؛ 8) = 5.32
يرجع ذلك إلى حقيقة أن و لاحظ< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
وبعبارة أخرى، يختلف توزيع التفضيلات اللفظية وغير اللفظية للطلاب.

يمارس. يحتوي المصنع على أربعة خطوط لإنتاج بلاط الواجهات. من كل سطر، تم اختيار 10 بلاطات بشكل عشوائي أثناء الوردية وتم قياس سمكها (مم). وترد في الجدول الانحرافات عن الحجم الاسمي. يجب إثبات عند مستوى دلالة a = 0.05 أن هناك اعتماد في إنتاج البلاط عالي الجودة على خط الإنتاج (العامل A).

يمارس. عند مستوى دلالة a = 0.05، قم بدراسة تأثير لون الطلاء على عمر خدمة الطلاء.

المثال رقم 1. تم إجراء 13 اختبارًا، 4 منها على مستوى العامل الأول، و4 على مستوى العامل الثاني، و3 على مستوى العامل الثالث، و2 على مستوى العامل الرابع. وباستخدام أسلوب تحليل التباين عند مستوى دلالة 0.05، تم اختبار الفرضية الصفرية حول تساوي متوسطات المجموعة. من المفترض أن يتم استخلاص العينات من مجموعات سكانية عادية ذات تباينات متساوية. تظهر نتائج الاختبار في الجدول.

حل:
إيجاد متوسطات المجموعة:

نص 1ص 2ص 3ص 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
متوسط ​​× 1.4 1.43 1.33 1.32

لنشير إلى p - عدد مستويات العامل (p=4). عدد الأبعاد في كل مستوى هو: 4،4،3،2
يحتوي الصف الأخير على متوسطات المجموعة لكل مستوى عامل.
يتم حساب المتوسط ​​العام باستخدام الصيغة:

لحساب Stotal باستخدام الصيغة (4)، نرسم جدولاً مكونًا من مربعين: الخيار:

نص 2 1ص22ص 2 3ص 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

تم العثور على المجموع الإجمالي للانحرافات التربيعية باستخدام الصيغة:


نجد S f باستخدام الصيغة:


نحصل على راحة S: راحة S = إجمالي S - S f = 0.0293 - 0.0263 = 0.003
نحدد عامل التشتت:

والتباين المتبقي:

إذا كانت القيم المتوسطة للمتغير العشوائي المحسوبة للعينات الفردية هي نفسها، فإن تقديرات العامل والتباينات المتبقية هي تقديرات غير متحيزة للتباين العام ولا تختلف بشكل كبير.
ثم يجب أن تظهر مقارنة تقديرات هذه التباينات باستخدام معيار فيشر أنه لا يوجد سبب لرفض الفرضية الصفرية حول مساواة العامل والتباين المتبقي.
تقدير التشتت العاملي أكبر من تقدير التشتت المتبقي، لذلك يمكننا التأكيد على الفور على أن الفرضية الصفرية حول مساواة التوقعات الرياضية عبر طبقات العينة غير صحيحة.
بمعنى آخر، في هذا المثال، العامل Ф له تأثير كبير على المتغير العشوائي.
دعونا نتحقق من الفرضية الصفرية H 0: تساوي القيم المتوسطة لـ x.
ابحث عن f obs.

بالنسبة لمستوى الأهمية α=0.05، ودرجات الحرية رقم 3 و12، نجد fcr من جدول توزيع Fisher-Snedecor.
و كر (0.05؛ 3؛ 12) = 3.49
نظرًا لحقيقة أن f > f cr، فإننا نقبل فرضية العدم حول التأثير الكبير للعامل على نتائج التجارب (نرفض الفرضية الصفرية حول مساواة وسائل المجموعة). وبعبارة أخرى، فإن المجموعة تعني ككل تختلف بشكل كبير.

المثال رقم 2. المدرسة لديها 5 الصف السادس. يتم تكليف عالم النفس بتحديد ما إذا كان متوسط ​​مستوى القلق الظرفي هو نفسه في الفصول الدراسية. لهذا الغرض تم تقديمهم في الجدول. التحقق من مستوى الأهمية α = 0.05، بافتراض أن متوسط ​​القلق الظرفي في الفصول الدراسية لا يختلف.

المثال رقم 3. لدراسة قيمة X تم إجراء 4 اختبارات عند كل مستوى من المستويات الخمسة للعامل F. وتظهر نتائج الاختبار في الجدول. اكتشف ما إذا كان تأثير العامل F على قيمة X مهمًا أم لا. من المفترض أن يتم استخلاص العينات من مجموعات سكانية عادية ذات تباينات متساوية.

المثال رقم 4. لنفترض أن ثلاث مجموعات مكونة من 10 طلاب شاركت في التجربة التربوية. تطبق في مجموعات طرق مختلفةالتدريب: في الأول - تقليدي (F 1)، في الثاني - يعتمد على تكنولوجيا الكمبيوتر (F 2)، في الثالث - طريقة تستخدم المهام على نطاق واسع ل عمل مستقل(ف3). تم تقييم المعرفة باستخدام نظام من عشر نقاط.
يجب معالجة بيانات الاختبار التي تم الحصول عليها والتوصل إلى نتيجة حول ما إذا كان تأثير طريقة التدريس مهمًا، مع الأخذ في الاعتبار α = 0.05 كمستوى أهمية.
تظهر نتائج الامتحان في الجدول، F j هو مستوى العامل x ij - تقييم الطالب الأول باستخدام طريقة F j.

مستوى العامل

المثال رقم 5. يتم عرض نتائج اختبار التنوع التنافسي للمحاصيل (الإنتاجية بالسنتيمتر لكل هكتار). تم اختبار كل صنف في أربع قطع. باستخدام تحليل التباين دراسة تأثير الصنف على المحصول. تحديد أهمية تأثير العامل (حصة التباين بين المجموعات في التباين الكلي) وأهمية النتائج التجريبية عند مستوى دلالة 0.05.
الإنتاجية في قطع أراضي اختبار متنوعة

متنوع الإنتاجية بالتكرارات ج. من هكتار
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

تحليل التباين

1. مفهوم تحليل التباين

تحليل التباينهو تحليل لتباين السمة تحت تأثير أي عوامل متغيرة يمكن التحكم فيها. في الأدبيات الأجنبية، يُشار إلى تحليل التباين غالبًا باسم ANOVA، والذي يُترجم على أنه تحليل التباين (تحليل التباين).

مشكلة أنوفايتكون من عزل التباين من نوع مختلف عن التباين العام للسمات:

أ) التباين الناتج عن عمل كل من المتغيرات المستقلة قيد الدراسة.

ب) التباين بسبب تفاعل المتغيرات المستقلة قيد الدراسة.

ج) التباين العشوائي بسبب جميع المتغيرات الأخرى غير المعروفة.

ويرتبط التباين بفعل المتغيرات قيد الدراسة وتفاعلها مع التباين العشوائي. مؤشر هذه العلاقة هو اختبار فيشر F.

تتضمن صيغة حساب المعيار F تقديرات التباينات، أي معلمات التوزيع للخاصية، وبالتالي فإن المعيار F هو معيار حدودي.

كلما زاد تباين السمة بسبب المتغيرات (العوامل) قيد الدراسة أو تفاعلها، كلما كان ذلك أعلى قيم المعيار التجريبي.

صفر وتنص الفرضية في تحليل التباين على أن متوسط ​​قيم الخاصية الفعالة المدروسة هي نفسها في جميع التدرجات.

بديل ستنص الفرضية على اختلاف القيم المتوسطة للخاصية الناتجة في التدرجات المختلفة للعامل قيد الدراسة.

يسمح لنا تحليل التباين بذكر تغيير في إحدى الخصائص، لكنه لا يشير إلى ذلك اتجاههذه التغييرات.

لنبدأ نظرنا في تحليل التباين بأبسط الحالات، عندما يكون الإجراء فقط واحدمتغير (عامل واحد).

2. تحليل التباين في اتجاه واحد للعينات غير المرتبطة

2.1. الغرض من الطريقة

يتم استخدام طريقة تحليل التباين بعامل واحد في الحالات التي تتم فيها دراسة التغيرات في الخاصية الفعالة تحت تأثير الظروف المتغيرة أو تدرجات العامل. في هذا الإصدار من الطريقة، يكون تأثير كل تدرجات للعامل مختلفعينات من المواضيع. يجب أن يكون هناك على الأقل ثلاثة تدرجات للعامل. (قد يكون هناك تدرجان، لكن في هذه الحالة لن نتمكن من إنشاء تبعيات غير خطية ويبدو من المعقول استخدام تبعيات أبسط).

النسخة غير البارامترية لهذا النوع من التحليل هي اختبار كروسكال واليس H.

فرضيات

H0: الفروق بين درجات العوامل (الظروف المختلفة) لا تزيد عن الفروق العشوائية داخل كل مجموعة.

ح1: الفروق بين درجات العوامل (الظروف المختلفة) أكبر من الفروق العشوائية داخل كل مجموعة.

2.2. حدود تحليل التباين أحادي الاتجاه للعينات غير المرتبطة

1. يتطلب تحليل التباين أحادي الاتجاه ثلاثة تدرجات للعامل على الأقل وموضوعين على الأقل في كل تدرج.

2. أن تكون الخاصية الناتجة موزعة توزيعاً طبيعياً في العينة محل الدراسة.

صحيح أنه لا يتم تحديد ما إذا كنا نتحدث عن توزيع الخاصية في العينة التي شملها الاستطلاع بأكملها أو في ذلك الجزء منها الذي يشكل مجمع التشتت.

3. مثال لحل مشكلة باستخدام طريقة تحليل التباين الأحادي للعينات غير المرتبطة باستخدام المثال:

أعطيت ثلاث مجموعات مختلفة من ستة مواضيع قوائم من عشر كلمات. تم عرض الكلمات على المجموعة الأولى بسرعة منخفضة - كلمة واحدة لكل 5 ثواني، وعلى المجموعة الثانية بسرعة متوسطة - كلمة واحدة لكل ثانيتين، وعلى المجموعة الثالثة بسرعة عالية - كلمة واحدة في الثانية. كان من المتوقع أن يعتمد أداء الاستنساخ على سرعة عرض الكلمات. النتائج معروضة في الجدول. 1.

عدد الكلمات المستنسخة الجدول 1

رقم الموضوع

سرعة منخفضة

متوسط ​​السرعة

سرعة عالية

المبلغ الإجمالي

H 0: الاختلافات في مدى إنتاج الكلمات بينالمجموعات ليست أكثر وضوحا من الاختلافات العشوائية داخلكل مجموعة.

H1: الاختلافات في حجم إنتاج الكلمات بينالمجموعات أكثر وضوحا من الاختلافات العشوائية داخلكل مجموعة. باستخدام القيم التجريبية الواردة في الجدول. 1، سنضع بعض القيم التي ستكون ضرورية لحساب معيار F.

ويرد في الجدول حساب الكميات الرئيسية لتحليل التباين أحادي الاتجاه:

الجدول 2

الجدول 3

تسلسل العمليات في تحليل التباين أحادي الاتجاه للعينات غير المرتبطة

غالبًا ما توجد التسمية SS في هذا الجدول والجداول اللاحقة، وهي اختصار لعبارة "مجموع المربعات". غالبًا ما يستخدم هذا الاختصار في المصادر المترجمة.

سس حقيقةيعني تباين الخاصية بسبب عمل العامل قيد الدراسة؛

سس عمومًا- التباين العام للسمة؛

س كاليفورنيا.- التباين بسبب عوامل غير محسوبة، التباين "العشوائي" أو "المتبقي".

آنسة- "متوسط ​​المربع"، أو التوقع الرياضي لمجموع المربعات، متوسط ​​قيمة SS المقابلة.

df - عدد درجات الحرية التي نشير إليها بحرف يوناني عند النظر في المعايير غير البارامترية ضد.

الخلاصة: H 0 مرفوض. تم قبول ح1. كانت الاختلافات في تذكر الكلمات بين المجموعات أكبر من الاختلافات العشوائية داخل كل مجموعة (α = 0.05). لذا فإن سرعة عرض الكلمات تؤثر على حجم تكاثرها.

فيما يلي مثال لحل المشكلة في Excel:

البيانات الأولية:

باستخدام الأمر: الأدوات->تحليل البيانات->تحليل التباين أحادي الاتجاه، نحصل على النتائج التالية:

وسيتم توضيح استخدام الإحصاءات في هذه المذكرة بمثال شامل. لنفترض أنك مدير الإنتاج في Perfect Parachute. المظلات مصنوعة من ألياف صناعية يقدمها أربعة موردين مختلفين. واحدة من الخصائص الرئيسية للمظلة هي قوتها. تحتاج إلى التأكد من أن جميع الألياف الموردة لها نفس القوة. للإجابة على هذا السؤال يجب تصميم تصميم تجريبي لقياس قوة المظلات المنسوجة من الألياف الصناعية. موردين مختلفين. ستحدد المعلومات التي تم الحصول عليها من هذه التجربة المورد الذي يوفر المظلات الأكثر متانة.

تتضمن العديد من التطبيقات تجارب تأخذ في الاعتبار مجموعات أو مستويات متعددة من عامل واحد. قد يكون لبعض العوامل، مثل درجة حرارة حرق السيراميك، مستويات رقمية متعددة (أي 300 درجة و350 درجة و400 درجة و450 درجة). العوامل الأخرى، مثل موقع العناصر في السوبر ماركت، قد يكون لها مستويات فئوية (على سبيل المثال، المورد الأول، المورد الثاني، المورد الثالث، المورد الرابع). تسمى التجارب ذات العامل الواحد، والتي يتم فيها تعيين الوحدات التجريبية بشكل عشوائي إلى مجموعات أو مستويات عامل، بالتجارب العشوائية الكاملة.

الاستخدامف-معايير لتقييم الفروق بين عدة توقعات رياضية

إذا كانت القياسات العددية للعامل في مجموعات مستمرة وبعضها شروط إضافية، لمقارنة التوقعات الرياضية لعدة مجموعات، تحليل التباين (ANOVA - انتحليل سو فرجينياريانس). ويسمى تحليل التباين باستخدام التصميمات العشوائية الكاملة بإجراء ANOVA أحادي الاتجاه. في بعض النواحي، يعتبر مصطلح تحليل التباين تسمية خاطئة لأنه يقارن الاختلافات بين القيم المتوقعة للمجموعات وليس بين التباينات. ومع ذلك، يتم إجراء مقارنة التوقعات الرياضية بدقة على أساس تحليل اختلاف البيانات. في إجراء ANOVA، يتم تقسيم التباين الإجمالي في نتائج القياس إلى مجموعات بين المجموعات وداخل المجموعات (الشكل 1). يتم تفسير التباين داخل المجموعة بالخطأ التجريبي، ويتم تفسير التباين بين المجموعة بتأثيرات الظروف التجريبية. رمز معيدل على عدد المجموعات.

أرز. 1. تقسيم التباين في تجربة عشوائية كاملة

قم بتنزيل المذكرة بالتنسيق أو بالأمثلة بالتنسيق

لنفترض ذلك معالمجموعات المستخرجة من المستقلة عامة السكان، مع التوزيع الطبيعي ونفس التباين. الفرضية الصفرية هي أن التوقعات الرياضية للسكان هي نفسها: ح 0: μ 1 = μ 2 = ... = μ s. تنص الفرضية البديلة على أن التوقعات الرياضية ليست كلها متماثلة: ح 1: ليست كل μ j متشابهة ي= 1، 2، ...، ق).

في الشكل. يعرض الشكل 2 الفرضية الصفرية الحقيقية حول التوقعات الرياضية للمجموعات الخمس المقارنة، بشرط أن يكون لدى السكان توزيع طبيعي ونفس التباين. خمس مجموعات سكانية عامة مرتبطة بـ على مستويات مختلفةالعوامل متطابقة. وبالتالي، فهي متراكبة على بعضها البعض، ولها نفس التوقع الرياضي والتنوع والشكل.

أرز. 2. هناك خمس مجموعات سكانية عامة لها نفس التوقعات الرياضية: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

من ناحية أخرى، لنفترض أن الفرضية الصفرية خاطئة في الواقع، حيث أن المستوى الرابع له أعلى قيمة متوقعة، والمستوى الأول له قيمة متوقعة أقل قليلاً، والمستويات المتبقية لها نفس القيم المتوقعة وحتى أقل ( الشكل 3). لاحظ أنه، باستثناء القيم المتوقعة، فإن جميع المجموعات السكانية الخمسة متطابقة (أي أن لها نفس التباين والشكل).

أرز. 3. لوحظ تأثير الظروف التجريبية: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

عند اختبار فرضية مساواة التوقعات الرياضية للعديد من المجموعات العامة، ينقسم التباين الإجمالي إلى قسمين: التباين بين المجموعات، بسبب الاختلافات بين المجموعات، والتباين داخل المجموعة، بسبب الاختلافات بين العناصر التي تنتمي إلى نفس المجموعة. يتم التعبير عن التباين الإجمالي من خلال مجموع المربعات (SST - مجموع إجمالي المربعات). وبما أن الفرضية الصفرية هي أن التوقعات الرياضية للجميع معالمجموعات متساوية مع بعضها البعض، والتباين الإجمالي يساوي مجموع الفروق المربعة بين الملاحظات الفردية والمتوسط ​​العام (متوسط ​​المتوسطات)، المحسوب لجميع العينات. الاختلاف الكامل:

أين - المتوسط ​​العام، X إي - أنا-ه الملاحظة في ي-المجموعة أو المستوى، ن ي- عدد الملاحظات في يالمجموعة الرابعة, ن - الكمية الإجماليةالملاحظات في جميع المجموعات (أي. ن = ن 1 + ن 2 + … + ن ج), مع- عدد المجموعات أو المستويات المدروسة.

الاختلاف بين المجموعة، يُسمى عادةً مجموع المربعات بين المجموعات (SSA - مجموع المربعات بين المجموعات)، ويساوي مجموع مربعات الاختلافات بين متوسط ​​العينة لكل مجموعة يوالمعدل العام ، مضروبًا في حجم المجموعة المقابلة ن ي:

أين مع- عدد المجموعات أو المستويات المدروسة، ن ي- عدد الملاحظات في يالمجموعة الرابعة, ي- متوسط ​​القيمة يالمجموعة الرابعة, - المتوسط ​​العام .

الاختلاف داخل المجموعة، يُسمى عادةً مجموع المربعات داخل المجموعة (SSW - مجموع المربعات داخل المجموعات)، يساوي مجموع مربعات الاختلافات بين عناصر كل مجموعة ومتوسط ​​العينة لهذه المجموعة ي:

أين Xأنا - أناالعنصر ال يالمجموعة الرابعة, ي- متوسط ​​القيمة يالمجموعة الرابعة.

منذ أن تم مقارنتها معمستويات العامل، مجموع المربعات بين المجموعات لديه ق – 1درجات الحرية. كل من معالمستويات لديها ن ي – 1 درجات الحرية، وبالتالي فإن مجموع المربعات داخل المجموعة لديه ن- معدرجات الحرية، و

وبالإضافة إلى ذلك، فإن المبلغ الإجمالي للمربعات لديه ن – 1 درجات الحرية، منذ كل ملاحظة Xأناتتم مقارنتها بالمعدل العام المحسوب على الكل نالملاحظات. إذا تم قسمة كل من هذه المجاميع على العدد المقابل من درجات الحرية، تنشأ ثلاثة أنواع من التشتت: com.intergroup(متوسط ​​المربع بين - MSA)، com.intragroup(متوسط ​​المربع داخل - MSW) و ممتلىء(متوسط ​​​​المجموع المربع - MST):

على الرغم من أن الغرض الأساسي من تحليل التباين هو مقارنة التوقعات الرياضية معمجموعات للتعرف على تأثير الظروف التجريبية، ويرجع اسمها إلى أن الأداة الرئيسية هي تحليل التباينات أنواع مختلفة. إذا كانت الفرضية الصفرية صحيحة، وبين التوقعات الرياضية معلا توجد فروق ذات دلالة إحصائية بين المجموعات، وجميع الفروق الثلاثة - MSA وMSW وMST - هي تقديرات تباين σ 2الكامنة في البيانات التي تم تحليلها. وبالتالي، لاختبار الفرضية الصفرية ح 0: μ 1 = μ 2 = ... = μ sوالفرضية البديلة ح 1: ليست كل μ j متشابهة ي = 1, 2, …, مع)، فمن الضروري حساب الإحصائيات ف-المعيار، وهو نسبة التباينين، MSA وMSW. امتحان ف-الإحصائيات في تحليل التباين الأحادي

إحصائيات ف- خاضعة للمعايير ف-التوزيع مع ق – 1درجات الحرية في البسط M.S.A.و ن – سدرجات الحرية في المقام م.س.و.. بالنسبة لمستوى أهمية معين α، يتم رفض فرضية العدم إذا تم حسابها ف فش، متأصلة ف-التوزيع مع ق – 1 ن – سدرجات الحرية في المقام. وهكذا، كما هو مبين في الشكل. 4, قاعدة حاسمةصيغت على النحو التالي: فرضية العدم ح 0مرفوض إذا و>وش; وإلا فلا يتم رفضه.

أرز. 4. المجال الحاسم لتحليل التباين عند اختبار الفرضية ح 0

إذا كانت الفرضية الصفرية ح 0صحيح، محسوب ف-الإحصائيات قريبة من 1، حيث أن البسط والمقام هما تقديرات بنفس الكمية - التشتت σ 2 المتأصل في البيانات التي تم تحليلها. إذا كانت الفرضية الصفرية ح 0خاطئة (وهناك فرق كبير بين التوقعات الرياضية للمجموعات المختلفة)، محسوبة ف-ستكون الإحصائية أكبر بكثير من واحد لأن بسطها MSA يقدر، بالإضافة إلى التباين الطبيعي للبيانات، تأثير الظروف التجريبية أو الفرق بين المجموعات، في حين أن مقام MSW يقدر فقط التباين الطبيعي للبيانات . وبالتالي فإن إجراء ANOVA هو ف-المعيار الذي يتم فيه رفض الفرضية الصفرية إذا تم حسابها، عند مستوى دلالة معين α ف-الإحصائيات أكبر من القيمة الحرجة العليا فش، متأصلة ف-التوزيع مع ق – 1درجات الحرية في البسط و ن – سدرجات الحرية في المقام، كما هو مبين في الشكل. 4.

لتوضيح تحليل التباين أحادي الاتجاه، دعنا نعود إلى السيناريو الموضح في بداية الملاحظة. الغرض من التجربة هو تحديد ما إذا كانت المظلات المنسوجة من ألياف صناعية تم الحصول عليها من موردين مختلفين لها نفس القوة. كل مجموعة لديها خمس مظلات. يتم تقسيم المجموعات حسب للموردين - المورد 1، المورد 2، المورد 3 والمورد 4. يتم قياس قوة المظلات باستخدام جهاز خاص يختبر تمزق القماش على كلا الجانبين. يتم قياس القوة اللازمة لكسر المظلة على مقياس خاص. كلما زادت قوة الكسر، كلما كانت المظلة أقوى. يتيح لك برنامج Excel التحليل ف-الإحصائيات بنقرة واحدة. اذهب من خلال القائمة بياناتتحليل البيانات، واختر السطر تحليل التباين (ANOVA) أحادي الاتجاه، املأ النافذة التي تفتح (الشكل 5). يتم عرض النتائج التجريبية (قوة الكسر) وبعض الإحصائيات الوصفية ونتائج تحليل التباين أحادي الاتجاه في الشكل 1. 6.

أرز. 5. النافذة تحليل أحادي الاتجاه لحزمة تحليل التبايناكسل

أرز. 6. مؤشرات قوة المظلات المنسوجة من الألياف الاصطناعية التي تم الحصول عليها من موردين مختلفين والإحصائيات الوصفية ونتائج تحليل التباين أحادي الاتجاه

يوضح تحليل الشكل 6 أن هناك بعض الاختلاف بين متوسطات العينة. متوسط ​​قوة الألياف التي تم الحصول عليها من المورد الأول هو 19.52، ​​من الثاني - 24.26، من الثالث - 22.84 ومن الرابع - 21.16. هل هذا الفرق ذو دلالة إحصائية؟ يظهر توزيع قوة التمزق في مخطط التشتت (الشكل 7). ويظهر بوضوح الاختلافات بين المجموعات وداخلها. إذا كانت كل مجموعة أكبر حجمًا، فيمكن استخدام مخطط الجذع والأوراق أو مخطط الصندوق أو مخطط الجرس لتحليلها.

أرز. 7. رسم تخطيطي لتشتت القوة للمظلات المنسوجة من الألياف الاصطناعية التي تم الحصول عليها من أربعة موردين.

تنص الفرضية الصفرية على عدم وجود فروق ذات دلالة إحصائية بين متوسط ​​درجات القوة: ح 0: μ 1 = μ 2 = μ 3 = μ 4. هناك فرضية بديلة وهي أن هناك موردًا واحدًا على الأقل يختلف متوسط ​​قوة أليافه عن الموردين الآخرين: ح 1: ليست كل μ j متماثلة ( ي = 1, 2, …, مع).

المتوسط ​​الإجمالي (انظر الشكل 6) = المتوسط ​​(D12:D15) = 21.945؛ لتحديد ذلك، يمكنك أيضًا حساب متوسط ​​جميع الأرقام الأصلية العشرين: = AVERAGE(A3:D7). يتم حساب قيم التباين حزمة التحليلوتنعكس في اللوحة تحليل التباين(انظر الشكل 6): SSA = 63.286، SSW = 97.504، SST = 160.790 (انظر العمود سسالجداول تحليل التباينالشكل 6). يتم حساب المتوسطات بقسمة مجموع المربعات على العدد المناسب من درجات الحرية. لأن مع= 4، أ ن= 20 نحصل على القيم التالية لدرجات الحرية؛ بالنسبة لـ SSA: ق – 1= 3؛ لSSW: ن-ج= 16؛ لطائرة أسرع من الصوت: ن – 1= 19 (انظر العمود df). وبالتالي: MSA = SSA / ( ق – 1)= 21.095؛ MSW = SSW / ( ن-ج) = 6.094؛ مست = طائرة أسرع من الصوت / ( ن – 1) = 8.463 (انظر العمود آنسة). ف-الإحصائيات = MSA / MSW = 3.462 (انظر العمود ف).

القيمة الحرجة العليا فش، مميزة ف-التوزيع، تحدده الصيغة =F.OBR(0.95;3;16) = 3.239. معلمات الدالة =F.OBR(): α = 0.05، البسط لديه ثلاث درجات من الحرية، والمقام له 16. وبالتالي، فإن المحسوبة ف-إحصائية تساوي 3.462 تتجاوز القيمة الحرجة العليا فش= 3.239، تم رفض الفرضية الصفرية (الشكل 8).

أرز. 8. المنطقة الحرجة لتحليل التباين عند مستوى دلالة 0.05 إذا كان البسط لديه ثلاث درجات من الحرية والمقام هو -16

ص-القيمة، أي احتمال أنه إذا كانت الفرضية الصفرية صحيحة ف-الإحصائيات لا تقل عن 3.46 أي ما يعادل 0.041 أو 4.1% (انظر العمود القيمة pالجداول تحليل التباينالشكل 6). وبما أن هذه القيمة لا تتجاوز مستوى الأهمية α = 5%، فقد تم رفض فرضية العدم. علاوة على ذلك، ص- تشير القيمة إلى أن احتمال اكتشاف مثل هذا الفارق أو أكبر بين التوقعات الرياضية لعموم السكان، بشرط أن تكون في الواقع متماثلة، يساوي 4.1%.

لذا. هناك فرق بين وسائل العينة الأربعة. كانت الفرضية الصفرية هي أن جميع التوقعات الرياضية للمجتمعات الأربعة متساوية. في ظل هذه الظروف، يتم حساب مقياس التباين الإجمالي (أي إجمالي تباين درجة حرارة سطح البحر) لقوة جميع المظلات عن طريق جمع مربعات الفروق بين كل ملاحظة X إيوالمعدل العام . تم بعد ذلك فصل التباين الإجمالي إلى مكونين (انظر الشكل 1). كان العنصر الأول هو التباين بين المجموعة في SSA والثاني هو التباين داخل المجموعة في SSW.

ما الذي يفسر التباين في البيانات؟ بمعنى آخر، لماذا ليست جميع الملاحظات متماثلة؟ أحد الأسباب هو أن الشركات المختلفة توفر أليافًا ذات قوة مختلفة. وهذا ما يفسر جزئيًا سبب اختلاف التوقعات الرياضية بين المجموعات: فكلما كان تأثير الظروف التجريبية أقوى، زاد الفرق بين التوقعات الرياضية للمجموعات. سبب آخر لتقلب البيانات هو التباين الطبيعي لأي عملية في هذه الحالة- إنتاج المظلات. حتى لو تم شراء جميع الألياف من نفس المورد، فإن قوتها لن تكون هي نفسها، حيث تكون جميع الأشياء الأخرى متساوية. ولأن هذا التأثير يحدث داخل كل مجموعة، فإنه يسمى بالتباين داخل المجموعة.

تسمى الاختلافات بين وسائل العينة بالتباين بين المجموعات SSA. يتم تفسير جزء من التباين داخل المجموعة، كما تمت الإشارة إليه سابقًا، من خلال انتماء البيانات مجموعات مختلفة. ومع ذلك، حتى لو كانت المجموعات متماثلة تمامًا (أي كانت فرضية العدم صحيحة)، فسيظل الاختلاف بين المجموعات موجودًا. والسبب في ذلك هو التباين الطبيعي لعملية تصنيع المظلة. ونظرًا لاختلاف العينات، فإن وسائل العينة الخاصة بها تختلف عن بعضها البعض. ولذلك، إذا كانت الفرضية الصفرية صحيحة، فإن التباين بين المجموعة وداخلها يمثل تقديرًا للتقلب السكاني. إذا كانت الفرضية الصفرية خاطئة، فإن الفرضية بين المجموعات ستكون أكبر. هذه هي الحقيقة التي تكمن وراءها ف-معايير مقارنة الفروق بين التوقعات الرياضية لعدة مجموعات.

بعد إجراء تحليل التباين (ANOVA) أحادي الاتجاه وإيجاد فرق كبير بين الشركات، يظل من غير المعروف أي مورد يختلف بشكل كبير عن الآخرين. نحن نعلم فقط أن التوقعات الرياضية لعامة السكان ليست متساوية. بمعنى آخر، يختلف أحد التوقعات الرياضية على الأقل بشكل كبير عن التوقعات الأخرى. لتحديد المورد الذي يختلف عن الآخرين، يمكنك استخدامه إجراء توكيباستخدام المقارنات الزوجية بين الموردين. تم تطوير هذا الإجراء بواسطة جون توكي. بعد ذلك، قام هو وK. Kramer بتعديل هذا الإجراء بشكل مستقل للمواقف التي تختلف فيها أحجام العينات عن بعضها البعض.

المقارنة المتعددة: إجراء توكي-كرامر

في السيناريو الخاص بنا، تم استخدام تحليل التباين أحادي الاتجاه لمقارنة قوة المظلات. وبعد العثور على اختلافات كبيرة بين التوقعات الرياضية للمجموعات الأربع، فمن الضروري تحديد المجموعات التي تختلف عن بعضها البعض. على الرغم من وجود عدة طرق لحل هذه المشكلة، إلا أننا سنصف فقط إجراء المقارنة المتعددة بين توكي وكرامر. تعد هذه الطريقة مثالاً على إجراءات المقارنة اللاحقة لأن الفرضية التي يتم اختبارها يتم صياغتها بعد تحليل البيانات. يتيح إجراء Tukey-Kramer مقارنة جميع أزواج المجموعات في وقت واحد. في المرحلة الأولى، يتم حساب الاختلافات Xي -Xي، أين ي ≠يبين التوقعات الرياضية ق(ق – 1)/2المجموعات. النطاق الحرجيتم حساب إجراء توكي-كرامر بالصيغة:

أين س ش- القيمة الحرجة العليا لتوزيع نطاق الطالب الذي معدرجات الحرية في البسط و ن - معدرجات الحرية في المقام.

إذا لم تكن أحجام العينات هي نفسها، يتم حساب النطاق الحرج لكل زوج من التوقعات الرياضية على حدة. وفي المرحلة الأخيرة كل من ق(ق – 1)/2تتم مقارنة أزواج التوقعات الرياضية مع النطاق الحرج المقابل. تعتبر عناصر الزوج مختلفة بشكل كبير إذا كان معامل الفرق | XJ -Xي| بينهما يتجاوز النطاق الحرج.

دعونا نطبق إجراء توكي-كرامر على مشكلة قوة المظلات. بما أن شركة المظلة لديها أربعة موردين، فهناك 4(4 - 1)/2 = 6 أزواج من الموردين للتحقق (الشكل 9).

أرز. 9. المقارنات الزوجية لوسائل العينة

نظرًا لأن جميع المجموعات لها نفس الحجم (أي جميعها). ن ي = ن ي)، يكفي حساب نطاق حرج واحد فقط. للقيام بذلك، وفقا للجدول أنوفا(الشكل 6) نحدد القيمة MSW = 6.094. ثم نجد القيمة س شعند α = 0.05، مع= 4 (عدد درجات الحرية في البسط) و ن- مع= 20 – 4 = 16 (عدد درجات الحرية في المقام). لسوء الحظ، لم أجد الوظيفة المقابلة في Excel، لذلك استخدمت الجدول (الشكل 10).

أرز. 10. قيمة حرجةنطاق الطالب س ش

نحصل على:

وبما أن 4.74 > 4.47 فقط (انظر الجدول السفلي في الشكل 9)، يوجد فرق ذو دلالة إحصائية بين المورد الأول والثاني. جميع الأزواج الأخرى لديها وسائل عينة لا تسمح لنا بالحديث عن اختلافاتها. وبالتالي، فإن متوسط ​​قوة المظلات المنسوجة من الألياف المشتراة من المورد الأول أقل بكثير من المورد الثاني.

الشروط اللازمة لتحليل التباين في اتجاه واحد

عند حل مشكلة قوة المظلات، لم نتحقق مما إذا كانت الظروف التي يمكن في ظلها استخدام عامل واحد ف-معيار. كيف تعرف إذا كان بإمكانك استخدام عامل واحد ف-معيار عند تحليل بيانات تجريبية محددة؟ عامل واحد ف-لا يمكن تطبيق المعيار إلا في حالة استيفاء ثلاثة افتراضات أساسية: يجب أن تكون البيانات التجريبية عشوائية ومستقلة، ولها توزيع طبيعي، ويجب أن تكون تبايناتها متساوية.

التخمين الأول - العشوائية واستقلالية البيانات- يجب إجراؤها دائمًا، نظرًا لأن صحة أي تجربة تعتمد على عشوائية الاختيار و/أو عملية التوزيع العشوائي. لتجنب تحيز النتائج، من الضروري استخراج البيانات منها مععامة السكان بشكل عشوائي ومستقل عن بعضهم البعض. وبالمثل، ينبغي توزيع البيانات بشكل عشوائي عبر معمستويات العامل الذي نهتم به (المجموعات التجريبية). إن انتهاك هذه الشروط يمكن أن يؤدي إلى تشويه نتائج تحليل التباين بشكل خطير.

التخمين الثاني - الحياة الطبيعية- يعني أن البيانات مستخرجة من السكان الموزعين بشكل طبيعي. أما بالنسبة ر- معايير تحليل التباين الأحادي على أساسها ف-المعايير حساسة نسبيًا لانتهاك هذا الشرط. إذا لم ينحرف التوزيع بشكل كبير عن الطبيعي، فسيتم تحديد مستوى الأهمية ف- يتغير المعيار قليلا، خاصة إذا كان حجم العينة كبيرا بما فيه الكفاية. إذا تم انتهاك شرط التوزيع الطبيعي بشكل خطير، فيجب تطبيقه.

التخمين الثالث - تجانس التباين- تعني أن تباينات كل مجتمع متساوية مع بعضها البعض (أي σ 1 2 = σ 2 2 = ... = σ j 2). يتيح هذا الافتراض للشخص أن يقرر ما إذا كان سيتم فصل الفروق داخل المجموعة أو تجميعها. إذا كانت أحجام المجموعات متساوية، فإن شرط تجانس التباين ليس له تأثير يذكر على الاستنتاجات التي تم الحصول عليها باستخدام ف-معايير. ومع ذلك، إذا كانت أحجام العينات غير متساوية، فإن انتهاك شرط مساواة التباينات يمكن أن يؤدي إلى تشويه نتائج تحليل التباين بشكل خطير. ولذلك، ينبغي بذل الجهود للتأكد من أن أحجام العينات متساوية. إحدى طرق التحقق من افتراض تجانس التباين هي المعيار ليفينالموصوفة أدناه.

إذا تم انتهاك شرط تجانس التباين فقط من بين الشروط الثلاثة، فإن الإجراء مشابه لـ ر-معيار استخدام التباين المنفصل (لمزيد من التفاصيل، راجع). ومع ذلك، إذا كانت الافتراضات حول التوزيع الطبيعيوانتهاك تجانس التباين في نفس الوقت، فمن الضروري تطبيع البيانات وتقليل الاختلافات بين التباينات أو تطبيق إجراء غير معلمي.

اختبار ليفين لاختبار تجانس التباين

على الرغم من حقيقة ذلك ف- المعيار مقاوم نسبيا لانتهاكات شرط مساواة التباين في المجموعات. الانتهاك الجسيم لهذا الافتراض يؤثر بشكل كبير على مستوى أهمية وقوة المعيار. ربما يكون المعيار هو أحد أقوى المعايير ليفين. للتحقق من المساواة في الفروق مععموم السكان، وسوف نقوم باختبار الفرضيات التالية:

ح 0: σ 1 2 = σ 2 2 = … = σي 2

ح 1: ليس الكل σ ي 2هي نفسها ( ي = 1, 2, …, مع)

يعتمد اختبار ليفين المعدل على الافتراض القائل بأنه إذا كان التباين متساويًا عبر المجموعات، فيمكن استخدام تحليل التباين لاختبار فرضية العدم الخاصة بمساواة التباينات القيم المطلقةالاختلافات بين الملاحظات ومتوسطات المجموعة. لذلك، يجب عليك أولاً حساب القيم المطلقة للاختلافات بين الملاحظات والمتوسطات في كل مجموعة، ثم إجراء تحليل التباين أحادي الاتجاه على القيم المطلقة الناتجة للاختلافات. لتوضيح معيار ليفين، دعونا نعود إلى السيناريو الموضح في بداية المذكرة. باستخدام البيانات المقدمة في الشكل. في الشكل 6، سنجري تحليلًا مشابهًا، ولكن فيما يتعلق بوحدات الاختلافات في البيانات الأولية والوسيطات لكل عينة على حدة (الشكل 11).



جديد على الموقع

>

الأكثر شعبية