بيت اللسان المغلفة إذا كانت سلسلة الاختلاف لها الشكل. سلسلة التباين والتباين، نطاق التباين

إذا كانت سلسلة الاختلاف لها الشكل. سلسلة التباين والتباين، نطاق التباين

متغيرتسمى سلسلة التوزيع المبنية على أساس كمي. قيم الخصائص الكمية في الوحدات الفردية من السكان ليست ثابتة وتختلف أكثر أو أقل عن بعضها البعض.

تفاوت- التقلب والتغير في قيمة الخاصية بين وحدات السكان. متفرق القيم الرقميةتسمى الخصائص الموجودة في المجتمع قيد الدراسة خياراتقيم. القيمة المتوسطة غير كافية لـ الخصائص الكاملةيجبرنا السكان على استكمال القيم المتوسطة بمؤشرات تسمح لنا بتقييم نموذجية هذه المتوسطات من خلال قياس التباين (التباين) للخاصية قيد الدراسة.

يرجع وجود التباين إلى تأثير عدد كبير من العوامل على تكوين مستوى السمة. تعمل هذه العوامل بقوة غير متساوية وفي اتجاهات مختلفة. تُستخدم مؤشرات التباين لوصف مقياس تباين السمات.

مهام دراسة إحصائيةالاختلافات:

  • 1) دراسة طبيعة ودرجة تباين الخصائص في الوحدات الفردية من السكان؛
  • 2) تحديد دور العوامل الفردية أو مجموعاتها في تباين خصائص معينة للسكان.

تستخدم في الإحصاء طرق خاصةدراسات التباين على أساس استخدام نظام المؤشرات، معوالتي يتم من خلالها قياس التباين.

وقد تم دراسة الاختلافات مهم. يعد قياس الاختلافات ضروريًا عند إجراء أخذ العينات والارتباط والتحليل تحليل التباينإلخ. إرمولايف أو.يو. الإحصاء الرياضي لعلماء النفس: كتاب مدرسي [نص]/ O.Yu. إرمولايف. - م: دار نشر فلينت التابعة لمعهد موسكو النفسي والاجتماعي، 2012. - 335 ص.

من خلال درجة التباين يمكن الحكم على تجانس السكان واستقرار القيم الفردية للخصائص ونموذجية المتوسط. وعلى أساسها يتم تطوير مؤشرات قرب العلاقة بين الخصائص ومؤشرات تقييم دقة ملاحظة العينة.

ويفرق بين اختلاف المكان واختلاف الزمان.

يُفهم التباين في الفضاء على أنه تقلب قيم السمات بين الوحدات السكانية التي تمثل المناطق الفردية. التباين مع مرور الوقت يعني تغيير في قيم السمة في فترات مختلفةوقت.

لدراسة الاختلاف في صفوف التوزيع، يتم ترتيب جميع متغيرات قيم السمات بترتيب تصاعدي أو تنازلي. تسمى هذه العملية ترتيب الصف.

أكثر علامات بسيطةالاختلافات هي الحد الأدنى والحد الأقصى- الأقل و أعلى قيمةعلامات في المجموع. يُطلق على عدد التكرارات للمتغيرات الفردية لقيم الميزة اسم تردد التكرار (fi). من الملائم استبدال الترددات بالترددات - wi. التكرار هو مؤشر نسبي للتكرار، والذي يمكن التعبير عنه بأجزاء من الوحدة أو النسبة المئوية ويسمح لك بمقارنة سلسلة التباين مع رقم مختلفالملاحظات. يتم التعبير عنها بالصيغة:

حيث Xmax، Xmin هي القيم القصوى والدنيا للخاصية في المجموع؛ ن - عدد المجموعات.

لقياس تباين الخاصية، يتم استخدام مؤشرات مطلقة ونسبية مختلفة. تشمل المؤشرات المطلقة للتباين نطاق التباين ومتوسط ​​الانحراف الخطي والتشتت والانحراف المعياري. تشمل المؤشرات النسبية للتذبذب معامل التذبذب، والانحراف الخطي النسبي، ومعامل الاختلاف.

العثور على مثال سلسلة الاختلاف

يمارس.لهذه العينة:

  • أ) العثور على سلسلة الاختلاف؛
  • ب) بناء وظيفة التوزيع.

رقم=42. عناصر العينة:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

حل.

  • أ) بناء سلسلة التباين المرتبة:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • ب) بناء سلسلة الاختلاف المنفصلة.

لنحسب عدد المجموعات في سلسلة التباين باستخدام صيغة Sturgess:

لنأخذ عدد المجموعات يساوي 7.

وبمعرفة عدد المجموعات نحسب حجم الفاصل الزمني:

لتسهيل إنشاء الجدول، سنأخذ عدد المجموعات يساوي 8، وسيكون الفاصل الزمني 1.

أرز. 1 حجم مبيعات البضائع من قبل المتجر لفترة زمنية معينة

يحدد الاختلافالاختلافات في قيم الخاصية بين الوحدات المختلفة لمجتمع معين في نفس الفترة (نقطة زمنية). أسباب الاختلافات هي ظروف مختلفةوجود وحدات مختلفة من المجموع. على سبيل المثال، حتى التوائم يكتسبون خلال حياتهم اختلافات في الطول والوزن، وكذلك في خصائص مثل مستوى التعليم والدخل وعدد الأطفال، وما إلى ذلك.

ينشأ الاختلاف نتيجة لحقيقة أن قيم السمة نفسها تتشكل تحت التأثير الكلي للظروف المختلفة، والتي يتم دمجها بطرق مختلفة في كل حالة على حدة. وبالتالي، فإن قيمة أي خيار تكون موضوعية.

الاختلاف هو سمةلجميع ظواهر الطبيعة والمجتمع، دون استثناء، باستثناء المعاني المعيارية المقررة قانونًا للخصائص الاجتماعية الفردية. دراسات التباين في الإحصاء لديها قيمة عظيمةتساعد على فهم جوهر الظاهرة قيد الدراسة. العثور على الاختلاف، ومعرفة أسبابه، وتحديد تأثير العوامل الفردية معلومات مهمةلتنفيذ القرارات الإدارية على أساس علمي.

وتعطي القيمة المتوسطة خاصية عامة لخصائص السكان، ولكنها لا تكشف عن بنيتهم. ولا توضح القيمة المتوسطة كيفية تواجد متغيرات الخاصية المتوسطة حولها، سواء كانت موزعة بالقرب من المتوسط ​​أو تحيد عنه. قد يكون المتوسط ​​​​في مجموعتين من السكان هو نفسه، ولكن في إصدار واحد تختلف جميع القيم الفردية عنه بشكل طفيف، وفي الآخر تكون هذه الاختلافات كبيرة، أي. في الحالة الأولى يكون تباين الخاصية صغيرًا، وفي الثانية يكون كبيرًا، وهذا مهم جدًا لتوصيف أهمية القيمة المتوسطة.

لكي يتمكن رئيس منظمة أو مدير أو باحث من دراسة التباين وإدارته، فقد طورت الإحصائيات طرقًا خاصة لدراسة التباين (نظام المؤشرات). بمساعدتهم، يتم العثور على الاختلاف وتتميز خصائصه. تشمل مؤشرات التباين : مدى التباين، متوسط ​​الانحراف الخطي، معامل التباين.

سلسلة التباين وأشكالها

سلسلة الاختلاف- هذا هو التوزيع المنظم لوحدات السكان، غالبًا وفقًا لقيم متزايدة (أقل تناقصًا) للخاصية وحساب عدد الوحدات ذات قيمة معينة للخاصية. عندما يكون عدد الوحدات السكانية كبيرا، تصبح السلسلة المرتبة مرهقة، ويستغرق بناؤها منذ وقت طويل. وفي مثل هذه الحالة يتم إنشاء سلسلة التباين من خلال تجميع الوحدات السكانية حسب قيم الخاصية محل الدراسة.

هناك ما يلي أشكال سلسلة الاختلاف :

  1. سلسلة مرتبةيمثل قائمة الوحدات الفردية للسكان بترتيب تصاعدي (تنازلي) للخاصية التي تتم دراستها.
  2. سلسلة الاختلاف المنفصلة - هذا جدول يتكون من سطرين أو رسوم بيانية: القيم المحددة للخاصية المتغيرة x وعدد وحدات السكان ذات القيمة المحددة f - الخاصية التكرارية. يتم إنشاؤه عندما تأخذ السمة أكبر عدد من القيم.
  3. سلسلة الفاصلة.

يتم تحديد نطاق التباينكقيمة مطلقة للفرق بين القيم القصوى والدنيا (المتغيرات) للخاصية:

يظهر نطاق الاختلاف فقط الانحرافات القصوى للخاصية ولا تعكس الانحرافات الفردية لجميع الخيارات في السلسلة. وهو يصف حدود التغير في خاصية متباينة ويعتمد على تقلبات خيارين متطرفين ولا يرتبط إطلاقا بالترددات في سلسلة التباين، أي بطبيعة التوزيع الذي يعطي هذه القيمة طابعا عشوائيا. لتحليل التباين، تحتاج إلى مؤشر يعكس جميع التقلبات في خصائص التباين ويعطيها الخصائص العامة. أبسط مؤشر من هذا النوع هو متوسط ​​الانحراف الخطي.

سلسلة التوزيع الإحصائي– هذا هو التوزيع المنظم للوحدات السكانية إلى مجموعات وفقًا لخصائص معينة ومتغيرة.
اعتمادا على الخاصية الكامنة وراء تشكيل سلسلة التوزيع، هناك سلسلة التوزيع السمة والمتغيرة.

إن وجود صفة مشتركة هو أساس تكوين المجتمع الإحصائي الذي يمثل نتائج الوصف أو القياس السمات المشتركةكائنات البحث.

موضوع الدراسة في الإحصاء هو تغيير (متغير) الخصائص أو الخصائص الإحصائية.

أنواع الخصائص الإحصائية.

تسمى سلسلة التوزيع المنسوبةبنيت وفقا لمعايير الجودة. عزوي– هذه علامة لها اسم (مثلاً المهنة: خياطة، معلمة، إلخ).
وعادة ما يتم تقديم سلسلة التوزيع في شكل جداول. في الجدول 2.8 يوضح سلسلة توزيع السمات.
الجدول 2.8 - توزيع الأنواع مساعدة قانونيةالخدمات التي يقدمها المحامون لمواطني إحدى مناطق الاتحاد الروسي.

سلسلة الاختلاف– هذه هي قيم الخاصية (أو فترات القيم) وتردداتها.
سلسلة الاختلاف هي سلسلة التوزيع، مبنية على أساس كمي. تتكون أي سلسلة متغيرة من عنصرين: الخيارات والترددات.
تعتبر المتغيرات هي القيم الفردية للخاصية التي تأخذها في سلسلة التباين.
الترددات هي أعداد المتغيرات الفردية أو كل مجموعة من سلسلة الاختلافات، أي. هذه أرقام توضح عدد مرات ظهور خيارات معينة في سلسلة التوزيع. يحدد مجموع جميع الترددات حجم السكان بأكمله وحجمهم.
التكرارات هي التكرارات التي يتم التعبير عنها كأجزاء من الوحدة أو كنسبة مئوية من الإجمالي. وعليه فإن مجموع التكرارات يساوي 1 أو 100%. تسمح سلسلة الاختلافات بتقدير شكل قانون التوزيع بناءً على البيانات الفعلية.

اعتمادا على طبيعة الاختلاف في السمة، هناك سلسلة الاختلاف المنفصلة والفاصلة.
ويرد في الجدول مثال على سلسلة التباين المنفصلة. 2.9.
الجدول 2.9 - توزيع الأسر حسب عدد الغرف المشغولة في الشقق الفردية في عام 1989 في الاتحاد الروسي.

يعرض العمود الأول من الجدول خيارات لسلسلة تباينات منفصلة، ​​ويحتوي العمود الثاني على ترددات سلسلة التباين، ويحتوي العمود الثالث على مؤشرات التكرار.

سلسلة الاختلاف

في سكانويجري التحقيق في سمة كمية معينة. ويتم استخراج عينة حجمية منه بشكل عشوائي نأي أن عدد عناصر العينة يساوي ن. في المرحلة الأولى من المعالجة الإحصائية تتراوحالعينات، أي. ترتيب الأرقام س 1 , س 2 , …, س نتصاعدي. كل قيمة ملحوظة × طمُسَمًّى خيار. تكرار م طهو عدد ملاحظات القيمة × طفي العينة. التردد النسبي (التردد) ث طهي نسبة التردد م طلحجم العينة ن: .
عند دراسة سلسلة التباين، يتم أيضًا استخدام مفاهيم التردد المتراكم والتكرار المتراكم. يترك سبعض العدد. ثم عدد الخيارات , التي تكون قيمها أقل س، يسمى التردد المتراكم: لـ x i نويسمى التردد المتراكم ث ط ماكس.
تسمى الخاصية متغيرًا منفصلاً إذا كانت قيمها الفردية (المتغيرات) تختلف عن بعضها البعض بقيمة محدودة معينة (عادةً ما تكون عددًا صحيحًا). تسمى سلسلة التباين لهذه الخاصية بسلسلة التباين المنفصلة.

الجدول 1. منظر عام لسلسلة ترددات التباين المنفصلة

القيم المميزة× ط × 1 × 2 س ن
التردداتم ط م 1 م 2 م ن

تسمى الخاصية متغيرة باستمرار إذا كانت قيمها تختلف عن بعضها البعض بمقدار صغير اعتباطيا، أي. يمكن أن تأخذ الإشارة أي قيمة في فترة زمنية معينة. تسمى سلسلة التباين المستمرة لمثل هذه الخاصية بالفاصل الزمني.

الجدول 2. منظر عام لسلسلة تباين الفاصل الزمني للترددات

الجدول 3. الصور الرسومية لسلسلة الاختلاف

صفمضلع أو رسم بيانيوظيفة التوزيع التجريبية
منفصلة
فاصلة
ومن خلال مراجعة نتائج الملاحظات، يتم تحديد عدد القيم المتغيرة التي تقع في كل فترة زمنية محددة. ومن المفترض أن كل فاصل ينتمي إلى أحد طرفيه: إما في جميع الحالات إلى اليسار (في أغلب الأحيان) أو في جميع الحالات إلى اليمين، والترددات أو الترددات توضح عدد الخيارات الواردة ضمن الحدود المحددة. اختلافات أنا - أنا +1تسمى فترات جزئية. لتبسيط الحسابات اللاحقة، يمكن استبدال سلسلة تباين الفاصل الزمني بسلسلة منفصلة مشروطة. في هذه الحالة، القيمة المتوسطة أنا-يتم أخذ الفاصل الزمني كخيار × ط، وتردد الفاصل الزمني المقابل م ط- لتكرار هذه الفترة.
للتمثيل الرسومي لسلسلة التباين، الأكثر استخدامًا هي المضلع والرسم البياني والمنحنى التراكمي ووظيفة التوزيع التجريبي.

في الجدول 2.3 (تجميع السكان الروس حسب متوسط ​​دخل الفرد في أبريل 1994) معروض سلسلة الاختلافات الفاصلة.
من السهل تحليل سلسلة التوزيع باستخدام صورة رسومية، مما يسمح للمرء بالحكم على شكل التوزيع. يتم تقديم تمثيل مرئي لطبيعة التغيرات في ترددات سلسلة التباين بواسطة المضلع والرسم البياني.
يتم استخدام المضلع عند تصوير سلسلة التباين المنفصلة.
دعونا، على سبيل المثال، نرسم بيانيًا توزيع مخزون المساكن حسب نوع الشقة (الجدول 2.10).
الجدول 2.10 - توزيع مخزون المساكن في المنطقة الحضرية حسب نوع الشقة (أرقام مشروطة).


أرز. منطقة توزيع المساكن


ليس فقط قيم التردد، ولكن أيضًا ترددات سلسلة التباين يمكن رسمها على المحاور الإحداثية.
يتم استخدام الرسم البياني لتصوير سلسلة تباين الفاصل الزمني. عند إنشاء الرسم البياني، يتم رسم قيم الفواصل الزمنية على محور الإحداثي السيني، ويتم تصوير الترددات بواسطة مستطيلات مبنية على الفواصل الزمنية المقابلة. يجب أن يكون ارتفاع الأعمدة في حالة الفترات المتساوية متناسبا مع الترددات. الرسم البياني هو رسم بياني يتم فيه تصوير سلسلة كأشرطة مجاورة لبعضها البعض.
دعونا نصور بيانيا سلسلة التوزيع الفاصلة الواردة في الجدول. 2.11.
الجدول 2.11 - توزيع الأسر حسب حجم مساحة المعيشة للشخص الواحد (أرقام مشروطة).
ن ص / ص مجموعات العائلات حسب حجم مساحة المعيشة للشخص الواحد عدد الأسر التي لديها حجم معين من مساحة المعيشة العدد التراكمي للعائلات
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
المجموع 115 ----


أرز. 2.2. رسم بياني لتوزيع الأسر حسب حجم مساحة المعيشة للشخص الواحد


باستخدام بيانات السلسلة المتراكمة (الجدول 2.11)، نقوم بالبناء التوزيع التراكمي.


أرز. 2.3. التوزيع التراكمي للأسر حسب حجم مساحة المعيشة للشخص الواحد


يعد تمثيل سلسلة التباين في شكل تراكم فعالًا بشكل خاص لسلاسل التباين التي يتم التعبير عن تردداتها ككسور أو نسب مئوية من مجموع ترددات السلسلة.
إذا قمنا بتغيير المحاور عند تصوير سلسلة التباين بيانياً في شكل تراكمات، فسنحصل على ذلك ogiva. في التين. يُظهر الشكل 2.4 ogive تم إنشاؤها على أساس البيانات الواردة في الجدول. 2.11.
يمكن تحويل الرسم البياني إلى مضلع توزيع من خلال إيجاد نقاط منتصف جوانب المستطيلات ثم ربط هذه النقاط بخطوط مستقيمة. يظهر مضلع التوزيع الناتج في الشكل. 2.2 بخط منقط.
عند إنشاء رسم بياني لتوزيع سلسلة التباين بفواصل زمنية غير متساوية، فليست الترددات هي التي يتم رسمها على طول المحور الإحداثي، ولكن كثافة توزيع الخاصية في الفواصل الزمنية المقابلة.
كثافة التوزيع هي التردد المحسوب لكل وحدة عرض الفاصل الزمني، أي. كم عدد الوحدات في كل مجموعة لكل وحدة قيمة الفاصل. ويرد في الجدول مثال لحساب كثافة التوزيع. 2.12.
الجدول 2.12 - توزيع المؤسسات حسب عدد الموظفين (أرقام مشروطة)
ن ص / ص مجموعات الشركات حسب عدد الموظفين والأشخاص. عدد المؤسسات حجم الفاصل الزمني، والناس. كثافة التوزيع
أ 1 2 3=1/2
1 ما يصل إلى 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
المجموع 147 ---- ----

يمكن استخدامه أيضًا لتمثيل سلسلة التباين بيانيًا المنحنى التراكمي. باستخدام التراكم (منحنى المجموع)، يتم تصوير سلسلة من الترددات المتراكمة. يتم تحديد التكرارات التراكمية من خلال جمع التكرارات بشكل تسلسلي عبر المجموعات وإظهار عدد الوحدات في المجتمع التي لها قيم سمات لا تزيد عن القيمة قيد النظر.


أرز. 2.4. أوجي توزيع الأسر حسب حجم مساحة المعيشة للشخص الواحد

عند إنشاء تراكمات سلسلة تباين الفاصل الزمني، يتم رسم متغيرات السلسلة على طول محور الإحداثي، ويتم رسم الترددات المتراكمة على طول المحور الإحداثي.

مكان خاص في التحليل الإحصائي ينتمي إلى تحديد المستوى المتوسط ​​​​للخاصية أو الظاهرة قيد الدراسة. يتم قياس المستوى المتوسط ​​للسمة من خلال القيم المتوسطة.

تميز القيمة المتوسطة المستوى الكمي العام للخاصية التي تتم دراستها وهي خاصية جماعية للسكان الإحصائيين. إنه يسوي ويضعف الانحرافات العشوائية للملاحظات الفردية في اتجاه أو آخر ويسلط الضوء على الخاصية النموذجية الرئيسية للخاصية التي تتم دراستها.

تستخدم المتوسطات على نطاق واسع:

1. تقييم الحالة الصحية للسكان: خصائص النمو البدني (الطول، الوزن، محيط الصدر، وما إلى ذلك)، وتحديد مدى انتشار الأمراض المختلفة ومدتها، وتحليل المؤشرات الديموغرافية (الحركة الحيوية للسكان، متوسط ​​العمر المتوقع، تكاثر السكان، متوسط ​​عدد السكان، وما إلى ذلك).

2. دراسة أنشطة المؤسسات الطبية والعاملين في المجال الطبي وتقييم جودة عملهم، وتخطيط وتحديد احتياجات السكان لمختلف أنواع الرعاية الطبية (متوسط ​​عدد الطلبات أو الزيارات لكل مقيم في السنة، متوسط ​​مدة الإقامة المريض في المستشفى، متوسط ​​مدة فحص المريض، متوسط ​​توفر الأطباء، الأسرة، وما إلى ذلك).

3. توصيف الحالة الصحية والوبائية (متوسط ​​محتوى غبار الهواء في الورشة، متوسط ​​المساحة للشخص الواحد، متوسط ​​استهلاك البروتينات والدهون والكربوهيدرات، وما إلى ذلك).

4. تحديد المؤشرات الطبية والفسيولوجية في الظروف الطبيعية والمرضية، عند معالجة البيانات المخبرية، لتحديد موثوقية نتائج دراسة العينة في الدراسات الاجتماعية والصحية والسريرية والتجريبية.

يتم حساب القيم المتوسطة على أساس سلسلة التباين. سلسلة الاختلافهي مجموعة إحصائية متجانسة نوعيًا، تميز وحداتها الفردية الاختلافات الكمية في الخاصية أو الظاهرة قيد الدراسة.

يمكن أن يكون التباين الكمي من نوعين: متقطع (منفصل) ومستمر.

يتم التعبير عن السمة المتقطعة (المنفصلة) فقط كعدد صحيح ولا يمكن أن تحتوي على أي قيم وسيطة (على سبيل المثال، عدد الزيارات، عدد سكان الموقع، عدد الأطفال في الأسرة، شدة المرض بالنقاط ، إلخ.).

يمكن أن تأخذ العلامة المستمرة أي قيم ضمن حدود معينة، بما في ذلك القيم الكسرية، ويتم التعبير عنها تقريبًا (على سبيل المثال، الوزن - بالنسبة للبالغين يمكن أن يقتصر على الكيلوجرامات، وبالنسبة للأطفال حديثي الولادة - جرام؛ الطول وضغط الدم والوقت قضى رؤية المريض، وما إلى ذلك).



تسمى القيمة الرقمية لكل خاصية أو ظاهرة فردية مدرجة في سلسلة التباين متغيرًا ويتم تحديدها بالحرف الخامس . توجد رموز أخرى أيضًا في الأدبيات الرياضية، على سبيل المثال س أو ذ.

تسمى سلسلة التباين، حيث تتم الإشارة إلى كل خيار مرة واحدة، بالبسيطة.وتستخدم هذه السلسلة في معظم المشاكل الإحصائية في حالة معالجة البيانات الحاسوبية.

مع زيادة عدد الملاحظات، تميل قيم المتغيرات المتكررة إلى الحدوث. في هذه الحالة يتم إنشاؤه سلسلة الاختلافات المجمعةحيث يشار إلى عدد التكرارات (التكرار يشار إليه بالحرف " ر »).

سلسلة الاختلافات المرتبةيتكون من خيارات مرتبة ترتيبًا تصاعديًا أو تنازليًا. يمكن تجميع كل من السلاسل البسيطة والمجمعة بالترتيب.

سلسلة الاختلافات الفاصلةتم تجميعها لتبسيط الحسابات اللاحقة التي يتم إجراؤها دون استخدام جهاز كمبيوتر، مع عدد كبير جدًا من وحدات المراقبة (أكثر من 1000).

سلسلة التباين المستمريتضمن قيم الخيارات، والتي يمكن أن تكون أي قيمة.

إذا تم إعطاء قيم الخاصية (المتغيرات) في سلسلة تباين في شكل أرقام فردية محددة، فإن هذه السلسلة تسمى منفصلة.

الخصائص العامة لقيم الخاصية المنعكسة في سلسلة التباين هي القيم المتوسطة. ومن أكثرها استعمالاً: الوسط الحسابي م،موضة شهروالوسيط أنا.كل من هذه الخصائص فريدة من نوعها. لا يمكنهم استبدال بعضهم البعض ويمثلون معًا فقط ميزات سلسلة التباين بشكل كامل وفي شكل مكثف.

موضة (شهر) قم بتسمية قيمة الخيارات الأكثر تكرارًا.

الوسيط (أنا) - هذه هي قيمة الخيار الذي يقسم سلسلة التباينات المرتبة إلى النصف (يوجد على كل جانب من الوسيط نصف الخيار). في حالات نادرة، عندما تكون هناك سلسلة تباين متماثلة، يكون المنوال والوسيط متساويين ويتزامنان مع قيمة الوسط الحسابي.

السمة الأكثر شيوعًا لقيم الخيارات هي المتوسط ​​الحسابيقيمة( م ). في الأدب الرياضي يشار إليه .

المتوسط ​​الحسابي (م، ) هي خاصية كمية عامة لخاصية معينة من الظواهر التي تتم دراستها، والتي تشكل مجموعة إحصائية متجانسة نوعيا. هناك متوسطات حسابية بسيطة ومرجحة. يتم حساب المتوسط ​​الحسابي البسيط لسلسلة تباينات بسيطة عن طريق جمع كافة الخيارات وتقسيم هذا المجموع على إجمالي عدد الخيارات المضمنة في سلسلة التباينات هذه. يتم إجراء الحسابات وفقًا للصيغة:

,

أين: م - الوسط الحسابي البسيط؛

Σ الخامس - خيار المبلغ؛

ن- عدد الملاحظات.

في سلسلة التباين المجمعة، يتم تحديد المتوسط ​​الحسابي المرجح. صيغة حسابها:

,

أين: م - المتوسط ​​الحسابي المرجح.

Σ نائب الرئيس - مجموع منتجات المتغير حسب تكراراتها؛

ن- عدد الملاحظات.

ومع وجود عدد كبير من الملاحظات في حالة الحسابات اليدوية، يمكن استخدام طريقة العزوم.

يتميز الوسط الحسابي بالخصائص التالية:

· مجموع الانحرافات عن المتوسط ​​( Σ د ) يساوي الصفر (انظر الجدول 15)؛

· عند ضرب (قسمة) جميع الخيارات في نفس العامل (المقسوم عليه)، يتم ضرب (قسمة) الوسط الحسابي على نفس العامل (المقسوم عليه)؛

· إذا قمت بإضافة (طرح) نفس الرقم إلى جميع الخيارات، فإن الوسط الحسابي يزيد (ينقص) بنفس الرقم.

إن المتوسطات الحسابية، المأخوذة من تلقاء نفسها، دون الأخذ في الاعتبار تباين السلسلة التي تم حسابها منها، قد لا تعكس بشكل كامل خصائص سلسلة التباين، خاصة عندما تكون المقارنة مع المتوسطات الأخرى ضرورية. يمكن الحصول على المتوسطات المتقاربة في القيمة من سلسلة بدرجات متفاوتة من التشتت. وكلما كانت الخيارات الفردية أقرب إلى بعضها البعض من حيث خصائصها الكمية، كلما كانت أقل التشتت (التذبذب والتقلب)سلسلة، وأكثر نموذجية متوسطها.

المعلمات الرئيسية التي تسمح لنا بتقييم تباين السمة هي:

· نِطَاق؛

· السعة.

· الانحراف المعياري؛

· معامل الاختلاف.

يمكن الحكم على تباين السمة تقريبًا من خلال نطاق وسعة سلسلة التباين. يشير النطاق إلى خيارات الحد الأقصى (V max) والحد الأدنى (V min) في السلسلة. السعة (A m) هي الفرق بين هذه الخيارات: A m = V max - V min.

المقياس الرئيسي المقبول عمومًا لتباين سلسلة التباين هو تشتت (د ). لكن المعلمة الأكثر استخدامًا هي المعلمة الأكثر ملاءمة التي يتم حسابها على أساس التشتت - الانحراف المعياري ( σ ). ويأخذ في الاعتبار حجم الانحراف ( د ) لكل سلسلة متغيرة من وسطها الحسابي ( د=الخامس - م ).

وبما أن الانحرافات عن المتوسط ​​يمكن أن تكون إيجابية وسلبية، فإنها عند جمعها تعطي القيمة "0" (S د = 0). لتجنب ذلك، قيم الانحراف ( د) مرفوعة إلى القوة الثانية ومتوسطها. وبالتالي، فإن تشتت سلسلة التباين هو متوسط ​​مربع انحرافات المتغير عن المتوسط ​​الحسابي ويتم حسابه بواسطة الصيغة:

.

إنها أهم خاصية للتباين وتستخدم لحساب العديد من المعايير الإحصائية.

وبما أن التشتت يتم التعبير عنه كمربع الانحرافات، فلا يمكن استخدام قيمته بالمقارنة مع الوسط الحسابي. لهذه الأغراض يتم استخدامه الانحراف المعياريوالتي يشار إليها بعلامة "سيجما" ( σ ). وهو يصف متوسط ​​الانحراف لجميع متغيرات سلسلة التباين عن قيمة المتوسط ​​الحسابي في نفس وحدات القيمة المتوسطة نفسها، بحيث يمكن استخدامها معًا.

يتم تحديد الانحراف المعياري بواسطة الصيغة:

يتم تطبيق الصيغة المحددة عندما يكون عدد الملاحظات ( ن ) أكثر من 30. مع عدد أقل ن سيكون لقيمة الانحراف المعياري خطأ مرتبط بالإزاحة الرياضية ( ن - 1). وفي هذا الصدد، يمكن الحصول على نتيجة أكثر دقة من خلال مراعاة هذا التحيز في صيغة حساب الانحراف المعياري:

الانحراف المعياري (س ) هو تقدير للانحراف المعياري للمتغير العشوائي Xنسبة إلى توقعاتها الرياضية المبنية على تقدير غير متحيز لتباينها.

بالقيم ن > 30 انحراف معياري ( σ ) والانحراف المعياري ( س ) سيكون نفس الشيء ( σ = ق ). لذلك، في معظم الأدلة العملية، تعتبر هذه المعايير ذات معاني مختلفة.في برنامج حساب اكسليمكن إجراء الانحراف المعياري باستخدام الدالة =STDEV(range). ومن أجل حساب الانحراف المعياري، تحتاج إلى إنشاء صيغة مناسبة.

يتيح لك متوسط ​​المربع أو الانحراف المعياري تحديد مدى اختلاف قيم الخاصية عن القيمة المتوسطة. لنفترض أن هناك مدينتين لهما نفس متوسط ​​درجة الحرارة اليومية في الصيف. تقع إحدى هاتين المدينتين على الساحل والأخرى على القارة. ومن المعروف أنه في المدن الواقعة على الساحل تكون الاختلافات في درجات الحرارة أثناء النهار أقل منها في المدن الواقعة في الداخل. ولذلك فإن الانحراف المعياري لدرجات الحرارة أثناء النهار للمدينة الساحلية سيكون أقل منه للمدينة الثانية. عمليا، هذا يعني أن متوسط ​​درجة حرارة الهواء لكل منهما يوم محددفي مدينة تقع في القارة ستختلف عن المتوسط ​​أكثر من المدينة الواقعة على الساحل. بالإضافة إلى ذلك، يسمح لك الانحراف المعياري بتقييم انحرافات درجة الحرارة المحتملة عن المتوسط ​​بمستوى الاحتمال المطلوب.

وفقا لنظرية الاحتمالات، في الظواهر التي تخضع لقانون التوزيع الطبيعي، هناك علاقة صارمة بين قيم الوسط الحسابي والانحراف المعياري والخيارات ( قاعدة ثلاثة سيجما). على سبيل المثال، 68.3% من قيم الخاصية المتغيرة تقع ضمن M ± 1 σ ، 95.5% - ضمن M ± 2 σ و 99.7% - ضمن M ± 3 σ .

تتيح لنا قيمة الانحراف المعياري الحكم على طبيعة تجانس سلسلة التباين ومجموعة الدراسة. إذا كانت قيمة الانحراف المعياري صغيرة، فهذا يدل على تجانس مرتفع إلى حد ما للظاهرة قيد الدراسة. يجب اعتبار الوسط الحسابي في هذه الحالة مميزًا تمامًا لسلسلة تباين معينة. ومع ذلك، فإن قيمة سيجما الصغيرة جدًا تجعل المرء يفكر في اختيار مصطنع للملاحظات. مع سيجما كبيرة جدًا، يميز الوسط الحسابي سلسلة التباين بدرجة أقل، مما يشير إلى تباين كبير في الخاصية أو الظاهرة قيد الدراسة أو عدم تجانس المجموعة قيد الدراسة. ومع ذلك، فإن مقارنة قيمة الانحراف المعياري ممكنة فقط بالنسبة للميزات ذات البعد نفسه. وبالفعل، إذا قارنا تنوع أوزان الأطفال حديثي الولادة والبالغين، فسنحصل دائمًا على قيم سيجما أعلى عند البالغين.

يمكن إجراء مقارنة بين تنوع الميزات ذات الأبعاد المختلفة باستخدام معامل الاختلاف. ويعبر عن التنوع كنسبة مئوية من المتوسط، مما يسمح بالمقارنة علامات مختلفة. يُشار إلى معامل الاختلاف في الأدبيات الطبية بالعلامة " مع "، وفي الرياضيات" الخامس"ويحسب بالصيغة:

.

تشير قيم معامل التباين الأقل من 10% إلى تشتت صغير، من 10 إلى 20% - حول المتوسط، أكثر من 20% - حول تشتت قوي حول الوسط الحسابي.

عادة ما يتم حساب المتوسط ​​الحسابي بناءً على البيانات عينة السكان. ومع تكرار الدراسات، وتحت تأثير الظواهر العشوائية، قد يتغير الوسط الحسابي. ويرجع ذلك إلى حقيقة أنه، كقاعدة عامة، تتم دراسة جزء فقط من وحدات المراقبة المحتملة، أي مجتمع العينة. يمكن الحصول على معلومات حول جميع الوحدات الممكنة التي تمثل الظاهرة قيد الدراسة من خلال دراسة المجتمع بأكمله، وهو أمر ليس ممكنًا دائمًا. وفي الوقت نفسه، ولأغراض تعميم البيانات التجريبية، فإن قيمة المتوسط ​​في عموم السكان مثيرة للاهتمام. ولذلك، ومن أجل صياغة استنتاج عام حول الظاهرة محل الدراسة، يجب نقل النتائج التي تم الحصول عليها على أساس مجتمع العينة إلى عامة السكان باستخدام الطرق الإحصائية.

لتحديد درجة الاتفاق بين عينة الدراسة وعامة السكان، من الضروري تقدير حجم الخطأ الذي ينشأ حتماً أثناء ملاحظة العينة. هذا الخطأ يسمى " خطأ التمثيل"أو"متوسط ​​خطأ الوسط الحسابي." وهو في الواقع الفرق بين المتوسطات التي تم الحصول عليها من العينة المراقبة الإحصائية، والقيم المماثلة التي يمكن الحصول عليها خلال الدراسة المستمرة لنفس الكائن، أي. عند دراسة عامة السكان. وبما أن متوسط ​​العينة هو متغير عشوائي، يتم تنفيذ هذا التنبؤ بمستوى احتمال مقبول للباحث. في بحث طبىلا يقل عن 95٪.

لا يمكن الخلط بين خطأ التمثيل وأخطاء التسجيل أو أخطاء الانتباه (الزلات، وسوء التقدير، والأخطاء المطبعية، وما إلى ذلك)، والتي ينبغي التقليل منها عن طريق الأساليب والأدوات المناسبة المستخدمة أثناء التجربة.

ويعتمد حجم خطأ التمثيل على كل من حجم العينة وتنوع السمة. كيف عدد أكبركلما كانت العينة أقرب إلى المجتمع كلما قل الخطأ. كلما زاد متغير الإشارة، كلما زاد الخطأ الإحصائي.

عمليًا، لتحديد خطأ التمثيل في سلسلة التباين، يتم استخدام الصيغة التالية:

,

أين: م - خطأ في التمثيل؛

σ - الانحراف المعياري؛

ن– عدد الملاحظات في العينة .

من الصيغة يتضح أن الحجم متوسط ​​الخطأيتناسب طرديا مع الانحراف المعياري، أي تباين الخاصية قيد الدراسة، ويتناسب عكسيا مع الجذر التربيعي لعدد الملاحظات.

عند إجراء تحليل إحصائي يعتمد على حساب القيم النسبية، ليس من الضروري إنشاء سلسلة تباين. في هذه الحالة، يمكن تحديد متوسط ​​الخطأ للمؤشرات النسبية باستخدام صيغة مبسطة:

,

أين: ر- قيمة المؤشر النسبي، معبراً عنها كنسبة مئوية، جزء في المليون، وما إلى ذلك؛

س- مقلوب P ويعبر عنه بـ (1-P)، (100-P)، (1000-P)، وما إلى ذلك، حسب الأساس الذي يتم على أساسه حساب المؤشر؛

ن– عدد الملاحظات في مجتمع العينة.

ومع ذلك، لا يمكن تطبيق الصيغة المحددة لحساب خطأ التمثيل للقيم النسبية إلا عندما تكون قيمة المؤشر أقل من قاعدته. وفي عدد من حالات حساب المؤشرات المكثفة، لا يتم استيفاء هذا الشرط، ويمكن التعبير عن المؤشر بعدد يزيد عن 100% أو 1000%. في مثل هذه الحالة، يتم إنشاء سلسلة تباين ويتم حساب خطأ التمثيل باستخدام صيغة القيم المتوسطة بناءً على الانحراف المعياري.

يتم التنبؤ بقيمة الوسط الحسابي في المجتمع من خلال الإشارة إلى قيمتين – الحد الأدنى والحد الأقصى. هذه القيم المتطرفة الانحرافات المحتملةوالتي يمكن أن تتقلب فيها القيمة المتوسطة المطلوبة للسكان تسمى " حدود الثقة».

أثبتت مسلمات نظرية الاحتمالات أنه مع التوزيع الطبيعي للخاصية باحتمال 99.7%، فإن القيم القصوى لانحرافات المتوسط ​​لن تكون أكبر من قيمة ثلاثة أضعاف الخطأ التمثيلي ( م ± 3 م ); بنسبة 95.5% - ما لا يزيد عن ضعف متوسط ​​الخطأ لمتوسط ​​القيمة ( م ± 2 م ); في 68.3% – لا يوجد أكثر من خطأ متوسط ​​واحد ( م ± 1 م ) (الشكل 9).

ف٪

أرز. 9. الكثافة الاحتمالية التوزيع الطبيعي.

لاحظ أن العبارة أعلاه تنطبق فقط على الميزة التي تخضع لقانون التوزيع الغوسي العادي.

ترتبط معظم الدراسات التجريبية، بما في ذلك في مجال الطب، بالقياسات التي يمكن أن تأخذ نتائجها أي قيمة تقريبًا في فترة زمنية معينة، لذلك، كقاعدة عامة، يتم وصفها بنموذج للمتغيرات العشوائية المستمرة. وفي هذا الصدد، تأخذ معظم الأساليب الإحصائية بعين الاعتبار التوزيعات المستمرة. ومن هذه التوزيعات التي لها دور أساسي في الإحصائيات الرياضية، يكون التوزيع الطبيعي أو الغوسي.

ويرجع ذلك إلى عدد من الأسباب هذا.

1. أولا وقبل كل شيء، يمكن وصف العديد من الملاحظات التجريبية بنجاح باستخدام التوزيع الطبيعي. وتجدر الإشارة على الفور إلى أنه لا توجد توزيعات للبيانات التجريبية التي من شأنها أن تكون طبيعية تمامًا، حيث أنها موزعة بشكل طبيعي قيمة عشوائيةيقع في النطاق من إلى ، وهو ما لا يحدث أبدًا في الممارسة العملية. ومع ذلك، فإن التوزيع الطبيعي غالبًا ما يعمل بشكل تقريبي.

ما إذا كان يتم إجراء قياسات الوزن والطول والمعلمات الفسيولوجية الأخرى لجسم الإنسان - تتأثر النتائج في كل مكان بعدد كبير جدًا من العوامل العشوائية ( أسباب طبيعيةوأخطاء القياس). علاوة على ذلك، كقاعدة عامة، فإن تأثير كل من هذه العوامل غير مهم. تظهر التجربة أن النتائج في مثل هذه الحالات سيتم توزيعها بشكل طبيعي تقريبًا.

2. العديد من التوزيعات المرتبطة بالعينة العشوائية تصبح طبيعية مع زيادة حجم الأخيرة.

3. التوزيع الطبيعي مناسب تمامًا كتقريب للتوزيعات المستمرة الأخرى (على سبيل المثال، المنحرفة).

4. التوزيع الطبيعي لديه عدد من الإيجابيات الخصائص الرياضية، والتي قدمت ذلك إلى حد كبير تطبيق واسعفي الإحصائيات.

وفي الوقت نفسه، تجدر الإشارة إلى أنه يوجد في البيانات الطبية العديد من التوزيعات التجريبية التي لا يمكن وصفها بنموذج التوزيع الطبيعي. ولهذا الغرض، طورت الإحصائيات أساليب يطلق عليها عادة "اللابارامترية".

يجب أن يتم اختيار الطريقة الإحصائية المناسبة لمعالجة البيانات من تجربة معينة اعتمادًا على ما إذا كانت البيانات التي تم الحصول عليها تنتمي إلى قانون التوزيع الطبيعي. يتم اختبار فرضية خضوع الإشارة لقانون التوزيع الطبيعي باستخدام الرسم البياني للتوزيع التكراري (الرسم البياني)، بالإضافة إلى عدد من المعايير الإحصائية. فيما بينها:

معيار عدم التماثل ( ب );

معيار اختبار التفرطح ( ز );

اختبار شابيرو-ويلكس ( دبليو ) .

يتم إجراء تحليل لطبيعة توزيع البيانات (ويسمى أيضًا اختبار التوزيع الطبيعي) لكل معلمة. للحكم بثقة على ما إذا كان توزيع المعلمة يتوافق مع القانون الطبيعي، يلزم وجود عدد كبير بما فيه الكفاية من وحدات المراقبة (30 قيمة على الأقل).

بالنسبة للتوزيع الطبيعي، تأخذ معايير الانحراف والتفرطح القيمة 0. إذا تم إزاحة التوزيع إلى اليمين ب > 0 (عدم التماثل الإيجابي)، مع ب < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона ز =0. في ز > 0 يكون منحنى التوزيع أكثر وضوحًا إذا ز < 0 пик более сглаженный, чем функция нормального распределения.

للتحقق من الحالة الطبيعية باستخدام اختبار شابيرو-ويلكس، تحتاج إلى العثور على قيمة هذا المعيار باستخدام الجداول الإحصائية في المستوى المطلوبأهميتها واعتمادا على عدد وحدات المراقبة (درجات الحرية). الملحق 1. يتم رفض فرضية الحالة الطبيعية عند القيم الصغيرة لهذا المعيار، كقاعدة عامة، عند ث <0,8.

تسمح لك طريقة التجميع أيضًا بالقياس تفاوت(التقلب والتقلب) من العلامات. عندما يكون عدد الوحدات في مجتمع ما صغيرًا نسبيًا، يتم قياس التباين بناءً على العدد المصنف للوحدات التي يتكون منها المجتمع. السلسلة تسمى مرتبة,إذا تم ترتيب الوحدات بترتيب تصاعدي (تنازلي) للخاصية.

ومع ذلك، تعتبر السلاسل المرتبة مؤشرة تمامًا عندما تكون هناك حاجة إلى خاصية مقارنة للتباين. بالإضافة إلى ذلك، يتعين علينا في كثير من الحالات أن نتعامل مع مجموعات إحصائية تتكون من عدد كبير من الوحدات، والتي يصعب عمليًا تمثيلها في شكل سلسلة محددة. في هذا الصدد، من أجل التعرف العام الأولي على البيانات الإحصائية وخاصة لتسهيل دراسة التباين في الخصائص، عادة ما يتم دمج الظواهر والعمليات قيد الدراسة في مجموعات، ويتم عرض نتائج التجميع في شكل جداول جماعية.

إذا كان جدول المجموعة يحتوي على عمودين فقط - مجموعات حسب الخاصية المحددة (الخيارات) وعدد المجموعات (التكرار أو التكرار)، فإنه يسمى بالقرب من التوزيع.

نطاق التوزيع -أبسط نوع من التجميع الهيكلي يعتمد على خاصية واحدة، ويتم عرضه في جدول مجموعة بعمودين يحتويان على متغيرات وتكرارات الخاصية. في كثير من الحالات، مع مثل هذا التجمع الهيكلي، أي. ومع تجميع سلسلة التوزيع، تبدأ دراسة المادة الإحصائية الأولية.

يمكن تحويل التجميع الهيكلي في شكل سلسلة توزيع إلى تجميع هيكلي حقيقي إذا كانت المجموعات المختارة تتميز ليس فقط بالتكرارات، ولكن أيضًا بمؤشرات إحصائية أخرى. الغرض الرئيسي من سلسلة التوزيع هو دراسة تباين الخصائص. تم تطوير نظرية سلسلة التوزيع بالتفصيل عن طريق الإحصاء الرياضي.

وتنقسم سلسلة التوزيع إلى عزوي(التجميع وفقًا للخصائص المنسوبة، على سبيل المثال، تقسيم السكان حسب الجنس والجنسية والحالة الاجتماعية وما إلى ذلك) و متغير(التجميع حسب الخصائص الكمية).

سلسلة الاختلافهو جدول مجموعات يحتوي على عمودين: تجميع الوحدات حسب خاصية كمية واحدة وعدد الوحدات في كل مجموعة. عادة ما تكون الفواصل الزمنية في سلسلة التباين متساوية ومغلقة. سلسلة الاختلاف هي المجموعة التالية للسكان الروس حسب متوسط ​​​​نصيب الفرد من الدخل النقدي (الجدول 3.10).

الجدول 3.10

توزيع سكان روسيا حسب متوسط ​​دخل الفرد في الفترة 2004-2009.

المجموعات السكانية حسب متوسط ​​نصيب الفرد من الدخل النقدي، فرك/شهر

عدد السكان في المجموعة، % من الإجمالي

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

أكثر من 25,000.0

مجموع السكان

تنقسم سلسلة التباين بدورها إلى منفصلة وفاصلة. منفصلةتجمع سلسلة الاختلافات بين متغيرات الخصائص المنفصلة التي تختلف ضمن حدود ضيقة. مثال على سلسلة التباين المنفصلة هو توزيع الأسر الروسية حسب عدد الأطفال الذين لديهم.

فاصلةتجمع سلسلة التباين بين متغيرات الخصائص المستمرة أو الخصائص المنفصلة التي تختلف على نطاق واسع. الفاصل الزمني هو سلسلة التباين لتوزيع السكان الروس حسب متوسط ​​​​نصيب الفرد من الدخل النقدي.

لا يتم استخدام سلسلة التباين المنفصلة في كثير من الأحيان في الممارسة العملية. وفي الوقت نفسه، تجميعها ليس بالأمر الصعب، حيث يتم تحديد تكوين المجموعات من خلال المتغيرات المحددة التي تمتلكها بالفعل خصائص التجميع المدروسة.

تعد سلسلة الاختلافات الفاصلة أكثر انتشارًا. عند تجميعها، ينشأ سؤال صعب حول عدد المجموعات، وكذلك حجم الفواصل الزمنية التي ينبغي تحديدها.

تم توضيح مبادئ حل هذه المشكلة في الفصل الخاص بمنهجية بناء المجموعات الإحصائية (انظر الفقرة 3.3).

سلسلة التباين هي وسيلة لانهيار أو ضغط المعلومات المتنوعة في شكل مضغوط، ويمكن من خلالها إصدار حكم واضح إلى حد ما حول طبيعة التباين، ودراسة الاختلافات في خصائص الظواهر المضمنة في المجموعة قيد الدراسة. لكن الأهمية الأكثر أهمية لسلسلة التباين هي أنه على أساسها يتم حساب الخصائص العامة الخاصة للتباين (انظر الفصل 7).



جديد على الموقع

>

الأكثر شعبية