У дома Обложен език Серията вариации се състои от: Дефиниция на вариационни серии

Серията вариации се състои от: Дефиниция на вариационни серии

В резултат на усвояването на тази глава студентът трябва: зная

  • показатели за вариация и тяхната връзка;
  • основни закони на разпределение на характеристиките;
  • същността на критериите за съгласие; да бъде в състояние да
  • изчислява индекси на вариация и критерии за добро съответствие;
  • определят характеристиките на разпространението;
  • оценяват основните числени характеристики на статистическите серии на разпределение;

собствен

  • методи за статистически анализ на редове на разпределение;
  • Основи дисперсионен анализ;
  • техники за проверка на статистическите серии на разпределение за съответствие с основните закони на разпределението.

Вариационни индикатори

При статистически изследванияхарактеристики на различни статистически агрегати, изследване на вариациите в характеристиките на индивида статистически единицинаселението, както и естеството на разпределението на единиците в тази характеристика. вариация -това са разлики в индивидуалните стойности на дадена характеристика сред изследваните единици от популацията. Изследването на вариациите е от голямо практическо значение. По степента на вариация можете да прецените границите на вариация на дадена характеристика, хомогенността на популацията за дадена характеристика, типичността на средната стойност и връзката на факторите, които определят вариацията. Индикаторите за вариация се използват за характеризиране и организиране на статистически съвкупности.

Резултатите от обобщаването и групирането на материали от статистическо наблюдение, представени под формата на статистически серии за разпределение, представляват подредено разпределение на единиците от изследваната съвкупност в групи според критериите за групиране (променливи). Ако за основа на групирането се вземе качествена характеристика, тогава се нарича такава серия на разпределение атрибутивни(разпределение по професия, пол, цвят и др.). Ако серия за разпределение е конструирана на количествена основа, тогава такава серия се нарича вариационен(разпределение по ръст, тегло, заплата и др.). Да се ​​конструира вариационна серия означава да се организира количественото разпределение на единиците на популацията по характерни стойности, да се преброи броя на единиците на популацията с тези стойности (честота) и да се подредят резултатите в таблица.

Вместо честота на даден вариант е възможно да се използва съотношението му към общия обем на наблюденията, което се нарича честота (относителна честота).

Има два вида вариационна серия: дискретни и интервални. Дискретна серия- Това е вариационна серия, чието конструиране се основава на характеристики с прекъсната промяна (дискретни характеристики). Последните включват броя на служителите в предприятието, тарифната категория, броя на децата в семейството и др. Серия от дискретни вариации представлява таблица, която се състои от две колони. Първата колона показва конкретната стойност на атрибута, а втората колона показва броя на единиците в популацията с конкретна стойност на атрибута. Ако една характеристика има непрекъсната промяна (размер на дохода, трудов стаж, цена на дълготрайните активи на предприятието и т.н., които в определени граници могат да приемат всякакви стойности), тогава за тази характеристика е възможно да се конструира интервални вариационни серии.Когато се конструира интервална вариационна серия, таблицата също има две колони. Първият показва стойността на атрибута в интервала „от - до“ (опции), вторият показва броя на единиците, включени в интервала (честота). Честота (честота на повторение) - броят на повторенията на определен вариант на стойностите на атрибута. Интервалите могат да бъдат затворени или отворени. Затворените интервали са ограничени от двете страни, т.е. имат както долна („от“), така и горна („до“) граница. Отворените интервали имат една граница: горна или долна. Ако опциите са подредени във възходящ или низходящ ред, тогава се извикват редовете класиран.

За вариационни серии има два типа опции за честотна характеристика: натрупана честота и натрупана честота. Натрупаната честота показва при колко наблюдения стойността на характеристиката е взела стойности, по-малки от дадена. Натрупаната честота се определя чрез сумиране на честотните стойности на характеристика за дадена група с всички честоти на предишни групи. Натрупаната честота характеризира специфично теглоединици за наблюдение, в които характерните стойности не надвишават горната граница на групата данни. По този начин натрупаната честота показва дела на опциите в съвкупността, които имат стойност не по-голяма от дадената. Честота, честота, абсолютна и относителна плътност, натрупана честота и честота са характеристики на величината на варианта.

Вариациите в характеристиките на статистическите единици на съвкупността, както и естеството на разпределението, се изследват с помощта на показатели и характеристики на вариационните серии, които включват средното ниво на серията, средното линейно отклонение, стандартното отклонение, дисперсията , коефициенти на трептене, вариация, асиметрия, ексцес и др.

Средните стойности се използват за характеризиране на разпределителния център. Средната стойност е обобщаваща статистическа характеристика, в която е количествено определено типичното ниво на характеристика, притежавана от членовете на изследваната популация. Възможно е обаче да има случаи на съвпадение на средни аритметични с различни модели на разпределение, поради което като статистически характеристики на вариационни серии се изчисляват така наречените структурни средни - мода, медиана, както и квантили, които разделят серията на разпределение на равни части (квартили, децили, процентили и т.н.).

мода -Това е стойността на характеристика, която се среща в серията на разпределение по-често от другите й стойности. За дискретни серии това е опцията с най-висока честота. При интервалните вариационни серии, за да се определи модата, е необходимо първо да се определи интервалът, в който се намира, т. нар. модален интервал. Във вариационната серия с на равни интервалимодалният интервал се определя от най-високата честота, в серии с неравни интервали - но най-високата плътност на разпределение. След това формулата се използва за определяне на режима в редове на равни интервали

където Mo е модната стойност; xMo - долна граница на модалния интервал; ч-широчина на модалния интервал; / Mo - честота на модалния интервал; / Mo j е честотата на премодалния интервал; / Mo+1 е честотата на постмодалния интервал и за серия с неравни интервали в тази формула за изчисление, вместо честотите / Mo, / Mo, / Mo, трябва да се използват плътности на разпределение Ум 0 _| , Ум 0> UMO+"

Ако има единичен режим, тогава вероятностното разпределение на случайната променлива се нарича унимодално; ако има повече от един режим, той се нарича мултимодален (многомодален, многомодален), при два режима - бимодален. По правило мултимодалността показва, че изследваното разпределение не се подчинява на закона нормална дистрибуция. Хомогенните популации, като правило, се характеризират с едновърхови разпределения. Multivertex също показва хетерогенността на изследваната популация. Появата на два или повече върха налага прегрупирането на данните, за да се идентифицират по-хомогенни групи.

В серия от интервални вариации режимът може да се определи графично с помощта на хистограма. За да направите това, начертайте две пресичащи се линии от горните точки на най-високата колона на хистограмата до горните точки на две съседни колони. След това от точката на тяхното пресичане се спуска перпендикуляр върху абсцисната ос. Стойността на характеристиката по оста x, съответстваща на перпендикуляра, е режимът. В много случаи при характеризиране на съвкупността се дава предпочитание на модата, а не на средноаритметичното като обобщен показател.

Медиана -Това централно значениехарактеристика, тя се притежава от централния член на класираната серия на разпространение. В дискретни серии, за да намерите стойността на медианата, първо определете нейната сериен номер. За да направите това, ако броят на единиците е нечетен, едно се добавя към сумата от всички честоти и числото се дели на две. Ако има четен брой единици в един ред, ще има две медианни единици, така че в този случай медианата се определя като средната стойност на стойностите на двете медианни единици. По този начин медианата в серия от дискретни вариации е стойността, която разделя серията на две части, съдържащи еднакъв брой опции.

В интервални серии, след определяне на поредния номер на медианата, медиалният интервал се намира с помощта на натрупаните честоти (честоти) и след това с помощта на формулата за изчисляване на медианата се определя стойността на самата медиана:

където Me е средната стойност; x Аз -долна граница на средния интервал; ч-ширина на средния интервал; - сумата от честотите на серията на разпределение; /D - натрупаната честота на предмедианния интервал; /Me - честота на медианния интервал.

Медианата може да се намери графично с помощта на кумулация. За да направите това, по скалата на натрупаните честоти (честоти) на кумулата, от точката, съответстваща на поредния номер на медианата, се начертава права линия, успоредна на абсцисната ос, докато се пресече с кумулата. След това от точката на пресичане на посочената линия с кумулата се спуска перпендикуляр към абсцисната ос. Стойността на атрибута по оста x, съответстваща на начертаната ордината (перпендикуляр), е медианата.

Медианата се характеризира със следните свойства.

  • 1. Не зависи от онези стойности на атрибута, които се намират от двете му страни.
  • 2. Има свойството минималност, което означава, че сумата от абсолютните отклонения на стойностите на атрибута от медианата представлява минимална стойност в сравнение с отклонението на стойностите на атрибута от всяка друга стойност.
  • 3. При комбиниране на две разпределения с известни медиани е невъзможно да се предвиди предварително стойността на медианата на новото разпределение.

Тези свойства на медианата се използват широко при проектиране на местоположения на точки. опашка- училища, поликлиники, бензиностанции, пунктове за вода и др. Например, ако се планира изграждането на клиника в определен блок на града, тогава би било по-целесъобразно тя да бъде разположена в точка от блока, която намалява наполовина не дължината на блока, а броя на жителите.

Съотношението на режима, медианата и средната аритметична показва естеството на разпределението на характеристиката в съвкупността и ни позволява да оценим симетрията на разпределението. Ако x Me тогава има дясностранна асиметрия на серията. С нормално разпределение Х -Аз - Мо.

Подравняване на базата на K. Pearson различни видовекривите определят, че за умерено асиметрични разпределения са валидни следните приблизителни зависимости между средната аритметична стойност, медианата и модата:

където Me е средната стойност; Мо - значение на модата; x arithm - стойността на средноаритметичното.

Ако има нужда да се проучи по-подробно структурата на вариационната серия, тогава се изчисляват характерни стойности, подобни на медианата. Такива характерни стойности разделят всички единици на разпределение на равни числа; наричат ​​се квантили или градиенти. Квантилите са разделени на квартили, децили, процентили и т.н.

Квартилите разделят населението на четири равни части. Първият квартил се изчислява подобно на медианата, като се използва формулата за изчисляване на първия квартил, като предварително се определи първият тримесечен интервал:

където Qi е стойността на първия квартил; xQ^-долна граница на първия квартилен диапазон; ч- ширина на интервала от първа четвърт; /, - честоти на интервалните серии;

Кумулативна честота в интервала, предхождащ първия квартилен интервал; Jq ( - честота на първия квартилен интервал.

Първият квартил показва, че 25% от единиците на съвкупността са по-малки от неговата стойност, а 75% са повече. Вторият квартил е равен на медианата, т.е. Q 2 =аз

По аналогия, третият квартил се изчислява, като първо се намери третият тримесечен интервал:

където е долната граница на диапазона на третия квартил; ч- ширина на третия квартилен интервал; /, - честоти на интервалните серии; /Х" -натрупана честота в предходния интервал

Ж

трети квартилен интервал; Jq е честотата на третия квартилен интервал.

Третият квартил показва, че 75% от единиците на съвкупността са по-малки от неговата стойност, а 25% са повече.

Разликата между третия и първия квартил е интерквартилният диапазон:

където Aq е стойността на интерквартилния диапазон; Q 3 -стойност на третия квартил; Q е стойността на първия квартил.

Децилите разделят населението на 10 равни части. Децил е стойност на характеристика в серия на разпределение, която съответства на десети от размера на популацията. По аналогия с квартилите, първият децил показва, че 10% от единиците на съвкупността са по-малки от неговата стойност, а 90% са по-големи, а деветият децил разкрива, че 90% от единиците на съвкупността са по-малки от неговата стойност, а 10% са по-голяма. Съотношението на деветия и първия децил, т.е. Децилният коефициент се използва широко в изследването на диференциацията на доходите за измерване на съотношението на нивата на доходите на 10% от най-заможното и 10% от най-малко заможното население. Процентилите разделят класираната популация на 100 равни части. Изчисляването, значението и приложението на процентилите са подобни на децилите.

Квартили, децили и други структурни характеристикиможе да се определи графично по аналогия с медианата, използвайки кумулати.

За измерване на размера на вариацията се използват следните показатели: диапазон на вариация, средно линейно отклонение, стандартно отклонение, дисперсия. Големината на диапазона на вариация зависи изцяло от случайността на разпределението на екстремните членове на серията. Този индикатор представлява интерес в случаите, когато е важно да се знае каква е амплитудата на колебанията в стойностите на дадена характеристика:

Където Р-стойността на диапазона на вариация; x max - максимална стойност на атрибута; x tt -минимална стойност на атрибута.

При изчисляване на диапазона на вариация стойността на по-голямата част от членовете на серията не се взема предвид, докато вариацията се свързва с всяка стойност на члена на серията. Индикаторите, които са средни стойности, получени от отклонения на отделни стойности на характеристика от средната им стойност, нямат този недостатък: средното линейно отклонение и стандартното отклонение. Съществува пряка връзка между индивидуалните отклонения от средните стойности и изменчивостта на определен признак. Колкото по-силна е флуктуацията, толкова повече абсолютни размериотклонения от средното.

Средното линейно отклонение е средноаритметичното на абсолютни стойностиотклонения на отделните опции от средната им стойност.

Средно линейно отклонение за негрупирани данни

където /pr е стойността на средното линейно отклонение; x, - е стойността на атрибута; Х - П -брой единици в популацията.

Средно линейно отклонение на групираните серии

където / vz - стойността на средното линейно отклонение; x, е стойността на атрибута; Х -средната стойност на признака за изследваната популация; / - броят на единиците съвкупност в отделна група.

Признаци на отклонения в в такъв случайсе игнорират, в противен случай сумата от всички отклонения ще бъде равна на нула. Средното линейно отклонение в зависимост от групирането на анализираните данни се изчислява по различни формули: за групирани и негрупирани данни. Средното линейно отклонение, поради своята условност, отделно от другите показатели за вариация, се използва на практика сравнително рядко (по-специално за характеризиране на изпълнението на договорните задължения за равномерност на доставката; в анализа на оборота външната търговия, състав на работниците, ритъм на производство, качество на продуктите, като се вземат предвид технологични характеристикипроизводство и др.).

Стандартното отклонение характеризира колко средно отделните стойности на изследваната характеристика се отклоняват от средната стойност на популацията и се изразява в мерни единици на изследваната характеристика. Стандартното отклонение, като една от основните мерки за вариация, се използва широко при оценка на границите на вариация на характеристика в хомогенна популация, при определяне на ординатните стойности на крива на нормално разпределение, както и при изчисления, свързани с организиране на наблюдение на пробите и установяване на точността на характеристиките на пробите. Стандартното отклонение на негрупираните данни се изчислява с помощта на следния алгоритъм: всяко отклонение от средната стойност се повдига на квадрат, всички квадрати се сумират, след което сумата от квадратите се разделя на броя на членовете на серията и квадратният корен се извлича от коефициент:

където Iip е стойността на стандартното отклонение; Xj-стойност на атрибута; х- средната стойност на признака за изследваната популация; П -брой единици в популацията.

За групирани анализирани данни стандартното отклонение на данните се изчислява с помощта на претеглената формула

Където - стойност на стандартното отклонение; Xj-стойност на атрибута; Х -средната стойност на признака за изследваната популация; f x -броя на единиците от населението в определена група.

Изразът под корена и в двата случая се нарича дисперсия. По този начин дисперсията се изчислява като средния квадрат на отклоненията на стойностите на атрибутите от тяхната средна стойност. За непретеглени (прости) стойности на атрибута дисперсията се определя, както следва:

За претеглени характерни стойности

Съществува и специален опростен метод за изчисляване на дисперсията: общо

за непретеглени (прости) характеристични стойности за претеглени характеристични стойности
използвайки нулевия метод

където a 2 е стойността на дисперсията; x, - е стойността на атрибута; Х -средна стойност на характеристиката, ч-стойност на групов интервал, t 1 -тегло (A =

Дисперсията има независим израз в статистиката и се отнася до числото най-важните показателивариации. Измерва се в единици, съответстващи на квадрата на мерните единици на изследваната характеристика.

Дисперсията има следните свойства.

  • 1. Дисперсията на постоянна стойност е нула.
  • 2. Намаляването на всички стойности на характеристика със същата стойност А не променя стойността на дисперсията. Това означава, че средният квадрат на отклоненията може да се изчисли не от дадени стойности на дадена характеристика, а от техните отклонения от някакво постоянно число.
  • 3. Намаляване на всякакви характерни стойности в кпъти намалява дисперсията с к 2 пъти и стандартното отклонение е вътре кпъти, т.е. всички стойности на атрибута могат да бъдат разделени на някакво постоянно число (да речем, на стойността на интервала на серията), може да се изчисли стандартното отклонение и след това да се умножи по постоянно число.
  • 4. Ако изчислим средния квадрат на отклоненията от всяка стойност Иразличаваща се в една или друга степен от средноаритметичната стойност, тогава тя винаги ще бъде по-голяма от средния квадрат на отклоненията, изчислени от средната аритметична стойност. Средният квадрат на отклоненията ще бъде по-голям със съвсем определено количество - с квадрата на разликата между средната и тази условно взета стойност.

Вариацията на алтернативна характеристика се състои в наличието или отсъствието на изследваното свойство в единици от съвкупността. Количествено, вариацията на алтернативен признак се изразява с две стойности: наличието на единица от изследваното свойство се означава с единица (1), а липсата му се означава с нула (0). Делът на единиците, които притежават изследваното свойство, се означава с P, а делът на единиците, които нямат това свойство, се означава с Ж.По този начин дисперсията на алтернативен атрибут е равна на произведението от дела на единиците, притежаващи това свойство (P) от дела на единиците, които не притежават това свойство (G).Най-голяма вариация на съвкупността се постига в случаите, когато част от популацията, съставляваща 50% от общия обем на популацията, има характеристика, а друга част от популацията, също равна на 50%, не притежава тази характеристика, и дисперсията достига максимална стойност от 0,25, т.е. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 и o 2 = 0,5 0,5 = 0,25. Долната граница на този показател е нула, което съответства на ситуация, при която няма промяна в съвкупността. Практическото приложение на дисперсията на алтернативна характеристика е да се конструира доверителни интервалипри провеждане на пробно наблюдение.

как по-малка стойностдисперсия и стандартно отклонение, толкова по-хомогенна е популацията и по-типична ще бъде средната стойност. В практиката на статистиката често има нужда от сравняване на вариации различни знаци. Например, интересно е да се сравнят вариациите във възрастта на работниците и тяхната квалификация, трудовия стаж и заплатите, разходите и печалбата, трудовия стаж и производителността на труда и др. За такива сравнения показателите за абсолютна променливост на характеристиките са неподходящи: невъзможно е да се сравни променливостта на трудовия опит, изразена в години, с промяната на заплатите, изразена в рубли. За извършване на такива сравнения, както и сравнения на променливостта на една и съща характеристика в няколко популации с различни средни аритметични стойности, се използват показатели за вариация - коефициентът на колебание, линеен коефициентвариации и коефициент на вариация, които показват степента, в която екстремните стойности варират около средните.

Коефициент на трептене:

Където V R -стойност на коефициента на трептене; Р- стойност на диапазона на вариация; Х -

Линеен коефициент на вариация".

Където Vj-стойността на линейния коефициент на вариация; аз -стойността на средното линейно отклонение; Х -средната стойност на характеристиката за изследваната популация.

Коефициентът на вариация:

Където V a -стойност на коефициента на вариация; a е стойността на стандартното отклонение; Х -средната стойност на характеристиката за изследваната популация.

Коефициентът на колебание е процентното съотношение на диапазона на вариация към средната стойност на изследваната характеристика, а линейният коефициент на вариация е съотношението на средното линейно отклонение към средната стойност на изследваната характеристика, изразено като процент. Коефициентът на вариация е процентът на стандартното отклонение спрямо средната стойност на изследваната характеристика. Като относителна стойност, изразена в проценти, коефициентът на вариация се използва за сравняване на степента на вариация на различни характеристики. С помощта на коефициента на вариация се оценява хомогенността на статистическата съвкупност. Ако коефициентът на вариация е по-малък от 33%, тогава изследваната популация е хомогенна и вариацията е слаба. Ако коефициентът на вариация е повече от 33%, тогава изследваната популация е хетерогенна, вариацията е силна, а средната стойност е нетипична и не може да се използва като общ индикатор за тази популация. В допълнение, коефициентите на вариация се използват за сравняване на променливостта на един признак в различни популации. Например, за да се оцени разликата в трудовия стаж на работниците в две предприятия. Колкото по-висока е стойността на коефициента, толкова по-значима е вариацията на характеристиката.

Въз основа на изчислените квартили също е възможно да се изчисли относителният показател на тримесечната вариация, като се използва формулата

където Q 2 И

Интерквартилният диапазон се определя по формулата

Квартилното отклонение се използва вместо диапазона на вариация, за да се избегнат недостатъците, свързани с използването на екстремни стойности:

За серия с неравномерни интервали на вариация се изчислява и плътността на разпределението. Дефинира се като частното на съответната честота или честота, разделено на стойността на интервала. При сериите с неравни интервали се използват абсолютни и относителни плътности на разпределение. Абсолютната плътност на разпределение е честотата на единица дължина на интервала. Относителната плътност на разпределение е честотата на единица дължина на интервала.

Всичко по-горе е вярно за редове на разпределение, чийто закон на разпределение е добре описан от нормалния закон на разпределение или е близък до него.

Концепцията за вариационна серия.Първата стъпка в систематизирането на материалите за статистическо наблюдение е да се преброи броят на единиците, които имат определена характеристика. Като подредим единиците във възходящ или низходящ ред на тяхната количествена характеристика и преброим броя на единиците с определена стойност на характеристиката, получаваме вариационна серия. Вариационният ред характеризира разпределението на единици от определена статистическа съвкупност според някаква количествена характеристика.

Вариантната поредица се състои от две колони, лявата колона съдържа стойностите на вариращата характеристика, наречени варианти и обозначени (x), а дясната колона съдържа абсолютни числа, показващи колко пъти се среща всеки вариант. Индикаторите в тази колона се наричат ​​честоти и са обозначени (f).

Вариационните серии могат да бъдат представени схематично под формата на таблица 5.1:

Таблица 5.1

Тип вариационна серия

Опции (x)

Честоти (f)

В дясната колона могат да се използват и относителни показатели, характеризиращи дела на честотата на отделните опции в общата сума на честотите. Тези относителни показатели се наричат ​​честоти и условно се означават с , т.е. . Сумата от всички честоти е равна на единица. Честотите могат да бъдат изразени и като проценти и тогава тяхната сума ще бъде равна на 100%.

Може да има различни знаци различен характер. Варианти на някои характеристики се изразяват в цели числа, например брой стаи в апартамент, брой издадени книги и др. Тези признаци се наричат ​​прекъснати или дискретни. Варианти на други характеристики могат да приемат всякакви стойности в определени граници, като например изпълнението на планирани задачи, заплатаи т.н. Тези знаци се наричат ​​непрекъснати.

Дискретни вариационни серии.Ако вариантите на вариационната серия са изразени във формата дискретни количества, тогава такава вариационна серия се нарича дискретна, it външен видпредставени в табл. 5.2:

Таблица 5.2

Разпределение на студентите според оценките от изпитите

Оценки (x)

Брой студенти (f)

В % от общо ()

Характерът на разпределението в дискретни серии се изобразява графично под формата на многоъгълник на разпределение, фиг. 5.1.

Ориз. 5.1. Разпределение на студентите според получените оценки на изпита.

Интервални вариационни серии.За непрекъснатите характеристики вариационните редове се изграждат като интервални, т.е. стойностите на характеристиката в тях се изразяват под формата на интервали "от и до". В този случай минималната стойност на характеристиката в такъв интервал се нарича долна граница на интервала, а максималната се нарича горен лимитинтервал.

Сериите с интервални вариации се конструират както за прекъснати характеристики (дискретни), така и за такива, вариращи в голям диапазон. Интервалните редове могат да бъдат с равни или неравни интервали. В икономическата практика се използват повечето неравни интервали, прогресивно нарастващи или намаляващи. Тази необходимост възниква особено в случаите, когато флуктуацията на дадена характеристика се извършва неравномерно и в големи граници.

Нека разгледаме типа интервална серия с равни интервали, табл. 5.3:

Таблица 5.3

Разпределение на работниците по производство

Изход, т.р. (Х)

Брой работници (f)

Кумулативна честота (f´)

Серията на интервалното разпределение е изобразена графично като хистограма, фиг. 5.2.

Фиг.5.2. Разпределение на работниците по производство

Натрупана (кумулативна) честота.На практика е необходимо да се трансформират разпределителните серии в кумулативни серии,изградени според натрупаните честоти. С тяхна помощ можете да определите структурни средни стойности, които улесняват анализа на данните за сериите на разпределение.

Кумулативните честоти се определят чрез последователно добавяне към честотите (или честотите) на първата група на тези показатели на следващите групи от сериите на разпределение. Кумулатите и огивите се използват за илюстриране на сериите на разпространение. За да ги конструирате, стойностите на дискретната характеристика (или краищата на интервалите) са маркирани на абсцисната ос, а кумулативните суми на честотите (кумулати) са маркирани на ординатната ос, фиг. 5.3.

Ориз. 5.3. Кумулативно разпределение на работниците по производство

Ако скалите на честотите и опциите са обърнати, т.е. абсцисната ос отразява натрупаните честоти, а ординатната ос показва стойностите на вариантите, тогава кривата, характеризираща промяната на честотите от група на група, ще се нарича огива на разпределението, фиг. 5.4.

Ориз. 5.4. Огива за разпределение на работниците по производство

Вариационни серии с равни интервали осигуряват едно от най-важните изисквания за статистически серииразпределения, осигуряващи тяхната съпоставимост във времето и пространството.

Плътност на разпространение.Въпреки това, честотите на отделните неравни интервали в посочените серии не са пряко сравними. В такива случаи, за да се осигури необходимата съпоставимост, се изчислява плътността на разпределение, т.е. определете колко единици във всяка група са на единица стойност на интервала.

При конструиране на графика на разпределението на вариационна серия с неравни интервали височината на правоъгълниците се определя пропорционално не на честотите, а на показателите за плътност на разпределението на стойностите на изследваната характеристика в съответната интервали.

Съставянето на вариационна серия и нейното графично представяне е първата стъпка в обработката на първоначалните данни и първият етап в анализа на изследваната популация. Следваща стъпкапри анализа на вариационните серии е определянето на основните общи показатели, наречени характеристики на серията. Тези характеристики трябва да дадат представа за средната стойност на характеристиката сред единиците на съвкупността.

средна стойност. Средната стойност е обобщена характеристика на изследваната характеристика в изследваната популация, отразяваща нейното типично ниво за единица от популацията при конкретни условия на място и време.

Средната стойност винаги се назовава и има същото измерение като характеристиката на отделните единици от съвкупността.

Преди да се изчислят средните стойности, е необходимо да се групират единиците от изследваната популация, като се идентифицират качествено хомогенни групи.

Средната стойност, изчислена за съвкупността като цяло, се нарича обща средна, а за всяка група - групови средни.

Има два вида средни стойности: мощност (средно аритметично, средно хармонично, средно геометрично, средно квадратично); структурни (мода, медиана, квартили, децили).

Изборът на средна стойност за изчисляване зависи от целта.

Видове средни мощности и методи за тяхното изчисляване.В практиката на статистическа обработка събран материалвъзникват различни задачи, които изискват различни средни стойности за решаване.

Математическата статистика извлича различни средни стойности от формулите за средна мощност:

къде е средната стойност; x – индивидуални опции (стойности на характеристиките); z – експонента (при z = 1 – средно аритметично, z = 0 средно геометрично, z = - 1 – средно хармонично, z = 2 – средно квадратично).

Въпреки това, въпросът какъв тип средна стойност трябва да се прилага във всеки отделен случай се решава от специфичен анализизследваната популация.

Най-често срещаният тип средна стойност в статистиката е средноаритметично. Изчислява се в случаите, когато обемът на осреднената характеристика се формира като сума от нейните стойности за отделни единици от изследваната статистическа съвкупност.

В зависимост от естеството на изходните данни средноаритметичната стойност се определя по различни начини:

Ако данните са негрупирани, изчислението се извършва с помощта на простата формула за средна стойност

Изчисляване на средно аритметично в дискретна серия протича по формула 3.4.

Изчисляване на средно аритметично в интервална серия.В серия от интервални вариации, където стойността на характеристика във всяка група обикновено се приема за средата на интервала, средната аритметична стойност може да се различава от средната стойност, изчислена от негрупирани данни. Освен това, колкото по-голям е интервалът в групите, толкова по-големи са възможните отклонения на средната стойност, изчислена от групирани данни, от средната стойност, изчислена от негрупирани данни.

Когато се изчислява средната стойност за серия от интервални вариации, за да се извършат необходимите изчисления, се преминава от интервалите към техните средни точки. След това средната стойност се изчислява с помощта на формулата за среднопретеглена аритметична стойност.

Свойства на средната аритметична.Средната аритметична има някои свойства, които позволяват да се опростят изчисленията;

1. Средно аритметичното на постоянните числа е равно на това постоянно число.

Ако x = a. Тогава .

2. Ако теглата на всички опции се променят пропорционално, т.е. увеличи или намали със същия брой пъти, тогава средноаритметичното на новата серия няма да се промени.

Ако всички тегла f са намалени с k пъти, тогава .

3. Сумата от положителните и отрицателните отклонения на отделните варианти от средната стойност, умножена по теглата, е равна на нула, т.е.

Ако, тогава. Оттук.

Ако всички опции се намалят или увеличат с произволно число, тогава средноаритметичната стойност на новата серия ще намалее или се увеличи със същото количество.

Нека намалим всички опции хНа а, т.е. х´ = ха.

Тогава

Средната аритметична стойност на оригиналната серия може да се получи чрез добавяне към намалената средна стойност на числото, извадено преди това от опциите а, т.е. .

5. Ако всички опции са намалени или увеличени в кпъти, тогава средноаритметичното на новата серия ще намалее или се увеличи със същото количество, т.е. V кведнъж.

Нека бъде тогава .

Следователно, т.е. за да се получи средната стойност на оригиналната серия, средното аритметично на новата серия (с намалени опции) трябва да се увеличи с кведнъж.

Средно хармонично.Средната хармонична е реципрочната на средната аритметична. Използва се, когато статистическата информация не съдържа честоти за отделните варианти на съвкупността, а се представя като техен продукт (M = xf). Средната хармонична стойност ще бъде изчислена по формула 3.5

Практическото приложение на средната хармонична стойност е да се изчислят някои индекси, по-специално индексът на цените.

Средна геометрична.Когато се използва средна геометрична стойност, индивидуалните стойности на дадена характеристика като правило са относителни стойности на динамиката, конструирани под формата на верижни стойности, като съотношение към предишното ниво на всяко ниво в серия от динамика. Така средната стойност характеризира средния темп на растеж.

Средно аритметично геометрична величинасъщо се използва за определяне на равноотдалечената стойност от максималните и минималните стойности на характеристика. Например, Застрахователно дружествосключва договори за извършване на автозастрахователни услуги. В зависимост от конкретното застрахователно събитие застрахователно плащанеможе да варира от $10 000 до $100 000 на година. Средният размер на застрахователните плащания ще бъде USD.

Средната геометрична стойност е величина, използвана като средна стойност на съотношения или в разпределителни серии, представени като геометрична прогресия, когато z = 0. Тази средна е удобна за използване, когато се обръща внимание не на абсолютните разлики, а на съотношенията на две числа.

Формулите за изчисление са както следва

къде са осреднените варианти на признака; – продукт от опции; f– честота на опциите.

При изчисляване на средните годишни темпове на растеж се използва средната геометрична стойност.

Среден квадрат.Формулата за среден квадрат се използва за измерване на степента на колебание на отделните стойности на характеристика около средноаритметичната стойност в серията на разпределение. По този начин, когато се изчисляват индикаторите за вариация, средната стойност се изчислява от квадратните отклонения на отделните стойности на характеристика от средната аритметична стойност.

Средната квадратична стойност се изчислява по формулата

В икономическите изследвания модифицираният среден квадрат се използва широко при изчисляване на показатели за вариация на характеристика, като дисперсия и стандартно отклонение.

Правилото на мнозинството.Съществува следната връзка между средните мощности - колкото по-голям е показателят, толкова по-голяма е стойността на средната, Таблица 5.4:

Таблица 5.4

Връзка между средните стойности

z стойност

Връзка между средните стойности

Тази връзка се нарича правило на мажоритарството.

Структурни средни.За характеризиране на структурата на населението се използват специални показатели, които могат да бъдат наречени структурни средни. Тези индикатори включват режим, медиана, квартили и децили.

Мода.Режим (Mo) е най-често срещаната стойност на характеристика сред единиците на съвкупността. Режимът е стойността на атрибута, която съответства на максималната точка на теоретичната крива на разпределение.

Модата се използва широко в търговската практика при изучаване на потребителското търсене (при определяне на размерите на дрехите и обувките, които са в широко търсене) и записване на цените. Може да има общо няколко мода.

Изчисляване на режим в дискретна серия.В дискретна серия режимът е вариантът с най-висока честота. Нека разгледаме намирането на режим в дискретна серия.

Изчисляване на режима в интервална серия.В серия от интервални вариации режимът приблизително се счита за централен вариант на модалния интервал, т.е. интервалът, който има най-висока честота (честота). В рамките на интервала трябва да намерите стойността на атрибута, който е режимът. За интервална серия режимът ще се определя по формулата

където е долната граница на модалния интервал; – стойността на модалния интервал; – честота, съответстваща на модалния интервал; – честота, предхождаща модалния интервал; – честота на интервала, следващ модалния.

Медиана.Медиана () е стойността на атрибута на средната единица на класираната серия. Класирана серия е серия, в която стойностите на атрибутите са записани във възходящ или низходящ ред. Или медианата е стойност, която разделя броя на подредени вариационни серии на две равни части: едната част има стойност на вариращата характеристика, която е по-малка от средната опция, а другата има стойност, която е по-голяма.

За да намерите медианата, първо определете нейния пореден номер. За да направите това, ако броят на единиците е нечетен, към сумата от всички честоти се добавя една и всичко се дели на две. При четен брой единици медианата се намира като стойността на атрибута на единица, чийто пореден номер се определя от общата сума на честотите, разделена на две. Познавайки серийния номер на медианата, е лесно да се намери нейната стойност, като се използват натрупаните честоти.

Изчисляване на медианата в дискретна серия.Според извадковото изследване са получени данни за разпределението на семействата по брой деца, табл. 5.5. За да определим медианата, първо определяме нейния пореден номер

В тези семейства броят на децата е равен на 2, следователно = 2. Така в 50% от семействата броят на децата не надвишава 2.

– натрупана честота, предхождаща медианния интервал;

От една страна, това е много положително свойство, т.к в този случай се взема предвид ефектът от всички причини, засягащи всички единици от изследваната популация. От друга страна, дори едно наблюдение, включено случайно в изходните данни, може значително да изкриви представата за нивото на развитие на изследваната черта в разглежданата популация (особено в кратки серии).

Квартили и децили.По аналогия с намирането на медианата във вариационни серии, можете да намерите стойността на характеристика за всяка единица от класираната серия. Така по-специално можете да намерите стойността на атрибута за единици, разделящи серия на 4 равни части, на 10 и т.н.

Квартили.Опциите, които разделят класираната серия на четири равни части, се наричат ​​квартили.

В този случай те разграничават: долния (или първия) квартил (Q1) - стойността на атрибута за единица от класираната серия, разделяща съвкупността в съотношение ¼ към ¾ и горния (или третия) квартил ( Q3) - стойността на атрибута за единицата от класираната серия, разделяща съвкупността в съотношение ¾ към ¼.

– честоти на квартилните интервали (долни и горни)

Интервалите, съдържащи Q1 и Q3, се определят от натрупаните честоти (или честоти).

Децили.В допълнение към квартилите се изчисляват децили - опции, които разделят класираната серия на 10 равни части.

Те са обозначени с D, първият децил D1 разделя серията в съотношение 1/10 и 9/10, вторият D2 - 2/10 и 8/10 и т.н. Те се изчисляват по същата схема като медианата и квартилите.

И медианата, и квартилите, и децилите принадлежат към така наречената ординална статистика, която се разбира като опция, която заема определено ординално място в класираната серия.

Вариационна серия - серия, в която се сравняват (по степен на увеличение или намаление) настроикии съответстващи честоти

Опциите са индивидуални количествени изрази на характеристика. Обозначава се с латинска буква V . Класическото разбиране на термина "вариант" предполага, че всяка уникална стойност на характеристика се нарича вариант, без да се взема предвид броят на повторенията.

Например, в серията вариации на показателите за систолично кръвно налягане, измерени при десет пациенти:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Има само 6 налични стойности:

110, 120, 130, 140, 160, 170.

​Честотата е число, показващо колко пъти се повтаря дадена опция. Означава се с латинска буква П . Сумата от всички честоти (която, разбира се, е равна на броя на всички изследвани) се означава като н.

    В нашия пример честотите ще приемат следните стойности:
  • за опция 110 честота P = 1 (стойност 110 се среща при един пациент),
  • за опция 120 честота P = 2 (стойност 120 се среща при двама пациенти),
  • за опция 130 честота P = 3 (стойност 130 се среща при трима пациенти),
  • за опция 140 честота P = 2 (стойност 140 се среща при двама пациенти),
  • за опция 160 честота P = 1 (стойност 160 се среща при един пациент),
  • за опция 170 честота P = 1 (стойност 170 се среща при един пациент),

Видове вариационни серии:

  1. просто- това е серия, в която всяка опция се среща само веднъж (всички честоти са равни на 1);
  2. спряно- серия, в която една или повече опции се появяват повече от веднъж.

Вариационната серия се използва за описание на големи масиви от числа; именно в тази форма са представени първоначално събраните данни от повечето медицински изследвания. За да се характеризират вариационните серии, се изчисляват специални показатели, включително средни стойности, показатели за променливост (т.нар. дисперсия) и показатели за представителност на извадковите данни.

Индикатори за вариационни серии

1) Средната аритметична стойност е общ показател, характеризиращ размера на изследваната характеристика. Средната аритметична стойност се означава като М , е най-често срещаният тип средна стойност. Средната аритметична стойност се изчислява като съотношението на сумата от стойностите на индикатора на всички единици за наблюдение към броя на всички изследвани субекти. Методът за изчисляване на средната аритметична стойност се различава за прости и претеглени вариационни серии.

Формула за изчисление проста аритметична средна:

Формула за изчисление средно претеглено аритметично:

M = Σ(V * P)/ n

​ 2) Mode е друга средна стойност на вариационната серия, съответстваща на най-често повтарящата се опция. Или, казано по друг начин, това е опцията, която отговаря на най-високата честота. Означава се като мо . Режимът се изчислява само за претеглени серии, тъй като в прости редовенито една от опциите не се повтаря и всички честоти са равни на единица.

Например в серията вариации на стойностите на сърдечната честота:

80, 84, 84, 86, 86, 86, 90, 94;

стойността на режима е 86, тъй като тази опция се среща 3 пъти, следователно нейната честота е най-висока.

3) Медиана - стойността на опцията, разделяща вариационната серия наполовина: от двете й страни има равен брой опции. Медианата, както средната аритметична стойност и модата, се отнасят за средни стойности. Означава се като аз

4) Стандартно отклонение (синоними: стандартно отклонение, сигма отклонение, сигма) - мярка за променливостта на вариационната серия. Това е интегрален показател, който обединява всички случаи на отклонение от средната стойност. Всъщност той отговаря на въпроса колко далеч и колко често се разпространяват вариантите от средноаритметичното. Означава се с гръцка буква σ ("сигма").

Ако размерът на популацията е повече от 30 единици, стандартното отклонение се изчислява по следната формула:

За малки популации - 30 единици за наблюдение или по-малко - стандартното отклонение се изчислява по различна формула:

Вариационни серии: определение, видове, основни характеристики. Метод на изчисление
режим, медиана, средно аритметично в медицинските и статистически изследвания
(покажете с условен пример).

Вариационна серия е поредица от числени стойности на изследваната характеристика, различаващи се една от друга по величина и подредени в определена последователност (във възходящ или низходящ ред). Всяка числена стойност на серия се нарича вариант (V), а числата, показващи колко често се среща определен вариант в дадена серия, се наричат ​​честота (p).

Общият брой случаи на наблюдение, които съставляват вариационната серия, се обозначава с буквата n. Разликата в значението на изследваните характеристики се нарича вариация. Ако варираща характеристика няма количествена мярка, вариацията се нарича качествена, а серията на разпределение се нарича атрибутивна (например разпределение по изход от заболяване, здравен статус и т.н.).

Ако варираща характеристика има количествен израз, такава вариация се нарича количествена, а серията на разпределение се нарича вариационна.

Вариационните серии се разделят на прекъснати и непрекъснати - въз основа на характера на количествената характеристика; прости и претеглени - въз основа на честотата на поява на варианта.

В проста вариационна серия всяка опция се появява само веднъж (p=1), в претеглена серия същата опция се появява няколко пъти (p>1). Примери за такива серии ще бъдат разгледани по-нататък в текста. Ако количествената характеристика е непрекъсната, т.е. Между цели числа има междинни дробни количества; вариационният ред се нарича непрекъснат.

Например: 10.0 – 11.9

14,0 – 15,9 и т.н.

Ако количествената характеристика е прекъсната, т.е. отделните му стойности (варианти) се различават една от друга с цяло число и нямат междинни дробни стойности; вариационната серия се нарича прекъсната или дискретна.

Използвайки данните за пулса от предишния пример

за 21 ученика ще изградим вариационна серия (Таблица 1).

маса 1

Разпределение на студентите по медицина по сърдечна честота (bpm)

По този начин да се изгради вариационна серия означава наличното числови стойности(варианти) систематизирам, организирам, т.е. подреждат в определена последователност (във възходящ или низходящ ред) със съответните им честоти. В разглеждания пример опциите са подредени във възходящ ред и са изразени като цели прекъснати (дискретни) числа, всяка опция се среща няколко пъти, т.е. имаме работа с претеглени, прекъснати или дискретни вариационни серии.

Като правило, ако броят на наблюденията в статистическата съвкупност, която изучаваме, не надвишава 30, тогава е достатъчно да подредите всички стойности на изследваната характеристика във възходяща серия от вариации, както в табл. 1, или в низходящ ред.

При голям брой наблюдения (n>30) броят на срещащите се варианти може да бъде много голям, в този случай се съставя интервална или групирана вариационна серия, в която за опростяване на последващата обработка и изясняване на естеството на разпределението; вариантите се комбинират в групи.

Обикновено броят на груповите опции варира от 8 до 15.

Трябва да са поне 5, защото... в противен случай ще бъде твърде грубо, прекомерно уголемяване, което изкривява цялостната картина на вариациите и силно влияе върху точността на средните стойности. Когато броят на груповите варианти е повече от 20-25, точността на изчисляване на средните стойности се увеличава, но характеристиките на вариацията на характеристиката са значително изкривени и математическата обработка става по-сложна.

При съставянето на групирана серия е необходимо да се вземе предвид

− групите опции трябва да бъдат подредени в определен ред (възходящ или низходящ);

− интервалите в групите опции трябва да са еднакви;

− стойностите на границите на интервала не трябва да съвпадат, т.к ще бъде неясно в кои групи да се класифицират отделните варианти;

− необходимо е да се вземат предвид качествените характеристики на събрания материал при определяне на границите на интервала (например при изследване на теглото на възрастни е приемлив интервал от 3-4 kg, а за деца от първите месеци от живота - не трябва да надвишава 100 g)

Нека изградим групирана (интервална) поредица, характеризираща данните за пулса (удари в минута) за 55 студенти по медицина преди изпита: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

За да изградите групирана серия, имате нужда от:

1. Определете размера на интервала;

2. Определяне на средата, началото и края на групите от вариационната серия.

● Размерът на интервала (i) се определя от броя на предполагаемите групи (r), чийто брой се задава в зависимост от броя на наблюденията (n) съгласно специална таблица

Брой групи в зависимост от броя на наблюденията:

В нашия случай за 55 ученика можете да създадете от 8 до 10 групи.

Стойността на интервала (i) се определя по следната формула -

i = V max-V min/r

В нашия пример стойността на интервала е 82-58/8= 3.

Ако стойността на интервала е дробно число, резултатът трябва да се закръгли до цяло число.

Има няколко вида средни стойности:

● средно аритметично,

● средно геометрично,

● средна хармонична стойност,

● среден квадрат,

● средно прогресивен,

● медиана

IN медицинска статистикаНай-често се използват средни аритметични стойности.

Средно аритметичното (M) е обобщаваща величина, която определя какво е характерно за цялата съвкупност. Основните методи за изчисляване на М са: методът на средната аритметична стойност и методът на моментите (условните отклонения).

Методът на средната аритметична стойност се използва за изчисляване на простата средна аритметична и среднопретеглена аритметична стойност. Изборът на метод за изчисляване на средната аритметична стойност зависи от вида на вариационния ред. В случай на проста вариационна серия, в която всяка опция се среща само веднъж, средноаритметичната проста проста се определя по формулата:

където: M – средноаритметична стойност;

V – стойност на вариращата характеристика (варианти);

Σ – показва действието – сумиране;

n – общ брой наблюдения.

Пример за изчисляване на простата средна аритметична стойност. Дихателна честота (брой дихателни движения в минута) при 9 мъже на възраст 35 години: 20, 22, 19, 15, 16, 21, 17, 23, 18.

За да се определи средното ниво на дихателна честота при мъже на възраст 35 години, е необходимо:

1. Конструирайте вариационна серия, подреждайки всички опции във възходящ или низходящ ред Получихме проста вариационна серия, т.к стойностите на опцията се появяват само веднъж.

M = ∑V/n = 171/9 = 19 вдишвания в минута

Заключение. Дихателната честота при мъжете на възраст 35 години е средно 19 дихателни движенияслед минутка.

Ако отделните стойности на даден вариант се повтарят, няма нужда да записвате всеки вариант в ред; достатъчно е да изброите срещащите се размери на варианта (V) и до него да посочите броя на техните повторения (p ). Такава вариационна серия, в която опциите са, така да се каже, претеглени от броя на честотите, съответстващи на тях, се нарича претеглена вариационна серия, а изчислената средна стойност е среднопретеглената аритметична стойност.

Среднопретеглената аритметична се определя по формулата: M= ∑Vp/n

където n е броят на наблюденията, равно на суматачестоти – Σр.

Пример за изчисляване на среднопретеглената аритметична стойност.

Продължителността на нетрудоспособността (в дни) при 35 пациенти с остри респираторни заболявания (ОРЗ), лекувани от местен лекар през първото тримесечие на текущата година, е: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 дни.

Методът за определяне на средната продължителност на инвалидността при пациенти с остри респираторни инфекции е както следва:

1. Нека изградим претеглена вариационна серия, защото Индивидуалните стойности на опцията се повтарят няколко пъти. За да направите това, можете да подредите всички опции във възходящ или низходящ ред със съответните им честоти.

В нашия случай опциите са подредени във възходящ ред

2. Изчислете средноаритметичното претеглено по формулата: M = ∑Vp/n = 233/35 = 6,7 дни

Разпределение на пациентите с остри респираторни инфекции по продължителност на инвалидизацията:

Продължителност на увреждането (V) Брой пациенти (p) Vp
∑p = n = 35 ∑Vp = 233

Заключение. Продължителността на инвалидността при пациенти с остри респираторни заболявания е средно 6,7 дни.

Режим (Mo) е най-често срещаната опция в серията вариации. За разпределението, представено в таблицата, режимът отговаря на опция, равна на 10; среща се по-често от останалите - 6 пъти.

Разпределение на пациентите по продължителност на престоя на болнично легло (в дни)

V
стр

Понякога е трудно да се определи точната величина на модата, защото може да има няколко „най-често срещани“ наблюдения в данните, които се изследват.

Медианата (Me) е непараметричен индикатор, който разделя вариационна серия на две равни половини: еднакъв брой варианти са разположени от двете страни на медианата.

Например за разпределението, показано в таблицата, медианата е 10, т.к от двете страни на тази стойност има 14 опции, т.е. номер 10 заема централна позицияв тази серия е нейната медиана.

Като се има предвид, че броят на наблюденията в този пример е четен (n=34), медианата може да се определи, както следва:

Аз = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Това означава, че средата на редицата попада на седемнадесетата опция, която съответства на медиана, равна на 10. За представеното в таблицата разпределение средноаритметичната стойност е равна на:

M = ∑Vp/n = 334/34 = 10,1

И така, за 34 наблюдения от табл. 8, получаваме: Mo=10, Me=10, средноаритметичното (M) е 10,1. В нашия пример и трите показателя се оказаха еднакви или близки един до друг, въпреки че са напълно различни.

Средно аритметичното е ефективната сума на всички влияния, в нейното формиране участват всички варианти, включително екстремни, често нетипични за дадено явление или популация.

Режимът и медианата, за разлика от средната аритметична стойност, не зависят от стойността на всички индивидуални стойности на вариращата характеристика (стойностите на екстремните варианти и степента на дисперсия на серията). Средната аритметична характеризира цялата маса от наблюдения, модата и медианата характеризират по-голямата част

Специално място в статистическия анализ заема определянето на средното ниво на изследваната характеристика или явление. Средното ниво на черта се измерва чрез средни стойности.

Средната стойност характеризира общото количествено ниво на изучавания признак и е групово свойство на статистическата съвкупност. Той изравнява, отслабва случайните отклонения на отделните наблюдения в една или друга посока и подчертава основното, типично свойство на изследваната характеристика.

Средните стойности са широко използвани:

1. Да се ​​оцени здравословното състояние на населението: характеристики на физическото развитие (ръст, тегло, обиколка гръден коши т.н.), идентифициране на разпространението и продължителността различни заболявания, анализ демографски показатели(естествено движение на населението, средна продължителност на живота, възпроизводство на населението, среден размер на населението и др.).

2. Да проучи дейността на лечебните заведения, медицински персонали оценка на качеството на тяхната работа, планиране и определяне на потребностите на населението от различни видове медицински грижи(среден брой заявки или посещения на жител на година, средна продължителностпрестой на пациента в болницата, средна продължителностпреглед на пациента, средна наличност на лекари, легла и др.).

3. Да характеризира санитарно-епидемиологичното състояние (средно съдържание на прах във въздуха в цеха, средна площ на човек, средна консумация на протеини, мазнини и въглехидрати и др.).

4. Да се ​​определят медицински и физиологични показатели в нормални и патологични състояния, при обработка на лабораторни данни, за установяване на достоверността на резултатите извадково проучванев социално-хигиенни, клинични, експериментални изследвания.

Изчисляването на средните стойности се извършва въз основа на вариационни серии. Вариационни сериие качествено хомогенна статистическа съвкупност, чиито отделни единици характеризират количествените разлики на изследваната характеристика или явление.

Количествената вариация може да бъде два вида: прекъсната (дискретна) и непрекъсната.

Прекъснатият (дискретен) атрибут се изразява само като цяло число и не може да има междинни стойности (например броя на посещенията, популацията на сайта, броя на децата в семейството, тежестта на заболяването в точки и т.н.).

Непрекъснатата характеристика може да приема всякакви стойности в определени граници, включително дробни, и се изразява само приблизително (например тегло - за възрастни може да бъде ограничено до килограми, а за новородени - грамове; височина, артериално налягане, време, прекарано в преглед на пациента и др.).



Цифровата стойност на всяка отделна характеристика или явление, включено в серията вариации, се нарича вариант и се обозначава с буквата V . В математическата литература се срещат и други означения, например х или г.

Вариационна серия, при която всяка опция е посочена веднъж, се нарича проста.Такива серии се използват в повечето статистически задачи в случай на компютърна обработка на данни.

С нарастването на броя на наблюденията се появяват повтарящи се стойности на варианти. В този случай се създава групирани вариационни серии, където е посочен броят на повторенията (честота, означена с буквата „ Р »).

Класирани вариационни сериисе състои от опции, подредени във възходящ или низходящ ред. Както простите, така и групираните серии могат да бъдат съставени с класиране.

Интервални вариационни сериикомпилиран, за да се опростят последващите изчисления, извършени без използването на компютър, с много голям брой единици за наблюдение (повече от 1000).

Непрекъснати вариационни сериивключва стойности на опции, които могат да бъдат всякакви стойности.

Ако в една вариационна серия стойностите на дадена характеристика (варианти) са дадени под формата на отделни специфични числа, тогава такава серия се нарича отделен.

Основни характеристикистойностите на характеристиката, отразени в серията вариации, са средните стойности. Сред тях най-използвани са: средно аритметично М,мода мои медиана азВсяка от тези характеристики е уникална. Те не могат да се заменят един друг и само заедно представят особеностите на вариационната серия доста пълно и в съкратен вид.

Мода (Мо) назовете стойността на най-често срещаните опции.

Медиана (аз) – това е стойността на опцията, разделяща класираната вариационна серия наполовина (от всяка страна на медианата има половината от опцията). В редки случаи, когато има симетрична вариационна серия, модата и медианата са равни една на друга и съвпадат със стойността на средната аритметична.

Повечето типична характеристикастойност опция е средноаритметичностойност ( М ). В математическата литература се обозначава .

Средноаритметично (М, ) е обща количествена характеристика на определена характеристика на изследваните явления, съставляващи качествено хомогенна статистическа съвкупност. Има прости и претеглени средни аритметични. Простата средна аритметична стойност се изчислява за проста вариационна серия чрез сумиране на всички опции и разделяне на тази сума на обща сумаопция, включена в тази серия варианти. Изчисленията се извършват по формулата:

,

Където: М - средно аритметично;

Σ V - опция за сума;

н- брой наблюдения.

В групираните вариационни серии се определя среднопретеглената аритметична стойност. Формулата за изчисляването му:

,

Където: М - средноаритметично претеглено;

Σ Vp - сумата от произведенията на варианта по техните честоти;

н- брой наблюдения.

При голям брой наблюдения, в случай на ръчни изчисления, може да се използва методът на моментите.

Средната аритметична има следните свойства:

· сума на отклоненията от средната стойност ( Σ д ) е равно на нула (виж таблица 15);

· при умножаване (деление) на всички опции с един и същи коефициент (делител), средноаритметичното се умножава (дели) на един и същ коефициент (делител);

· ако добавите (извадите) едно и също число към всички опции, средноаритметичното се увеличава (намалява) със същото число.

Средните аритметични стойности, взети сами по себе си, без да се вземе предвид променливостта на серията, от която са изчислени, може да не отразяват напълно свойствата на вариационната серия, особено когато е необходимо сравнение с други средни стойности. Средни стойности, близки по стойност, могат да бъдат получени от серии с различни степениразпръскване. Колкото по-близки са отделните варианти по своите количествени характеристики, толкова по-малко дисперсия (колебания, променливост)серия, толкова по-типична е нейната средна стойност.

Основните параметри, които ни позволяват да оценим променливостта на даден признак, са:

· Обхват;

· Амплитуда;

· Стандартно отклонение;

· Коефициентът на вариация.

Променливостта на даден признак може приблизително да се прецени по диапазона и амплитудата на вариационните серии. Диапазонът показва максималните (V max) и минималните (V min) опции в серията. Амплитудата (A m) е разликата между тези опции: A m = V max - V min.

Основната, общоприета мярка за променливостта на вариационна серия е дисперсия (д ). Но най-често използваният е по-удобен параметър, изчислен на базата на дисперсия - стандартното отклонение ( σ ). Той взема предвид големината на отклонението ( д ) на всяка вариационна серия от нейната средна аритметична ( d=V - М ).

Тъй като отклоненията от средната стойност могат да бъдат положителни и отрицателни, когато се сумират, те дават стойност „0“ (S d=0). За да избегнете това, стойностите на отклонението ( д) се повдигат на втора степен и се осредняват. По този начин дисперсията на вариационната серия е средният квадрат на отклоненията на вариант от средното аритметично и се изчислява по формулата:

.

Тя се случва да бъде най-важната характеристикапроменливост и се използва за изчисляване на много статистически тестове.

Тъй като дисперсията се изразява като квадрат на отклоненията, нейната стойност не може да се използва в сравнение със средното аритметично. За тези цели се използва стандартно отклонение, което е обозначено със знака „Сигма“ ( σ ). Той характеризира средното отклонение на всички варианти на вариационна серия от средноаритметичната стойност в същите единици като самата средна стойност, така че те могат да се използват заедно.

Стандартното отклонение се определя по формулата:

Посочената формула се прилага, когато броят на наблюденията ( н ) повече от 30. С по-малко число н стойността на стандартното отклонение ще има грешка, свързана с математическото отместване ( н - 1). В тази връзка може да се получи по-точен резултат, като се вземе предвид такова отклонение във формулата за изчисляване на стандартното отклонение:

стандартно отклонение (с ) е оценка на стандартното отклонение на случайна променлива хпо отношение на нея математическо очакваневъз основа на безпристрастна оценка на неговата дисперсия.

С ценности н > 30 стандартно отклонение ( σ ) и стандартно отклонение ( с ) ще бъде същото ( σ = s ). Следователно в повечето практически ръководства тези критерии се считат за различни значения. IN програма Excelизчисляването на стандартното отклонение може да се направи с функцията =STDEV(диапазон). И за да изчислите стандартното отклонение, трябва да създадете подходяща формула.

Средният квадрат или стандартното отклонение ви позволява да определите колко стойностите на дадена характеристика могат да се различават от средната стойност. Да предположим, че има два града с еднаква средна дневна температура през лятото. Единият от тези градове е разположен на брега, а другият на континента. Известно е, че в градовете, разположени на брега, разликите в дневните температури са по-малки, отколкото в градовете, разположени във вътрешността. Следователно стандартното отклонение на дневните температури за крайбрежния град ще бъде по-малко, отколкото за втория град. На практика това означава, че средната температура на въздуха на всеки определен денв град, разположен на континента, ще се различава повече от средното, отколкото в град на брега. В допълнение, стандартното отклонение ви позволява да оцените възможните температурни отклонения от средната стойност с необходимото ниво на вероятност.

Според теорията на вероятностите, при явления, които се подчиняват на нормалния закон за разпределение, има строга връзка между стойностите на средната аритметична стойност, стандартното отклонение и опциите ( правило три сигма). Например, 68,3% от стойностите на различна характеристика са в рамките на M ± 1 σ , 95,5% - в рамките на M ± 2 σ и 99,7% - в рамките на М ± 3 σ .

Стойността на стандартното отклонение позволява да се прецени естеството на хомогенността на вариационните серии и изследваната група. Ако стойността на стандартното отклонение е малка, това показва доста висока хомогенност на изследваното явление. Средната аритметична стойност в този случай трябва да се счита за доста характерна за дадена вариационна серия. Твърде малката сигма стойност обаче кара човек да мисли за изкуствен подбор на наблюдения. При много голяма сигма средната аритметична характеризира вариационните серии в по-малка степен, което показва значителна променливост на изследваната характеристика или явление или хетерогенността на изследваната група. Сравняването на стойността на стандартното отклонение обаче е възможно само за характеристики с едно и също измерение. Наистина, ако сравним разнообразието от тегла на новородени деца и възрастни, винаги ще получаваме по-високи сигма стойности при възрастни.

Сравнението на променливостта на характеристики с различни измерения може да се направи с помощта на коефициент на вариация. Той изразява разнообразието като процент от средната стойност, което позволява сравнения между различни черти. Коефициентът на вариация в медицинската литература се обозначава със знака „ СЪС "и по математика" v“ и се изчислява по формулата:

.

Стойностите на коефициента на вариация по-малко от 10% показват малко разсейване, от 10 до 20% - около средно, повече от 20% - за силно разсейване около средното аритметично.

Средната аритметична стойност обикновено се изчислява въз основа на данни от извадкова съвкупност. При повтарящи се изследвания, под влияние на случайни явления, средната аритметична стойност може да се промени. Това се дължи на факта, че по правило се изследва само част от възможните единици за наблюдение, тоест извадковата съвкупност. Информация за всички възможни единици, представящи изследваното явление, може да бъде получена чрез изучаване на цялото население, което не винаги е възможно. В същото време, с цел обобщаване на експериментални данни, представлява интерес стойността на средната в генералната съвкупност. Следователно, за да се формулира общо заключение за изследваното явление, резултатите, получени на базата на извадковата съвкупност, трябва да се прехвърлят към генералната съвкупност с помощта на статистически методи.

За да се определи степента на съответствие между изследване на извадка и общата съвкупност, е необходимо да се оцени големината на грешката, която неизбежно възниква по време на наблюдението на извадката. Тази грешка се нарича " Грешка в представителността"или „Средна грешка на средноаритметичната стойност." Всъщност това е разликата между средните стойности, получени от извадката статистическо наблюдение, и подобни стойности, които биха се получили при непрекъснато изследване на същия обект, т.е. при изучаване на обща популация. Тъй като средната стойност на извадката е случайна променлива, такава прогноза се извършва с ниво на вероятност, приемливо за изследователя. IN медицински изследванияе най-малко 95%.

Грешката в представителността не може да бъде объркана с грешки при регистрация или грешки на вниманието (недостатъци, грешни изчисления, печатни грешки и т.н.), които трябва да бъдат сведени до минимум чрез подходящи методи и инструменти, използвани по време на експеримента.

Големината на грешката на представителност зависи както от размера на извадката, така и от променливостта на признака. как по-голям бройнаблюдения, колкото по-близо е извадката до популацията и толкова по-малка е грешката. Колкото по-променлив е знакът, толкова по-голяма е статистическата грешка.

На практика за определяне на грешката на представителност във вариационни серии се използва следната формула:

,

Където: м – грешка в представителността;

σ - стандартно отклонение;

н– брой наблюдения в извадката.

От формулата става ясно, че размерът средна грешкае право пропорционална на стандартното отклонение, т.е. променливостта на изследваната характеристика, и обратно пропорционална на корен квадратен от броя на наблюденията.

Когато се извършва статистически анализ въз основа на изчисляване на относителни стойности, не е необходимо да се конструира вариационна серия. В този случай определянето на средната грешка за относителните показатели може да се извърши по опростена формула:

,

Където: Р– стойността на относителния показател, изразена в проценти, ppm и др.;

р– реципрочната стойност на P и изразена като (1-P), (100-P), (1000-P) и т.н., в зависимост от базата, на която се изчислява показателят;

н– брой наблюдения в извадката.

Посочената формула за изчисляване на грешката на представителност за относителни стойности обаче може да се приложи само когато стойността на индикатора е по-малка от неговата база. В редица случаи на изчисляване на интензивни показатели това условие не е изпълнено и показателят може да бъде изразен като число над 100% или 1000%. В такава ситуация се изгражда вариационна серия и грешката на представителност се изчислява с помощта на формулата за средни стойности, базирани на стандартното отклонение.

Прогнозирането на стойността на средната аритметична в популацията се извършва чрез посочване на две стойности - минимална и максимална. Тези екстремни стойности възможни отклонения, в рамките на които желаната средна стойност на популацията може да варира, се наричат ​​„ Граници на доверието».

Постулатите на теорията на вероятностите са доказали, че при нормално разпределение на характеристика с вероятност от 99,7%, екстремните стойности на отклоненията от средната стойност няма да бъдат по-големи от стойността на утроената грешка на представителността ( М ± 3 м ); в 95,5% – не повече от два пъти средната грешка на средната стойност ( М ± 2 м ); в 68,3% – не повече от една средна грешка ( М ± 1 м ) (фиг. 9).

P%

Ориз. 9. Плътност на вероятността за нормално разпределение.

Имайте предвид, че горното твърдение е вярно само за функция, която се подчинява на нормалния закон за разпределение на Гаус.

Мнозинство експериментални изследвания, включително в областта на медицината, се свързва с измервания, чиито резултати могат да приемат почти всякакви стойности в даден интервал, следователно, като правило, те се описват чрез модел на непрекъснати случайни променливи. В това отношение повечето статистически методи разглеждат непрекъснатите разпределения. Едно от тези разпределения, което има фундаментална роля в математическа статистика, е нормално или гаусово разпределение.

Това се дължи на редица причини.

1. На първо място, много експериментални наблюдения могат да бъдат успешно описани с помощта на нормалното разпределение. Веднага трябва да се отбележи, че няма разпределения на емпирични данни, които биха били точно нормални, тъй като нормално разпределени произволна стойносте в диапазона от до , което никога не се среща на практика. Нормалното разпределение обаче много често работи добре като приближение.

Независимо дали се извършват измервания на тегло, височина и други физиологични параметри на човешкото тяло - навсякъде резултатите се влияят от много голям брой случайни фактори ( естествени причинии грешки при измерване). Освен това, като правило, ефектът от всеки от тези фактори е незначителен. Опитът показва, че резултатите в такива случаи ще бъдат приблизително нормално разпределени.

2. Много разпределения, свързани със случайното вземане на проби, стават нормални, когато обемът на последното се увеличава.

3. Нормалното разпределение е много подходящо като приближение на други непрекъснати разпределения (например, изкривено).

4. Нормалното разпределение има редица благоприятни математически свойства, което до голяма степен го осигури широко приложениев статистиката.

В същото време трябва да се отбележи, че в медицинските данни има много експериментални разпределения, които не могат да бъдат описани с нормален модел на разпределение. За тази цел статистиката е разработила методи, които обикновено се наричат ​​„непараметрични“.

Изборът на статистически метод, който е подходящ за обработка на данни от конкретен експеримент, трябва да се направи в зависимост от това дали получените данни принадлежат към нормалния закон на разпределение. Тестването на хипотезата за подчинението на знака на нормалния закон за разпределение се извършва с помощта на хистограма (графика) на честотното разпределение, както и редица статистически критерии. Между тях:

Критерий за асиметрия ( b );

Критерий за тестване за ексцес ( ж );

Тест на Шапиро-Уилкс ( У ) .

За всеки параметър се извършва анализ на характера на разпределението на данните (наричан още тест за нормалност на разпределението). За да се прецени уверено дали разпределението на даден параметър отговаря на нормалния закон, е необходим достатъчно голям брой единици за наблюдение (най-малко 30 стойности).

За нормално разпределение критериите за изкривяване и ексцес приемат стойност 0. Ако разпределението е изместено надясно b > 0 (положителна асиметрия), с b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона ж =0. При ж > 0 кривата на разпределение е по-остра, ако ж < 0 пик более сглаженный, чем функция нормального распределения.

За да проверите за нормалност с помощта на теста на Шапиро-Уилкс, трябва да намерите стойността на този критерий, като използвате статистически таблици на изисквано нивозначимост и в зависимост от броя на единиците за наблюдение (степени на свобода). Приложение 1. Хипотезата за нормалност се отхвърля при малки стойности на този критерий, като правило, при w <0,8.



Ново в сайта

>

Най - известен