У дома Стоматит Доверителният интервал е равен на. Доверителен интервал

Доверителният интервал е равен на. Доверителен интервал

В статистиката има два вида оценки: точкови и интервални. Точкова оценкапредставлява отделна примерна статистика, която се използва за оценка на параметър население. Например средната стойност на извадката е точкова оценка математическо очакванепопулация и вариация на извадката S 2- точкова оценка на дисперсията на популацията σ 2. доказано е, че средната стойност на извадката е безпристрастна оценка на математическите очаквания на населението. Извадковата средна стойност се нарича безпристрастна, защото средната стойност на всички извадкови средни (с еднакъв размер на извадката) н) е равно на математическото очакване на генералната съвкупност.

За да може пробата да варира S 2стана безпристрастна оценка на дисперсията на популацията σ 2, знаменателят на дисперсията на извадката трябва да бъде равен на н – 1 , но не н. С други думи, дисперсията на съвкупността е средната стойност на всички възможни дисперсии на извадката.

Когато се оценяват параметрите на популацията, трябва да се има предвид, че извадкови статистики като напр , зависят от конкретни проби. Да се ​​вземе предвид този факт, да се получи интервална оценкаматематическо очакване на генералната съвкупност, анализирайте разпределението на извадковите средни стойности (за повече подробности вижте). Конструираният интервал се характеризира с определено ниво на достоверност, което представлява вероятността истинският параметър на популацията да бъде оценен правилно. Подобни доверителни интервали могат да се използват за оценка на дела на дадена характеристика Ри основната разпределена маса от населението.

Изтеглете бележката в или формат, примери във формат

Конструиране на доверителен интервал за математическото очакване на популацията с известно стандартно отклонение

Конструиране на доверителен интервал за дела на признак в съвкупността

Този раздел разширява концепцията за доверителен интервал до категорични данни. Това ни позволява да оценим дела на характеристиката в популацията Ризползване на примерен дял РС= X/н. Както е посочено, ако количествата нРИ н(1 – p)надвишава числото 5, биномното разпределение може да се апроксимира като нормално. Следователно, за да се оцени делът на дадена характеристика в популацията Рвъзможно е да се конструира интервал, чието ниво на достоверност е равно на (1 – α)x100%.


Където стрС- примерен дял на характеристиката, равен на Х/н, т.е. брой успехи, разделен на размера на извадката, Р- делът на характеристиката в общата съвкупност, З- критична стойност на стандартизираните нормална дистрибуция, н- размер на извадката.

Пример 3.Да приемем, че извадка, състояща се от 100 фактури, попълнени през миналия месец. Да приемем, че 10 от тези фактури са съставени с грешки. По този начин, Р= 10/100 = 0,1. Нивото на достоверност от 95% съответства на критичната стойност Z = 1,96.

Така вероятността между 4,12% и 15,88% от фактурите да съдържат грешки е 95%.

За даден размер на извадката доверителният интервал, съдържащ дела на характеристиката в популацията, изглежда по-широк, отколкото за непрекъсната случайна величина. Това е така, защото измерванията на непрекъсната случайна променлива съдържат повече информация, отколкото измерванията на категорични данни. С други думи, категоричните данни, които приемат само две стойности, не съдържат достатъчно информация за оценка на параметрите на тяхното разпределение.

INизчисляване на оценки, извлечени от крайна популация

Оценка на математическото очакване.Корекционен фактор за крайната популация ( fpc) се използва за намаляване на стандартната грешка с фактор. При изчисляване на доверителните интервали за оценките на параметрите на популацията се прилага корекционен фактор в ситуации, при които се вземат проби, без да се връщат. По този начин доверителният интервал за математическото очакване има ниво на достоверност, равно на (1 – α)x100%, се изчислява по формулата:

Пример 4.За да илюстрираме използването на корекционния коефициент за ограничена популация, нека се върнем към проблема за изчисляване на доверителния интервал за средната сума на фактурите, обсъден по-горе в Пример 3. Да предположим, че една компания издава 5000 фактури на месец и Х=110,27 долара, С= $28,95, н = 5000, н = 100, α = 0,05, t 99 = 1,9842. Използвайки формула (6), получаваме:

Оценка на дела на характеристика.При избор без връщане доверителният интервал за съотношението на атрибута с ниво на достоверност, равно на (1 – α)x100%, се изчислява по формулата:

Интервали на доверие и етични проблеми

При вземане на проби от популация и изготвяне на статистически заключения често възникват етични проблеми. Основният е как се съгласуват доверителните интервали и точковите оценки на извадковата статистика. Публикуването на приблизителни точки без уточняване на свързаните доверителни интервали (обикновено при 95% ниво на доверителност) и размера на извадката, от който те са получени, може да създаде объркване. Това може да създаде у потребителя впечатлението, че точковата оценка е точно това, от което се нуждае, за да предвиди свойствата на цялата популация. Следователно е необходимо да се разбере, че във всяко изследване фокусът трябва да бъде не върху точкови оценки, а върху интервални оценки. Освен това, Специално вниманиетрябва да се даде правилният изборпримерни размери.

Най-често обект на статистическа манипулация са резултатите от социологически проучвания на населението по определени политически въпроси. В този случай резултатите от проучването се публикуват на първите страници на вестниците и грешката извадково проучванеа методологията за статистически анализ е отпечатана някъде по средата. За да се докаже валидността на получените точкови оценки, е необходимо да се посочи размерът на извадката, въз основа на която са получени, границите на доверителния интервал и нивото му на значимост.

Следваща бележка

Използвани са материали от книгата Левин и др.Статистика за мениджъри. – М.: Уилямс, 2004. – стр. 448–462

Централна гранична теоремазаявява, че с достатъчно голям размер на извадката, извадковото разпределение на средните стойности може да бъде апроксимирано чрез нормално разпределение. Това свойство не зависи от типа разпределение на населението.

В предишните подраздели разгледахме въпроса за оценката на неизвестен параметър Аедно число. Това се нарича „точкова“ оценка. В редица задачи не само трябва да намерите параметъра Аподходяща числена стойност, но и за оценка на нейната точност и надеждност. Трябва да знаете до какви грешки може да доведе подмяната на параметър Анеговата точкова оценка Аи с каква степен на увереност можем да очакваме, че тези грешки няма да надхвърлят известните граници?

Проблеми от този вид са особено актуални при малък брой наблюдения, когато точковата оценка и ве до голяма степен случаен и приблизителната замяна на a с a може да доведе до сериозни грешки.

Да се ​​даде представа за точността и надеждността на оценката А,

V математическа статистикаТе използват така наречените доверителни интервали и доверителни вероятности.

Нека за параметъра Абезпристрастна оценка, получена от опит А.Искаме да оценим възможната грешка в този случай. Нека зададем някаква достатъчно голяма вероятност p (например p = 0,9, 0,95 или 0,99), така че събитие с вероятност p да може да се счита за практически надеждно, и да намерим стойност s, за която

Тогава диапазонът от практически възможни стойности на грешката, възникваща по време на подмяната АНа А, ще бъде ± s; Големи грешки в абсолютната стойност ще се появят само с малка вероятност a = 1 - p. Нека пренапишем (14.3.1) като:

Равенството (14.3.2) означава, че с вероятност p неизвестна стойностпараметър Апопада в интервала

Необходимо е да се отбележи едно обстоятелство. Преди многократно сме разглеждали вероятността случайна променлива да попадне в даден неслучаен интервал. Тук ситуацията е различна: величината Ане е случаен, но интервалът / p е случаен. Позицията му по оста x е произволна и се определя от центъра му А; Като цяло дължината на интервала 2s също е случайна, тъй като стойността на s се изчислява, като правило, от експериментални данни. Следователно в в такъв случайби било по-добре да се интерпретира стойността на p, а не като вероятността за „улучване“ на точка Ав интервала / p и като вероятността произволен интервал / p да покрие точката А(фиг. 14.3.1).

Ориз. 14.3.1

Вероятността p обикновено се нарича вероятност за довериеи интервал / p - доверителен интервал.Интервални граници Ако. a x =a-пясък а 2 = а +и се наричат граници на доверие.

Нека да дадем друга интерпретация на концепцията за доверителен интервал: той може да се разглежда като интервал от стойности на параметри а,съвместими с експерименталните данни и не им противоречат. Всъщност, ако се съгласим да считаме събитие с вероятност a = 1-p практически невъзможно, тогава тези стойности на параметъра a, за които а - а> s трябва да бъдат разпознати като противоречащи на експерименталните данни и тези, за които |a - А a t na 2 .

Нека за параметъра Аима безпристрастна оценка А.Ако знаехме закона за разпределение на количеството А, задачата за намиране на доверителен интервал ще бъде много проста: ще бъде достатъчно да се намери стойност s, за която

Трудността е, че законът за разпределение на оценките Азависи от закона за разпределение на количеството хи следователно върху неговите неизвестни параметри (по-специално върху самия параметър А).

За да преодолеете тази трудност, можете да използвате следната грубо приблизителна техника: заменете неизвестните параметри в израза за s с техните точкови оценки. С относително голям брой експерименти П(около 20...30) тази техника обикновено дава резултати, които са задоволителни по отношение на точността.

Като пример, разгледайте проблема с доверителния интервал за математическото очакване.

Нека се произвежда П Х,чиито характеристики са математическото очакване Tи дисперсия д- неизвестен. Бяха получени следните оценки за тези параметри:

Изисква се да се изгради съответен доверителен интервал / p вероятност за доверие p, за математическо очакване Tколичества Х.

При решаването на тази задача ще използваме факта, че количеството Tпредставлява сумата Пнезависими еднакво разпределени случайни променливи Xhи според централната гранична теорема, за достатъчно голям Пнеговият закон на разпределение е близък до нормалния. На практика, дори и при относително малък брой термини (около 10...20), законът за разпределение на сумата може приблизително да се счита за нормален. Ще приемем, че стойността Tразпределени по нормалния закон. Характеристиките на този закон – математическото очакване и дисперсията – съответно са равни TИ

(вижте глава 13, подраздел 13.3). Да приемем, че стойността дзнаем и ще намерим стойност Ep, за която

Използвайки формула (6.3.5) от глава 6, ние изразяваме вероятността от лявата страна на (14.3.5) чрез функцията за нормално разпределение

където е стандартното отклонение на оценката T.

От ур.

намерете стойността на Sp:

където arg Ф* (х) е обратната функция на Ф* (Х),тези. стойността на аргумента, при който нормална функцияразпределението е равно на Х.

дисперсия Д,чрез които се изразява количеството А 1P, не знаем точно; като негова приблизителна стойност можете да използвате оценката д(14.3.4) и поставете приблизително:

По този начин проблемът за конструиране на доверителен интервал е приблизително решен, който е равен на:

където gp се определя по формула (14.3.7).

За да се избегне обратната интерполация в таблиците на функцията Ф * (l) при изчисляване на s p, е удобно да се състави специална таблица (Таблица 14.3.1), която дава стойностите на количеството

в зависимост от r. Стойността (p определя за нормалния закон броя на стандартните отклонения, които трябва да бъдат начертани вдясно и вляво от центъра на дисперсията, така че вероятността за попадане в получената област да е равна на p.

Използвайки стойността 7 p, доверителният интервал се изразява като:

Таблица 14.3.1

Пример 1. Проведени са 20 експеримента върху количеството Х;резултатите са показани в табл. 14.3.2.

Таблица 14.3.2

Изисква се да се намери оценка от математическото очакване на количеството хи конструирайте доверителен интервал, съответстващ на доверителната вероятност p = 0,8.

Решение.Ние имаме:

Избирайки l: = 10 като референтна точка, използвайки третата формула (14.2.14), намираме безпристрастната оценка д :

Според таблицата 14.3.1 намираме

Граници на доверието:

Доверителен интервал:

Стойности на параметрите T,лежащи в този интервал са съвместими с експерименталните данни, дадени в табл. 14.3.2.

По подобен начин може да се изгради доверителен интервал за дисперсията.

Нека се произвежда Пнезависими експерименти върху случайна променлива хс неизвестни параметри както за A, така и за дисперсията дполучена е безпристрастна оценка:

Изисква се приблизително да се изгради доверителен интервал за дисперсията.

От формула (14.3.11) става ясно, че количеството дпредставлява

количество Пслучайни променливи от формата . Тези стойности не са

независими, тъй като всеки от тях включва количеството T,зависим от всички останали. Въпреки това може да се покаже, че с увеличаване Пзаконът за разпределение на тяхната сума също се доближава до нормалния. Почти при П= 20...30 вече може да се счита за нормално.

Нека приемем, че това е така, и нека намерим характеристиките на този закон: математическо очакване и дисперсия. От оценката д- безпристрастен, значи M[D] = D.

Изчисляване на дисперсията Д Де свързано с относително сложни изчисления, така че представяме неговия израз без извод:

където q 4 е четвъртият централна точкаколичества Х.

За да използвате този израз, трябва да замените стойностите \u003d 4 и д(поне близките). Вместо дможете да използвате неговата оценка Д.По принцип четвъртият централен момент може също да бъде заменен с оценка, например стойност от формата:

но такава замяна ще даде изключително ниска точност, тъй като като цяло, с ограничен брой експерименти, моментите висок редопределен от големи грешки. Въпреки това, на практика често се случва, че видът на закона за разпределение на количеството хизвестен предварително: неизвестни са само неговите параметри. След това можете да опитате да изразите μ 4 чрез Д.

Да вземем най-често срещания случай, когато стойността хразпределени по нормалния закон. Тогава неговият четвърти централен момент се изразява чрез дисперсия (виж Глава 6, подраздел 6.2);

и формула (14.3.12) дава или

Замяна на неизвестното в (14.3.14) днеговата оценка д, получаваме: откъде

Моментът μ 4 може да бъде изразен чрез дсъщо и в някои други случаи, когато разпределението на стойността хне е нормално, но външният му вид е известен. Например за закона равномерна плътност(вижте глава 5) имаме:

където (a, P) е интервалът, на който е определен законът.

следователно

Използвайки формула (14.3.12), получаваме: къде намираме приблизително

В случаите, когато видът на закона за разпределение на количеството 26 е неизвестен, когато се прави приблизителна оценка на стойността a/), все пак се препоръчва използването на формула (14.3.16), освен ако няма специални причини да се смята, че този закон е много различен от нормалния (има забележим положителен или отрицателен ексцес) .

Ако приблизителната стойност a/) е получена по един или друг начин, тогава можем да конструираме доверителен интервал за дисперсията по същия начин, както го изградихме за математическото очакване:

където стойността в зависимост от дадената вероятност p се намира съгласно таблицата. 14.3.1.

Пример 2. Намерете приблизително 80% доверителен интервал за дисперсията на случайна променлива хпри условията на пример 1, ако е известно, че стойността хразпределени по закон, близък до нормалния.

Решение.Стойността остава същата като в таблицата. 14.3.1:

Съгласно формулата (14.3.16)

Използвайки формула (14.3.18), намираме доверителния интервал:

Съответен интервал от средни стойности квадратно отклонение: (0,21; 0,29).

14.4. Точни методи за конструиране на доверителни интервали за параметрите на случайна променлива, разпределени по нормален закон

В предишния подраздел разгледахме грубо приблизителни методи за конструиране на доверителни интервали за математическо очакване и дисперсия. Тук ще дадем представа за точните методи за решаване на същия проблем. Подчертаваме, че за точното намиране на доверителните интервали е абсолютно необходимо да се знае предварително формата на закона за разпределение на количеството Х,докато за прилагането на приблизителни методи това не е необходимо.

Идея точни методиконструирането на доверителни интервали се свежда до следното. Всеки доверителен интервал се намира от условие, изразяващо вероятността за изпълнение на определени неравенства, които включват оценката, която ни интересува А.Закон за разпределение на оценката А V общ случайзависи от неизвестни количествени параметри Х.Понякога обаче е възможно да се предадат неравенства от случайна променлива Акъм някаква друга функция на наблюдаваните стойности X p X 2, ..., X стр.чийто закон на разпределение не зависи от неизвестни параметри, а зависи само от броя на експериментите и от вида на закона за разпределение на количеството Х.Тези видове случайни променливи играят важна роля в математическата статистика; най-подробно са изследвани за случай на нормално разпределение на величината Х.

Например доказано е, че при нормално разпределение на стойността хпроизволна стойност

се подчинява на т.нар Закон за разпределението на студентитес П- 1 степен на свобода; плътността на този закон има формата

където G(x) е известната гама функция:

Доказано е също, че случайната величина

има "%2 разпространение" с П- 1 степени на свобода (виж глава 7), чиято плътност се изразява с формулата

Без да се спираме на извеждането на разпределенията (14.4.2) и (14.4.4), ще покажем как те могат да бъдат приложени при конструиране на доверителни интервали за параметри ти Д.

Нека се произвежда Пнезависими експерименти върху случайна променлива Х,нормално разпределени с неизвестни параметри ДА СЕ.За тези параметри бяха получени оценки

Необходимо е да се конструират доверителни интервали и за двата параметъра, съответстващи на доверителната вероятност p.

Нека първо изградим доверителен интервал за математическото очакване. Естествено е този интервал да се приеме симетричен по отношение на T; нека s p означава половината от дължината на интервала. Стойността s p трябва да бъде избрана така, че условието да е изпълнено

Нека се опитаме да преминем от лявата страна на равенството (14.4.5) от случайната променлива Tкъм случайна променлива T,разпределени по Закона на студента. За да направите това, умножете двете страни на неравенството |m-w?|

с положителна стойност: или, използвайки нотация (14.4.1),

Нека намерим число / p такова, че стойността / p да може да бъде намерена от условието

От формула (14.4.2) става ясно, че (1) - дори функция, така че (14.4.8) дава

Равенството (14.4.9) определя стойността / p в зависимост от p. Ако имате на разположение таблица с интегрални стойности

тогава стойността на /p може да бъде намерена чрез обратна интерполация в таблицата. По-удобно е обаче да съставите предварително таблица с /p стойности. Такава таблица е дадена в Приложението (Таблица 5). Тази таблица показва стойностите в зависимост от нивото на доверие p и броя на степените на свобода П- 1. Като определи / p от табл. 5 и ако приемем

ще намерим половината от ширината на доверителния интервал / p и самия интервал

Пример 1. Проведени са 5 независими експеримента върху случайна променлива Х,нормално разпределени с неизвестни параметри Tи около. Резултатите от експериментите са дадени в табл. 14.4.1.

Таблица 14.4.1

Намерете рейтинг Tза математическото очакване и конструиране на 90% доверителен интервал / p за него (т.е. интервалът, съответстващ на доверителната вероятност p = 0,9).

Решение.Ние имаме:

Съгласно таблица 5 от заявлението за П - 1 = 4 и p = 0,9 намираме където

Доверителният интервал ще бъде

Пример 2. За условията на пример 1 от подраздел 14.3, приемайки стойността хнормално разпределени, намерете точния доверителен интервал.

Решение.Според таблица 5 от приложението намираме кога П - 1 = 19ir =

0,8 / р = 1,328; оттук

Сравнявайки с решението на пример 1 от подраздел 14.3 (e p = 0,072), ние сме убедени, че несъответствието е много незначително. Ако поддържаме точността до втория знак след десетичната запетая, тогава доверителните интервали, намерени чрез точния и приблизителния метод, съвпадат:

Нека да преминем към конструирането на доверителен интервал за дисперсията. Помислете за безпристрастния оценител на дисперсията

и изразете случайната променлива дчрез величина V(14.4.3), с разпределение x 2 (14.4.4):

Познаване на закона за разпределение на количеството V,можете да намерите интервала /(1), в който попада с дадена вероятност p.

Закон за разпределение kn_x(v)магнитуд I 7 има формата, показана на фиг. 14.4.1.

Ориз. 14.4.1

Възниква въпросът: как да изберем интервала / p? Ако законът за разпределение на величината Vбеше симетричен (като нормалния закон или разпределението на Стюдънт), би било естествено интервалът /p да се приеме за симетричен по отношение на математическото очакване. В случая законът k p_x (v)асиметричен. Нека се съгласим да изберем интервала /p, така че вероятността стойността да бъде Vотвъд интервала отдясно и отляво (защриховани области на фиг. 14.4.1) бяха еднакви и равни

За да конструираме интервал /p с това свойство, използваме таблицата. 4 приложения: съдържа числа y)такова, че

за стойността V,с x 2 -разпределение с r степени на свобода. В нашия случай r = n- 1. Да се ​​оправим r = n- 1 и намерете в съответния ред на таблицата. 4 две значения х 2 -едното съответства на вероятността, другото - вероятност Нека ги обозначим

стойности на 2И xl?Интервалът има y 2,с лявата си страна и y~десен край.

Сега нека намерим от интервала / p желания доверителен интервал /|, за дисперсията с граници D и D2,който покрива точката дс вероятност p:

Нека построим интервал / (, = (?> ь А), който покрива точката дако и само ако стойността Vпопада в интервала /r. Нека покажем, че интервалът

удовлетворява това условие. Наистина неравенствата са еквивалентни на неравенства

и тези неравенства са изпълнени с вероятност p. Така доверителният интервал за дисперсията е намерен и се изразява с формула (14.4.13).

Пример 3. Намерете доверителния интервал за дисперсията при условията на пример 2 от подраздел 14.3, ако е известно, че стойността хнормално разпределени.

Решение.Ние имаме . Съгласно таблица 4 от прил

намираме при r = n - 1 = 19

Използвайки формула (14.4.13), намираме доверителния интервал за дисперсията

Съответният интервал за стандартното отклонение е (0,21; 0,32). Този интервал само малко надвишава интервала (0,21; 0,29), получен в пример 2 на подраздел 14.3, използвайки приблизителния метод.

  • Фигура 14.3.1 разглежда доверителен интервал, симетричен относно a. Като цяло, както ще видим по-късно, това не е необходимо.

Доверителни интервали.

Изчисляването на доверителния интервал се основава на средната грешка на съответния параметър. Доверителен интервал показва в какви граници с вероятност (1-a) се намира истинската стойност на оценения параметър. Тук a е нивото на значимост, (1-a) се нарича също доверителна вероятност.

В първата глава показахме, че например за средноаритметичната стойност истинската средна стойност на съвкупността в приблизително 95% от случаите е в рамките на 2 стандартни грешки от средната стойност. По този начин границите на 95% доверителен интервал за средната стойност ще бъдат два пъти по-далеч от средната стойност на извадката средна грешкасредно, т.е. ние умножаваме средната грешка на средната стойност по определен коефициент в зависимост от нивото на достоверност. За средната стойност и разликата на средните стойности се взема коефициентът на Стюдънт (критичната стойност на теста на Стюдънт), за дела и разликата на дяловете - критичната стойност на критерия z. Произведението на коефициента и средната грешка може да се нарече максимална грешка на даден параметър, т.е. максималното, което можем да получим, когато го оценяваме.

Доверителен интервал за средноаритметично : .

Ето примерната средна стойност;

Средна грешка на средноаритметичната стойност;

с -извадково стандартно отклонение;

н

f = n-1 (Коефициент на ученика).

Доверителен интервал за разлики на средните аритметични :

Ето разликата между примерните средни стойности;

- средна грешка на разликата между средните аритметични;

s 1, s 2 –извадкови стандартни отклонения;

n1,n2

Критична стойност t тест на Стюдънт за дадено ниво на значимост a и брой степени на свобода f=n 1 +n 2-2 (Коефициент на ученика).

Доверителен интервал за акции :

.

Тук d е фракцията на пробата;

– средна дробна грешка;

н– размер на извадката (размер на групата);

Доверителен интервал за разлика в дяловете :

Ето разликата в примерните дялове;

– средна грешка на разликата между средните аритметични;

n1,n2– обеми на пробите (брой групи);

Критичната стойност на критерия z при дадено ниво на значимост a ( , , ).

Чрез изчисляване на доверителни интервали за разликата между индикаторите, ние, първо, директно виждаме възможни стойностиефект, и не само него точкова оценка. Второ, можем да направим заключение относно приемането или отхвърлянето на нулевата хипотеза и, трето, можем да направим заключение относно силата на теста.

Когато тествате хипотези с помощта на доверителни интервали, трябва да се придържате към следното правило:

Ако 100(1-a) процентният доверителен интервал на разликата в средните стойности не съдържа нула, тогава разликите са статистически значими при ниво на значимост a; напротив, ако този интервал съдържа нула, тогава разликите не са статистически значими.

Наистина, ако този интервал съдържа нула, това означава, че сравняваният показател може да бъде по-голям или по-малък в една от групите в сравнение с другата, т.е. наблюдаваните разлики се дължат на случайност.

Мощността на теста може да се прецени по местоположението на нулата в рамките на доверителния интервал. Ако нулата е близо до по-ниска или горен лимитинтервал, тогава може би при по-голям брой сравнявани групи разликите биха достигнали статистическа значимост. Ако нулата е близо до средата на интервала, това означава, че както увеличението, така и намаляването на показателя в експерименталната група са еднакво вероятни и вероятно наистина няма разлики.

Примери:

За да се сравни хирургическата смъртност при използване на два различни вида анестезия: 61 души са оперирани с първия вид анестезия, 8 са починали, с втория тип - 67 души, 10 са починали.

d 1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

Разликата в леталността на сравняваните методи ще бъде в диапазона (-0,018 - 0,122; -0,018 + 0,122) или (-0,14; 0,104) с вероятност 100(1-a) = 95%. Интервалът съдържа нула, т.е. хипотеза за еднаква смъртност при двама различни видовеАнестезията не може да бъде отхвърлена.

По този начин смъртността може и ще намалее до 14% и ще се увеличи до 10,4% с вероятност от 95%, т.е. нула е приблизително в средата на интервала, така че може да се твърди, че най-вероятно тези два метода наистина не се различават по смъртност.

В примера, обсъден по-рано, средното време на натискане по време на теста за потупване беше сравнено в четири групи студенти, които се различаваха в резултатите от изпита. Нека изчислим доверителните интервали за средното време за пресоване за студенти, които са издържали изпита с оценки 2 и 5, и доверителния интервал за разликата между тези средни стойности.

Коефициентите на Стюдънт се намират с помощта на таблиците за разпределение на Стюдънт (виж приложението): за първа група: = t(0,05;48) = 2,011; за втората група: = t(0,05;61) = 2,000. Така доверителните интервали за първата група: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), за втората група (156,55- 2000*1,88; 156,55+2000*1,88) = (152,8 ; 160.3). Така за тези, които са издържали изпита с 2, средното време на натискане варира от 157,8 ms до 166,6 ms с вероятност от 95%, за тези, които са издържали изпита с 5 – от 152,8 ms до 160,3 ms с вероятност от 95% .

Можете също така да тествате нулевата хипотеза, като използвате доверителни интервали за средни стойности, а не само за разликата в средните стойности. Например, както в нашия случай, ако доверителните интервали за средните се припокриват, тогава нулевата хипотеза не може да бъде отхвърлена. За да се отхвърли хипотеза при избрано ниво на значимост, съответните доверителни интервали не трябва да се припокриват.

Да намерим доверителния интервал за разликата в средното време на пресоване в групите, издържали изпита с оценки 2 и 5. Разлика на средните стойности: 162.19 – 156.55 = 5.64. Коефициент на Студент: = t(0.05;49+62-2) = t(0.05;109) = 1.982. Груповите стандартни отклонения ще бъдат равни на: ; . Изчисляваме средната грешка на разликата между средните: . Доверителен интервал: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

Така че разликата в средното време на пресоване в групите, издържали изпита с 2 и 5, ще бъде в диапазона от -0,044 ms до 11,33 ms. Този интервал включва нула, т.е. Средното време за пресоване за тези, които са издържали добре изпита, може или да се увеличи, или да намалее в сравнение с тези, които са издържали изпита незадоволително, т.е. нулевата хипотеза не може да бъде отхвърлена. Но нулата е много близо до долната граница и е много по-вероятно времето за пресоване да намалее за тези, които са преминали добре. По този начин можем да заключим, че все още има разлики в средното време на пресоване между тези, които са преминали 2 и 5, просто не можахме да ги открием предвид промяната в средното време, разпространението на средното време и размерите на извадката.



Силата на теста е вероятността за отхвърляне на неправилна нулева хипотеза, т.е. открийте разликите там, където те действително съществуват.

Силата на теста се определя въз основа на нивото на значимост, големината на разликите между групите, разпространението на стойностите в групите и размера на извадките.

За студентски тест и дисперсионен анализМожете да използвате диаграми на чувствителността.

Силата на критерия може да се използва за предварително определяне на необходимия брой групи.

Доверителният интервал показва в какви граници се намира истинската стойност на оценения параметър с дадена вероятност.

Използвайки доверителни интервали, можете да тествате статистически хипотези и да правите заключения относно чувствителността на критериите.

ЛИТЕРАТУРА.

Гланц С. – Глава 6,7.

Реброва О.Ю. – с.112-114, с.171-173, с.234-238.

Сидоренко Е.В. – с.32-33.

Въпроси за самопроверка на учениците.

1. Каква е силата на критерия?

2. В какви случаи е необходимо да се оцени силата на критериите?

3. Методи за изчисляване на мощността.

6. Как да тестваме статистическа хипотеза с помощта на доверителен интервал?

7. Какво може да се каже за силата на критерия при изчисляване на доверителния интервал?

Задачи.

Да предположим, че имаме голям брой артикули с нормално разпределение на някои характеристики (например пълен склад със зеленчуци от един и същи вид, чийто размер и тегло варира). Искате да знаете средните характеристики на цялата партида стоки, но нямате нито време, нито желание да измервате и претегляте всеки зеленчук. Разбирате, че това не е необходимо. Но колко бройки трябва да се вземат за проверка на място?

Преди да дадем няколко формули, полезни за тази ситуация, нека си припомним някои обозначения.

Първо, ако измерихме целия склад със зеленчуци (този набор от елементи се нарича обща съвкупност), тогава бихме знаели с цялата налична за нас точност средното тегло на цялата партида. Нека наречем това средно X ср .g en . - обща авария. Вече знаем какво е напълно определено, ако са известни неговата средна стойност и отклонение s . Вярно, докато ние не сме нито X средно поколение, нитос Не познаваме общото население. Можем да вземем само определена проба, да измерим стойностите, от които се нуждаем, и да изчислим за тази проба както средната стойност X ср., така и стандартното отклонение S select.

Известно е, че ако нашата пробна проверка съдържа голям брой елементи (обикновено n е по-голямо от 30), и те се вземат наистина случайно, след това s общата съвкупност едва ли ще се различава от S селекцията..

В допълнение, за случай на нормално разпределение можем да използваме следните формули:

С вероятност от 95%


С вероятност от 99%



IN общ изгледс вероятност P (t)


Връзката между стойността t и стойността на вероятността P (t), с която искаме да знаем доверителния интервал, може да бъде взета от следната таблица:


Така сме определили в кой диапазон се намира средната стойност за съвкупността (с дадена вероятност).

Освен ако нямаме достатъчно голяма извадка, не можем да кажем, че популацията има s = S изберете В допълнение, в този случай близостта на извадката до нормалното разпределение е проблематична. В този случай ние също използваме S select вместо това s във формулата:




но стойността на t за фиксирана вероятност P(t) ще зависи от броя на елементите в извадката n. Колкото по-голямо е n, толкова по-близо ще бъде полученият доверителен интервал до стойността, дадена от формула (1). Стойностите t в този случай са взети от друга таблица ( t-тест на Стюдънт), които представяме по-долу:

Стойности на t-теста на Стюдънт за вероятност 0,95 и 0,99


Пример 3. 30 души бяха избрани на случаен принцип от служителите на компанията. Според извадката се оказа, че средната заплата (на месец) е 30 хиляди рубли със стандартно отклонение от 5 хиляди рубли. Определете средната работна заплата във фирмата с вероятност 0,99.

Решение:По условие имаме n = 30, X ср. =30000, S=5000, P = 0.99. За да намерим доверителния интервал, ще използваме формулата, съответстваща на t теста на Стюдънт. От таблицата за n = 30 и P = 0,99 намираме t = 2,756, следователно,


тези. търсен синдикинтервал 27484< Х ср.ген < 32516.

И така, с вероятност от 0,99 можем да кажем, че интервалът (27484; 32516) съдържа в себе си средната работна заплата в компанията.

Надяваме се, че ще използвате този метод и не е необходимо да имате маса с вас всеки път. Изчисленията могат да се извършват автоматично в Excel. Докато сте във файла на Excel, щракнете върху бутона fx в горното меню. След това изберете тип „статистически“ сред функциите и от предложения списък в прозореца - STUDAR DISCOVER. След това при подканата, като поставите курсора в полето „вероятност“, въведете стойността на обратната вероятност (т.е. в нашия случай, вместо вероятността от 0,95, трябва да въведете вероятността от 0,05). Очевидно електронна таблицасе компилира по такъв начин, че резултатът да отговаря на въпроса с каква вероятност можем да направим грешка. По същия начин в полето Степен на свобода въведете стойност (n-1) за вашата проба.

Доверителен интервал за математическо очакване - това е интервал, изчислен от данни, които с известна вероятност съдържат математическото очакване на генералната съвкупност. Естествена оценка за математическото очакване е средноаритметичното на неговите наблюдавани стойности. Затова през целия урок ще използваме термините „средна стойност“ и „средна стойност“. При проблеми с изчисляване на доверителен интервал най-често изискваният отговор е нещо като „Доверителният интервал на средното число [стойност в определен проблем] е от [по-малка стойност] до [по-голяма стойност].“ Използвайки доверителен интервал, можете да оцените не само средните стойности, но и съотношението на определена характеристика на общата съвкупност. Средни стойности, дисперсия, стандартно отклонениеа грешките, чрез които ще стигнем до нови определения и формули, се обсъждат в урока Характеристики на извадката и съвкупността .

Точкови и интервални оценки на средната стойност

Ако средната стойност на съвкупността се оценява с число (точка), тогава специфична средна стойност, която се изчислява от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на съвкупността. В този случай стойността на извадковата средна - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато посочвате средната стойност на извадката, трябва едновременно да посочите грешката на извадката. Мярката за извадкова грешка е стандартната грешка, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

Ако оценката на средната стойност трябва да бъде свързана с определена вероятност, тогава параметърът от интерес в съвкупността трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на прогнозния индикатор за населението. Доверителен интервал, в който е вероятно П = 1 - α се намира случайната променлива, изчислена както следва:

,

α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

.

Формулата на доверителния интервал може да се използва за оценка на средната популация if

  • стандартното отклонение на съвкупността е известно;
  • или стандартното отклонение на популацията е неизвестно, но размерът на извадката е по-голям от 30.

Средната стойност на извадката е безпристрастна оценка на средната стойност на популацията. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да получите безпристрастна оценка на дисперсията на популацията във формулата за дисперсия на извадката, размер на извадката нтрябва да се замени с н-1.

Пример 1.От 100 произволно избрани кафенета в даден град е събрана информация, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете 95% доверителен интервал за броя на служителите в кафенето.

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

По този начин 95% доверителен интервал за средния брой служители в кафенето варира от 9,6 до 11,4.

Пример 2.За произволна извадка от популация от 64 наблюдения бяха изчислени следните общи стойности:

сбор от стойности в наблюденията,

сума на квадратните отклонения на стойностите от средната .

Изчислете 95% доверителен интервал за математическото очакване.

Нека изчислим стандартното отклонение:

,

Нека изчислим средната стойност:

.

Заменяме стойностите в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

Пример 3.За произволна популационна извадка от 100 наблюдения изчислената средна стойност е 15,2, а стандартното отклонение е 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат непроменени и коефициентът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

Ние заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

.

По този начин 95% доверителен интервал за средната стойност на тази проба варира от 14,57 до 15,82.

Отново заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

Получаваме:

.

Така 99% доверителният интервал за средната стойност на тази проба варира от 14,37 до 16,02.

Както виждаме, с увеличаването на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава .

Точкови и интервални оценки на специфичното тегло

Делът на някакъв примерен атрибут може да се интерпретира като точкова оценка специфично тегло стрсъс същата характеристика в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в популацията с вероятност П = 1 - α :

.

Пример 4.В някой град има двама кандидати АИ бсе кандидатират за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че биха гласували за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, подкрепящи кандидата А.



Ново в сайта

>

Най - известен