У дома Протезиране и имплантиране Как да намерите пример за доверителен интервал. Доверителен интервал

Как да намерите пример за доверителен интервал. Доверителен интервал

Доверителен интервал– гранични стойности статистическа стойност, която с дадена доверителна вероятност γ ще бъде в този интервал при вземане на проби от по-голям обем. Означава се като P(θ - ε. На практика вероятността за доверие γ се избира от стойности, доста близки до единица: γ = 0.9, γ = 0.95, γ = 0.99.

Цел на услугата. Използвайки тази услуга, можете да определите:

  • доверителен интервал за общата средна стойност, доверителен интервал за дисперсията;
  • доверителен интервал за стандартното отклонение, доверителен интервал за общия дял;
Полученото решение се записва във файл на Word (вижте примера). По-долу има видео инструкция за попълване на първоначалните данни.

Пример №1. В колективна ферма от общо стадо от 1000 овце 100 овце са подложени на селективно контролно стригане. В резултат на това е установен среден настриг на вълна от 4,2 кг на овца. Определете с вероятност от 0,99 средната квадратна грешка на извадката при определяне на средното настригане на вълна на овца и границите, в които се съдържа стойността на настригане, ако дисперсията е 2,5. Пробата не се повтаря.
Пример №2. От партида внесени продукти на поста на Московската северна митница бяха взети 20 проби от продукт „А“ чрез произволно повторно вземане на проби. В резултат на теста е установено средното съдържание на влага на продукт „А” в пробата, което се оказва равно на 6% със стандартно отклонение от 1%.
Определете с вероятност 0,683 границите на средното съдържание на влага в продукта в цялата партида внесени продукти.
Пример №3. Анкета сред 36 ученици показа, че средният брой учебници, които четат годишно академична година, се оказа равно на 6. Ако приемем, че броят учебници, прочетени от студент за семестър, има нормален закон на разпределение със стандартно отклонение, равно на 6, намерете: A) с надеждност 0,99, интервална оценка за математическата очакване на това случайна величина; Б) с каква вероятност можем да кажем, че средният брой учебници, прочетени от студент за семестър, изчислен от дадена извадка, ще се отклони от математическото очакване според абсолютна стойностне повече от 2.

Класификация на доверителните интервали

По вид параметър, който се оценява:

По тип проба:

  1. Доверителен интервал за безкрайна извадка;
  2. Доверителен интервал за крайната проба;
Пробата се нарича повторна проба, ако избраният обект се върне към популацията, преди да изберете следващия. Пробата се нарича неповтаряща се, ако избраният обект не бъде върнат в популацията. На практика обикновено имаме работа с проби, които не се повтарят.

Изчисляване на средната извадкова грешка за случайна извадка

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри на генералната съвкупност се нарича грешка в представителността.
Обозначения на основните параметри на генералната и извадкова съвкупности.
Формули за средна извадкова грешка
повторна селекцияповторете избора
за средноза споделянеза средноза споделяне
Връзката между границата на извадкова грешка (Δ), гарантирана с известна вероятност Р(t),И средна грешкапробата има формата: или Δ = t·μ, където T– коефициент на доверителност, определен в зависимост от нивото на вероятност P(t) съгласно таблицата на интегралната функция на Лаплас.

Формули за изчисляване на размера на извадката, като се използва метод на чисто случайна извадка

В предишните подраздели разгледахме въпроса за оценката на неизвестен параметър Аедно число. Това се нарича „точкова“ оценка. В редица задачи не само трябва да намерите параметъра Аподходяща числена стойност, но и за оценка на нейната точност и надеждност. Трябва да знаете до какви грешки може да доведе подмяната на параметър Анеговата точкова оценка Аи с каква степен на увереност можем да очакваме, че тези грешки няма да надхвърлят известните граници?

Проблеми от този вид са особено актуални при малък брой наблюдения, когато точковата оценка и ве до голяма степен случаен и приблизителната замяна на a с a може да доведе до сериозни грешки.

Да се ​​даде представа за точността и надеждността на оценката А,

V математическа статистикаТе използват така наречените доверителни интервали и доверителни вероятности.

Нека за параметъра Абезпристрастна оценка, получена от опит А.Искаме да оценим възможната грешка в този случай. Нека зададем някаква достатъчно голяма вероятност p (например p = 0,9, 0,95 или 0,99), така че събитие с вероятност p да може да се счита за практически надеждно, и да намерим стойност s, за която

Тогава диапазонът е практически възможни стойностигрешка, която възниква при подмяна АНа А, ще бъде ± s; Големи грешки в абсолютната стойност ще се появят само с малка вероятност a = 1 - p. Нека пренапишем (14.3.1) като:

Равенството (14.3.2) означава, че с вероятност p неизвестната стойност на параметъра Апопада в интервала

Необходимо е да се отбележи едно обстоятелство. Преди многократно сме разглеждали вероятността случайна променлива да попадне в даден неслучаен интервал. Тук ситуацията е различна: величината Ане е случаен, но интервалът / p е случаен. Позицията му по оста x е произволна и се определя от центъра му А; Като цяло дължината на интервала 2s също е случайна, тъй като стойността на s се изчислява, като правило, от експериментални данни. Следователно в в такъв случайби било по-добре да се интерпретира стойността на p, а не като вероятността за „улучване“ на точка Ав интервала / p и като вероятността произволен интервал / p да покрие точката А(фиг. 14.3.1).

Ориз. 14.3.1

Вероятността p обикновено се нарича вероятност за довериеи интервал / p - доверителен интервал.Интервални граници Ако. a x =a-пясък а 2 = а +и се наричат граници на доверие.

Нека да дадем друга интерпретация на концепцията за доверителен интервал: той може да се разглежда като интервал от стойности на параметри а,съвместими с експерименталните данни и не им противоречат. Всъщност, ако се съгласим да считаме събитие с вероятност a = 1-p практически невъзможно, тогава тези стойности на параметъра a, за които а - а> s трябва да бъдат разпознати като противоречащи на експерименталните данни и тези, за които |a - А a t na 2 .

Нека за параметъра Аима безпристрастна оценка А.Ако знаехме закона за разпределение на количеството А, задачата за намиране на доверителен интервал ще бъде много проста: ще бъде достатъчно да се намери стойност s, за която

Трудността е, че законът за разпределение на оценките Азависи от закона за разпределение на количеството хи следователно върху неговите неизвестни параметри (по-специално върху самия параметър А).

За да преодолеете тази трудност, можете да използвате следната грубо приблизителна техника: заменете неизвестните параметри в израза за s с техните точкови оценки. С относително голям брой експерименти П(около 20...30) тази техника обикновено дава резултати, които са задоволителни по отношение на точността.

Като пример, разгледайте проблема с доверителния интервал за математическото очакване.

Нека се произвежда П Х,чиито характеристики са очаквана стойност Tи дисперсия д- неизвестен. Бяха получени следните оценки за тези параметри:

Изисква се да се конструира доверителен интервал / p, съответстващ на доверителната вероятност p за математическото очакване Tколичества Х.

При решаването на тази задача ще използваме факта, че количеството Tпредставлява сумата Пнезависими еднакво разпределени случайни променливи Xhи според централната гранична теорема, за достатъчно голям Пнеговият закон на разпределение е близък до нормалния. На практика, дори и при относително малък брой термини (около 10...20), законът за разпределение на сумата може приблизително да се счита за нормален. Ще приемем, че стойността Tразпределени по нормалния закон. Характеристиките на този закон – математическото очакване и дисперсията – съответно са равни TИ

(вижте глава 13, подраздел 13.3). Да приемем, че стойността дзнаем и ще намерим стойност Ep, за която

Използвайки формула (6.3.5) от глава 6, ние изразяваме вероятността от лявата страна на (14.3.5) чрез функцията за нормално разпределение

където е стандартното отклонение на оценката T.

От ур.

намерете стойността на Sp:

където arg Ф* (х) е обратната функция на Ф* (Х),тези. стойността на аргумента, при който нормална функцияразпределението е равно на Х.

дисперсия Д,чрез които се изразява количеството А 1P, не знаем точно; като негова приблизителна стойност можете да използвате оценката д(14.3.4) и поставете приблизително:

По този начин проблемът за конструиране на доверителен интервал е приблизително решен, който е равен на:

където gp се определя по формула (14.3.7).

За да се избегне обратната интерполация в таблиците на функцията Ф* (l) при изчисляване на s p, е удобно да се състави специална таблица (Таблица 14.3.1), която дава стойностите на количеството

в зависимост от r. Стойността (p определя за нормалния закон броя на стандартните отклонения, които трябва да бъдат начертани вдясно и вляво от центъра на дисперсията, така че вероятността за попадане в получената област да е равна на p.

Използвайки стойността 7 p, доверителният интервал се изразява като:

Таблица 14.3.1

Пример 1. Проведени са 20 експеримента върху количеството Х;резултатите са показани в табл. 14.3.2.

Таблица 14.3.2

Изисква се да се намери оценка от математическото очакване на количеството хи конструирайте доверителен интервал, съответстващ на доверителната вероятност p = 0,8.

Решение.Ние имаме:

Избирайки l: = 10 като референтна точка, използвайки третата формула (14.2.14), намираме безпристрастната оценка д :

Според таблицата 14.3.1 намираме

Граници на доверието:

Доверителен интервал:

Стойности на параметрите T,лежащи в този интервал са съвместими с експерименталните данни, дадени в табл. 14.3.2.

По подобен начин може да се изгради доверителен интервал за дисперсията.

Нека се произвежда Пнезависими експерименти върху случайна променлива хс неизвестни параметри както за A, така и за дисперсията дполучена е безпристрастна оценка:

Изисква се приблизително да се изгради доверителен интервал за дисперсията.

От формула (14.3.11) става ясно, че количеството дпредставлява

количество Пслучайни променливи от формата . Тези стойности не са

независими, тъй като всеки от тях включва количеството T,зависим от всички останали. Въпреки това може да се покаже, че с увеличаване Пзаконът за разпределение на тяхната сума също се доближава до нормалния. Почти при П= 20...30 вече може да се счита за нормално.

Нека приемем, че това е така, и нека намерим характеристиките на този закон: математическо очакване и дисперсия. От оценката д- безпристрастен, значи M[D] = D.

Изчисляване на дисперсията Д Де свързано с относително сложни изчисления, така че представяме неговия израз без извод:

където q 4 е четвъртият централна точкаколичества Х.

За да използвате този израз, трябва да замените стойностите \u003d 4 и д(поне близките). Вместо дможете да използвате неговата оценка Д.По принцип четвъртият централен момент може също да бъде заменен с оценка, например стойност от формата:

но такава замяна ще даде изключително ниска точност, тъй като като цяло, с ограничен брой експерименти, моментите висок редопределен от големи грешки. Въпреки това, на практика често се случва, че видът на закона за разпределение на количеството хизвестен предварително: неизвестни са само неговите параметри. След това можете да опитате да изразите μ 4 чрез Д.

Да вземем най-често срещания случай, когато стойността хразпределени по нормалния закон. Тогава неговият четвърти централен момент се изразява чрез дисперсия (виж Глава 6, подраздел 6.2);

и формула (14.3.12) дава или

Замяна на неизвестното в (14.3.14) днеговата оценка д, получаваме: откъде

Моментът μ 4 може да бъде изразен чрез дсъщо и в някои други случаи, когато разпределението на стойността хне е нормално, но външният му вид е известен. Например за закона равномерна плътност(вижте глава 5) имаме:

където (a, P) е интервалът, на който е определен законът.

следователно

Използвайки формула (14.3.12), получаваме: къде намираме приблизително

В случаите, когато видът на закона за разпределение на количеството 26 е неизвестен, когато се прави приблизителна оценка на стойността a/), все пак се препоръчва използването на формула (14.3.16), освен ако няма специални причини да се смята, че този закон е много различен от нормалния (има забележим положителен или отрицателен ексцес) .

Ако приблизителната стойност a/) е получена по един или друг начин, тогава можем да конструираме доверителен интервал за дисперсията по същия начин, както го изградихме за математическото очакване:

където стойността в зависимост от дадената вероятност p се намира съгласно таблицата. 14.3.1.

Пример 2. Намерете приблизително 80% доверителен интервал за дисперсията на случайна променлива хпри условията на пример 1, ако е известно, че стойността хразпределени по закон, близък до нормалния.

Решение.Стойността остава същата като в таблицата. 14.3.1:

Съгласно формулата (14.3.16)

Използвайки формула (14.3.18), намираме доверителния интервал:

Съответен интервал от средни стойности квадратно отклонение: (0,21; 0,29).

14.4. Прецизни строителни методи доверителни интервализа параметрите на случайна величина, разпределени по нормалния закон

В предишния подраздел разгледахме грубо приблизителни методи за конструиране на доверителни интервали за математическо очакване и дисперсия. Тук ще дадем представа за точните методи за решаване на същия проблем. Подчертаваме, че за точното намиране на доверителните интервали е абсолютно необходимо да се знае предварително формата на закона за разпределение на количеството Х,докато за прилагането на приблизителни методи това не е необходимо.

Идея точни методиконструирането на доверителни интервали се свежда до следното. Всеки доверителен интервал се намира от условие, изразяващо вероятността за изпълнение на определени неравенства, които включват оценката, която ни интересува А.Закон за разпределение на оценката А V общ случайзависи от неизвестни количествени параметри Х.Понякога обаче е възможно да се предадат неравенства от случайна променлива Акъм някаква друга функция на наблюдаваните стойности X p X 2, ..., X стр.чийто закон на разпределение не зависи от неизвестни параметри, а зависи само от броя на експериментите и от вида на закона за разпределение на количеството Х.Тези видове случайни променливи играят важна роля в математическата статистика; най-подробно са изследвани за случай на нормално разпределение на величината Х.

Например доказано е, че при нормално разпределение на стойността хпроизволна стойност

се подчинява на т.нар Закон за разпределението на студентитес П- 1 степен на свобода; плътността на този закон има формата

където G(x) е известната гама функция:

Доказано е също, че случайната величина

има "%2 разпространение" с П- 1 степени на свобода (виж глава 7), чиято плътност се изразява с формулата

Без да се спираме на извеждането на разпределенията (14.4.2) и (14.4.4), ще покажем как те могат да бъдат приложени при конструиране на доверителни интервали за параметри ти Д.

Нека се произвежда Пнезависими експерименти върху случайна променлива Х,нормално разпределени с неизвестни параметри ДА СЕ.За тези параметри бяха получени оценки

Необходимо е да се конструират доверителни интервали и за двата параметъра, съответстващи на доверителната вероятност p.

Нека първо изградим доверителен интервал за математическото очакване. Естествено е този интервал да се приеме симетричен по отношение на T; нека s p означава половината от дължината на интервала. Стойността s p трябва да бъде избрана така, че условието да е изпълнено

Нека се опитаме да преминем от лявата страна на равенството (14.4.5) от случайната променлива Tкъм случайна променлива T,разпределени по Закона на студента. За да направите това, умножете двете страни на неравенството |m-w?|

с положителна стойност: или, използвайки нотация (14.4.1),

Нека намерим число / p такова, че стойността / p да може да бъде намерена от условието

От формула (14.4.2) става ясно, че (1) - дори функция, така че (14.4.8) дава

Равенството (14.4.9) определя стойността / p в зависимост от p. Ако имате на разположение таблица с интегрални стойности

тогава стойността на /p може да бъде намерена чрез обратна интерполация в таблицата. По-удобно е обаче да съставите предварително таблица с /p стойности. Такава таблица е дадена в Приложението (Таблица 5). Тази таблица показва стойностите в зависимост от нивото на доверие p и броя на степените на свобода П- 1. Като определи / p от табл. 5 и ако приемем

ще намерим половината от ширината на доверителния интервал / p и самия интервал

Пример 1. Проведени са 5 независими експеримента върху случайна променлива Х,нормално разпределени с неизвестни параметри Tи около. Резултатите от експериментите са дадени в табл. 14.4.1.

Таблица 14.4.1

Намерете рейтинг Tза математическото очакване и конструиране на 90% доверителен интервал / p за него (т.е. интервалът, съответстващ на доверителната вероятност p = 0,9).

Решение.Ние имаме:

Съгласно таблица 5 от заявлението за П - 1 = 4 и p = 0,9 намираме където

Доверителният интервал ще бъде

Пример 2. За условията на пример 1 от подраздел 14.3, приемайки стойността хнормално разпределени, намерете точния доверителен интервал.

Решение.Според таблица 5 от приложението намираме кога П - 1 = 19ir =

0,8 / р = 1,328; оттук

Сравнявайки с решението на пример 1 от подраздел 14.3 (e p = 0,072), ние сме убедени, че несъответствието е много незначително. Ако поддържаме точността до втория знак след десетичната запетая, тогава доверителните интервали, намерени чрез точния и приблизителния метод, съвпадат:

Нека да преминем към конструирането на доверителен интервал за дисперсията. Помислете за безпристрастния оценител на дисперсията

и изразете случайната променлива дчрез величина V(14.4.3), с разпределение x 2 (14.4.4):

Познаване на закона за разпределение на количеството V,можете да намерите интервала /(1), в който попада с дадена вероятност p.

Закон за разпределение kn_x(v)магнитуд I 7 има формата, показана на фиг. 14.4.1.

Ориз. 14.4.1

Възниква въпросът: как да изберем интервала / p? Ако законът за разпределение на величината Vбеше симетричен (като нормалния закон или разпределението на Стюдънт), би било естествено интервалът /p да се приеме за симетричен по отношение на математическото очакване. В случая законът k p_x (v)асиметричен. Нека се съгласим да изберем интервала /p, така че вероятността стойността да бъде Vотвъд интервала отдясно и отляво (защриховани области на фиг. 14.4.1) бяха еднакви и равни

За да конструираме интервал /p с това свойство, използваме таблицата. 4 приложения: съдържа числа y)такова, че

за стойността V,с x 2 -разпределение с r степени на свобода. В нашия случай r = n- 1. Да се ​​оправим r = n- 1 и намерете в съответния ред на таблицата. 4 две значения х 2 -едното съответства на вероятността, другото - вероятност Нека ги обозначим

стойности на 2И xl?Интервалът има y 2,с лявата си страна и y ~десен край.

Сега нека намерим от интервала / p желания доверителен интервал /|, за дисперсията с граници D и D2,който покрива точката дс вероятност p:

Нека построим интервал / (, = (?> ь А), който покрива точката дако и само ако стойността Vпопада в интервала /r. Нека покажем, че интервалът

удовлетворява това условие. Наистина неравенствата са еквивалентни на неравенства

и тези неравенства са изпълнени с вероятност p. Така доверителният интервал за дисперсията е намерен и се изразява с формула (14.4.13).

Пример 3. Намерете доверителния интервал за дисперсията при условията на пример 2 от подраздел 14.3, ако е известно, че стойността хнормално разпределени.

Решение.Ние имаме . Съгласно таблица 4 от прил

намираме при r = n - 1 = 19

Използвайки формула (14.4.13) намираме доверителния интервал за дисперсията

Съответният интервал за стандартното отклонение е (0,21; 0,32). Този интервал само малко надвишава интервала (0,21; 0,29), получен в пример 2 на подраздел 14.3, използвайки приблизителния метод.

  • Фигура 14.3.1 разглежда доверителен интервал, симетричен относно a. Като цяло, както ще видим по-късно, това не е необходимо.

Оценка на доверителните интервали

Цели на обучението

Статистиката отчита следното две основни задачи:

    Имаме някаква оценка, базирана на примерни данни, и искаме да направим някакво вероятностно изявление за това къде се крие истинската стойност на изчисления параметър.

    Имаме конкретна хипотеза, която трябва да бъде тествана с примерни данни.

В тази тема разглеждаме първата задача. Нека въведем и определението за доверителен интервал.

Доверителният интервал е интервал, който е изграден около оценената стойност на даден параметър и показва къде се намира истинската стойност на оценения параметър с предварително определена вероятност.

След като изучите материала по тази тема, вие:

    научете какво е доверителен интервал за оценка;

    научете се да класифицирате статистически проблеми;

    овладеят техниката за конструиране на доверителни интервали, както с помощта на статистически формули, така и с помощта на софтуерни инструменти;

    научете се да определяте необходимите размери на извадката, за да постигнете определени параметри на точност на статистическите оценки.

Разпределение на характеристиките на извадката

Т-разпределение

Както беше обсъдено по-горе, разпределението на случайната променлива е близко до стандартизираното нормална дистрибуцияс параметри 0 и 1. Тъй като не знаем стойността на σ, я заместваме с някаква оценка на s. Количеството вече има различно разпределение, а именно или Студентско разпределение, което се определя от параметъра n -1 (броят степени на свобода). Това разпределение е близко до нормалното разпределение (колкото по-голямо е n, толкова по-близо са разпределенията).

На фиг. 95
е представено разпределението на Студент с 30 степени на свобода. Както можете да видите, то е много близо до нормалното разпределение.

Подобно на функциите за работа с нормалното разпределение NORMIDIST и NORMINV има функции за работа с t-разпределението - STUDIST (TDIST) и STUDRASOBR (TINV). Пример за използване на тези функции може да се види във файла STUDRASP.XLS (шаблон и решение) и на фиг. 96
.

Разпределение на други характеристики

Както вече знаем, за да определим точността на оценката на математическото очакване, имаме нужда от t-разпределение. За оценка на други параметри, като дисперсия, са необходими различни разпределения. Две от тях са F-разпределението и х 2 -разпределение.

Доверителен интервал за средната стойност

Доверителен интервал- това е интервал, който се изгражда около оценената стойност на параметъра и показва къде се намира истинската стойност на оценения параметър с предварително определена вероятност.

Получава се изграждането на доверителен интервал за средната стойност по следния начин:

Пример

Заведението за бързо хранене планира да разшири асортимента си с нов вид сандвичи. За да оцени търсенето за него, мениджърът планира да избере произволно 40 посетители от тези, които вече са го опитали, и да ги помоли да оценят отношението си към новия продукт по скала от 1 до 10. Мениджърът иска да оцени очакваното брой точки, които ще получи новият продукт и конструиране на 95% доверителен интервал за тази оценка. Как да стане това? (вижте файла SANDWICH1.XLS (шаблон и решение).

Решение

За да разрешите този проблем, можете да използвате. Резултатите са представени на фиг. 97
.

Доверителен интервал за обща стойност

Понякога, използвайки примерни данни, е необходимо да се оцени не математическото очакване, а обща сумастойности. Например, в ситуация с одитор, интересът може да бъде в оценката не на средния размер на сметката, а на сумата от всички сметки.

Нека N - обща сумаелементи, n е размерът на извадката, T 3 е сумата от стойностите в извадката, T" е оценката за сумата за цялата популация, тогава , а доверителният интервал се изчислява по формулата , където s е оценката на стандартното отклонение за извадката и е оценката на средната стойност за извадката.

Пример

Да кажем някои данъчна службаиска да изчисли общия размер на възстановените данъци за 10 000 данъкоплатци. Данъкоплатецът или получава възстановяване, или плаща допълнителни данъци. Намерете 95% доверителен интервал за сумата за възстановяване, като приемете, че извадката е от 500 души (вижте файла AMOUNT OF REFUND.XLS (шаблон и решение).

Решение

StatPro няма специална процедура за този случай, но може да се отбележи, че границите могат да бъдат получени от границите за средната стойност въз основа на горните формули (Фиг. 98
).

Доверителен интервал за пропорцията

Нека p е математическото очакване на дела на клиентите и нека p b е оценката на този дял, получена от извадка с размер n. Може да се покаже, че за достатъчно големи разпределението на оценката ще бъде близко до нормалното с математическо очакване p и стандартно отклонение . Стандартната грешка на оценката в този случай се изразява като , а доверителният интервал е като .

Пример

Заведението за бързо хранене планира да разшири асортимента си с нов вид сандвичи. За да оцени търсенето на него, мениджърът произволно избра 40 посетители от тези, които вече са го опитали, и ги помоли да оценят отношението си към новия продукт по скала от 1 до 10. Мениджърът иска да оцени очаквания дял на клиенти, които оценяват новия продукт най-малко от 6 точки (той очаква, че тези клиенти ще бъдат потребителите на новия продукт).

Решение

Първоначално създаваме нова колона въз основа на атрибут 1, ако рейтингът на клиента е над 6 точки и 0 в противен случай (вижте файла SANDWICH2.XLS (шаблон и решение).

Метод 1

Като броим числото 1, оценяваме дела и след това използваме формулите.

Стойността zcr се взема от специални таблици за нормално разпределение (например 1,96 за 95% доверителен интервал).

Използвайки този подход и конкретни данни за конструиране на 95% интервал, получаваме следните резултати (Фиг. 99
). Критична стойностпараметър z cr е равен на 1,96. Стандартната грешка на оценката е 0,077. Долната граница на доверителния интервал е 0,475. Горната граница на доверителния интервал е 0,775. По този начин мениджърът има право да вярва с 95% увереност, че процентът на клиентите, които оценяват новия продукт с 6 или повече точки, ще бъде между 47,5 и 77,5.

Метод 2

Този проблем може да бъде разрешен с помощта на стандартни инструменти StatPro. За да направите това, достатъчно е да се отбележи, че делът в този случай съвпада със средната стойност на колоната Тип. След това прилагаме StatPro/Статистически изводи/Анализ на една извадказа конструиране на доверителен интервал на средната стойност (оценка на математическото очакване) за колоната Тип. Резултатите, получени в този случай, ще бъдат много близки до резултатите от първия метод (фиг. 99).

Доверителен интервал за стандартно отклонение

s се използва като оценка на стандартното отклонение (формулата е дадена в раздел 1). Функцията на плътност на оценката s е функцията хи-квадрат, която, подобно на t-разпределението, има n-1 степени на свобода. Има специални функции за работа с тази дистрибуция CHIDIST и CHIINV.

Доверителният интервал в този случай вече няма да бъде симетричен. Конвенционална гранична диаграма е показана на фиг. 100 .

Пример

Машината трябва да произвежда части с диаметър 10 cm, но поради различни обстоятелства възникват грешки. Контрольорът по качеството е загрижен за две обстоятелства: първо, средната стойност трябва да бъде 10 cm; второ, дори и в този случай, ако отклоненията са големи, тогава много части ще бъдат отхвърлени. Всеки ден той прави проба от 50 части (вижте файла QUALITY CONTROL.XLS (шаблон и решение). Какви заключения може да даде такава проба?

Решение

Нека изградим 95% доверителни интервали за средното и стандартното отклонение, като използваме StatPro/Статистически изводи/Анализ на една извадка(фиг. 101
).

След това, използвайки предположението за нормално разпределение на диаметрите, ние изчисляваме дела на дефектните продукти, като задаваме максимално отклонение от 0,065. Използвайки възможностите на таблицата за заместване (случай на два параметъра), начертаваме зависимостта на дела на дефектите от средната стойност и стандартното отклонение (фиг. 102).
).

Доверителен интервал за разликата между две средни стойности

Това е един от най важни приложениястатистически методи. Примери за ситуации.

    Мениджърът на магазин за дрехи би искал да знае колко повече или по-малко средната клиентка харчи в магазина, отколкото средният клиент мъж.

    Двете авиокомпании летят по сходни маршрути. Потребителска организация би искала да сравни разликата между средните очаквани времена на закъснение на полета за двете авиокомпании.

    Компанията изпраща купони за отделни видовестоки в един град и не изпраща до друг. Мениджърите искат да сравнят средните обеми на покупките на тези продукти през следващите два месеца.

    Търговец на автомобили често се занимава с женени двойки на презентации. За да се разберат личните им реакции към презентацията, двойките често се интервюират отделно. Мениджърът иска да оцени разликата в оценките, дадени от мъжете и жените.

Случай на независими проби

Разликата между средните ще има t-разпределение с n 1 + n 2 - 2 степени на свобода. Доверителният интервал за μ 1 - μ 2 се изразява чрез отношението:

Този проблем може да бъде решен не само с помощта на горните формули, но и с помощта на стандартни инструменти StatPro. За да направите това, достатъчно е да използвате

Доверителен интервал за разликата между пропорциите

Нека е математическото очакване на акциите. Нека са техните извадкови оценки, съставени съответно от извадки с размер n 1 и n 2. След това е оценка за разликата. Следователно доверителният интервал на тази разлика се изразява като:

Тук z cr е стойност, получена от нормално разпределение с помощта на специални таблици (например 1,96 за 95% доверителен интервал).

Стандартната грешка на оценката се изразява в този случай чрез отношението:

.

Пример

Магазинът, подготвяйки се за голяма разпродажба, предприе следните стъпки: маркетингово проучване. Бяха избрани 300 бр най-добрите купувачи, които от своя страна бяха разделени на случаен принцип в две групи от по 150 члена всяка. На всички избрани купувачи бяха изпратени покани за участие в разпродажбата, но само членовете на първата група получиха талон с право на 5% отстъпка. По време на продажбата бяха записани покупките на всички 300 избрани купувачи. Как един мениджър може да интерпретира резултатите и да направи преценка за ефективността на купоните? (вижте файла COUPONS.XLS (шаблон и решение)).

Решение

За нашия конкретен случай от 150 клиенти, получили купон за отстъпка, 55 са направили покупка на разпродажба, а сред 150-те, които не са получили купон, само 35 са направили покупка (Фиг. 103
). Тогава стойностите на пропорциите на извадката са съответно 0,3667 и 0,2333. И пробната разлика между тях е равна съответно на 0,1333. Приемайки 95% доверителен интервал, намираме от таблицата за нормално разпределение z cr = 1,96. Изчисляването на стандартната грешка на разликата в извадката е 0,0524. Най-накрая откриваме, че долната граница на 95% доверителен интервал е 0,0307, ​​и горен лимит 0,2359 съответно. Получените резултати могат да се интерпретират така, че на всеки 100 клиента, получили купон за отстъпка, можем да очакваме от 3 до 23 нови клиента. Трябва обаче да имаме предвид, че това заключение само по себе си не означава ефективността на използването на купони (тъй като предоставяйки отстъпка, губим печалба!). Нека демонстрираме това с конкретни данни. Нека се преструваме, че средният размерпокупка е равна на 400 рубли, от които 50 рубли. има печалба за магазина. Тогава очакваната печалба от 100 клиенти, които не са получили купон, е:

50 0,2333 100 = 1166,50 rub.

Подобни изчисления за 100 клиенти, получили купон, дават:

30 0,3667 100 = 1100,10 rub.

Намаляването на средната печалба до 30 се обяснява с факта, че използвайки отстъпката, клиентите, получили купон, ще направят покупка средно за 380 рубли.

По този начин окончателното заключение показва неефективността на използването на такива купони в тази конкретна ситуация.

Коментирайте. Този проблем може да бъде разрешен с помощта на стандартни инструменти StatPro. За да направите това, достатъчно е да намалите тази задачакъм проблема за оценяване на разликата между две средни стойности с помощта на метода и след това приложете StatPro/Статистически изводи/Анализ с две пробида се изгради доверителен интервал за разликата между две средни стойности.

Контролиране на дължината на доверителния интервал

Дължината на доверителния интервал зависи от следните условия :

    данни директно (стандартно отклонение);

    ниво на значимост;

    размер на извадката.

Размер на извадката за оценка на средната стойност

Първо, нека разгледаме проблема в общия случай. Нека обозначим стойността на половината от дължината на дадения ни доверителен интервал като B (фиг. 104
). Знаем, че доверителният интервал за средната стойност на някаква случайна променлива X се изразява като , Където . Вярвайки:

и изразявайки n, получаваме .

За жалост, точна стойностНе знаем дисперсията на случайната променлива X. Освен това не знаем стойността на tcr, тъй като зависи от n чрез броя на степените на свобода. В тази ситуация можем да направим следното. Вместо дисперсия s, ние използваме някаква оценка на дисперсията въз основа на всякакви налични реализации на изследваната случайна променлива. Вместо стойността t cr, ние използваме стойността z cr за нормалното разпределение. Това е напълно приемливо, тъй като функциите на плътност на разпределението за нормалното и t-разпределението са много близки (с изключение на случая на малки n). Така търсената формула приема формата:

.

Тъй като формулата дава, най-общо казано, нецелочислени резултати, закръгляването с излишък на резултата се приема като желания размер на извадката.

Пример

Заведението за бързо хранене планира да разшири асортимента си с нов вид сандвичи. За да оцени търсенето за него, мениджърът планира да избере произволен брой посетители от тези, които вече са го опитали, и да ги помоли да оценят отношението си към новия продукт по скала от 1 до 10. Мениджърът иска да оцени очаквания брой точки, които новият продукт ще получи продукт и изграждане на 95% доверителен интервал за тази оценка. В същото време той иска полуширината на доверителния интервал да не надвишава 0,3. Колко посетители трябва да интервюира?

както следва:

Тук r otsе оценка на пропорцията p, а B е дадена половина от дължината на доверителния интервал. Надценка за n може да се получи с помощта на стойността r ots= 0,5. В този случай дължината на доверителния интервал няма да надвишава определената стойност B за всяка истинска стойност на p.

Пример

Нека мениджърът от предишния пример планира да оцени дела на клиентите, които са предпочели нов тип продукт. Той иска да конструира 90% доверителен интервал, чиято половин дължина не надвишава 0,05. Колко клиенти трябва да бъдат включени в произволната извадка?

Решение

В нашия случай стойността на z cr = 1,645. Следователно необходимото количество се изчислява като .

Ако мениджърът имаше причина да вярва, че желаната p-стойност е, например, приблизително 0,3, тогава чрез заместване на тази стойност в горната формула, ще получим по-малка стойност на произволна извадка, а именно 228.

Формула за определяне произволен размер на извадката в случай на разлика между две средни стойностинаписан като:

.

Пример

Някои компютърни компании имат център за обслужване на клиенти. IN напоследъкброят на оплакванията на клиентите за лошо качество на услугата се е увеличил. IN център за услугиИма основно два вида служители: тези, които нямат голям опит, но са завършили специални подготвителни курсове, и тези, които имат богат практически опит, но не са завършили специални курсове. Компанията иска да анализира оплакванията на клиенти през последните шест месеца и да сравни средния брой оплаквания за всяка от двете групи служители. Предполага се, че числата в пробите и за двете групи ще бъдат еднакви. Колко служители трябва да бъдат включени в извадката, за да се получи 95% интервал с половин дължина не повече от 2?

Решение

Тук σ ots е оценка на стандартното отклонение на двете случайни променливи при предположението, че са близки. Следователно в нашия проблем трябва по някакъв начин да получим тази оценка. Това може да стане например по следния начин. След като разгледа данните за оплакванията на клиентите през последните шест месеца, мениджърът може да забележи, че всеки служител обикновено получава от 6 до 36 оплаквания. Знаейки, че за нормално разпределение почти всички стойности са не повече от три пъти премахнати от средната стойност стандартни отклонения, той може разумно да вярва, че:

, откъдето σ ots = 5.

Замествайки тази стойност във формулата, получаваме .

Формула за определяне случаен размер на извадката в случай на оценка на разликата между пропорциитеима формата:

Пример

Някои компании имат две фабрики, произвеждащи подобни продукти. Мениджър на фирма иска да сравни процента на дефектни продукти в двете фабрики. Според наличната информация процентът на дефектите и в двата завода варира от 3 до 5%. Предназначен е да се изгради 99% доверителен интервал с половин дължина не повече от 0,005 (или 0,5%). Колко продукта трябва да бъдат избрани от всяка фабрика?

Решение

Тук p 1ots и p 2ots са оценки на два неизвестни дяла от дефекти в 1-ва и 2-ра фабрика. Ако поставим p 1ots = p 2ots = 0,5, тогава получаваме надценена стойност за n. Но тъй като в нашия случай имаме някаква априорна информация за тези дялове, ние вземаме горната оценка на тези дялове, а именно 0,05. Получаваме

Когато се оценяват някои параметри на населението от извадкови данни, е полезно да се даде не само точкова оценкапараметър, но също така посочва доверителен интервал, който показва къде може да се намира точната стойност на изчисления параметър.

В тази глава се запознахме и с количествени зависимости, които ни позволяват да конструираме такива интервали за различни параметри; научени начини за контролиране на дължината на доверителния интервал.

Имайте предвид също, че проблемът с оценката на размера на извадката (проблемът с планирането на експеримент) може да бъде решен с помощта на стандартни инструменти на StatPro, а именно StatPro/Статистически извод/Избор на размер на извадката.

"Катрен-Стил" продължава публикуването на цикъла на Константин Кравчик за медицинска статистика. В две предишни статии авторът се занимава с обяснението на понятия като и.

Константин Кравчик

Математик-аналитик. Специалист в областта статистически изследванияпо медицина и хуманитарни науки

град Москва

Много често в статии за клинични изследванияможете да срещнете мистериозна фраза: „доверителен интервал“ (95 % CI или 95 % CI - доверителен интервал). Например в статията може да пише: „За да оценим значимостта на различията, използвахме t-тест на Стюдънтс изчисление на 95 % доверителен интервал.“

Каква е стойността на „95 % доверителен интервал“ и защо да го изчисляваме?

Какво е доверителен интервал? - Това е диапазонът, в който истинската популация означава лъжа. Има ли „неверни“ средни стойности? В известен смисъл, да, те го правят. В ние обяснихме, че е невъзможно да се измери параметърът от интерес в цялата популация, така че изследователите се задоволяват с ограничена извадка. В тази извадка (например въз основа на телесно тегло) има една средна стойност (определено тегло), по която съдим за средната стойност в цялата популация. Въпреки това е малко вероятно средното тегло в извадка (особено малка) да съвпадне със средното тегло в общата популация. Следователно е по-правилно да се изчисли и използва обхватът на средните стойности на населението.

Например, представете си, че 95% доверителен интервал (95% CI) за хемоглобина е 110 до 122 g/L. Това означава, че има 95% шанс истинската средна стойност на хемоглобина в популацията да бъде между 110 и 122 g/L. С други думи, ние не знаем средно аритметичнохемоглобин в общата популация, но можем да посочим диапазон от стойности за тази характеристика с 95 % вероятност.

Доверителните интервали са особено подходящи за разликите в средните стойности между групите или както се наричат ​​размерите на ефекта.

Да кажем, че сравнихме ефективността на два препарата с желязо: един, който е на пазара от дълго време, и един, който току-що е регистриран. След курса на терапията оценихме концентрацията на хемоглобина в изследваните групи пациенти и статистическата програма изчисли, че разликата между средните стойности на двете групи е с 95 % вероятност в диапазона от 1,72 до 14,36 g/l (Таблица 1).

Таблица 1. Тест за независими проби
(групите се сравняват по нивото на хемоглобина)

Това трябва да се тълкува по следния начин: при някои пациенти от общата популация, които приемат ново лекарство, хемоглобинът ще бъде по-висок средно с 1,72–14,36 g/l, отколкото при тези, които са приемали вече известно лекарство.

С други думи, в общата популация разликата в средните стойности на хемоглобина между групите е в тези граници с 95% вероятност. Изследователят ще прецени дали това е много или малко. Смисълът на всичко това е, че не работим с една средна стойност, а с диапазон от стойности, следователно по-надеждно оценяваме разликата в параметъра между групите.

В статистическите пакети, по преценка на изследователя, можете независимо да стесните или разширите границите на доверителния интервал. Като намаляваме вероятностите на доверителния интервал, ние стесняваме диапазона от средни стойности. Например, при 90 % CI обхватът на средните стойности (или разликата в средните) ще бъде по-тесен, отколкото при 95 %.

Обратно, увеличаването на вероятността до 99 % разширява диапазона от стойности. При сравняване на групи долната граница на CI може да премине нулевата граница. Например, ако разширим границите на доверителния интервал до 99 %, тогава границите на интервала варират от –1 до 16 g/l. Това означава, че в генералната съвкупност има групи, разликата в средните между които за изследваната характеристика е равна на 0 (М = 0).

Използвайки доверителен интервал, можете да проверите статистически хипотези. Ако доверителният интервал пресича нулевата стойност, тогава нулевата хипотеза, която предполага, че групите не се различават по параметъра, който се изследва, е вярна. Примерът е описан по-горе, където разширихме границите до 99 %. Някъде в общата популация открихме групи, които не се различават по никакъв начин.

95% доверителен интервал на разликата в хемоглобина, (g/l)


Фигурата показва 95% доверителен интервал за разликата в средните стойности на хемоглобина между двете групи. Линията минава през нулевия знак, следователно има разлика между средните стойности на нула, което потвърждава нулевата хипотеза, че групите не се различават. Диапазонът на разликата между групите е от –2 до 5 g/L. Това означава, че хемоглобинът може да се понижи с 2 g/L или да се повиши с 5 g/L.

Доверителният интервал е много важен показател. Благодарение на него можете да видите дали разликите в групите наистина се дължат на разликата в средните стойности или на голяма извадка, тъй като при голяма извадка шансовете за откриване на разлики са по-големи, отколкото при малка.

На практика може да изглежда така. Взехме проба от 1000 души, измерихме нивата на хемоглобина и установихме, че доверителният интервал за разликата в средните стойности варира от 1,2 до 1,5 g/l. Нивото на статистическа значимост в този случай p

Виждаме, че концентрацията на хемоглобина се е увеличила, но почти незабележимо, следователно, статистическа значимостсе появи именно поради размера на извадката.

Доверителните интервали могат да бъдат изчислени не само за средни стойности, но и за пропорции (и рискови съотношения). Например, ние се интересуваме от доверителния интервал на пропорциите на пациентите, които са постигнали ремисия, докато са приемали разработено лекарство. Нека приемем, че 95 % CI за пропорциите, т.е. за съотношението на такива пациенти, е в диапазона 0,60–0,80. Така можем да кажем, че нашата медицина има терапевтичен ефектот 60 до 80 % от случаите.

Да предположим, че имаме голям брой артикули с нормално разпределение на някои характеристики (например пълен склад със зеленчуци от един и същи вид, чийто размер и тегло варира). Искате да знаете средните характеристики на цялата партида стоки, но нямате нито време, нито желание да измервате и претегляте всеки зеленчук. Разбирате, че това не е необходимо. Но колко бройки трябва да се вземат за проверка на място?

Преди да дадем няколко формули, полезни за тази ситуация, нека си припомним някои обозначения.

Първо, ако измерихме целия склад със зеленчуци (този набор от елементи се нарича обща съвкупност), тогава бихме знаели с цялата налична за нас точност средното тегло на цялата партида. Нека наречем това средно X ср .g en . - обща авария. Вече знаем какво е напълно определено, ако са известни неговата средна стойност и отклонение s . Вярно, докато не сме нито Х среден генс Не познаваме общото население. Можем да вземем само определена проба, да измерим стойностите, от които се нуждаем, и да изчислим за тази проба както средната стойност X avg, така и стандартното отклонение S select.

Известно е, че ако нашата пробна проверка съдържа голям брой елементи (обикновено n е по-голямо от 30), и те се вземат наистина случайно, след това s общата съвкупност едва ли ще се различава от S селекцията..

В допълнение, за случай на нормално разпределение можем да използваме следните формули:

С вероятност от 95%


С вероятност от 99%



IN общ изгледс вероятност P (t)


Връзката между стойността t и стойността на вероятността P (t), с която искаме да знаем доверителния интервал, може да бъде взета от следната таблица:


Така сме определили в кой диапазон се намира средната стойност за съвкупността (с дадена вероятност).

Освен ако нямаме достатъчно голяма извадка, не можем да кажем това населениеима s = S изберете В допълнение, в този случай близостта на извадката до нормалното разпределение е проблематична. В този случай ние също използваме S select вместо това s във формулата:




но стойността на t за фиксирана вероятност P(t) ще зависи от броя на елементите в извадката n. Колкото по-голямо е n, толкова по-близо ще бъде полученият доверителен интервал до стойността, дадена от формула (1). Стойностите t в този случай са взети от друга таблица (t-тест на Студент), която представяме по-долу:

Стойности на t-теста на Стюдънт за вероятност 0,95 и 0,99


Пример 3. 30 души бяха избрани на случаен принцип от служителите на компанията. Според извадката се оказа, че средната заплата (на месец) е 30 хиляди рубли със стандартно отклонение от 5 хиляди рубли. Определете средната работна заплата във фирмата с вероятност 0,99.

Решение:По условие имаме n = 30, X ср. =30000, S=5000, P = 0.99. За да намерим доверителния интервал, ще използваме формулата, съответстваща на t теста на Стюдънт. От таблицата за n = 30 и P = 0,99 намираме t = 2,756, следователно,


тези. търсен синдикинтервал 27484< Х ср.ген < 32516.

И така, с вероятност от 0,99 можем да кажем, че интервалът (27484; 32516) съдържа в себе си средната работна заплата в компанията.

Надяваме се, че ще използвате този метод и не е необходимо да имате маса с вас всеки път. Изчисленията могат да се извършват автоматично в Excel. Докато сте във файла на Excel, щракнете върху бутона fx в горното меню. След това изберете тип „статистически“ сред функциите и от предложения списък в прозореца - STUDAR DISCOVER. След това при подканата, като поставите курсора в полето „вероятност“, въведете стойността на обратната вероятност (т.е. в нашия случай, вместо вероятността от 0,95, трябва да въведете вероятността от 0,05). Очевидно електронна таблицасе компилира по такъв начин, че резултатът да отговаря на въпроса с каква вероятност можем да направим грешка. По същия начин в полето Степен на свобода въведете стойност (n-1) за вашата проба.



Ново в сайта

>

Най - известен