У дома Предотвратяване Доверителен интервал за математическо очакване. Доверителен интервал за оценка на средната стойност (дисперсията е известна) в MS EXCEL

Доверителен интервал за математическо очакване. Доверителен интервал за оценка на средната стойност (дисперсията е известна) в MS EXCEL

Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира оценяваният имот. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, така че за анализ се използва извадка от обекти. Тази извадка не винаги се оказва хомогенна, понякога е необходимо да я изчистите от крайни точки - твърде високи или твърде ниски пазарни оферти. За тази цел се използва доверителен интервал. Мишена това учение- провеждане на сравнителен анализ на два метода за изчисляване на доверителния интервал и избор на оптималната опция за изчисление при работа с различни проби в системата estimatica.pro.

Доверителен интервал- интервал от стойности на атрибути, изчислени въз основа на извадка, която с известна вероятност съдържа оценения параметър население.

Смисълът на изчисляването на доверителния интервал е да се конструира такъв интервал въз основа на извадкови данни, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал съдържа с определена вероятност неизвестна стойностпрогнозна стойност. Колкото по-широк е интервалът, толкова по-голяма е неточността.

Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 метода:

  • чрез медианата и стандартното отклонение;
  • през критична стойност t-статистика (коефициент на Стюдънт).

Етапи сравнителен анализ различни начиниИзчисление на CI:

1. формира извадка от данни;

2. обработваме го чрез статистически методи: изчисляваме средна стойност, медиана, дисперсия и др.;

3. изчисляване на доверителния интервал по два начина;

4. анализирайте почистените проби и получените доверителни интервали.

Етап 1. Извадка от данни

Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба на 1-стайни апартаменти в 3-та ценова зона с тип "Хрушчов".

Таблица 1. Първоначална проба

Цена 1 кв.м., бр

Фиг. 1. Първоначална проба



Етап 2. Обработка на първоначалната проба

Обработката на извадка с помощта на статистически методи изисква изчисляване на следните стойности:

1. Средно аритметично

2. Медианата е число, характеризиращо извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина са по-малки от медианата

(за извадка с нечетен брой стойности)

3. Диапазон - разликата между максималните и минималните стойности в извадката

4. Дисперсия - използва се за по-точна оценка на вариацията на данните

5. Стандартното отклонение на извадката (наричано по-нататък - SD) е най-често срещаният показател за дисперсията на коригиращите стойности около средноаритметичната стойност.

6. Коефициент на вариация - отразява степента на разсейване на коригиращите стойности

7. коефициент на колебание - отразява относителното колебание на екстремните ценови стойности в извадката около средната

Таблица 2. Статистически показатели на оригиналната извадка

Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде висок. По този начин можем да кажем, че оригиналната проба не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.

Етап 3. Изчисляване на доверителния интервал

Метод 1. Изчисляване с използване на медианата и стандартното отклонение.

Доверителният интервал се определя, както следва: минимална стойност - стандартното отклонение се изважда от медианата; максимална стойност - стандартното отклонение се добавя към медианата.

Така доверителният интервал (47179 CU; 60689 CU)

Ориз. 2. Стойности, попадащи в доверителен интервал 1.



Метод 2. Конструиране на доверителен интервал с помощта на критичната стойност на t-статистиката (коефициент на Стюдънт)

С.В. Грибовски в книгата „ Математически методиОценка на стойността на имота" описва метод за изчисляване на доверителен интервал с помощта на коефициента на Стюдънт. Когато изчислява с помощта на този метод, оценителят трябва сам да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде конструиран доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Те съответстват на доверителни вероятности от 0,9; 0,95 и 0,99. С този метод се приемат истинските стойности математическо очакванеи дисперсиите са практически неизвестни (което почти винаги е вярно при решаване на практически проблеми с оценка).

Формула за доверителен интервал:

n - размер на извадката;

Критичната стойност на t-статистиката (разпределение на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ STUDIST);

∝ - ниво на значимост, приемете ∝=0,01.

Ориз. 2. Стойности, попадащи в доверителния интервал 2.

Етап 4. Анализ на различни методи за изчисляване на доверителния интервал

Два метода за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни значенияинтервали. Съответно получихме две различни почистени проби.

Таблица 3. Статистика за три проби.

Индекс

Първоначална проба

1 вариант

Вариант 2

Средна стойност

дисперсия

Коеф. вариации

Коеф. трептения

Брой излезли от експлоатация обекти, бр.

Въз основа на извършените изчисления можем да кажем, че полученото различни методистойностите на доверителните интервали се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.

Ние обаче вярваме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:

  • ако пазарът е неразвит, използвайте метода за изчисление, като използвате медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
  • ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.

При изготвянето на статията са използвани:

1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имотите. Москва, 2014 г

2. Системни данни estimatica.pro

Доверителен интервал за математическо очакване - това е интервал, изчислен от данни, които с известна вероятност съдържат математическото очакване на генералната съвкупност. Естествена оценка за математическото очакване е средноаритметичното на неговите наблюдавани стойности. Затова през целия урок ще използваме термините „средна стойност“ и „средна стойност“. При проблеми с изчисляване на доверителен интервал, отговорът, който най-често се изисква, е нещо като „Интервалът на доверителност на средната [стойност в определен проблем] е от [по-малка стойност] до [по-голяма стойност].“ Използвайки доверителен интервал, можете да оцените не само средните стойности, но и съотношението на определена характеристика на общата съвкупност. Средни стойности, дисперсия, стандартно отклонениеа грешките, чрез които ще стигнем до нови определения и формули, се обсъждат в урока Характеристики на извадката и съвкупността .

Точкови и интервални оценки на средната стойност

Ако средната стойност на съвкупността се оценява с число (точка), тогава специфична средна стойност, която се изчислява от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на съвкупността. В този случай стойността на извадковата средна - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато посочвате средната стойност на извадката, трябва едновременно да посочите грешката на извадката. Мярката за извадкова грешка е стандартната грешка, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

Ако оценката на средната стойност трябва да бъде свързана с определена вероятност, тогава параметърът от интерес в съвкупността трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на оценения индикатор за населението. Доверителен интервал, в който е вероятно П = 1 - α се намира случайната променлива, изчислена както следва:

,

α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

.

Формулата на доверителния интервал може да се използва за оценка на средната стойност на популацията if

  • стандартното отклонение на съвкупността е известно;
  • или стандартното отклонение на популацията е неизвестно, но размерът на извадката е по-голям от 30.

Средната стойност на извадката е безпристрастна оценка на средната стойност на съвкупността. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да получите безпристрастна оценка на дисперсията на популацията във формулата за дисперсия на извадката, размер на извадката нтрябва да се замени с н-1.

Пример 1.От 100 произволно избрани кафенета в определен град е събрана информация, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете 95% доверителен интервал за броя на служителите в кафенето.

където е критичната стойност на стандарта нормална дистрибуцияза ниво на значимост α = 0,05 .

По този начин 95% доверителен интервал за средния брой служители в кафенето варира от 9,6 до 11,4.

Пример 2.За произволна извадка от популация от 64 наблюдения бяха изчислени следните общи стойности:

сбор от стойности в наблюденията,

сума на квадратните отклонения на стойностите от средната стойност .

Изчислете 95% доверителен интервал за математическото очакване.

Нека изчислим стандартното отклонение:

,

Нека изчислим средната стойност:

.

Заменяме стойностите в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

Пример 3.За произволна популационна извадка от 100 наблюдения изчислената средна стойност е 15,2, а стандартното отклонение е 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат непроменени и коефициентът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

Заменяме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

.

По този начин 95% доверителен интервал за средната стойност на тази проба варира от 14,57 до 15,82.

Отново заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

Получаваме:

.

Така 99% доверителният интервал за средната стойност на тази проба варира от 14,37 до 16,02.

Както виждаме, с увеличаването на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава .

Точкови и интервални оценки на специфичното тегло

Делът на някакъв примерен атрибут може да се интерпретира като точкова оценка специфично тегло стрсъщата характеристика в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в популацията с вероятност П = 1 - α :

.

Пример 4.В някой град има двама кандидати АИ бсе кандидатират за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че биха гласували за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, подкрепящи кандидата А.

Доверителен интервал– гранични стойности статистическа стойност, която с дадена доверителна вероятност γ ще бъде в този интервал при вземане на проби от по-голям обем. Означава се като P(θ - ε. На практика вероятността за доверие γ се избира от стойности, доста близки до единица: γ = 0.9, γ = 0.95, γ = 0.99.

Цел на услугата. Използвайки тази услуга, можете да определите:

  • доверителен интервал за общата средна стойност, доверителен интервал за дисперсията;
  • доверителен интервал за стандартното отклонение, доверителен интервал за общия дял;
Полученото решение се записва във файл на Word (вижте примера). По-долу има видео инструкция за попълване на първоначалните данни.

Пример №1. В колективна ферма от общо стадо от 1000 овце 100 овце са подложени на селективно контролно стригане. В резултат на това е установен среден настриг на вълна от 4,2 кг на овца. Определете с вероятност от 0,99 средната квадратна грешка на извадката при определяне на средното настригане на вълна на овца и границите, в които се съдържа стойността на настригане, ако дисперсията е 2,5. Пробата не се повтаря.
Пример №2. От партида внесени продукти на поста на Московската северна митница бяха взети 20 проби от продукт „А“ чрез произволно повторно вземане на проби. В резултат на теста е установено средното съдържание на влага на продукт „А” в пробата, което се оказва равно на 6% със стандартно отклонение от 1%.
Определете с вероятност 0,683 границите на средното съдържание на влага в продукта в цялата партида внесени продукти.
Пример №3. Анкета сред 36 ученици показа, че средният брой учебници, които четат годишно академична година, се оказа равно на 6. Ако приемем, че броят учебници, прочетени от студент за семестър, има нормален закон на разпределение със стандартно отклонение, равно на 6, намерете: A) с надеждност 0,99, интервална оценка за математическата очакване на тази случайна променлива; Б) с каква вероятност можем да кажем, че средният брой учебници, прочетени от студент за семестър, изчислен от дадена извадка, ще се отклони от математическото очакване според абсолютна стойностне повече от 2.

Класификация на доверителните интервали

По вид параметър, който се оценява:

По тип проба:

  1. Доверителен интервал за безкрайна извадка;
  2. Доверителен интервал за крайната проба;
Пробата се нарича повторна проба, ако избраният обект се върне към популацията, преди да изберете следващия. Пробата се нарича неповтаряща се, ако избраният обект не бъде върнат в популацията. На практика обикновено имаме работа с проби, които не се повтарят.

Изчисляване на средната извадкова грешка за случайна извадка

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри на генералната съвкупност се нарича грешка в представителността.
Обозначения на основните параметри на генералната и извадкова съвкупности.
Формули за средна извадкова грешка
повторна селекцияповторете избора
за средноза споделянеза средноза споделяне
Връзката между границата на извадкова грешка (Δ), гарантирана с известна вероятност Р(t),И средна грешкапробата има формата: или Δ = t·μ, където T– коефициент на доверителност, определен в зависимост от нивото на вероятност P(t) съгласно таблицата на интегралната функция на Лаплас.

Формули за изчисляване на размера на извадката, като се използва метод на чисто случайна извадка

Нека една случайна променлива (може да говорим за генерална съвкупност) е разпределена по нормален закон, за който е известна дисперсията D = 2 (> 0). От генералната съвкупност (на набор от обекти, от които се определя случайна променлива) се прави извадка с размер n. Извадката x 1 , x 2 ,..., x n се разглежда като набор от n независими случайни променливи, разпределени по същия начин като (подхода, обяснен по-горе в текста).

Следните равенства също бяха обсъдени и доказани по-рано:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Достатъчно е просто да докажем (пропускаме доказателството), че случайната променлива в в такъв случайсъщо се разпределя по нормалния закон.

Нека означим неизвестното количество M с a и изберем, въз основа на дадената надеждност, числото d > 0, така че да е изпълнено условието:

P(- a< d) = (1)

Тъй като случайната променлива е разпределена по нормалния закон с математическо очакване M = M = a и дисперсия D = D /n = 2 /n, получаваме:

P(- a< d) =P(a - d < < a + d) =

Остава да изберем d така, че да е в сила равенството

За всяко едно можете да използвате таблицата, за да намерите число t, така че (t)= / 2. Това число t понякога се нарича квантил.

Сега от равенството

нека определим стойността на d:

Получаваме крайния резултат, като представяме формула (1) във формата:

Значението на последната формула е следното: с надеждност, доверителният интервал

обхваща неизвестния параметър a = M от популацията. Можете да го кажете по различен начин: точкова оценкаопределя стойността на параметъра М с точност d= t / и надеждност.

Задача. Нека има генерална съвкупност с определена характеристика, разпределена по нормален закон с дисперсия, равна на 6,25. Взет е размер на извадката от n = 27 и е получена средната извадкова стойност на характеристиката = 12. Намерете доверителен интервал, покриващ неизвестното математическо очакване на изследваната характеристика на генералната съвкупност с надеждност = 0,99.

Решение. Първо, използвайки таблицата за функцията на Лаплас, намираме стойността на t от равенството (t) = / 2 = 0,495. Въз основа на получената стойност t = 2,58 определяме точността на оценката (или половината от дължината на доверителния интервал) d: d = 2,52,58 / 1,24. От тук получаваме необходимия доверителен интервал: (10.76; 13.24).

статистическа хипотеза обща вариационна

Доверителен интервал за математическото очакване на нормално разпределение, когато не известна дисперсия

Нека е случайна променлива, разпределена по нормален закон с неизвестно математическо очакване M, което означаваме с буквата a. Нека направим извадка от обем n. Нека определим средната извадка и коригираната дисперсия на извадката s 2, като използваме известни формули.

Случайна стойност

разпределени по закона на Стюдънт с n - 1 степени на свобода.

Задачата е да се намери число t за дадена надеждност и броя на степените на свобода n - 1, така че равенството

или еквивалентно равенство

Тук в скоби е изписано условието, че стойността на неизвестния параметър a принадлежи към определен интервал, който е доверителният интервал. Неговите граници зависят от надеждността, както и от параметрите на вземане на проби и s.

За да определим стойността на t по големина, преобразуваме равенството (2) във формата:

Сега, използвайки таблицата за случайна променлива t, разпределена според закона на Стюдънт, използвайки вероятност 1 - и броя на степените на свобода n - 1, намираме t. Формула (3) дава отговор на поставения проблем.

Задача. По време на контролни изпитвания на 20 електрически лампи средна продължителносттяхната работа е равна на 2000 часа със стандартно отклонение (изчислено като корен квадратен от коригираната дисперсия на извадката), равно на 11 часа. Известно е, че продължителността на работа на лампата е нормално разпределена случайна величина. Определете с надеждност 0,95 доверителен интервал за математическото очакване на тази случайна променлива.

Решение. Стойност 1 - в този случай е равна на 0,05. Според таблицата за разпределение на Стюдънт, при брой степени на свобода, равен на 19, намираме: t = 2,093. Нека сега изчислим точността на оценката: 2,093121/ = 56,6. От тук получаваме необходимия доверителен интервал: (1943.4; 2056.6).

Нека случайната променлива X на популацията е нормално разпределена, като се има предвид, че дисперсията и стандартното отклонение s на това разпределение са известни. Изисква се да се оцени неизвестното математическо очакване, като се използва средната стойност на извадката. В този случай задачата се свежда до намиране на доверителен интервал за математическото очакване с надеждност b. Ако зададете стойността вероятност за доверие(надеждност) b, тогава можете да намерите вероятността да попаднете в интервала за неизвестно математическо очакване, като използвате формула (6.9a):

където Ф(t) е функцията на Лаплас (5.17а).

В резултат на това можем да формулираме алгоритъм за намиране на границите на доверителния интервал за математическото очакване, ако дисперсията D = s 2 е известна:

  1. Задайте стойността на надеждност – b.
  2. От (6.14) изразете Ф(t) = 0,5 × b. Изберете стойността на t от таблицата за функцията на Лаплас въз основа на стойността Ф(t) (вижте Приложение 1).
  3. Изчислете отклонението e, като използвате формула (6.10).
  4. Запишете доверителен интервал, като използвате формула (6.12), така че с вероятност b да е валидно неравенството:

.

Пример 5.

Случайната променлива X има нормално разпределение. Намерете доверителни интервали за оценка с надеждност b = 0,96 на неизвестното математическо очакване a, ако е дадено:

1) общо стандартно отклонение s = 5;

2) средна стойност на извадката;

3) размер на извадката n = 49.

Във формула (6.15) за интервалната оценка на математическото очакване А с надеждност b всички величини с изключение на t са известни. Стойността на t може да се намери с помощта на (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

Използвайки таблицата в Приложение 1 за функцията на Лаплас Ф(t) = 0,48, намерете съответната стойност t = 2,06. следователно . Като заместите изчислената стойност на e във формула (6.12), можете да получите доверителен интервал: 30-1,47< a < 30+1,47.

Необходимият доверителен интервал за оценка с надеждност b = 0,96 на неизвестното математическо очакване е равен на: 28,53< a < 31,47.



Ново в сайта

>

Най - известен