Domov Prevence Interval spolehlivosti pro matematické očekávání. Interval spolehlivosti pro odhad střední hodnoty (rozptyl je znám) v MS EXCEL

Interval spolehlivosti pro matematické očekávání. Interval spolehlivosti pro odhad střední hodnoty (rozptyl je znám) v MS EXCEL

Odhadce musí často analyzovat trh s nemovitostmi v segmentu, ve kterém se posuzovaná nemovitost nachází. Pokud je trh rozvinutý, může být obtížné analyzovat celý soubor prezentovaných objektů, proto se pro analýzu používá vzorek objektů. Ne vždy se tento vzorek ukáže jako homogenní, někdy je nutné jej očistit od extrémních bodů – příliš vysokých nebo příliš nízkých tržních nabídek. K tomuto účelu se používá interval spolehlivosti. cílová tato studie- provést srovnávací analýzu dvou metod pro výpočet intervalu spolehlivosti a vybrat optimální možnost výpočtu při práci s různými vzorky v systému estimatica.pro.

Interval spolehlivosti- interval hodnot atributů vypočítaný na základě vzorku, který se známou pravděpodobností obsahuje odhadovaný parametr populace.

Smyslem výpočtu intervalu spolehlivosti je sestrojit takový interval na základě výběrových dat, aby bylo možné s danou pravděpodobností konstatovat, že hodnota odhadovaného parametru je v tomto intervalu. Jinými slovy, interval spolehlivosti obsahuje s určitou pravděpodobností neznámá hodnota odhadovaná hodnota. Čím širší interval, tím vyšší nepřesnost.

Existují různé metody pro stanovení intervalu spolehlivosti. V tomto článku se podíváme na 2 způsoby:

  • prostřednictvím mediánu a standardní odchylky;
  • přes kritická hodnota t-statistika (Studentův koeficient).

Etapy srovnávací analýza různé způsoby Výpočet CI:

1. vytvořit vzorek dat;

2. zpracujeme statistickými metodami: vypočítáme průměrnou hodnotu, medián, rozptyl atd.;

3. vypočítat interval spolehlivosti dvěma způsoby;

4. analyzujte vyčištěné vzorky a výsledné intervaly spolehlivosti.

Fáze 1. Vzorkování dat

Vzorek byl vytvořen pomocí systému estimatica.pro. Vzorek obsahoval 91 nabídek na prodej 1+1 bytů ve 3. cenové zóně dispozičního typu „Chruščov“.

Tabulka 1. Počáteční vzorek

Cena 1 m2, jednotka

Obr. 1. Počáteční vzorek



Fáze 2. Zpracování počátečního vzorku

Zpracování vzorku pomocí statistických metod vyžaduje výpočet následujících hodnot:

1. Aritmetický průměr

2. Medián je číslo charakterizující vzorek: přesně polovina prvků vzorku je větší než medián, druhá polovina je menší než medián

(pro vzorek s lichým počtem hodnot)

3. Rozsah - rozdíl mezi maximální a minimální hodnotou ve vzorku

4. Rozptyl – používá se k přesnějšímu odhadu variace dat

5. Vzorová směrodatná odchylka (dále jen SD) je nejběžnějším ukazatelem rozptylu hodnot úprav kolem aritmetického průměru.

6. Variační koeficient – ​​odráží míru rozptylu hodnot úprav

7. oscilační koeficient – ​​odráží relativní kolísání extrémních cenových hodnot ve vzorku kolem průměru

Tabulka 2. Statistické ukazatele původního vzorku

Variační koeficient, který charakterizuje homogenitu dat, je 12,29 %, ale koeficient oscilace je příliš vysoký. Můžeme tedy říci, že původní vzorek není homogenní, přejdeme tedy k výpočtu intervalu spolehlivosti.

Fáze 3. Výpočet intervalu spolehlivosti

Metoda 1. Výpočet pomocí mediánu a směrodatné odchylky.

Interval spolehlivosti se stanoví následovně: minimální hodnota - standardní odchylka se odečte od mediánu; maximální hodnota - směrodatná odchylka se přičte k mediánu.

Interval spolehlivosti (47179 CU; 60689 CU)

Rýže. 2. Hodnoty spadající do intervalu spolehlivosti 1.



Metoda 2. Sestrojení intervalu spolehlivosti pomocí kritické hodnoty t-statistiky (Studentův koeficient)

S.V. Gribovský v knize" Matematické metody Odhad hodnoty vlastnosti“ popisuje způsob výpočtu intervalu spolehlivosti pomocí Studentova koeficientu. Při výpočtu touto metodou musí odhadce sám nastavit hladinu významnosti ∝, která určuje pravděpodobnost, se kterou bude konstruován interval spolehlivosti. Typicky se používají hladiny významnosti 0,1; 0,05 a 0,01. Odpovídají pravděpodobnosti spolehlivosti 0,9; 0,95 a 0,99. S touto metodou se předpokládají skutečné hodnoty matematické očekávání a rozptyly jsou prakticky neznámé (což platí téměř vždy při řešení praktických problémů s odhady).

Vzorec intervalu spolehlivosti:

n - velikost vzorku;

Kritická hodnota t-statistiky (Studentovo rozdělení) s hladinou významnosti ∝, počet stupňů volnosti n-1, která se určuje ze speciálních statistických tabulek nebo pomocí MS Excel (→"Statistické"→ STUDIST);

∝ - hladina významnosti, vezměte ∝=0,01.

Rýže. 2. Hodnoty spadající do intervalu spolehlivosti 2.

Fáze 4. Analýza různých metod pro výpočet intervalu spolehlivosti

K tomu vedly dva způsoby výpočtu intervalu spolehlivosti - prostřednictvím mediánu a Studentova koeficientu různé významy intervalech. V souladu s tím jsme získali dva různé vyčištěné vzorky.

Tabulka 3. Statistika pro tři vzorky.

Index

Počáteční vzorek

1 možnost

Možnost 2

Průměrná hodnota

Disperze

Coef. variace

Coef. oscilace

Počet vysloužilých předmětů, ks.

Na základě provedených výpočtů můžeme říci, že získané různé metody hodnoty intervalů spolehlivosti se prolínají, takže můžete podle uvážení hodnotitele použít kteroukoli z metod výpočtu.

Domníváme se však, že při práci v systému estimatica.pro je vhodné zvolit metodu výpočtu intervalu spolehlivosti v závislosti na stupni vývoje trhu:

  • pokud trh není rozvinutý, použijte metodu výpočtu s použitím mediánu a směrodatné odchylky, protože počet vyřazených objektů je v tomto případě malý;
  • pokud je trh rozvinutý, aplikujte výpočet přes kritickou hodnotu t-statistiky (Studentův koeficient), protože je možné vytvořit velký počáteční vzorek.

Při přípravě článku bylo použito následující:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematické metody pro stanovení hodnoty nemovitosti. Moskva, 2014

2. Systémová data estimatica.pro

Interval spolehlivosti pro matematické očekávání - jedná se o interval vypočítaný z údajů, které se známou pravděpodobností obsahují matematické očekávání běžné populace. Přirozeným odhadem matematického očekávání je aritmetický průměr jeho pozorovaných hodnot. Proto v celé lekci budeme používat termíny „průměr“ a „průměrná hodnota“. V problémech s výpočtem intervalu spolehlivosti je nejčastěji vyžadována odpověď něco jako „Interval spolehlivosti průměrného čísla [hodnota v konkrétním problému] je od [menší hodnota] do [větší hodnota].“ Pomocí intervalu spolehlivosti můžete vyhodnotit nejen průměrné hodnoty, ale také podíl konkrétní charakteristiky v obecné populaci. Průměry, rozptyl, standardní odchylka a chyby, díky nimž dospějeme k novým definicím a vzorcům, jsou diskutovány v lekci Charakteristika vzorku a populace .

Bodové a intervalové odhady průměru

Pokud je průměrná hodnota populace odhadnuta číslem (bodem), pak se jako odhad neznámé průměrné hodnoty populace bere konkrétní průměr, který se vypočítá ze vzorku pozorování. V tomto případě se hodnota výběrového průměru – náhodné veličiny – neshoduje se střední hodnotou obecné populace. Proto při indikaci střední hodnoty vzorku musíte současně uvést chybu vzorku. Mírou výběrové chyby je standardní chyba, která je vyjádřena ve stejných jednotkách jako průměr. Proto se často používá následující zápis: .

Pokud je třeba odhad průměru spojit s určitou pravděpodobností, pak je třeba parametr zájmu v populaci posuzovat nikoli jedním číslem, ale intervalem. Interval spolehlivosti je interval, ve kterém s určitou pravděpodobností P je zjištěna hodnota odhadovaného ukazatele počtu obyvatel. Interval spolehlivosti, ve kterém je to pravděpodobné P = 1 - α náhodná proměnná je nalezena, vypočítaná takto:

,

α = 1 - P, kterou najdete v příloze téměř každé knihy o statistice.

V praxi průměr a rozptyl populace nejsou známy, takže rozptyl populace je nahrazen rozptylem výběru a průměr populace průměrem vzorku. Interval spolehlivosti se tedy ve většině případů vypočítá takto:

.

Vzorec intervalu spolehlivosti lze použít k odhadu střední hodnoty populace, jestliže

  • je známa standardní odchylka základního souboru;
  • nebo standardní odchylka populace není známa, ale velikost vzorku je větší než 30.

Výběrový průměr je nestranný odhad průměru populace. Na druhé straně, rozptyl vzorku není nestranný odhad rozptylu populace. Chcete-li získat nezkreslený odhad rozptylu populace ve vzorci rozptylu vzorku, velikost vzorku n by měl být nahrazen n-1.

Příklad 1 Ze 100 náhodně vybraných kaváren v určitém městě byla shromážděna informace, že průměrný počet zaměstnanců v nich je 10,5 se směrodatnou odchylkou 4,6. Určete 95% interval spolehlivosti pro počet zaměstnanců kavárny.

kde je kritická hodnota normy normální distribuce pro hladinu významnosti α = 0,05 .

95% interval spolehlivosti průměrného počtu zaměstnanců kavárny se tedy pohyboval v rozmezí 9,6 až 11,4.

Příklad 2 Pro náhodný vzorek z populace 64 pozorování byly vypočteny následující celkové hodnoty:

součet hodnot v pozorováních,

součet čtverců odchylek hodnot od průměru .

Vypočítejte 95% interval spolehlivosti pro matematické očekávání.

Pojďme vypočítat směrodatnou odchylku:

,

Vypočítejme průměrnou hodnotu:

.

Hodnoty dosadíme do výrazu pro interval spolehlivosti:

kde je kritická hodnota standardního normálního rozdělení pro hladinu významnosti α = 0,05 .

Dostaneme:

95% interval spolehlivosti pro matematické očekávání tohoto vzorku se tedy pohyboval od 7,484 do 11,266.

Příklad 3 Pro náhodný vzorek populace 100 pozorování je vypočtený průměr 15,2 a směrodatná odchylka je 3,2. Vypočítejte 95% interval spolehlivosti pro očekávanou hodnotu a poté 99% interval spolehlivosti. Pokud výkon vzorku a jeho variace zůstanou nezměněny a koeficient spolehlivosti se zvýší, bude se interval spolehlivosti zužovat nebo rozšiřovat?

Tyto hodnoty dosadíme do výrazu pro interval spolehlivosti:

kde je kritická hodnota standardního normálního rozdělení pro hladinu významnosti α = 0,05 .

Dostaneme:

.

95% interval spolehlivosti pro průměr tohoto vzorku se tedy pohyboval od 14,57 do 15,82.

Tyto hodnoty opět dosadíme do výrazu pro interval spolehlivosti:

kde je kritická hodnota standardního normálního rozdělení pro hladinu významnosti α = 0,01 .

Dostaneme:

.

99% interval spolehlivosti pro průměr tohoto vzorku se tedy pohyboval od 14,37 do 16,02.

Jak vidíme, jak se koeficient spolehlivosti zvyšuje, kritická hodnota standardního normálního rozdělení také roste a v důsledku toho jsou počáteční a koncové body intervalu umístěny dále od průměru, a proto se interval spolehlivosti pro matematické očekávání zvyšuje. .

Bodové a intervalové odhady měrné hmotnosti

Podíl některého atributu vzorku lze interpretovat jako bodový odhad specifická gravitace p stejné vlastnosti v běžné populaci. Pokud je třeba tuto hodnotu spojit s pravděpodobností, měl by se vypočítat interval spolehlivosti specifické hmotnosti p charakteristika v populaci s pravděpodobností P = 1 - α :

.

Příklad 4. V některém městě jsou dva kandidáti A A B kandidují na starostu. Náhodně bylo dotázáno 200 obyvatel města, z nichž 46 % odpovědělo, že by kandidáta volili A, 26 % - pro kandidáta B a 28 % neví, koho budou volit. Určete 95% interval spolehlivosti pro podíl obyvatel města podporujících kandidáta A.

Interval spolehlivosti– limitní hodnoty statistická hodnota, která s danou pravděpodobností γ bude v tomto intervalu při vzorkování většího objemu. Označuje se jako P(θ - ε. V praxi se pravděpodobnost spolehlivosti γ volí z hodnot poměrně blízkých jednotce: γ = 0,9, γ = 0,95, γ = 0,99.

Účel služby. Pomocí této služby můžete určit:

  • interval spolehlivosti pro obecný průměr, interval spolehlivosti pro rozptyl;
  • interval spolehlivosti pro směrodatnou odchylku, interval spolehlivosti pro obecný podíl;
Výsledné řešení se uloží do souboru aplikace Word (viz příklad). Níže je video návod, jak vyplnit počáteční údaje.

Příklad č. 1. Na JZD bylo z celkového stáda 1000 ovcí 100 ovcí podrobeno selektivnímu kontrolnímu stříhání. V důsledku toho byl stanoven průměrný odstřižek vlny 4,2 kg na ovci. Určete s pravděpodobností 0,99 střední čtvercovou chybu vzorku při stanovení průměrného střihu vlny na ovci a mezí, ve kterých je hodnota střihu obsažena, je-li rozptyl 2,5. Vzorek se neopakuje.
Příklad č. 2. Ze šarže dovezených výrobků na poště Moskevské severní celnice bylo náhodným opakovaným vzorkováním odebráno 20 vzorků výrobku „A“. Výsledkem testu byl průměrný obsah vlhkosti produktu „A“ ve vzorku, který se ukázal být roven 6 % se směrodatnou odchylkou 1 %.
Určete s pravděpodobností 0,683 limity průměrné vlhkosti výrobku v celé šarži dovážených výrobků.
Příklad č. 3. Průzkum mezi 36 studenty ukázal, že průměrný počet přečtených učebnic za rok akademický rok, ukázalo se rovna 6. Za předpokladu, že počet učebnic přečtených studentem za semestr má zákon normálního rozdělení se směrodatnou odchylkou rovnou 6, zjistěte: A) se spolehlivostí 0,99 intervalový odhad pro matematický očekávání této náhodné veličiny; B) s jakou pravděpodobností můžeme říci, že průměrný počet přečtených učebnic studentem za semestr, vypočtený z daného vzorku, se bude odchylovat od matematického očekávání podle absolutní hodnota ne více než 2.

Klasifikace intervalů spolehlivosti

Podle typu hodnoceného parametru:

Podle typu vzorku:

  1. Interval spolehlivosti pro nekonečný vzorek;
  2. Interval spolehlivosti pro konečný vzorek;
Vzorek se nazývá převzorkování, pokud se vybraný objekt vrátí do populace před výběrem dalšího. Ukázka se nazývá neopakující se, pokud vybraný objekt není vrácen do populace. V praxi se většinou potýkáme s neopakujícími se vzorky.

Výpočet průměrné výběrové chyby pro náhodný výběr

Nesoulad mezi hodnotami ukazatelů získanými ze vzorku a odpovídajícími parametry obecné populace se nazývá chyba reprezentativnosti.
Označení hlavních parametrů obecné a výběrové populace.
Vzorce průměrných chyb vzorkování
opětovný výběropakovat výběr
za průměrpro sdíleníza průměrpro sdílení
Vztah mezi mezí vzorkovací chyby (Δ) je s určitou pravděpodobností zaručen Р(t), A průměrná chyba vzorek má tvar: nebo Δ = t·μ, kde t– koeficient spolehlivosti, stanovený v závislosti na úrovni pravděpodobnosti P(t) podle tabulky Laplaceovy integrální funkce.

Vzorce pro výpočet velikosti vzorku metodou čistě náhodného výběru

Nechť je náhodná veličina (můžeme mluvit o obecné populaci) rozdělena podle normálního zákona, pro který je znám rozptyl D = 2 (> 0). Z obecné populace (na množině objektů, z nichž je určena náhodná veličina) se udělá vzorek o velikosti n. Vzorek x 1 , x 2 ,..., x n je považován za množinu n nezávislých náhodných veličin rozdělených stejným způsobem jako (přístup vysvětlený výše v textu).

Následující rovnosti byly také diskutovány a prokázány dříve:

Mxi = Mx2 = ... = Mxn = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Stačí jednoduše dokázat (důkaz vynecháme), že náhodná veličina v v tomto případě se také rozděluje podle normálního zákona.

Označme neznámou veličinu M a a na základě dané spolehlivosti vybereme číslo d > 0 tak, aby byla splněna podmínka:

P(- a< d) = (1)

Protože náhodná veličina je rozdělena podle normálního zákona s matematickým očekáváním M = M = a a rozptylem D = D /n = 2 /n, dostáváme:

P(- a< d) =P(a - d < < a + d) =

Zbývá zvolit d takové, aby platila rovnost

Pro kterýkoli z nich můžete použít tabulku k nalezení čísla t takové, že (t)= / 2. Toto číslo t se někdy nazývá kvantil.

Nyní od rovnosti

určíme hodnotu d:

Konečný výsledek získáme předložením vzorce (1) ve tvaru:

Význam posledního vzorce je následující: se spolehlivostí, interval spolehlivosti

pokrývá neznámý parametr a = M populace. Můžete to říct jinak: bodový odhad určuje hodnotu parametru M s přesností d= t / a spolehlivostí.

Úkol. Nechť existuje obecná populace s určitou charakteristikou rozdělenou podle normálního zákona s rozptylem rovným 6,25. Byl odebrán vzorek o velikosti n = 27 a byla získána průměrná výběrová hodnota charakteristiky = 12. Najděte interval spolehlivosti pokrývající neznámé matematické očekávání studované charakteristiky obecné populace se spolehlivostí = 0,99.

Řešení. Nejprve pomocí tabulky pro Laplaceovu funkci zjistíme hodnotu t z rovnosti (t) = / 2 = 0,495. Na základě získané hodnoty t = 2,58 určíme přesnost odhadu (resp. poloviční délku intervalu spolehlivosti) d: d = 2,52,58 / 1,24. Odtud získáme požadovaný interval spolehlivosti: (10,76; 13,24).

statistická hypotéza obecná variační

Interval spolehlivosti pro matematické očekávání normálního rozdělení, když ne známý rozptyl

Nechť je náhodná veličina rozdělená podle normálního zákona s neznámým matematickým očekáváním M, kterou označíme písmenem a. Udělejme vzorek objemu n. Stanovme průměrný výběr a korigovaný výběrový rozptyl s 2 pomocí známých vzorců.

Náhodná hodnota

rozdělené podle Studentova zákona s n - 1 stupni volnosti.

Úkolem je najít číslo t pro danou spolehlivost a počet stupňů volnosti n - 1 takové, aby rovnost

nebo ekvivalentní rovnost

Zde v závorce je napsána podmínka, že hodnota neznámého parametru a patří do určitého intervalu, kterým je interval spolehlivosti. Jeho meze závisí na spolehlivosti a také na parametrech vzorkování a s.

Abychom určili hodnotu t podle velikosti, transformujeme rovnost (2) do tvaru:

Nyní pomocí tabulky pro náhodnou veličinu t rozloženou podle Studentova zákona s použitím pravděpodobnosti 1 - a počtu stupňů volnosti n - 1 najdeme t. Vzorec (3) dává odpověď na nastolený problém.

Úkol. Při kontrolních zkouškách 20 elektrických lamp průměrné trvání jejich práce byla rovna 2000 hodinám se standardní odchylkou (vypočtenou jako druhá odmocnina korigovaného rozptylu vzorku) rovnou 11 hodinám. Je známo, že doba provozu lampy je normálně rozdělena náhodná proměnná. Určete se spolehlivostí 0,95 interval spolehlivosti pro matematické očekávání této náhodné veličiny.

Řešení. Hodnota 1 – v tomto případě se rovná 0,05. Podle Studentovy distribuční tabulky s počtem stupňů volnosti rovným 19 zjistíme: t = 2,093. Vypočítejme nyní přesnost odhadu: 2,093121/ = 56,6. Odtud získáme požadovaný interval spolehlivosti: (1943,4; 2056,6).

Nechť je náhodná veličina X populace normálně rozdělena, vezmeme-li v úvahu, že rozptyl a směrodatná odchylka s tohoto rozdělení jsou známé. Je nutné odhadnout neznámé matematické očekávání pomocí výběrového průměru. V tomto případě je úkolem najít interval spolehlivosti pro matematické očekávání se spolehlivostí b. Pokud nastavíte hodnotu pravděpodobnost spolehlivosti(spolehlivost) b, pak můžete zjistit pravděpodobnost pádu do intervalu pro neznámé matematické očekávání pomocí vzorce (6.9a):

kde Ф(t) je Laplaceova funkce (5.17a).

V důsledku toho můžeme formulovat algoritmus pro nalezení hranic intervalu spolehlivosti pro matematické očekávání, pokud je znám rozptyl D = s 2:

  1. Nastavte hodnotu spolehlivosti – b.
  2. Z (6.14) vyjádřete Ф(t) = 0,5× b. Vyberte hodnotu t z tabulky pro Laplaceovu funkci na základě hodnoty Ф(t) (viz Příloha 1).
  3. Odchylku e vypočítejte pomocí vzorce (6.10).
  4. Zapište pomocí vzorce (6.12) interval spolehlivosti tak, aby s pravděpodobností b platila nerovnost:

.

Příklad 5.

Náhodná veličina X má normální rozdělení. Najděte intervaly spolehlivosti pro odhad se spolehlivostí b = 0,96 neznámého matematického očekávání a, je-li dáno:

1) obecná směrodatná odchylka s = 5;

2) průměr vzorku;

3) velikost vzorku n = 49.

Ve vzorci (6.15) intervalového odhadu matematického očekávání A se spolehlivostí b jsou známy všechny veličiny kromě t. Hodnotu t lze zjistit pomocí (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

Pomocí tabulky v Příloze 1 pro Laplaceovu funkci Ф(t) = 0,48 najděte odpovídající hodnotu t = 2,06. Proto, . Dosazením vypočítané hodnoty e do vzorce (6.12) získáte interval spolehlivosti: 30-1,47< a < 30+1,47.

Požadovaný interval spolehlivosti pro odhad se spolehlivostí b = 0,96 neznámého matematického očekávání je roven: 28,53< a < 31,47.



Novinka na webu

>

Nejoblíbenější