Domov Dásně Distribuční řada. Statistické shrnutí a seskupení

Distribuční řada. Statistické shrnutí a seskupení

Nejdůležitější částí statistické analýzy je konstrukce distribučních řad (strukturální seskupení) za účelem zvýraznění charakteristických vlastností a vzorců studované populace. Podle toho, který znak (kvantitativní nebo kvalitativní) se bere jako základ pro seskupení dat, se podle toho rozlišují typy distribučních řad.

Pokud se za základ seskupení vezme kvalitativní charakteristika, pak se taková distribuční řada nazývá atributivní(rozdělení podle druhu práce, pohlaví, povolání, náboženství, národnosti atd.).

Pokud je distribuční řada konstruována na kvantitativním základě, pak se taková řada nazývá variační. Sestavit variační řadu znamená uspořádat kvantitativní rozdělení populačních jednotek podle charakteristických hodnot a poté spočítat počet populačních jednotek s těmito hodnotami (sestavit skupinovou tabulku).

Existují tři formy variačních řad: řazené řady, diskrétní řady a intervalové řady.

Hodnocená série- jedná se o rozložení jednotlivých jednotek populace ve vzestupném nebo sestupném pořadí podle studované charakteristiky. Ranking umožňuje jednoduše rozdělit kvantitativní data do skupin, okamžitě detekovat nejmenší a nejvyšší hodnotu charakteristické, zvýrazněte hodnoty, které se nejčastěji opakují.

Dalšími formami variačních řad jsou skupinové tabulky sestavené podle povahy variace hodnot studované charakteristiky. Podle charakteru variace se rozlišují diskrétní (nespojité) a spojité charakteristiky.

Diskrétní série- jedná se o variační řadu, jejíž konstrukce je založena na charakteristikách s nespojitou změnou (diskrétní charakteristiky). Ty zahrnují tarifní kategorii, počet dětí v rodině, počet zaměstnanců v podniku atd. Tyto funkce mohou nabývat pouze konečného počtu konkrétních hodnot.

Série diskrétních variant představuje tabulku, která se skládá ze dvou sloupců. První sloupec udává konkrétní hodnotu atributu a druhý sloupec udává počet jednotek v populaci s konkrétní hodnotou atributu.

Pokud se charakteristika průběžně mění (výše příjmů, odpracovaných let, náklady na dlouhodobý majetek podniku atd., které v určitých mezích mohou nabývat libovolných hodnot), pak je pro tuto charakteristiku nutné postavit intervalová variační řada.

Tabulka skupin zde má také dva sloupce. První udává hodnotu atributu v intervalu „od - do“ (možnosti), druhý udává počet jednotek zahrnutých v intervalu (frekvenci).

Frekvence (frekvence opakování) - počet opakování konkrétní varianty hodnot atributu se značí fi a značí se součet frekvencí rovný objemu studované populace.

kde k je počet možností pro hodnoty atributu

Velmi často je tabulka doplněna sloupcem, ve kterém jsou vypočítány akumulované četnosti S, které ukazují, kolik jednotek v populaci má charakteristickou hodnotu nepřevyšující tuto hodnotu.

Četnosti řady f lze nahradit četnostmi w, vyjádřenými v relativních číslech (zlomky nebo procenta). Představují poměr frekvencí každého intervalu k jejich Celková částka, tj.:

Při konstrukci variační řady s intervalovými hodnotami je nejprve nutné stanovit hodnotu intervalu i, která je definována jako poměr rozsahu variace R k počtu skupin m:

kde R = xmax - xmin; m = 1 + 3,322 logn (Sturgessův vzorec); n je celkový počet jednotek v populaci.

Pro stanovení struktury populace se používají speciální průměrné ukazatele, které zahrnují medián a modus, neboli tzv. strukturální průměry. Pokud je aritmetický průměr vypočítán na základě použití všech variant hodnot atributů, pak medián a režim charakterizují hodnotu varianty, která zaujímá určitou průměrnou pozici v žebříčku. variační série.

Medián (já)- toto je hodnota, která odpovídá možnosti umístěné uprostřed hodnocené řady.

Pro seřazenou řadu s lichým počtem jednotlivých hodnot (například 1, 2, 3, 3, 6, 7, 9, 9, 10) bude medián hodnotou, která se nachází ve středu série, tzn. pátá magnituda.

Pro seřazenou řadu se sudým počtem jednotlivých hodnot (například 1, 5, 7, 10, 11, 14) bude medián aritmetický průměr, který se vypočítá ze dvou sousedních hodnot.

To znamená, že abyste našli medián, musíte jej nejprve určit sériové číslo(jeho pozice v žebříčku) podle vzorce

kde n je počet jednotek v agregaci.

Číselná hodnota mediánu je určena z akumulovaných četností v diskrétních variačních řadách. Chcete-li to provést, musíte nejprve určit interval, kde se nachází medián v intervalové řadě rozdělení. Medián je první interval, kde součet akumulovaných četností přesahuje polovinu pozorování z celkového počtu všech pozorování.

Číselná hodnota mediánu

kde xMe je spodní mez středního intervalu; i - intervalová hodnota; S-1 je akumulovaná frekvence intervalu, který předchází mediánu; f je frekvence středního intervalu.

móda (po) Označují hodnotu vlastnosti, která se vyskytuje nejčastěji v jednotkách populace. U diskrétních sérií bude režim volbou s nejvyšší frekvencí. K určení módy intervalové řady Nejprve se určí modální interval (interval s nejvyšší frekvencí). Potom se v tomto intervalu najde hodnota prvku, což může být režim.

Chcete-li najít konkrétní hodnotu režimu, musíte použít vzorec

kde xMo je spodní mez modálního intervalu; iMo je hodnota modálního intervalu; fMo - frekvence modálního intervalu; fMo-1 - frekvence intervalu předcházejícího modálnímu; fMo+1 - frekvence intervalu následujícího po modálním.

Móda je rozšířena v marketingových aktivitách při studiu spotřebitelské poptávky, zejména při určování nejoblíbenějších velikostí oblečení a obuvi a při regulaci cenové politiky.

Hlavním cílem analýzy variačních řad je identifikovat vzorec distribuce a zároveň vyloučit vliv náhodných faktorů pro dané rozložení. Toho lze dosáhnout zvýšením objemu studované populace a současným snížením intervalu série. Když se pokusíme tato data znázornit graficky, dostaneme nějakou hladkou zakřivenou čáru, která bude určitým limitem pro frekvenční polygon. Tato přímka se nazývá distribuční křivka.

Jinými slovy, distribuční křivka existuje grafické znázornění ve formě souvislé čáry změn frekvence ve variační řadě, která funkčně souvisí se změnou opce. Distribuční křivka odráží vzorec změn frekvence v nepřítomnosti náhodných faktorů. Grafické znázornění usnadňuje analýzu distribučních řad.

Je známo poměrně dost forem distribučních křivek, podél kterých lze seřadit variační řady, ale v praxi statistického výzkumu jsou nejčastěji používané formy normální rozdělení a Poissonovo rozdělení.

Normální rozdělení závisí na dvou parametrech: na aritmetickém průměru a směrodatné odchylce. Jeho křivka je vyjádřena rovnicí

kde y je pořadnice křivky normálního rozdělení; - standardizované odchylky; e a π jsou matematické konstanty; x - varianty variační řady; - jejich průměrná hodnota; - standardní odchylka.

Pokud potřebujete získat teoretické četnosti f" při zarovnání variační řady podél křivky normálního rozdělení, můžete použít vzorec

kde je součet všech empirických četností variačních řad; h - velikost intervalu ve skupinách; - standardní odchylka; - normalizovaná odchylka možností od aritmetického průměru; všechny ostatní veličiny lze snadno vypočítat pomocí speciálních tabulek.

Pomocí tohoto vzorce dostaneme teoretické (pravděpodobnostní) rozdělení, nahrazovat je empirické (skutečné) rozdělení, neměly by se od sebe lišit charakterem.

V řadě případů je však variační řada rozdělením podle diskrétní charakteristiky, kde s rostoucími hodnotami charakteristiky x začnou frekvence prudce klesat a aritmetický průměr se naopak rovná k nebo blízko hodnoty k disperzi (), taková řada je zarovnána Poissonovou křivkou.

Poissonova křivka lze vyjádřit vztahem

kde Px je pravděpodobnost výskytu jednotlivých hodnot x; - aritmetický průměr řady.

Při ekvalizaci empirických dat lze teoretické četnosti určit vzorcem

kde f" jsou teoretické četnosti; N je celkový počet jednotek řady.

Porovnáním získaných hodnot teoretických četností f" s empirickými (skutečnými) četnostmi f jsme přesvědčeni, že jejich rozdíly mohou být velmi malé.

Objektivní charakteristiku korespondence mezi teoretickými a empirickými četnostmi lze získat pomocí speciálních statistických ukazatelů, které se nazývají kritéria shody.

K posouzení blízkosti empirických a teoretických četností se používá Pearsonův test dobré shody, Romanovského test dobré shody a Kolmogorovův test dobré shody.

Nejběžnější je K. Pearsonův test dobré shody, který může být reprezentován jako součet poměrů čtverců rozdílů mezi f" a f k teoretickým četnostem:

Vypočtenou hodnotu kritéria je nutné porovnat s tabulkovou (kritickou) hodnotou. Tabulková hodnota určeno speciální tabulkou, závisí na přijaté pravděpodobnosti P a počtu stupňů volnosti k (v tomto případě k = m - 3, kde m je počet skupin v distribuční řadě pro normální rozdělení). Při výpočtu Pearsonova testu dobré shody je třeba dodržet následující: další podmínka: počet pozorování by měl být dostatečně velký (n 50), a pokud v některých intervalech teoretické četnosti< 5, то интервалы объединяют для условия > 5.

Jestliže , pak nesrovnalosti mezi empirickým a teoretickým rozdělením četností mohou být náhodné a nelze odmítnout předpoklad, že empirické rozdělení je blízké normálu.

V případě, že neexistují tabulky pro posouzení náhodnosti nesouladu mezi teoretickými a empirickými četnostmi, můžete použít kritérium dohody V.I. Romanovský KR, který pomocí hodnoty navrhl vyhodnotit blízkost empirického rozdělení křivky normálního rozdělení pomocí poměru

kde m je počet skupin; k = (m - 3) - počet stupňů volnosti při výpočtu četností normálního rozdělení.

Pokud výše uvedený vztah< 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение >3, pak mohou být nesrovnalosti poměrně významné a hypotéza o normální distribuce by měla být zamítnuta.

Kritérium dohody A.N. Kolmogorov používá se při určování maximálního nesouladu mezi četnostmi empirického a teoretického rozdělení vypočítaného podle vzorce

kde D je maximální hodnota rozdílu mezi akumulovanou empirickou a teoretickou četností; - součet empirických četností.

Pomocí tabulek hodnot pravděpodobnosti lze pomocí kritéria najít hodnotu odpovídající pravděpodobnosti P. Pokud je hodnota pravděpodobnosti P ve vztahu ke zjištěné hodnotě významná, pak můžeme předpokládat, že nesrovnalosti mezi teoretickým a empirickým rozdělením jsou bezvýznamný.

Nezbytnou podmínkou při použití Kolmogorova kritéria dobré shody je dostatečně velký počet pozorování (alespoň sto).

produkce brambor se umístila statisticky

Na základě ukazatelů v tabulce 2 sestavujeme seřazené řádky produkce brambor na 100 hektarů orné půdy; podle výnosu brambor; za cenu. Vztah mezi těmito ukazateli znázorníme graficky.

První etapa statistická studie variace jsou konstrukce variační řady - uspořádané rozložení jednotek populace podle rostoucích (častěji) nebo klesajících (méně často) hodnot charakteristiky.

Existují tři formy variačních řad: řazené řady, diskrétní řady, intervalové řady. Variační série se často nazývá distribuční série.

Seřazená řada je seznam jednotlivých jednotek populace ve vzestupném (sestupném) pořadí podle studované charakteristiky.

Ranking je postup pro uspořádání předmětů studia, který se provádí na základě preference. Variační rozsah ukazuje, jak velký je rozdíl mezi jednotkami v populaci.

Pořadí je pořadové číslo hodnot atributů uspořádaných vzestupně nebo sestupně podle jejich hodnot. Pokud má hodnota charakteristiky stejné kvantitativní hodnocení, pak se pořadí všech těchto hodnot považuje za rovné aritmetickému průměru odpovídajících počtů míst, která jsou určena. Tyto řady se nazývají spojené.

Grafy ve statistice představují způsob, jak ve formuláři vizuálně zobrazit statistické ukazatele geometrické tvary a značky, výkresy nebo schematické mapy. Vizuální obraz usnadňuje vnímání informací, umožňuje zachytit soubor ukazatelů ve vzájemném vztahu, identifikovat vývojové trendy a typické poměry ukazatelů.

Pro zobrazení indikátorů dynamiky je vhodné použít spojnicové grafy nebo sloupcové grafy. Rozvrh by měl být názorný, srozumitelný, dobře čitelný a pokud možno výtvarně zpracovaný, což na něj upoutá.

Při konstrukci bodových grafů se jako grafické vzorky používá sada bodů; při konstrukci lineárních - linií. Mapování je vždy kreativní proces. Zde je potřeba nějaké hledání. Teprve po sestavení a porovnání několika verzí návrhu můžete určit správné složení grafu, nastavit měřítko a umístění znaků na poli grafu.

Z řazené řady produkce brambor na 100 hektarů orné půdy lze vyvodit následující závěr, že nejnižší produkce je pozorována v okrese Balagansky a okres Angarsky má nejvyšší produktivitu brambor na 100 hektarů orné půdy.

Nejnižší výnos byl v okrese Kachugsky - 10 c/ha a nejvyšší v Usolském - 195,5 c/ha.

V oblasti Chunsky s vysokou produkcí brambor na 100 hektarů orné půdy odpovídaly nejnižší náklady 1 c. Maximální náklady jsou pozorovány v regionu Nizhne-Ilimsky. Rozsah kolísání nákladové ceny sto hmotnosti brambor je velmi velký a rovná se 1161,01 rublům.

Další publikace

Analýza ekonomické činnosti podniku
Přechod na tržní hospodářství vyžaduje, aby podnik na základě implementace zvýšil efektivitu výroby, konkurenceschopnost výrobků a služeb efektivní formyřízení a řízení výroby, úspěchy vědeckého a technologického pokroku, aktivace...

Analýza finanční a ekonomické činnosti společnosti JSC TransContainer
Finanční analýza je proces založený na studiu dat o finanční situaci podniku a jeho minulé výkonnosti za účelem posouzení budoucích podmínek a výkonnosti. Hlavním úkolem finanční analýzy je tedy...

Odeslat svou dobrou práci do znalostní báze je jednoduché. Použijte níže uvedený formulář

Dobrá práce na web">

Studenti, postgraduální studenti, mladí vědci, kteří využívají znalostní základnu ve svém studiu a práci, vám budou velmi vděční.

Vloženo na http:// www. vše nejlepší. ru/

Úkol č. 1

Na základě dat statistické pozorování uvedené v tabulce sestrojte řazené, intervalové a kumulativní řady rozdělení zemědělských podniků podle faktorových charakteristik a znázorněte je graficky.

Proveďte shrnutí dat. Pomocí seskupovací metody určete závislost efektivní charakteristiky v zemědělských podnicích na faktoru jedna. Sestavte tabulky a grafy závislostí. Závěr.

seskupovací série distribuční faktor

Kvalita půdy, body (x)

(y)

Řešení:

Konstrukcezařadilřádek rozdělení předpokládá uspořádání všech variant řady v rostoucím pořadí podle studované charakteristiky (kvalita půdy). Třídění bylo provedeno v programu TP Excel pomocí funkce „Třídění“.

Kvalita půdy

Produktivita otevřené zeleniny

Grafické znázornění řazené distribuční řady

Čára na obr. 1 se nazývá Galtonův ogive. Tento ogive má tendenci růst hladce s malými skoky v některých bodech. Chcete-li převést seřazenou řadu na intervalovou, je lepší ji rozdělit do skupin ručně.

Konstrukceintervalřádek Rozdělení podniků podle studovaných charakteristik zahrnuje stanovení počtu skupin (intervalů).

Pro výpočet počtu skupin použijeme vzorec:

n=2, kde N je celkový počet jednotek studované populace.

n=2 Ig30 = 2,95424251-3.

Hodnota rovného intervalu se vypočítá pomocí vzorce:

i = = = 16,33333

Kumulativnířádek- jedná se o řadu, ve které se počítají akumulované frekvence. Ukazuje, kolik jednotek populace má charakteristickou hodnotu ne větší než tato hodnota, a vypočítá se postupným přičtením četností následujících intervalů k četnosti prvního intervalu.

Intervalové a kumulativní řady

frekvence- počet podniků ve skupině;

Charakteristický hmotnost podniky PROTI skupina- nalezený podle vzorce:

(číslopodnikyPROTIskupina*100%)/m, kde m je počet experimentálních dat;

Nahromaděné frekvence- nalezený podle vzorce: číslopodnikyPROTIpředchozískupina+ frekvencedanýskupiny.

Histogram frekvence

Kumulace distribuce kvality půdy

Souhrnné ukazatele

Číslo skupiny

Počet společností ve skupině

Produktivita otevřené zeleniny (celkem podle skupin)

Kvalita půdy (celkem podle skupiny)

II 61,33333-77,33333

III 77,33333-94,1

Průměrné skupinové charakteristiky

Skupina č.

Produktivita otevřené zeleniny

Kvalita půdy

II 61,33333-77,33333

III 77,33333-94,1

V průměru

kde sloupec „výnos zeleniny“ se nachází podle vzorce: UUi(PROTIskupina) / číslopodnikyPROTIskupina;

sloupec "Kvalita půdy" se nachází podle vzorce: UXi(PROTIskupina)/číslopodnikyPROTIskupina.

Závislost výnosu polní zeleniny na kvalitě půdy.

V uvažovaném příkladu můžeme konstatovat, že se zvyšující se kvalitou půdy se zvyšuje výnos volně rostoucí zeleniny, lze tedy předpokládat existenci přímého vztahu mezi uvažovanými parametry.

Publikováno na Allbest.ru

Podobné dokumenty

    Analytické seskupení podle faktoru. Konstrukce variační frekvence a kumulativních distribučních řad založených na rovnointervalovém strukturálním seskupení efektivního atributu - dividendy vzniklé na základě výsledků výkonnosti.

    test, přidáno 07.05.2009

    Hlavní ukazatele populace a její rozložení v regionu Kaluga. Konstrukce řazených a intervalových distribučních řad na základě jedné charakteristiky seskupovacího faktoru. Analýza typických skupin na základě průměrných ukazatelů populace.

    práce v kurzu, přidáno 11.10.2010

    Konstrukce pomocí Sturgessova vzorce. Konstrukce distribučních řad s libovolnými intervaly. Konstrukce distribučních řad pomocí směrodatné odchylky. Klasifikace distribučních řad. Výpočet hlavních charakteristik variace.

    práce v kurzu, přidáno 22.11.2013

    Analýza, výpočet a konstrukce iniciál časové řady vlastnost-funkce a vlastnost-faktor. Výpočet variačních ukazatelů časových řad. Kvantitativní měření blízkosti vztahu mezi vlastnost-funkce a vlastnost-faktory pomocí metody párové korelace.

    práce v kurzu, přidáno 24.09.2014

    Hodnocení homogenity populace. Konstrukce řazených a intervalových distribučních řad. Analýza časových řad pomocí metod zvětšování intervalů a klouzavých průměrů, analytické vyrovnání pomocí rovnice přímky a paraboly.

    práce v kurzu, přidáno 09.10.2014

    Výpočet průměrného akademického skóre na základě výsledků sezení, stanovení ukazatele odchylek úrovně znalostí a struktury počtu studentů podle studijního výkonu. Konstrukce intervalové řady rozložení podniků. Odhad korelačních koeficientů.

    test, přidáno 21.08.2009

    Koncepce a typy statistické seskupení, prováděné s cílem stanovit statistické vztahy a vzorce, identifikovat strukturu studované populace. Konstrukce intervalové řady rozložení podniků na základě atributu „prodejní plocha“.

    práce, přidáno 14.02.2016

    Hlavní kategorie statistiky. Seskupování je základem vědeckého zpracování statistických dat. Souhrnný obsah a statistický agregát. Konstrukce variačních, řazených a diskrétní série distribuce. Seskupení podniků podle počtu pracovníků.

    test, přidáno 17.03.2015

    Výpočet absolutních, relativních, průměrných hodnot, regresních a elastických koeficientů, variačních ukazatelů, disperze, konstrukce a analýzy distribučních řad. Charakteristika analytického uspořádání řetězců a základních řad dynamiky.

    práce v kurzu, přidáno 20.05.2010

    Provádění experimentu statistický výzkum socioekonomických jevů a procesů v regionu Smolensk na základě stanovených ukazatelů. Konstrukce statistických grafů, distribuční řady, variační řady, jejich zobecnění a vyhodnocení.

Jsou prezentovány ve formě distribučních řad a jsou prezentovány ve formě.

Distribuční řada je jedním z typů seskupení.

Distribuční rozsah— představuje uspořádané rozdělení studovaných jednotek populace do skupin podle určité proměnlivé charakteristiky.

V závislosti na charakteristice, která je základem tvorby distribuční řady, se rozlišují atributivní a variační distribuční řádky:

  • Atributivní— se nazývají distribuční řady konstruované podle kvalitativních charakteristik.
  • Nazývají se distribuční řady konstruované ve vzestupném nebo sestupném pořadí hodnot kvantitativní charakteristiky variační.
Distribuční variační řada se skládá ze dvou sloupců:

První sloupec poskytuje kvantitativní hodnoty proměnné charakteristiky, které se nazývají možnosti a jsou určeny. Diskrétní opce – vyjádřená jako celé číslo. Možnost intervalu se pohybuje od a do. V závislosti na typu voleb můžete vytvořit diskrétní nebo intervalovou řadu variací.
Druhý sloupec obsahuje počet konkrétní možnosti, vyjádřeno jako frekvence nebo frekvence:

Frekvence- jedná se o absolutní čísla, která ukazují, kolikrát se daná hodnota charakteristiky vyskytuje v souhrnu, což značí . Součet všech frekvencí se musí rovnat počtu jednotek v celé populaci.

Frekvence() jsou četnosti vyjádřené v procentech z celku. Součet všech četností vyjádřený v procentech se musí rovnat 100 % ve zlomcích jedné.

Grafické znázornění distribuční řady

Distribuční série jsou vizuálně prezentovány pomocí grafických obrázků.

Distribuční série jsou znázorněny jako:
  • Polygon
  • Histogramy
  • Kumuluje se
  • Ogives

Polygon

Při konstrukci polygonu na horizontální osa(osa x) jsou vyneseny hodnoty proměnné charakteristiky a na svislé ose (osa y) jsou vyneseny frekvence nebo frekvence.

Mnohoúhelník na Obr. 6.1 vychází z údajů z mikrosčítání obyvatel Ruska v roce 1994.

6.1. Rozdělení velikosti domácností

Stav: Jsou uvedeny údaje o rozložení 25 zaměstnanců jednoho z podniků podle tarifních kategorií:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Úkol: Vytvořte diskrétní řadu variací a znázorněte ji graficky jako distribuční polygon.
Řešení:
V tomto příkladu jsou možnostmi platová třída zaměstnance. Pro stanovení frekvencí je nutné vypočítat počet zaměstnanců s odpovídající tarifní kategorií.

Polygon se používá pro diskrétní variační řady.

Pro konstrukci distribučního polygonu (obr. 1) vyneseme kvantitativní hodnoty různých charakteristik – možností – na osu x a frekvence nebo frekvence na osu pořadnice.

Pokud jsou hodnoty charakteristiky vyjádřeny ve formě intervalů, pak se taková řada nazývá interval.
Intervalové řady rozdělení jsou znázorněna graficky ve formě histogramu, kumulace nebo ogive.

Statistická tabulka

Stav: Údaje o velikosti vkladů jsou uvedeny 20 Jednotlivci v jedné bance (tisíc rublů) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Úkol: Sestrojte intervalovou variační řadu se stejnými intervaly.
Řešení:

  1. Počáteční populace se skládá z 20 jednotek (N = 20).
  2. Pomocí Sturgessova vzorce určíme potřebný počet použitých skupin: n=1+3,322*lg20=5
  3. Vypočítejme hodnotu stejného intervalu: i=(152 - 2) /5 = 30 tisíc rublů
  4. Rozdělme počáteční populaci do 5 skupin s intervalem 30 tisíc rublů.
  5. Výsledky seskupení uvádíme v tabulce:

Při takovém záznamu spojité charakteristiky, kdy se stejná hodnota vyskytuje dvakrát (jako horní mez jednoho intervalu a dolní mez jiného intervalu), pak tato hodnota patří do skupiny, kde tato hodnota působí jako horní mez.

sloupcový graf

Pro sestavení histogramu jsou hodnoty hranic intervalů vyznačeny na ose x a na jejich základě jsou sestrojeny obdélníky, jejichž výška je úměrná frekvencím (nebo frekvencím).

Na Obr. 6.2. ukazuje histogram rozložení ruské populace v roce 1997 podle věkových skupin.

Rýže. 6.2. Rozložení ruské populace podle věkových skupin

Stav: Je uvedeno rozdělení 30 zaměstnanců společnosti podle měsíční mzdy mzdy

Úkol: Grafické zobrazení řady intervalových variací ve formě histogramu a sčítání.
Řešení:

  1. Neznámá hranice otevřeného (prvního) intervalu je určena hodnotou druhého intervalu: 7000 - 5000 = 2000 rublů. Se stejnou hodnotou najdeme spodní hranici prvního intervalu: 5000 - 2000 = 3000 rublů.
  2. Abychom vytvořili histogram v pravoúhlém souřadnicovém systému, vyneseme podél osy úsečky segmenty, jejichž hodnoty odpovídají intervalům varikózní řady.
    Tyto segmenty slouží jako spodní základna a odpovídající frekvence (frekvence) slouží jako výška vytvořených obdélníků.
  3. Vytvořme histogram:

Pro konstrukci kumulací je nutné vypočítat akumulované frekvence (frekvence). Jsou určeny postupným sečtením četností (četností) předchozích intervalů a jsou označeny S. Akumulované četnosti ukazují, kolik jednotek populace má charakteristickou hodnotu, která není větší než uvažovaná hodnota.

Kumuluje se

Rozložení charakteristiky ve variační řadě přes akumulované frekvence (frekvence) je znázorněno pomocí kumulace.

Kumuluje se nebo kumulativní křivka, na rozdíl od mnohoúhelníku, je konstruována z akumulovaných frekvencí nebo frekvencí. V tomto případě jsou hodnoty charakteristiky umístěny na vodorovné ose a akumulované frekvence nebo frekvence jsou umístěny na ose pořadnice (obr. 6.3).

Rýže. 6.3. Kumuluje rozdělení podle velikosti domácností

4. Vypočítejme akumulované frekvence:
Kumulativní frekvence prvního intervalu se vypočítá následovně: 0 + 4 = 4, pro druhý: 4 + 12 = 16; pro třetí: 4 + 12 + 8 = 24 atd.

Při konstrukci kumulace je akumulovaná frekvence (frekvence) odpovídajícího intervalu přiřazena k jeho horní hranici:

Ogiva

Ogiva je konstruován podobně jako kumulace s jediným rozdílem, že akumulované frekvence jsou umístěny na ose x a charakteristické hodnoty jsou umístěny na ose pořadnice.

Typ kumulace je koncentrační křivka nebo Lorentzův graf. Pro sestavení koncentrační křivky je na obou osách pravoúhlého souřadnicového systému vynesena stupnice v procentech od 0 do 100. Současně jsou na vodorovné ose uvedeny akumulované frekvence a akumulované hodnoty podílu. (v procentech) objemových charakteristik jsou uvedeny na ose pořadnice.

Rovnoměrné rozložení charakteristiky odpovídá úhlopříčce čtverce na grafu (obr. 6.4). Při nerovnoměrném rozložení představuje graf konkávní křivku v závislosti na úrovni koncentrace znaku.

6.4. Křivka koncentrace

Pojem souhrn, seskupení, klasifikace

souhrn– systemizace a shrnutí: zprávy o počasí, zprávy z polí. Souhrn neumožňuje podrobně analyzovat informace. Jakékoli shrnutí musí být založeno na seskupování dat, tzn. nejprve seskupení a poté shrnutí dat.

Seskupování– rozdělení populací do řady skupin podle nejvýznamnějších charakteristik.

Existují kvalitativní a kvantitativní seskupení. Vysoká kvalita- atributivní, kvantitativní– variační. Variace se zase dělí na strukturální a analytické . Strukturální seskupování zahrnuje výpočet specifické hmotnosti každé skupiny. Příklad: v podniku je 80 % pracovníků, 20 % kancelářských pracovníků, z toho 5 % manažerů, 3 % administrativních pracovníků, 12 % specialistů. cílová analytická seskupení - k identifikaci vztahu mezi charakteristikami: odsloužená doba a průměrný výdělek, odsloužená doba a výkon a další.

Při provádění seskupování je nutné:

Provádění komplexní analýzy povahy studovaného jevu;

Identifikace seskupovacího znaku (jeden nebo více);

Hranice skupin nastavte tak, aby se skupiny od sebe výrazně lišily a v každé skupině byly kombinovány homogenní prvky.

Podle stupně složitosti mohou být seskupení jednoduchá a kombinační (na základě charakteristik).

Na základě prvotních informací se rozlišují primární a sekundární skupiny, hlavní provedené na základě údajů z počátečního pozorování, sekundární používá data z primárního seskupení.

Počet skupin je určen podle Sturgessova vzorce:

Kde n- počet skupin, N– běžná populace.

Pokud se používá stejné intervaly, Že intervalová hodnota rovná .

Intervaly mohou být stejné nebo nestejné. Ty druhé se zase dělí na ty měnící se podle zákona aritmetického resp geometrická progrese. První a poslední interval mohou být otevřené nebo uzavřené. Uzavřené intervaly zahrnují nebo nezahrnují hranice intervalů.

Pokud jsou intervaly uzavřené a nic se neříká o zahrnutí horních hranic, pak to předpokládáme horní hranice zahrnuta.

Pokud jsou intervaly otevřené, pak se zaměříme na poslední interval.

Charakteristiku v těchto intervalech lze měřit diskrétně a spojitě (tj. dělit). Se souvislým znakem se hranice uzavírají 1-10, 10-20, 20-30; pokud se charakteristika mění diskrétně, lze použít následující zápis: 1 – 10, 11 – 20, 21 – 30.

Pokud jsou intervaly otevřené, pak je hodnota posledního intervalu rovna předchozímu a hodnota prvního je rovna druhému.

Klasifikace– seskupování podle kvalitativních kritérií. Je poměrně stabilní, standardizovaný a schválený orgány státní statistiky.


3.2. Distribuční řady: typy a hlavní charakteristiky

Pod blízko distribuce odkazuje na řadu údajů charakterizujících socioekonomický jev podle jednoho kritéria. Tento nejjednodušší forma seskupení založené na dvou charakteristikách.

Distribuční řady se dělí na kvalitativní a kvantitativní, řazené a neseřazené, seskupené a neseskupené, s diskrétním a spojitým rozdělením charakteristiky.

Příkladem neseskupené, neseřazené řady platů je výplatní páska. Zároveň lze seznam zaměstnanců řadit abecedně nebo podle personálních čísel. Příkladem hodnocené série je seznam týmů, pořadí tenistů.

Hodnocená série rozdělení - řada dat uspořádaných v sestupném nebo vzestupném pořadí charakteristiky.

U seskupených řazených řad se rozlišují tyto charakteristiky: varianta, frekvence nebo frekvence, kumulace a hustota distribuce.

Volba()– průměrná intervalová hodnota charakteristiky. Protože Při vytváření seskupení je třeba dodržet zásadu rovnoměrné rozložení charakteristiku v každém intervalu, pak lze variantu vypočítat jako polovinu součtu hranic intervalů.

Frekvence() ukazuje, kolikrát se daná hodnota atributu vyskytuje. Relativní frekvenční vyjádření je frekvence(.) , tj. podíl, specifická gravitace ze součtu frekvencí.

Kumuluje se() – kumulovaná frekvence nebo frekvence, výpočet na akruální bázi. Objem, náklady, výnosy se počítají kumulativně, tzn. výkonnostní výsledky.

stůl 1

Seskupování proudu úvěrové instituce
podle velikosti registrovaného základní kapitál

v roce 2008 v Ruské federaci



Novinka na webu

>

Nejoblíbenější