Dom Gumy Seria dystrybucyjna. Podsumowanie statystyczne i grupowanie

Seria dystrybucyjna. Podsumowanie statystyczne i grupowanie

Najważniejszą częścią analizy statystycznej jest konstrukcja szeregów rozkładów (grupowanie strukturalne) w celu uwypuklenia charakterystycznych właściwości i wzorców badanej populacji. W zależności od tego, która cecha (ilościowa czy jakościowa) jest brana za podstawę grupowania danych, odpowiednio rozróżnia się rodzaje szeregów rozkładów.

Jeżeli za podstawę grupowania przyjmuje się cechę jakościową, wówczas nazywa się taką serię rozkładów atrybutywny(podział według rodzaju pracy, płci, zawodu, religii, narodowości itp.).

Jeżeli szereg dystrybucyjny jest skonstruowany na zasadzie ilościowej, wówczas taki szereg nazywa się wariacyjny. Skonstruowanie szeregu wariacyjnego oznacza zorganizowanie ilościowego rozkładu jednostek populacji według wartości charakterystycznych, a następnie policzenie liczby jednostek populacji o tych wartościach (zbudowanie tabeli grupowej).

Istnieją trzy formy szeregów zmienności: szeregi rankingowe, szeregi dyskretne i szeregi przedziałowe.

Seria rankingowa- jest to rozkład poszczególnych jednostek populacji w porządku rosnącym lub malejącym według badanej cechy. Ranking pozwala łatwo podzielić dane ilościowe na grupy, natychmiast wykryć najmniejsze i najwyższa wartość charakterystyczne, podkreśl wartości, które najczęściej się powtarzają.

Innymi formami serii zmienności są tabele grupowe opracowane zgodnie z charakterem zmienności wartości badanej cechy. Ze względu na charakter zmienności wyróżnia się cechy dyskretne (nieciągłe) i ciągłe.

Dyskretna seria- jest to szereg wariacyjny, którego konstrukcja opiera się na cechach o zmianie nieciągłej (charakterystyki dyskretne). Te ostatnie obejmują kategorię taryfową, liczbę dzieci w rodzinie, liczbę pracowników w przedsiębiorstwie itp. Funkcje te mogą przyjmować tylko skończoną liczbę określonych wartości.

Seria zmienności dyskretnej reprezentuje tabelę składającą się z dwóch kolumn. Pierwsza kolumna wskazuje konkretną wartość atrybutu, a druga kolumna wskazuje liczbę jednostek w populacji o określonej wartości atrybutu.

Jeżeli cecha podlega ciągłej zmianie (wysokość dochodu, staż pracy, koszt środków trwałych przedsiębiorstwa itp., Które w pewnych granicach mogą przyjmować dowolne wartości), wówczas dla tej cechy konieczne jest zbudowanie szereg zmian interwałowych.

Tabela grupowa tutaj również ma dwie kolumny. Pierwsza wskazuje wartość atrybutu w przedziale „od - do” (opcje), druga wskazuje liczbę jednostek wchodzących w skład przedziału (częstotliwość).

Częstotliwość (częstotliwość powtórzeń) - liczbę powtórzeń danego wariantu wartości atrybutu oznacza się fi, a sumę częstotliwości równą liczebności badanej populacji

gdzie k jest liczbą opcji wartości atrybutów

Bardzo często tabelę uzupełnia się kolumną, w której wyliczane są skumulowane częstości S, które pokazują, ile jednostek w populacji ma wartość charakterystyczną nie większą od tej wartości.

Częstotliwości serii f można zastąpić częstotliwościami w, wyrażonymi w liczbach względnych (ułamkach lub procentach). Reprezentują one stosunek częstotliwości każdego przedziału do ich całkowita kwota, tj.:

Konstruując szereg wariacyjny z wartościami przedziałów, należy przede wszystkim ustalić wartość przedziału i, który definiuje się jako stosunek zakresu zmienności R do liczby grup m:

gdzie R = xmax - xmin; m = 1 + 3,322 log (wzór Sturgessa); n to całkowita liczba jednostek w populacji.

Do określenia struktury populacji stosuje się specjalne wskaźniki przeciętne, do których zalicza się medianę i modę, czyli tzw. średnie strukturalne. Jeżeli średnią arytmetyczną oblicza się na podstawie wykorzystania wszystkich wariantów wartości atrybutów, to mediana i modyfikacja charakteryzują wartość wariantu, który zajmuje określoną średnią pozycję w rankingu seria odmian.

Mediana (ja)- jest to wartość odpowiadająca opcji znajdującej się w środku szeregu rankingowego.

W przypadku szeregów rankingowych z nieparzystą liczbą poszczególnych wartości (na przykład 1, 2, 3, 3, 6, 7, 9, 9, 10) medianą będzie wartość znajdująca się w środku seria, tj. piąta wielkość.

W przypadku szeregu rankingowego z parzystą liczbą pojedynczych wartości (na przykład 1, 5, 7, 10, 11, 14) medianą będzie średnia arytmetyczna, która jest obliczana na podstawie dwóch sąsiadujących wartości.

Oznacza to, że aby znaleźć medianę, najpierw musisz ją określić numer seryjny(jej pozycja w szeregu rankingowym) zgodnie ze wzorem

gdzie n jest liczbą jednostek w sumie.

Wartość liczbową mediany wyznacza się na podstawie skumulowanych częstotliwości w dyskretnej serii zmian. Aby to zrobić, należy najpierw wskazać przedział, w którym w szeregu przedziałowym rozkładu znajduje się mediana. Mediana to pierwszy przedział, w którym suma skumulowanych częstotliwości przekracza połowę obserwacji z całkowitej liczby wszystkich obserwacji.

Wartość liczbowa mediany

gdzie xMe jest dolną granicą przedziału mediany; i - wartość przedziału; S-1 to skumulowana częstotliwość przedziału poprzedzającego medianę; f jest częstotliwością średniego przedziału.

Moda (poniedziałek) Nazywają to wartością cechy, która występuje najczęściej w jednostkach populacji. Dla szeregu dyskretnego trybem będzie opcja o najwyższej częstotliwości. Aby określić modę seria interwałowa Najpierw wyznaczany jest przedział modalny (przedział o największej częstotliwości). Następnie w tym przedziale znajduje się wartość cechy, która może być modą.

Aby znaleźć konkretną wartość trybu, należy skorzystać ze wzoru

gdzie xMo jest dolną granicą przedziału modalnego; iMo jest wartością interwału modalnego; fMo – częstotliwość przedziału modalnego; fMo-1 - częstotliwość przedziału poprzedzającego modalny; fMo+1 - częstotliwość interwału następującego po modalnym.

Moda jest szeroko rozpowszechniona w działaniach marketingowych przy badaniu popytu konsumenckiego, zwłaszcza przy ustalaniu najpopularniejszych rozmiarów odzieży i obuwia oraz przy regulowaniu polityki cenowej.

Głównym celem analizy szeregów zmian jest identyfikacja wzorca rozkładu, przy jednoczesnym wykluczeniu wpływu czynników losowych na dany rozkład. Można to osiągnąć poprzez zwiększenie objętości badanej populacji i jednoczesne zmniejszenie odstępu szeregu. Kiedy spróbujemy przedstawić te dane graficznie, otrzymamy gładką zakrzywioną linię, która będzie pewnym ograniczeniem dla wielokąta częstotliwości. Linia ta nazywana jest krzywą rozkładu.

Innymi słowy, krzywa dystrybucji istnieje graficzna reprezentacja w postaci ciągłej linii zmian częstotliwości w szeregu zmian, która jest funkcjonalnie powiązana ze zmianą opcji. Krzywa rozkładu odzwierciedla wzór zmian częstotliwości przy braku czynników losowych. Graficzna reprezentacja ułatwia analizę szeregów rozkładowych.

Znanych jest całkiem sporo postaci krzywych rozkładu, wzdłuż których można ułożyć szereg zmian, jednak w praktyce badań statystycznych najczęściej stosowanymi postaciami są rozkład normalny i rozkład Poissona.

Rozkład normalny zależy od dwóch parametrów: średniej arytmetycznej i odchylenia standardowego. Jego krzywa jest wyrażona równaniem

gdzie y jest rzędną krzywej rozkładu normalnego; - odchylenia standardowe; e i π są stałymi matematycznymi; x - warianty szeregu wariacyjnego; - ich średnia wartość; - odchylenie standardowe.

Jeśli chcesz uzyskać teoretyczne częstotliwości f” podczas wyrównywania szeregów zmian wzdłuż krzywej rozkładu normalnego, możesz skorzystać ze wzoru

gdzie jest sumą wszystkich częstotliwości empirycznych szeregu zmian; h - wielkość przedziału w grupach; - odchylenie standardowe; - znormalizowane odchylenie opcji od średniej arytmetycznej; wszystkie inne wielkości można łatwo obliczyć za pomocą specjalnych tabel.

Korzystając z tego wzoru, otrzymujemy rozkład teoretyczny (prawdopodobieństwa)., zastępując je rozkład empiryczny (rzeczywisty). nie powinny różnić się od siebie charakterem.

Jednak w wielu przypadkach, jeśli szereg zmian jest rozkładem według dyskretnej charakterystyki, gdzie wraz ze wzrostem wartości cechy x częstotliwości zaczynają gwałtownie spadać, a średnia arytmetyczna z kolei jest równa do lub blisko wartości dyspersji (), taki szereg jest wyrównany za pomocą krzywej Poissona.

Krzywa Poissona można wyrazić za pomocą relacji

gdzie Px jest prawdopodobieństwem wystąpienia poszczególnych wartości x; - średnia arytmetyczna szeregu.

Wyrównując dane empiryczne, częstości teoretyczne można określić za pomocą wzoru

gdzie f” to częstotliwości teoretyczne; N to całkowita liczba jednostek szeregu.

Porównując uzyskane wartości częstotliwości teoretycznych f” z częstotliwościami empirycznymi (rzeczywistymi) f, jesteśmy przekonani, że różnice między nimi mogą być bardzo małe.

Obiektywną charakterystykę zgodności między częstotliwościami teoretycznymi i empirycznymi można uzyskać za pomocą specjalnych wskaźników statystycznych, zwanych kryteriami zgodności.

Aby ocenić bliskość częstotliwości empirycznych i teoretycznych, stosuje się test dobroci dopasowania Pearsona, test dobroci dopasowania Romanowskiego i test dobroci dopasowania Kołmogorowa.

Najczęstszym jest Test dobroci dopasowania K. Pearsona, które można przedstawić jako sumę stosunków kwadratów różnic między f” i f do częstotliwości teoretycznych:

Obliczoną wartość kryterium należy porównać z wartością tabelaryczną (krytyczną). Wartość tabeli określona przez specjalną tabelę, zależy od przyjętego prawdopodobieństwa P i liczby stopni swobody k (w tym przypadku k = m - 3, gdzie m jest liczbą grup w szeregu rozkładów dla rozkładu normalnego). Obliczając test dobroci dopasowania Pearsona, należy wziąć pod uwagę następujące kwestie: następny warunek: liczba obserwacji powinna być wystarczająco duża (n 50), a jeśli w niektórych przedziałach – częstotliwości teoretyczne< 5, то интервалы объединяют для условия > 5.

Jeżeli , to rozbieżności pomiędzy empirycznym i teoretycznym rozkładem częstotliwości mogą mieć charakter losowy i nie można odrzucić założenia, że ​​empiryczny rozkład jest zbliżony do normalnego.

W przypadku braku tabel pozwalających ocenić losowość rozbieżności pomiędzy częstotliwościami teoretycznymi i empirycznymi można skorzystać kryterium zgodności V.I. Romanowski KR, który posługując się tą wartością zaproponował ocenę bliskości rozkładu empirycznego krzywej rozkładu normalnego za pomocą współczynnika

gdzie m jest liczbą grup; k = (m - 3) - liczba stopni swobody przy obliczaniu częstotliwości rozkładu normalnego.

Jeżeli powyższa zależność< 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение >3, wówczas rozbieżności mogą być dość znaczne, a hipoteza o normalna dystrybucja należy odrzucić.

Kryterium zgodności A.N. Kołmogorow służy do określenia maksymalnej rozbieżności między częstotliwościami rozkładów empirycznych i teoretycznych, obliczonej ze wzoru

gdzie D jest maksymalną wartością różnicy między skumulowanymi częstotliwościami empirycznymi i teoretycznymi; - suma częstotliwości empirycznych.

Korzystając z tablic wartości prawdopodobieństwa, można zastosować kryterium do znalezienia wartości odpowiadającej prawdopodobieństwu P. Jeżeli wartość prawdopodobieństwa P jest istotna w stosunku do wartości znalezionej, to można przyjąć, że rozbieżności pomiędzy rozkładami teoretycznymi i empirycznymi są nieistotny.

Warunkiem koniecznym stosowania kryterium dopasowania Kołmogorowa jest odpowiednio duża liczba obserwacji (co najmniej sto).

statystyczna produkcja ziemniaków

Na podstawie wskaźników zawartych w tabeli 2 zestawiamy szeregi rankingowe produkcji ziemniaków w przeliczeniu na 100 ha gruntów ornych; według plonu ziemniaków; po kosztach. Graficznie przedstawiamy zależności pomiędzy tymi wskaźnikami.

Pierwszy etap badanie statystyczne wariacje to konstrukcja szeregu wariacyjnego - uporządkowanego rozkładu jednostek populacji według rosnących (częściej) lub malejących (rzadziej) wartości cechy.

Istnieją trzy formy szeregów zmienności: szeregi rankingowe, szeregi dyskretne, szeregi przedziałowe. Szereg zmian jest często nazywany szeregiem rozkładu.

Seria rankingowa to lista poszczególnych jednostek populacji w porządku rosnącym (malejącym) według badanej cechy

Ranking to procedura porządkowania obiektów badań, przeprowadzana na podstawie preferencji. Zakres zmienności pokazuje, jak duża jest różnica pomiędzy jednostkami populacji.

Ranga to numer seryjny wartości atrybutów, ułożony w kolejności rosnącej lub malejącej według ich wartości. Jeżeli wartość cechy ma tę samą ocenę ilościową, wówczas rangę wszystkich tych wartości przyjmuje się jako równą średniej arytmetycznej odpowiednich liczb określonych miejsc. Te szeregi nazywane są połączonymi.

Wykresy w statystykach to sposób wizualnego przedstawienia wskaźników statystycznych w formie figury geometryczne oraz znaki, rysunki lub schematyczne mapy. Obraz wizualny ułatwia percepcję informacji, pozwala uchwycić zestaw powiązanych ze sobą wskaźników, zidentyfikować trendy rozwojowe i typowe wskaźniki wskaźników.

Do wyświetlania wskaźników dynamiki zaleca się stosowanie wykresów liniowych lub słupkowych. Harmonogram powinien być wizualny, zrozumiały, łatwy do odczytania i w miarę możliwości zaprojektowany artystycznie, co przyciągnie na niego uwagę.

Podczas konstruowania wykresów punktowych jako próbki graficzne wykorzystuje się zbiór punktów; przy konstruowaniu liniowych - linii. Tworzenie wykresów jest zawsze procesem twórczym. Tutaj wymagane jest pewne wyszukiwanie. Dopiero po skompilowaniu i porównaniu kilku wersji roboczych można określić poprawną kompozycję wykresu, ustawić skalę i położenie znaków na polu wykresu.

Z szeregów rankingowych produkcji ziemniaków na 100 ha użytków rolnych można wyciągnąć następujący wniosek, że najniższą produkcję obserwuje się w okręgu bałaganskim, a najwyższą produktywność ziemniaków w przeliczeniu na 100 hektarów gruntów ornych ma okręg angarski.

Najniższy plon uzyskano w obwodzie kachugskim – 10 c/ha, a najwyższy w usolskim – 195,5 c/ha.

W regionie Chunsky, przy wysokiej produkcji ziemniaków na 100 hektarów gruntów ornych, najniższy koszt wynosił 1 cent. Maksymalny koszt obserwuje się w regionie Niżne-Ilimskie. Rozpiętość ceny kosztu cetnara ziemniaków jest bardzo duża i wynosi 1161,01 rubli.

Inne publikacje

Analiza działalności gospodarczej przedsiębiorstwa
Przejście do gospodarki rynkowej wymaga od przedsiębiorstwa zwiększenia efektywności produkcji, konkurencyjności produktów i usług w oparciu o wdrożenie efektowne formy zarządzanie i zarządzanie produkcją, osiągnięcia postępu naukowo-technicznego, aktywizacja...

Analiza działalności finansowo-gospodarczej JSC TransContainer
Analiza finansowa to proces polegający na badaniu danych kondycja finansowa przedsiębiorstwa i jego przeszłych wyników w celu oceny przyszłych warunków i wyników. Zatem głównym zadaniem analizy finansowej jest...

Wyślij swoją dobrą pracę do bazy wiedzy jest prosta. Skorzystaj z poniższego formularza

Dobra robota do serwisu">

Studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich studiach i pracy, będą Państwu bardzo wdzięczni.

Wysłany dnia http:// www. wszystkiego najlepszego. ru/

Zadanie nr 1

Na podstawie danych obserwacja statystyczna podanych w tabeli, skonstruować szeregi rankingowe, przedziałowe i skumulowane rozkładów przedsiębiorstw rolniczych według charakterystyk czynnikowych i przedstawić je graficznie.

Przeprowadź podsumowanie danych. Korzystając z metody grupowania, określić zależność efektywnej cechy w przedsiębiorstwach rolniczych od czynnika jedności. Konstruuj tabele i wykresy zależności. Wniosek.

współczynnik rozkładu szeregów grupujących

Jakość gleby, punkty (x)

(y)

Rozwiązanie:

Budowarankingowewiersz rozkład zakłada ułożenie wszystkich wariantów szeregu w kolejności rosnącej badanej cechy (jakości gleby). Sortowanie przeprowadzono w programie TP Excel przy pomocy funkcji „Sortowanie”.

Jakość gleby

Produktywność warzyw gruntowych

Graficzne przedstawienie rankingowych szeregów dystrybucji

Linia na ryc. 1 nazywa się ostrołukiem Galtona. Ten ostrołuk ma tendencję do gładkiego wzrostu, w niektórych miejscach z małymi skokami. Aby zamienić serię rankingową na serię interwałową, lepiej jest ręcznie podzielić ją na grupy.

Budowainterwałwiersz Podział przedsiębiorstw według badanych cech polega na ustaleniu liczby grup (przedziałów).

Aby obliczyć liczbę grup, używamy wzoru:

n=2, gdzie N jest całkowitą liczbą jednostek badanej populacji.

n=2 Ig30 = 2,95424251?3.

Wartość równego przedziału oblicza się ze wzoru:

ja = = = 16,33333

Łącznywiersz- jest to szereg, w którym obliczane są skumulowane częstotliwości. Pokazuje, ile jednostek populacji ma wartość charakterystyczną nie większą od tej wartości i oblicza się ją poprzez kolejne dodawanie częstości kolejnych przedziałów do częstotliwości pierwszego przedziału.

Szereg interwałowy i kumulatywny

częstotliwość- liczba przedsiębiorstw w grupie;

Konkretny waga przedsiębiorstwa V Grupa- znalezione według wzoru:

(numerprzedsiębiorstwaVgrupa*100%)/M, gdzie m jest liczbą danych eksperymentalnych;

Skumulowane częstotliwość- znalezione według wzoru: numerprzedsiębiorstwaVpoprzedniGrupa+częstotliwośćdanygrupy.

Histogram częstotliwości

Kumuluje rozkład jakości gleby

Wskaźniki podsumowujące

Numer grupy

Liczba spółek w grupie

Wydajność warzyw mielonych (ogółem według grup)

Jakość gleby (ogółem według grupy)

II 61.33333-77.33333

III 77.33333-94.1

Przeciętna charakterystyka grupy

Nr grupy

Produktywność warzyw gruntowych

Jakość gleby

II 61.33333-77.33333

III 77.33333-94.1

Średnio

gdzie kolumnę „plon warzyw” wyznacza się według wzoru: UUI(WGrupa) / numerprzedsiębiorstwaVGrupa;

kolumnę „Jakość gleby” oblicza się za pomocą wzoru: UXI(Wnumer grupyprzedsiębiorstwaVGrupa.

Zależność plonu warzyw gruntowych od jakości gleby.

W rozważanym przykładzie możemy stwierdzić: wraz ze wzrostem jakości gleby wzrasta plon warzyw gruntowych, dlatego możemy założyć, że istnieje bezpośredni związek między rozpatrywanymi parametrami.

Opublikowano na Allbest.ru

Podobne dokumenty

    Grupowanie analityczne według czynników. Konstrukcja wariacyjnych szeregów częstotliwości i rozkładów skumulowanych w oparciu o równoprzedziałowe grupowanie strukturalne efektywnego atrybutu - dywidendy naliczane w oparciu o wyniki osiągane.

    test, dodano 07.05.2009

    Główne wskaźniki populacji i jej rozmieszczenia w regionie Kaługi. Konstrukcja szeregów rozkładów rankingowych i przedziałowych w oparciu o jedną charakterystykę czynnika grupującego. Analiza typowych grup na podstawie wskaźników średniej populacji.

    praca na kursie, dodano 11.10.2010

    Konstrukcja z wykorzystaniem wzoru Sturgessa. Konstrukcja szeregów dystrybucyjnych o dowolnych przedziałach. Konstruowanie szeregów rozkładowych przy użyciu odchylenia standardowego. Klasyfikacja szeregów dystrybucyjnych. Obliczanie głównych charakterystyk zmienności.

    praca na kursie, dodano 22.11.2013

    Analiza, obliczenia i konstrukcja wstępna szereg czasowy funkcja-funkcja i współczynnik cechy. Obliczanie wskaźników zmienności szeregów czasowych. Ilościowy pomiar bliskości związku cecha-funkcja z czynnikami-cechą przy wykorzystaniu metody korelacji parami.

    praca na kursie, dodano 24.09.2014

    Ocena populacji pod kątem jej jednorodności. Budowa szeregów rozkładów rangowych i interwałowych. Analiza szeregów czasowych metodami powiększania przedziałów i średnich kroczących, wyrównanie analityczne za pomocą równania prostej i paraboli.

    praca na kursie, dodano 09.10.2014

    Obliczanie średniej oceny akademickiej na podstawie wyników sesji, określenie wskaźnika zróżnicowania poziomu wiedzy oraz struktury liczby studentów według wyników w nauce. Budowa szeregu przedziałowego rozkładu przedsiębiorstw. Estymacja współczynników korelacji.

    test, dodano 21.08.2009

    Pojęcie i rodzaje grupowanie statystyczne, prowadzone w celu ustalenia zależności i wzorców statystycznych, określenia struktury badanej populacji. Konstrukcja szeregu przedziałowego rozkładu przedsiębiorstw w oparciu o atrybut „obszar sprzedaży”.

    praca magisterska, dodana 14.02.2016

    Główne kategorie statystyk. Grupowanie jest podstawą naukowego przetwarzania danych statystycznych. Treść podsumowująca i agregat statystyczny. Budowa wariacyjnych, rankingowych i dyskretna seria dystrybucje. Grupowanie przedsiębiorstw według liczby pracowników.

    test, dodano 17.03.2015

    Obliczanie wartości bezwzględnych, względnych, średnich, współczynników regresji i elastyczności, wskaźników zmienności, dyspersji, konstrukcji i analizy szeregów rozkładowych. Charakterystyka analitycznego wyrównania łańcucha i podstawowych szeregów dynamicznych.

    praca na kursie, dodano 20.05.2010

    Przeprowadzenie eksperymentu badania statystyczne zjawiska i procesy społeczno-gospodarcze regionu smoleńskiego w oparciu o określone wskaźniki. Budowa wykresów statystycznych, szeregów rozkładowych, szeregów zmienności, ich uogólnianie i ocena.

Są one prezentowane w formie szeregów dystrybucyjnych i prezentowane są w formie.

Szereg rozkładowy jest jednym z typów grupowania.

Zakres dystrybucji- reprezentuje uporządkowany rozkład jednostek badanej populacji na grupy zgodnie z pewną zmienną cechą.

W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów rozróżnia się je atrybutywne i wariacyjne rzędy dystrybucji:

  • Atrybutywny- nazywane są szeregami dystrybucyjnymi skonstruowanymi według cech jakościowych.
  • Nazywa się serie rozkładów zbudowane w kolejności rosnącej lub malejącej wartości cechy ilościowej wariacyjny.
Szereg zmian rozkładu składa się z dwóch kolumn:

Pierwsza kolumna podaje ilościowe wartości zmiennej charakterystyki, które są tzw opcje i są wyznaczone. Opcja dyskretna - wyrażona jako liczba całkowita. Opcja interwału ma zakres od i do. W zależności od rodzaju opcji można skonstruować szereg dyskretny lub przedziałowy.
Druga kolumna zawiera liczba konkretnych opcji, wyrażone w częstotliwościach lub częstotliwościach:

Częstotliwości- są to liczby bezwzględne, które pokazują, ile razy dana wartość cechy występuje w sumie, co oznacza . Suma wszystkich częstości musi być równa liczbie jednostek w całej populacji.

Częstotliwości() to częstotliwości wyrażone jako procent całości. Suma wszystkich częstotliwości wyrażona w procentach musi być równa 100% w ułamkach jednego.

Graficzne przedstawienie szeregów dystrybucyjnych

Serie dystrybucyjne są prezentowane wizualnie za pomocą obrazów graficznych.

Szeregi dystrybucji są przedstawione jako:
  • Wielokąt
  • Histogramy
  • Kumuluje się
  • Ostrołukowe

Wielokąt

Podczas konstruowania wielokąta na pozioma oś(oś x) wykreślane są wartości zmiennej charakterystyki, a na osi pionowej (oś y) wykreślane są częstotliwości lub częstotliwości.

Wielokąt na rys. 6.1 opiera się na danych z mikrospisu ludności Rosji w 1994 r.

6.1. Rozkład wielkości gospodarstw domowych

Stan: Podano dane dotyczące podziału 25 pracowników jednego z przedsiębiorstw według kategorii taryfowych:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Zadanie: Skonstruuj dyskretną serię zmian i przedstaw ją graficznie jako wielokąt rozkładu.
Rozwiązanie:
W tym przykładzie opcje obejmują stopień wynagrodzenia pracownika. Aby określić częstotliwości, należy obliczyć liczbę pracowników z odpowiednią kategorią taryfową.

Wielokąt jest używany w przypadku szeregów zmienności dyskretnej.

Aby skonstruować wielokąt rozkładu (ryc. 1), nanosimy wartości ilościowe zmiennej charakterystyki – opcji – na osi odciętych (X), a częstotliwości lub częstotliwości na osi współrzędnych.

Jeśli wartości cechy są wyrażone w postaci przedziałów, wówczas taki szereg nazywa się przedziałem.
Seria interwałowa rozkłady są przedstawiane graficznie w postaci histogramu, kumulacji lub ostrołuku.

Tabela statystyczna

Stan: Dane o wielkości złóż podano 20 osoby w jednym banku (tysiąc rubli) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Zadanie: Skonstruuj serię zmian przedziałowych o równych odstępach.
Rozwiązanie:

  1. Początkowa populacja składa się z 20 jednostek (N = 20).
  2. Korzystając ze wzoru Sturgessa, określamy wymaganą liczbę zastosowanych grup: n=1+3,322*lg20=5
  3. Obliczmy wartość równego przedziału: i=(152 - 2) /5 = 30 tysięcy rubli
  4. Podzielmy początkową populację na 5 grup w odstępie 30 tysięcy rubli.
  5. Wyniki grupowania prezentujemy w tabeli:

Przy takim zapisie charakterystyki ciągłej, gdy ta sama wartość występuje dwukrotnie (jako górna granica jednego przedziału i dolna granica drugiego przedziału), to wartość ta należy do grupy, w której wartość ta pełni rolę górnej granicy.

wykres słupkowy

Aby skonstruować histogram, wartości granic przedziałów są wskazane na osi odciętych i na ich podstawie konstruowane są prostokąty, których wysokość jest proporcjonalna do częstotliwości (lub częstotliwości).

Na ryc. 6.2. przedstawia histogram rozmieszczenia ludności Rosji w 1997 r. według grup wiekowych.

Ryż. 6.2. Podział ludności Rosji według grup wiekowych

Stan: Podano rozkład 30 pracowników firmy według miesięcznego wynagrodzenia wynagrodzenie

Zadanie: Wyświetla graficznie serię zmian przedziałów w formie histogramu i kumuluje.
Rozwiązanie:

  1. Nieznaną granicę otwartego (pierwszego) przedziału określa wartość drugiego przedziału: 7000 - 5000 = 2000 rubli. Przy tej samej wartości znajdujemy dolną granicę pierwszego przedziału: 5000 - 2000 = 3000 rubli.
  2. Aby skonstruować histogram w prostokątnym układzie współrzędnych, wykreślamy wzdłuż osi odciętych segmenty, których wartości odpowiadają odstępom serii żylaków.
    Segmenty te służą jako dolna podstawa, a odpowiadająca im częstotliwość (częstotliwość) służy jako wysokość uformowanych prostokątów.
  3. Zbudujmy histogram:

Aby skonstruować kumulacje, należy obliczyć skumulowane częstotliwości (częstotliwości). Wyznacza się je poprzez kolejne sumowanie częstości (częstotliwości) poprzednich przedziałów i oznacza się je S. Skumulowane częstotliwości pokazują, ile jednostek populacji ma wartość charakterystyczną nie większą niż rozpatrywana.

Kumuluje się

Rozkład cechy w szeregu zmian na zakumulowanych częstotliwościach jest przedstawiany za pomocą kumulacji.

Kumuluje się lub krzywa skumulowana, w przeciwieństwie do wielokąta, jest zbudowana ze skumulowanych częstotliwości lub częstotliwości. W tym przypadku wartości charakterystyki umieszczane są na osi odciętych, a zakumulowane częstotliwości lub częstotliwości umieszczane są na osi rzędnych (ryc. 6.3).

Ryż. 6.3. Skumulowany rozkład wielkości gospodarstw domowych

4. Obliczmy skumulowane częstotliwości:
Skumulowaną częstotliwość pierwszego przedziału oblicza się w następujący sposób: 0 + 4 = 4, dla drugiego: 4 + 12 = 16; dla trzeciego: 4 + 12 + 8 = 24 itd.

Konstruując kumulację, skumulowana częstotliwość (częstotliwość) odpowiedniego przedziału jest przypisana do jego górnej granicy:

Ogiva

Ogiva jest skonstruowany podobnie do kumulacji, z tą tylko różnicą, że zakumulowane częstotliwości są umieszczone na osi odciętych, a wartości charakterystyczne na osi rzędnych.

Rodzaj kumulacji to krzywa stężenia lub wykres Lorentza. Aby skonstruować krzywą stężenia, na obu osiach prostokątnego układu współrzędnych nanoszona jest skala skali w procentach od 0 do 100. Jednocześnie na osi odciętych wskazane są skumulowane częstotliwości i skumulowane wartości udziału (w procentach) objętości cechy są wskazane na osi rzędnych.

Równomierny rozkład charakterystyki odpowiada przekątnej kwadratu na wykresie (ryc. 6.4). Przy nierównomiernym rozkładzie wykres przedstawia krzywą wklęsłą w ​​zależności od poziomu koncentracji cechy.

6.4. Krzywa stężenia

Pojęcie podsumowania, grupowania, klasyfikacji

Streszczenie– usystematyzowanie i podsumowanie: komunikaty pogodowe, raporty z pól. Podsumowanie nie pozwala na szczegółową analizę informacji. Każde podsumowanie musi opierać się na grupowaniu danych, tj. najpierw grupowanie, a następnie podsumowanie danych.

Grupowanie– podział populacji na szereg grup według najważniejszych cech.

Istnieją grupy jakościowe i ilościowe. Wysoka jakość– atrybutywny, ilościowy– wariacyjny. Zróżnicowanie z kolei dzieli się na strukturalne i analityczne . Strukturalny grupowanie polega na obliczeniu ciężaru właściwego każdej grupy. Przykład: w przedsiębiorstwie 80% to pracownicy, 20% to pracownicy biurowi, z czego 5% to menedżerowie, 3% to pracownicy biurowi, 12% to specjaliści. Cel analityczny grupowanie - w celu określenia związku między cechami: stażem pracy i średnimi zarobkami, stażem pracy i wynikami i innymi.

Podczas przeprowadzania grupowania konieczne jest:

Przeprowadzenie kompleksowej analizy charakteru badanego zjawiska;

Identyfikacja cechy grupującej (jednej lub kilku);

Wyznacz granice grup w taki sposób, aby grupy znacząco różniły się od siebie, a w każdej grupie łączyły się jednorodne elementy.

W zależności od stopnia złożoności grupowanie może być proste i kombinacyjne (w oparciu o cechy).

Na podstawie wstępnych informacji wyróżnia się grupy pierwotne i wtórne, podstawowy przeprowadzone na podstawie danych z obserwacji wstępnych, wtórny wykorzystuje dane z grupowania podstawowego.

Ustalana jest liczba grup zgodnie ze wzorem Sturgessa:

Gdzie N- liczba grup, N- ogólna populacja.

Jeśli jest używany równe odstępy, To wartość interwału równy .

Interwały mogą być równe lub nierówne. Te ostatnie z kolei dzielą się na te zmieniające się zgodnie z prawem arytmetyki lub postęp geometryczny. Pierwszy i ostatni przedział mogą być otwarte lub zamknięte. Przedziały zamknięte obejmują lub nie obejmują granic przedziałów.

Jeśli przedziały są domknięte i nie ma mowy o uwzględnieniu górnych granic, to tak zakładamy górne granice dołączony.

Jeśli interwały są otwarte, wówczas skupiamy się na ostatnim interwale.

Charakterystykę w tych przedziałach można mierzyć dyskretnie i w sposób ciągły (tj. Podzieloną). Przy znaku ciągłym granice zamykają się 1-10, 10-20, 20-30; jeżeli cecha zmienia się dyskretnie, można zastosować następującą notację: 1 – 10, 11 – 20, 21 – 30.

Jeżeli przedziały są otwarte, to wartość ostatniego przedziału jest równa poprzedniemu, a wartość pierwszego jest równa drugiemu.

Klasyfikacja– grupowanie według kryteriów jakościowych. Jest stosunkowo stabilny, ujednolicony i zatwierdzony przez państwowe organy statystyczne.


3.2. Seria dystrybucyjna: rodzaje i główne cechy

Pod blisko dystrybucji odnosi się do szeregu danych charakteryzujących zjawisko społeczno-gospodarcze w oparciu o jedną cechę. Ten najprostsza forma grupowanie w oparciu o dwie cechy.

Szeregi rozkładów dzielą się na jakościowe i ilościowe, uszeregowane i nieuszeregowane, pogrupowane i niepogrupowane, z dyskretnym i ciągłym rozkładem cechy.

Przykładem niezgrupowanej, nierankingowej serii wynagrodzeń jest lista płac. Jednocześnie listę pracowników można uszeregować alfabetycznie lub według numerów personelu. Przykładem serii rankingowej jest lista drużyn, ranking tenisistów.

Seria rankingowa rozkład - ciąg danych ułożonych malejąco lub rosnąco o cechę.

W przypadku zgrupowanych szeregów rankingowych wyróżnia się następujące cechy: wariant, częstotliwość lub częstotliwość, kumulację i gęstość rozkładu.

Opcja()– średnia wartość przedziału charakterystyki. Ponieważ Tworząc zgrupowanie należy przestrzegać zasady równomierny rozkład charakterystyki w każdym przedziale, wówczas wariant można obliczyć jako połowę sumy granic przedziałów.

Częstotliwość() pokazuje, ile razy występuje dana wartość atrybutu. Względne wyrażenie częstotliwości to częstotliwość(.) , tj. udział, środek ciężkości z sumy częstotliwości.

Kumuluje się() – częstotliwość skumulowana lub częstotliwość, rozliczanie memoriałowe. Wolumen, koszty, dochody liczone są kumulatywnie, tj. wyniki wydajności.

Tabela 1

Grupowanie prądu instytucje kredytowe
według wielkości zarejestrowanych kapitał zakładowy

w 2008 roku w Federacji Rosyjskiej



Nowość na stronie

>

Najbardziej popularny