Dom Pokryty język Jeżeli szereg wariacyjny ma postać. Zmienność i szeregi zmienności, zakres zmienności

Jeżeli szereg wariacyjny ma postać. Zmienność i szeregi zmienności, zakres zmienności

Wariacyjny nazywane są szeregami dystrybucyjnymi skonstruowanymi na zasadzie ilościowej. Wartości cech ilościowych w poszczególnych jednostkach populacji nie są stałe i mniej więcej różnią się od siebie.

Zmiana- fluktuacja, zmienność wartości cechy pomiędzy jednostkami populacji. Oddzielny wartości liczbowe cechy występujące w badanej populacji nazywane są opcje wartości. Niewystarczająca średnia wartość dla pełna charakterystyka populacja zmusza nas do uzupełnienia wartości średnich wskaźnikami, które pozwalają ocenić typowość tych średnich poprzez pomiar zmienności (wariacji) badanej cechy.

Obecność zmienności wynika z wpływu dużej liczby czynników na kształtowanie się poziomu cechy. Czynniki te działają z nierówną siłą i w różnych kierunkach. Wskaźniki zmienności służą do opisu miary zmienności cechy.

Zadania badanie statystyczne odmiany:

  • 1) badanie charakteru i stopnia zmienności cech w poszczególnych jednostkach populacji;
  • 2) określenie roli poszczególnych czynników lub ich grup w kształtowaniu się określonych cech populacji.

Stosowany w statystykach specjalne metody badania zmienności w oparciu o wykorzystanie systemu wskaźników, Z za pomocą którego mierzy się zmienność.

Badanie odmian ma ważny. Pomiar odchyleń jest niezbędny podczas pobierania próbek, korelacji i analiza wariancji itp. Ermolaev O.Yu. Statystyka matematyczna dla psychologów: Podręcznik [Tekst]/ O.Yu. Ermołajew. - M .: Wydawnictwo Flint Moskiewskiego Instytutu Psychologiczno-Społecznego, 2012. - 335 s.

Na podstawie stopnia zmienności można ocenić jednorodność populacji, stabilność poszczególnych wartości cech i typowość średniej. Na ich podstawie opracowywane są wskaźniki bliskości związku między cechami oraz wskaźniki oceny trafności obserwacji próbki.

Rozróżnia się zmienność w przestrzeni i zmienność w czasie.

Zmienność w przestrzeni rozumiana jest jako fluktuacja wartości atrybutów pomiędzy jednostkami populacji reprezentującymi poszczególne terytoria. Zmiana w czasie oznacza zmianę wartości cechy różne okresy czas.

Aby zbadać zmienność rzędów dystrybucji, wszystkie warianty wartości atrybutów są ułożone w kolejności rosnącej lub malejącej. Proces ten nazywany jest rankingiem wierszy.

Najbardziej proste znaki różnice są minimalne i maksymalne- najmniej i najwyższa wartość znaki w sumie. Liczba powtórzeń poszczególnych wariantów wartości cech nazywana jest częstotliwością powtarzania (fi). Wygodnie jest zastąpić częstotliwości częstotliwościami - wi. Częstotliwość to względny wskaźnik częstotliwości, który można wyrazić w ułamkach jednostki lub procentach i pozwala na porównanie szeregów zmian z inny numer obserwacje. Wyrażone wzorem:

gdzie Xmax, Xmin są maksymalnymi i minimalnymi wartościami cechy w agregacie; n - liczba grup.

Aby zmierzyć zmienność cechy, stosuje się różne wskaźniki bezwzględne i względne. Bezwzględne wskaźniki zmienności obejmują zakres zmienności, średnie odchylenie liniowe, rozproszenie i odchylenie standardowe. Względne wskaźniki oscylacji obejmują współczynnik oscylacji, względne odchylenie liniowe i współczynnik zmienności.

Znalezienie przykładu seria odmian

Ćwiczenia. Dla tej próbki:

  • a) Znajdź szereg zmian;
  • b) Skonstruuj funkcję rozkładu;

Nr=42. Przykładowe elementy:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Rozwiązanie.

  • a) konstrukcja uszeregowanego szeregu zmian:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konstrukcja dyskretnego szeregu zmian.

Obliczmy liczbę grup w szeregu wariacyjnym, korzystając ze wzoru Sturgessa:

Przyjmijmy liczbę grup równą 7.

Znając liczbę grup, obliczamy wielkość przedziału:

Dla wygody konstruowania tabeli przyjmiemy liczbę grup równą 8, przedział będzie wynosił 1.

Ryż. 1 Wielkość sprzedaży towarów przez sklep w określonym czasie

Zmienność decyduje różnice w wartościach cechy pomiędzy różnymi jednostkami danej populacji w tym samym okresie (punktie w czasie). Przyczyny różnic są różne warunki istnienie różnych jednostek całości. Na przykład nawet bliźnięta w ciągu życia nabywają różnice we wzroście, wadze, a także w takich cechach, jak poziom wykształcenia, dochody, liczba dzieci itp.

Odchylenie powstaje w wyniku faktu, że wartości samego atrybutu kształtują się pod całkowitym wpływem różnych warunków, które w każdym indywidualnym przypadku łączą się na różne sposoby. Zatem wartość każdej opcji jest obiektywna.

Charakterystyczna jest zmienność do wszystkich zjawisk natury i społeczeństwa, bez wyjątku, z wyjątkiem prawnie ustalonych normatywnych znaczeń indywidualnych cech społecznych. Badania dotyczące zmian w statystykach wykazały Świetna cena, pomagają zrozumieć istotę badanego zjawiska. Znalezienie zmienności, ustalenie jej przyczyn, identyfikacja wpływu poszczególnych czynników daje ważna informacja w celu wdrożenia decyzji zarządczych opartych na podstawach naukowych.

Wartość średnia daje uogólnioną charakterystykę charakterystyki populacji, ale nie ujawnia jej struktury. Wartość średnia nie pokazuje, jak wokół niej rozmieszczone są warianty uśrednionej cechy, czy są one rozmieszczone w pobliżu średniej, czy też od niej odbiegają. Średnia w dwóch populacjach może być taka sama, ale w jednej wersji wszystkie indywidualne wartości różnią się od niej nieznacznie, a w drugiej różnice te są duże, tj. w pierwszym przypadku zmienność cechy jest mała, w drugim duża, co jest bardzo ważne dla scharakteryzowania znaczenia wartości średniej.

Aby szef organizacji, menedżer czy badacz mógł badać zmienność i zarządzać nią, statystyka opracowała specjalne metody badania zmienności (system wskaźników). Za ich pomocą stwierdza się zmienność i charakteryzuje jej właściwości. Wskaźniki zmienności obejmują : zakres zmienności, średnie odchylenie liniowe, współczynnik zmienności.

Szereg wariacyjny i jego formy

Seria odmian- jest to uporządkowany rozkład jednostek populacji, często według rosnących (rzadziej malejących) wartości cechy i obliczania liczby jednostek o określonej wartości cechy. Gdy liczba jednostek populacji jest duża, szereg rankingowy staje się uciążliwy, a jego konstrukcja zajmuje dużo czasu długi czas. W takiej sytuacji konstruuje się szereg zmian, grupując jednostki populacji według wartości badanej cechy.

Są następujące formy szeregów wariacyjnych :

  1. Seria rankingowa reprezentuje listę poszczególnych jednostek populacji w porządku rosnącym (malejącym) według badanej cechy.
  2. Dyskretne serie zmian - jest to tabela składająca się z dwóch linii lub wykresów: konkretnych wartości zmiennej charakterystyki x oraz liczby jednostek populacji o danej wartości f - charakterystyki częstotliwościowej. Jest konstruowany, gdy atrybut przyjmuje największą liczbę wartości.
  3. Seria interwałowa.

Określany jest zakres zmienności jako wartość bezwzględna różnicy pomiędzy wartościami maksymalnymi i minimalnymi (wariantami) cechy:

Pokazuje zakres zmienności tylko skrajne odchylenia charakterystyki i nie odzwierciedla indywidualnych odchyleń wszystkich opcji w serii. Charakteryzuje ona granice zmian zmiennej charakterystyki i jest zależna od wahań dwóch skrajnych opcji i absolutnie nie jest powiązana z częstościami w szeregu zmian, czyli z naturą rozkładu, który nadaje tej wartości losowy charakter. Do analizy zmienności potrzebny jest wskaźnik, który odzwierciedla wszystkie wahania charakterystyki zmienności i daje ogólna charakterystyka. Najprostszym wskaźnikiem tego typu jest średnie odchylenie liniowe.

Szeregi rozkładu statystycznego– jest to uporządkowany rozkład jednostek populacji na grupy według pewnej zmiennej cechy.
W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów istnieją szeregi dystrybucyjne atrybutywne i wariacyjne.

Obecność wspólnej cechy jest podstawą do utworzenia populacji statystycznej, która reprezentuje wyniki opisu lub pomiaru wspólne cechy obiekty badawcze.

Przedmiotem badań statystycznych są zmieniające się (zmienne) cechy lub cechy statystyczne.

Rodzaje cech statystycznych.

Szeregi rozkładowe nazywane są atrybutywnymi zbudowany zgodnie z kryteriami jakości. Atrybutywny– jest to znak, który ma nazwę (np. zawód: krawcowa, nauczycielka itp.).
Szeregi rozkładów przedstawia się zazwyczaj w formie tabel. W tabeli 2.8 przedstawia szereg rozkładu atrybutów.
Tabela 2.8 – Rozmieszczenie gatunków pomoc prawna usługi świadczone przez prawników obywatelom jednego z regionów Federacji Rosyjskiej.

Seria odmian– są to wartości charakterystyki (lub przedziały wartości) i ich częstotliwości.
Szereg zmian to szeregi rozkładu, zbudowane na zasadzie ilościowej. Każda seria odmian składa się z dwóch elementów: opcji i częstotliwości.
Warianty są uważane za indywidualne wartości cechy, które przyjmuje ona w serii zmian.
Częstotliwości to liczba poszczególnych wariantów lub każdej grupy szeregu zmian, tj. Są to liczby pokazujące, jak często w szeregu rozkładów występują określone opcje. Suma wszystkich częstotliwości określa wielkość całej populacji, jej objętość.
Częstotliwości to częstotliwości wyrażone jako ułamki jednostki lub jako procent całości. Odpowiednio suma częstotliwości jest równa 1 lub 100%. Szereg wariacyjny pozwala na oszacowanie postaci prawa dystrybucji na podstawie danych rzeczywistych.

W zależności od charakteru zmienności cechy, istnieją dyskretne i interwałowe serie zmian.
Przykład dyskretnego szeregu zmian podano w tabeli. 2.9.
Tabela 2.9. Rozkład rodzin według liczby zajmowanych pokoi w poszczególnych mieszkaniach w 1989 r. w Federacji Rosyjskiej.

Pierwsza kolumna tabeli przedstawia opcje dyskretnej serii zmian, druga kolumna zawiera częstotliwości serii zmian, a trzecia zawiera wskaźniki częstotliwości.

Seria odmian

W populacja badana jest pewna cecha ilościowa. Pobierana jest z niego losowo próbka objętości N, czyli liczba elementów próbki jest równa N. Na pierwszym etapie przetwarzania statystycznego nośny próbki, tj. zamawianie numeru x 1 , x 2 , …, x rz Rosnąco. Każda zaobserwowana wartość x ja zwany opcja. Częstotliwość ja jest liczbą obserwacji wartości x ja w próbce. Częstotliwość względna (częstotliwość) w ja jest stosunkiem częstotliwości ja do wielkości próbki N: .
Podczas badania szeregów zmian stosuje się również pojęcia częstotliwości skumulowanej i częstotliwości skumulowanej. Pozwalać X jakiś numer. Następnie liczba opcji , których wartości są mniejsze X, nazywa się częstotliwością skumulowaną: dla x i N nazywa się częstotliwością skumulowaną w i max.
Cechę nazywamy zmienną dyskretną, jeśli jej poszczególne wartości (warianty) różnią się od siebie o pewną skończoną wartość (zwykle liczbę całkowitą). Szereg zmian takiej cechy nazywany jest szeregiem zmian dyskretnych.

Tabela 1. Ogólny widok szeregu częstotliwości dyskretnych zmian

Wartości charakterystycznex ja x 1 x 2 x rz
Częstotliwościja m 1 m 2 m n

Cechę nazywa się stale zmieniającą się, jeśli jej wartości różnią się od siebie o dowolnie małą wartość, tj. znak może przyjąć dowolną wartość w określonym przedziale. Ciągły szereg zmian takiej cechy nazywany jest przedziałem.

Tabela 2. Ogólny widok serii częstotliwości zmienności przedziałowej

Tabela 3. Obrazy graficzne serii zmian

WierszWielokąt lub histogramDystrybucja empiryczna
Oddzielny
Interwał
Przeglądając wyniki obserwacji określa się, ile wartości wariantów mieści się w każdym konkretnym przedziale. Zakłada się, że każdy przedział należy do jednego ze swoich końców: albo we wszystkich przypadkach lewy (częściej), albo we wszystkich przypadkach prawy, a częstotliwości lub częstotliwości pokazują liczbę opcji zawartych w określonych granicach. Różnice a i – a i +1 nazywane są przedziałami częściowymi. Aby uprościć późniejsze obliczenia, szereg zmian przedziałowych można zastąpić szeregiem warunkowo dyskretnym. W tym przypadku wartość średnia I-interval jest opcją x ja i odpowiednią częstotliwość interwału ja– dla częstotliwości tego przedziału.
Do graficznego przedstawienia szeregów zmienności najczęściej stosuje się wielokąt, histogram, krzywą skumulowaną i dystrybuantę empiryczną.

W tabeli 2.3 (Grupowanie ludności rosyjskiej według średniego dochodu na mieszkańca w kwietniu 1994 r.) szereg zmian interwałowych.
Wygodnie jest analizować szeregi rozkładów za pomocą obrazu graficznego, który pozwala ocenić kształt rozkładu. Wizualną reprezentację charakteru zmian częstotliwości szeregu zmian podaje wzór wielokąt i histogram.
Wielokąt jest używany do przedstawiania szeregów dyskretnych zmian.
Przedstawmy na przykład graficznie rozkład zasobów mieszkaniowych według typu mieszkania (tabela 2.10).
Tabela 2.10 - Rozkład zasobów mieszkaniowych obszaru miejskiego według rodzaju mieszkań (dane warunkowe).


Ryż. Obszar dystrybucji mieszkań


Na osiach współrzędnych można wykreślić nie tylko wartości częstotliwości, ale także częstotliwości serii zmian.
Histogram służy do przedstawienia szeregu zmian interwałowych. Podczas konstruowania histogramu wartości przedziałów są wykreślane na osi odciętych, a częstotliwości są przedstawiane za pomocą prostokątów zbudowanych na odpowiednich przedziałach. Wysokość kolumn w przypadku równych odstępów powinna być proporcjonalna do częstotliwości. Histogram to wykres, na którym seria jest przedstawiona jako słupki sąsiadujące ze sobą.
Przedstawmy graficznie szereg rozkładów przedziałowych podanych w tabeli. 2.11.
Tabela 2.11 – Rozkład rodzin według wielkości powierzchni mieszkalnej na osobę (dane warunkowe).
Np Grupy rodzin według wielkości powierzchni mieszkalnej na osobę Liczba rodzin o danej powierzchni mieszkalnej Łączna liczba rodzin
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
CAŁKOWITY 115 ----


Ryż. 2.2. Histogram rozkładu rodzin według wielkości powierzchni mieszkalnej na osobę


Korzystając z danych zakumulowanego szeregu (tabela 2.11), konstruujemy kumulować dystrybucję.


Ryż. 2.3. Skumulowany rozkład rodzin według wielkości powierzchni mieszkalnej na osobę


Reprezentacja szeregu zmian w formie kumulacji jest szczególnie efektywna w przypadku szeregów zmian, których częstotliwości są wyrażone jako ułamki lub procenty sumy częstotliwości serii.
Jeśli zmienimy osie podczas graficznego przedstawiania serii zmian w postaci kumulacji, wówczas otrzymamy ostrołuk. Na ryc. 2.4 przedstawia ostrołuk skonstruowany na podstawie danych z tabeli. 2.11.
Histogram można przekształcić w wielokąt rozkładu, znajdując środki boków prostokątów, a następnie łącząc te punkty liniami prostymi. Powstały wielokąt rozkładu pokazano na ryc. 2.2 linią przerywaną.
Konstruując histogram rozkładu szeregu zmian o nierównych odstępach, to nie częstotliwości są wykreślane wzdłuż osi rzędnych, ale gęstość rozkładu cechy w odpowiednich przedziałach.
Gęstość rozkładu to częstotliwość obliczana na jednostkę szerokości przedziału, tj. ile jednostek w każdej grupie przypada na jednostkę wartości przedziału. Przykład obliczenia gęstości rozkładu przedstawiono w tabeli. 2.12.
Tabela 2.12 – Rozkład przedsiębiorstw według liczby zatrudnionych (dane warunkowe)
Np Grupy przedsiębiorstw według liczby pracowników, osób. Liczba przedsiębiorstw Rozmiar interwału, ludzie. Gęstość dystrybucji
A 1 2 3=1/2
1 Do 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
CAŁKOWITY 147 ---- ----

Może być również używany do graficznego przedstawienia serii odmian krzywa skumulowana. Za pomocą kumulacji (krzywej sumy) przedstawiono serię skumulowanych częstotliwości. Częstotliwości skumulowane są określane poprzez sekwencyjne sumowanie częstotliwości w grupach i pokazują, ile jednostek w populacji ma wartości atrybutów nie większe niż wartość brana pod uwagę.


Ryż. 2.4. Ostrołuk rozmieszczenia rodzin według wielkości powierzchni mieszkalnej na osobę

Podczas konstruowania kumulacji serii zmian przedziałowych warianty serii są wykreślane wzdłuż osi odciętych, a zakumulowane częstotliwości są wykreślane wzdłuż osi współrzędnych.

Szczególne miejsce w analizie statystycznej zajmuje określenie średniego poziomu badanej cechy lub zjawiska. Średni poziom cechy mierzy się wartościami średnimi.

Wartość średnia charakteryzuje ogólny poziom ilościowy badanej cechy i jest właściwością grupową populacji statystycznej. Wyrównuje, osłabia losowe odchylenia poszczególnych obserwacji w tym czy innym kierunku i podkreśla główną, typową właściwość badanej cechy.

Średnie są szeroko stosowane:

1. Ocena stanu zdrowia populacji: charakterystyka rozwoju fizycznego (wzrost, masa ciała, obwód klatki piersiowej itp.), określenie częstości występowania i czasu trwania różnych chorób, analiza wskaźników demograficznych (ruch życiowy populacji, średnia długość życia, reprodukcja populacji, średnia populacja itp.).

2. Badanie działalności placówek medycznych, personelu medycznego i ocena jakości jego pracy, planowanie i określanie potrzeb ludności w zakresie różnych rodzajów opieki medycznej (średnia liczba wniosków lub wizyt na mieszkańca w roku, średni czas pobytu pacjent w szpitalu, średni czas trwania badania pacjenta, średnia dostępność lekarzy, łóżek itp.).

3. Scharakteryzować stan sanitarno-epidemiologiczny (średnie zapylenie powietrza w warsztacie, średnia powierzchnia przypadająca na osobę, średnie spożycie białek, tłuszczów i węglowodanów itp.).

4. Określanie wskaźników medycznych i fizjologicznych w warunkach normalnych i patologicznych podczas przetwarzania danych laboratoryjnych w celu ustalenia wiarygodności wyników badania reprezentacyjnego w badaniach społecznych, higienicznych, klinicznych i eksperymentalnych.

Obliczanie wartości średnich odbywa się na podstawie szeregów zmienności. Seria odmian jest jakościowo jednorodnym zbiorem statystycznym, którego poszczególne jednostki charakteryzują ilościowe różnice badanej cechy lub zjawiska.

Zmienność ilościowa może być dwojakiego rodzaju: nieciągła (dyskretna) i ciągła.

Atrybut nieciągły (dyskretny) wyrażany jest wyłącznie jako liczba całkowita i nie może mieć żadnych wartości pośrednich (na przykład liczby odwiedzin, populacji witryny, liczby dzieci w rodzinie, ciężkości choroby w punktach itp.).

Znak ciągły może przyjmować dowolne wartości w określonych granicach, w tym ułamkowe, i jest wyrażany tylko w przybliżeniu (na przykład waga - dla dorosłych może być ograniczona do kilogramów, a dla noworodków - gramów; wzrost, ciśnienie krwi, czas spędził na wizycie u pacjenta itp.).



Wartość cyfrowa każdej indywidualnej cechy lub zjawiska zawartego w szeregu zmian nazywana jest wariantem i oznaczona literą V . Inne oznaczenia można znaleźć także w literaturze matematycznej, np X Lub y.

Seria odmian, w której każda opcja jest wskazana raz, nazywa się prostą. Szeregi takie wykorzystuje się w większości problemów statystycznych w przypadku komputerowego przetwarzania danych.

Wraz ze wzrostem liczby obserwacji zwykle pojawiają się powtarzające się wartości wariantów. W tym przypadku jest on tworzony zgrupowane serie zmian, gdzie wskazana jest liczba powtórzeń (częstotliwość, oznaczona literą „ R »).

Seria odmian rankingowych składa się z opcji ułożonych w kolejności rosnącej lub malejącej. Za pomocą rankingu można tworzyć zarówno serie proste, jak i pogrupowane.

Seria zmian interwałowych opracowane w celu uproszczenia późniejszych obliczeń wykonywanych bez użycia komputera, przy bardzo dużej liczbie jednostek obserwacyjnych (ponad 1000).

Seria ciągłych zmian zawiera wartości opcji, które mogą mieć dowolną wartość.

Jeżeli w serii wariacyjnej wartości cechy (wariantów) podane są w postaci indywidualnych konkretnych liczb, wówczas taką serię nazywa się oddzielny.

Ogólną charakterystyką wartości cechy odzwierciedlonych w szeregu zmian są wartości średnie. Wśród nich najczęściej stosowane są: średnia arytmetyczna M, moda Pon i mediana Ja. Każda z tych cech jest wyjątkowa. Nie mogą się one wzajemnie zastępować i dopiero razem w pełni i w skondensowanej formie oddają cechy szeregu wariacyjnego.

Moda (poniedziałek) podaj wartość najczęściej występujących opcji.

Mediana (Ja) – jest to wartość opcji dzielącej uszeregowany szereg zmian na pół (po każdej stronie mediany znajduje się połowa opcji). W rzadkich przypadkach, gdy występuje symetryczny szereg zmienności, moda i mediana są sobie równe i pokrywają się z wartością średniej arytmetycznej.

Najbardziej typową cechą wartości opcji jest Średnia arytmetyczna wartość( M ). W literaturze matematycznej jest to oznaczone .

Średnia arytmetyczna (M, ) to ogólna charakterystyka ilościowa pewnej cechy badanego zjawiska, stanowiąca jakościowo jednorodną populację statystyczną. Istnieją proste i ważone średnie arytmetyczne. Prostą średnią arytmetyczną dla prostego szeregu wariantów oblicza się poprzez zsumowanie wszystkich opcji i podzielenie tej sumy przez całkowitą liczbę opcji zawartych w tym szeregu wariantów. Obliczenia przeprowadza się według wzoru:

,

Gdzie: M - prosta średnia arytmetyczna;

Σ V - opcja kwoty;

N- liczba obserwacji.

W zgrupowanych szeregach zmian wyznaczana jest ważona średnia arytmetyczna. Wzór na jego obliczenie:

,

Gdzie: M - średnia arytmetyczna ważona;

Σ wicep - suma iloczynów wariantu według ich częstotliwości;

N- liczba obserwacji.

Przy dużej liczbie obserwacji, w przypadku obliczeń ręcznych, można zastosować metodę momentów.

Średnia arytmetyczna ma następujące właściwości:

· suma odchyleń od średniej ( Σ D ) jest równe zeru (patrz tabela 15);

· przy mnożeniu (dzieleniu) wszystkich opcji przez ten sam współczynnik (dzielnik), średnia arytmetyczna jest mnożona (dzielona) przez ten sam współczynnik (dzielnik);

· jeśli do wszystkich opcji dodamy (odejmiemy) tę samą liczbę, średnia arytmetyczna wzrośnie (zmniejszy się) o tę samą liczbę.

Średnie arytmetyczne wzięte same w sobie, bez uwzględnienia zmienności szeregu, z którego są wyliczone, mogą nie w pełni odzwierciedlać właściwości szeregu zmian, zwłaszcza gdy konieczne jest porównanie z innymi średnimi. Średnie o zbliżonej wartości można uzyskać z szeregów o różnym stopniu rozproszenia. Im bliższe sobie są poszczególne opcje pod względem cech ilościowych, tym mniej dyspersja (oscylacja, zmienność) serii, tym bardziej typowa jest jej średnia.

Głównymi parametrami pozwalającymi ocenić zmienność cechy są:

· Zakres;

· Amplituda;

· Odchylenie standardowe;

· Współczynnik zmienności.

Zmienność cechy można w przybliżeniu ocenić na podstawie zakresu i amplitudy serii zmian. Zakres wskazuje opcje maksymalne (V max) i minimalne (V min) w serii. Amplituda (A m) to różnica pomiędzy tymi opcjami: A m = V max - V min.

Główną, ogólnie przyjętą miarą zmienności szeregu zmian jest dyspersja (D ). Jednak najczęściej używany jest wygodniejszy parametr obliczany na podstawie dyspersji - odchylenie standardowe ( σ ). Uwzględnia się wielkość odchylenia ( D ) każdej serii zmian od jej średniej arytmetycznej ( d=V - M ).

Ponieważ odchylenia od średniej mogą być dodatnie i ujemne, po zsumowaniu dają wartość „0” (S d=0). Aby tego uniknąć, wartości odchyleń ( D) podnosi się do drugiej potęgi i uśrednia. Zatem rozrzut szeregu wariacyjnego jest średnim kwadratem odchyleń wariantu od średniej arytmetycznej i obliczany jest ze wzoru:

.

Jest to najważniejsza cecha zmienności i służy do obliczania wielu kryteriów statystycznych.

Ponieważ rozrzut wyraża się jako kwadrat odchyleń, jego wartości nie można porównywać ze średnią arytmetyczną. Do tych celów jest używany odchylenie standardowe, który jest oznaczony znakiem „Sigma” ( σ ). Charakteryzuje średnie odchylenie wszystkich wariantów szeregu zmian od średniej arytmetycznej w tych samych jednostkach, co sama wartość średnia, dzięki czemu można je stosować łącznie.

Odchylenie standardowe określa się według wzoru:

Podany wzór stosuje się, gdy liczba obserwacji ( N ) więcej niż 30. Z mniejszą liczbą N wartość odchylenia standardowego będzie obarczona błędem związanym z przesunięciem matematycznym ( N - 1). W związku z tym dokładniejszy wynik można uzyskać, biorąc pod uwagę takie odchylenie we wzorze na obliczenie odchylenia standardowego:

odchylenie standardowe (S ) jest oszacowaniem odchylenia standardowego zmiennej losowej X względem jego oczekiwań matematycznych opartych na bezstronnym oszacowaniu jego wariancji.

Z wartościami N > 30 odchylenia standardowego ( σ ) i odchylenie standardowe ( S ) będzie taki sam ( σ = s ). Dlatego w większości praktycznych podręczników kryteria te mają różne znaczenia. W programie Obliczenia w Excelu odchylenie standardowe można wykonać za pomocą funkcji =STDEV(zakres). Aby obliczyć odchylenie standardowe, musisz stworzyć odpowiednią formułę.

Średniokwadratowa lub odchylenie standardowe pozwala określić, jak bardzo wartości cechy mogą różnić się od wartości średniej. Załóżmy, że istnieją dwa miasta o tej samej średniej dziennej temperaturze latem. Jedno z tych miast położone jest na wybrzeżu, drugie na kontynencie. Wiadomo, że w miastach położonych na wybrzeżu różnice temperatur w ciągu dnia są mniejsze niż w miastach położonych w głębi lądu. Zatem odchylenie standardowe temperatur w ciągu dnia dla miasta nadmorskiego będzie mniejsze niż dla drugiego miasta. W praktyce oznacza to, że średnia temperatura powietrza w każdym z nich konkretny dzień w mieście położonym na kontynencie będzie odbiegać bardziej od średniej niż w mieście na wybrzeżu. Ponadto odchylenie standardowe pozwala ocenić możliwe odchylenia temperatury od średniej z wymaganym poziomem prawdopodobieństwa.

Zgodnie z teorią prawdopodobieństwa w zjawiskach zgodnych z prawem rozkładu normalnego istnieje ścisły związek między wartościami średniej arytmetycznej, odchylenia standardowego i opcji ( reguła trzech sigm). Na przykład 68,3% wartości zmiennej charakterystyki mieści się w granicach M ± 1 σ , 95,5% - w granicach M ± 2 σ i 99,7% - w granicach M ± 3 σ .

Wartość odchylenia standardowego pozwala ocenić charakter jednorodności szeregu zmian i grupy badanej. Jeżeli wartość odchylenia standardowego jest niewielka, świadczy to o dość dużej jednorodności badanego zjawiska. Średnią arytmetyczną w tym przypadku należy uznać za dość charakterystyczną dla danego szeregu zmian. Jednak zbyt mała wartość sigma skłania do myślenia o sztucznej selekcji obserwacji. Przy bardzo dużej sigma średnia arytmetyczna w mniejszym stopniu charakteryzuje szereg zmian, co wskazuje na znaczną zmienność badanej cechy lub zjawiska lub niejednorodność badanej grupy. Jednakże porównanie wartości odchylenia standardowego jest możliwe tylko dla cech o tym samym wymiarze. Rzeczywiście, jeśli porównamy różnorodność mas noworodków i dorosłych, zawsze uzyskamy wyższe wartości sigma u dorosłych.

Porównanie zmienności cech różnych wymiarów można przeprowadzić za pomocą Współczynnik zmienności. Wyraża różnorodność jako procent średniej, umożliwiając porównanie różne znaki. Współczynnik zmienności w literaturze medycznej jest oznaczony znakiem „ Z „i w matematyce” w" i obliczane według wzoru:

.

Wartości współczynnika zmienności mniejsze niż 10% wskazują na małe rozproszenie, od 10 do 20% - w przybliżeniu średnie, powyżej 20% - na silne rozproszenie wokół średniej arytmetycznej.

Średnią arytmetyczną oblicza się zwykle na podstawie danych próbna populacja. Przy powtarzanych badaniach, pod wpływem zjawisk losowych, średnia arytmetyczna może ulec zmianie. Wynika to z faktu, że z reguły badana jest tylko część możliwych jednostek obserwacji, czyli populacja próbna. Informacje o wszystkich możliwych jednostkach reprezentujących badane zjawisko można uzyskać badając całą populację, co nie zawsze jest możliwe. Jednocześnie w celu uogólnienia danych eksperymentalnych interesująca jest wartość średniej w populacji ogólnej. Dlatego też, aby sformułować ogólny wniosek na temat badanego zjawiska, wyniki uzyskane na podstawie próby populacji należy przenieść na populację ogólną za pomocą metod statystycznych.

Aby określić stopień zgodności badania reprezentacyjnego z populacją ogólną, należy oszacować wielkość błędu, który nieuchronnie pojawia się podczas obserwacji próby. Ten błąd nazywa się „ Błąd reprezentatywności„lub „Średni błąd średniej arytmetycznej”. W rzeczywistości jest to różnica pomiędzy średnimi uzyskanymi z próbki obserwacja statystyczna, oraz podobne wartości, jakie uzyskalibyśmy podczas ciągłego badania tego samego obiektu, tj. podczas badania populacji ogólnej. Ponieważ średnia próby jest zmienną losową, prognozę taką przeprowadza się z prawdopodobieństwem akceptowalnym przez badacza. W badania medyczne wynosi co najmniej 95%.

Błędu reprezentatywności nie można mylić z błędami rejestracji lub błędami uwagi (poślizgi, błędne obliczenia, literówki itp.), które należy minimalizować za pomocą odpowiednich metod i narzędzi stosowanych podczas eksperymentu.

Wielkość błędu reprezentatywności zależy zarówno od wielkości próby, jak i od zmienności cechy. Jak większa liczba obserwacji, im bliżej populacji znajduje się próba i tym mniejszy jest błąd. Im bardziej zmienny znak, tym większy błąd statystyczny.

W praktyce do wyznaczenia błędu reprezentatywności szeregów zmian stosuje się następujący wzór:

,

Gdzie: M – błąd reprezentatywności;

σ - odchylenie standardowe;

N– liczba obserwacji w próbie.

Ze wzoru jasno wynika, że ​​rozmiar średni błąd jest wprost proporcjonalna do odchylenia standardowego, czyli zmienności badanej cechy, i odwrotnie proporcjonalna do pierwiastka kwadratowego z liczby obserwacji.

Przy wykonywaniu analizy statystycznej opartej na obliczaniu wartości względnych konstruowanie szeregu zmian nie jest konieczne. W takim przypadku określenie błędu średniego dla wskaźników względnych można przeprowadzić za pomocą uproszczonego wzoru:

,

Gdzie: R– wartość wskaźnika względnego wyrażona w procentach, ppm itp.;

Q– odwrotność P i wyrażona jako (1-P), (100-P), (1000-P) itp., w zależności od podstawy obliczenia wskaźnika;

N– liczba obserwacji w populacji próbnej.

Jednakże określony wzór na obliczenie błędu reprezentatywności dla wartości względnych można zastosować tylko wtedy, gdy wartość wskaźnika jest mniejsza niż jego podstawa. W wielu przypadkach obliczania wskaźników intensywnych warunek ten nie jest spełniony, a wskaźnik można wyrazić liczbą większą niż 100% lub 1000%. W takiej sytuacji konstruuje się szereg zmian i oblicza błąd reprezentatywności korzystając ze wzoru na wartości średnie w oparciu o odchylenie standardowe.

Prognozowanie wartości średniej arytmetycznej w populacji odbywa się poprzez wskazanie dwóch wartości – minimalnej i maksymalnej. Te skrajne wartości możliwe odchylenia, w ramach których może się wahać pożądana średnia wartość populacji, nazywane są „ Granice zaufania».

Postulaty teorii prawdopodobieństwa udowodniły, że przy normalnym rozkładzie cechy z prawdopodobieństwem 99,7% skrajne wartości odchyleń średniej nie będą większe niż wartość potrójnego błędu reprezentatywności ( M ± 3 M ); w 95,5% – nie więcej niż dwukrotność błędu średniego wartości średniej ( M ± 2 M ); w 68,3% – nie więcej niż jeden błąd średni ( M ± 1 M ) (ryc. 9).

P%

Ryż. 9. Gęstość prawdopodobieństwa normalna dystrybucja.

Należy zauważyć, że powyższe stwierdzenie jest prawdziwe tylko w przypadku funkcji zgodnej z normalnym prawem rozkładu Gaussa.

Większość badań eksperymentalnych, w tym także z zakresu medycyny, wiąże się z pomiarami, których wyniki mogą przyjmować w danym przedziale niemal dowolną wartość, dlatego też z reguły opisuje się je modelem ciągłych zmiennych losowych. Pod tym względem większość metod statystycznych uwzględnia rozkłady ciągłe. Jedna z tych dystrybucji, która odgrywa zasadniczą rolę w statystyka matematyczna, Jest rozkład normalny lub gaussowski.

Dzieje się tak z kilku powodów.

1. Przede wszystkim wiele obserwacji eksperymentalnych można z powodzeniem opisać za pomocą rozkładu normalnego. Należy od razu zauważyć, że nie ma rozkładów danych empirycznych, które byłyby dokładnie normalne, ponieważ mają rozkład normalny wartość losowa mieści się w przedziale od do , co w praktyce nigdy nie występuje. Jednakże rozkład normalny bardzo często sprawdza się jako przybliżenie.

Niezależnie od tego, czy prowadzone są pomiary masy ciała, wzrostu i innych parametrów fizjologicznych organizmu człowieka – wszędzie na wyniki wpływa bardzo duża liczba czynników losowych ( przyczyny naturalne i błędy pomiarowe). Co więcej, z reguły wpływ każdego z tych czynników jest nieistotny. Doświadczenie pokazuje, że wyniki w takich przypadkach będą miały w przybliżeniu rozkład normalny.

2. Wiele rozkładów związanych z próbkowaniem losowym staje się normalnych w miarę wzrostu jego objętości.

3. Rozkład normalny dobrze nadaje się jako przybliżenie innych rozkładów ciągłych (na przykład skośnych).

4. Rozkład normalny ma wiele korzystnych cech właściwości matematyczne, który w dużej mierze to zapewnił szerokie zastosowanie w statystykach.

Jednocześnie należy zaznaczyć, że w danych medycznych istnieje wiele rozkładów eksperymentalnych, których nie da się opisać za pomocą modelu rozkładu normalnego. W tym celu statystyka opracowała metody, które powszechnie nazywane są „nieparametrycznymi”.

Wyboru metody statystycznej odpowiedniej do przetwarzania danych z konkretnego eksperymentu należy dokonać w zależności od tego, czy uzyskane dane mieszczą się w prawie rozkładu normalnego. Testowanie hipotezy o podporządkowaniu znaku prawu rozkładu normalnego odbywa się za pomocą histogramu rozkładu częstotliwości (wykres) oraz szeregu kryteriów statystycznych. Pomiędzy nimi:

Kryterium asymetrii ( B );

Kryterium badania kurtozy ( G );

Test Shapiro-Wilksa ( W ) .

Dla każdego parametru przeprowadzana jest analiza charakteru rozkładu danych (zwana także testem normalności rozkładu). Aby z całą pewnością ocenić, czy rozkład parametru odpowiada prawu normalnemu, wymagana jest odpowiednio duża liczba jednostek obserwacyjnych (co najmniej 30 wartości).

Dla rozkładu normalnego kryteria skośności i kurtozy przyjmują wartość 0. Jeżeli rozkład zostanie przesunięty w prawo B > 0 (dodatnia asymetria), z B < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона G =0. Na G > 0 krzywa rozkładu jest ostrzejsza, jeśli G < 0 пик более сглаженный, чем функция нормального распределения.

Aby sprawdzić normalność za pomocą testu Shapiro – Wilksa, należy znaleźć wartość tego kryterium, korzystając z tabel statystycznych pod adresem wymagany poziom istotności oraz w zależności od liczby jednostek obserwacyjnych (stopni swobody). Załącznik 1. Hipotezę normalności odrzuca się przy małych wartościach tego kryterium, z reguły przy w <0,8.

Metoda grupowania pozwala również na pomiar zmiana(zmienność, fluktuacja) znaków. Jeżeli liczba jednostek w populacji jest stosunkowo mała, zmienność mierzy się na podstawie uszeregowanej liczby jednostek tworzących populację. Seria nazywa się rankingowe, jeśli jednostki są ułożone w kolejności rosnącej (malejącej) cechy.

Jednakże serie rankingowe są dość orientacyjne, gdy potrzebna jest porównawcza charakterystyka zmienności. Ponadto w wielu przypadkach mamy do czynienia z populacjami statystycznymi składającymi się z dużej liczby jednostek, które praktycznie trudno jest przedstawić w postaci określonego szeregu. W związku z tym, w celu wstępnego ogólnego zapoznania się z danymi statystycznymi, a zwłaszcza w celu ułatwienia badania zmienności cech, badane zjawiska i procesy zwykle łączy się w grupy, a wyniki grupowania przedstawia się w formie tabel grupowych.

Jeżeli tabela grupowa posiada tylko dwie kolumny - grupuje według wybranej cechy (opcji) i liczby grup (częstotliwości lub częstotliwości), nazywa się to blisko dystrybucji.

Zakres dystrybucji - najprostszy rodzaj grupowania strukturalnego w oparciu o jedną cechę, prezentowany w tabeli grupowej z dwiema kolumnami zawierającymi warianty i częstotliwości cechy. W wielu przypadkach przy takim grupowaniu strukturalnym, tj. Wraz z zestawieniem szeregów dystrybucyjnych rozpoczyna się badanie wstępnego materiału statystycznego.

Grupowanie strukturalne w postaci szeregu rozkładów można przekształcić w prawdziwe zgrupowanie strukturalne, jeśli wybrane grupy charakteryzują się nie tylko częstotliwościami, ale także innymi wskaźnikami statystycznymi. Głównym celem szeregów rozkładowych jest badanie zmienności cech. Teorię szeregów dystrybucyjnych szczegółowo rozwijają statystyki matematyczne.

Szeregi dystrybucyjne dzielą się na atrybutywny(grupowanie według cech atrybutywnych, na przykład podział populacji według płci, narodowości, stanu cywilnego itp.) oraz wariacyjny(grupowanie według cech ilościowych).

Seria odmian to tabela grupowa zawierająca dwie kolumny: grupowanie jednostek według jednej cechy ilościowej oraz liczbę jednostek w każdej grupie. Przedziały w szeregu zmian są zwykle równe i domknięte. Szereg zmian to następujące pogrupowanie ludności rosyjskiej według średniego dochodu pieniężnego na mieszkańca (tabela 3.10).

Tabela 3.10

Rozkład ludności Rosji według średniego dochodu na mieszkańca w latach 2004-2009.

Grupy ludności według średniego dochodu pieniężnego na mieszkańca, rub./miesiąc

Ludność w grupie, % ogółu

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Ponad 25 000,0

Cała populacja

Z kolei szeregi zmienności dzielą się na dyskretne i przedziałowe. Oddzielny serie zmian łączą warianty dyskretnych cech, które różnią się w wąskich granicach. Przykładem dyskretnego szeregu zmienności jest rozkład rodzin rosyjskich według liczby posiadanych dzieci.

Interwał serie zmian łączą warianty cech ciągłych lub dyskretnych zmieniających się w szerokim zakresie. Przedział to szereg zmian rozkładu ludności Rosji według średniego dochodu pieniężnego na mieszkańca.

Dyskretne szeregi wariacyjne nie są stosowane zbyt często w praktyce. Tymczasem ich zestawienie nie jest trudne, gdyż o składzie grup decydują konkretne warianty, jakie faktycznie posiadają badane cechy grupowania.

Serie zmian interwałowych są bardziej rozpowszechnione. Przy ich kompilacji pojawia się trudne pytanie o liczbę grup, a także o wielkość przedziałów, które należy ustalić.

Zasady rozwiązania tego problemu zostały określone w rozdziale poświęconym metodologii konstruowania grup statystycznych (patrz paragraf 3.3).

Szeregi zmienności służą do zwijania lub kompresowania różnorodnych informacji w zwartą formę, dzięki czemu można w miarę jasno ocenić naturę zmienności i zbadać różnice w charakterystyce zjawisk wchodzących w skład badanego zbioru. Jednak najważniejsze znaczenie szeregów wariacyjnych polega na tym, że na ich podstawie obliczane są specjalne uogólniające cechy zmienności (patrz rozdział 7).



Nowość na stronie

>

Najbardziej popularny