Dom Obložen jezik Serija varijacija se sastoji od: Definicija varijacionih serija

Serija varijacija se sastoji od: Definicija varijacionih serija

Kao rezultat savladavanja ovog poglavlja, student mora: znam

  • indikatori varijacije i njihov odnos;
  • osnovni zakoni distribucije karakteristika;
  • suština kriterijuma saglasnosti; biti u mogućnosti
  • izračunati indekse varijacije i kriterije dobrog uklapanja;
  • odrediti karakteristike distribucije;
  • procijeniti osnovne numeričke karakteristike statističkih serija distribucije;

vlastiti

  • metode statističke analize distribucijskih serija;
  • osnove analiza varijanse;
  • tehnike za provjeru usklađenosti statističkih serija distribucije sa osnovnim zakonima distribucije.

Indikatori varijacije

At statističko istraživanje karakteristike različitih statističkih agregata, proučavanje varijacija u karakteristikama pojedinca statističke jedinice stanovništva, kao i prirodu distribucije jedinica preko ovu karakteristiku. varijacija - to su razlike u individualnim vrijednostima karakteristike među jedinicama populacije koja se proučava. Proučavanje varijacije je od velike praktične važnosti. Po stepenu varijacije može se suditi o granicama varijacije neke karakteristike, homogenosti populacije za datu karakteristiku, tipičnosti prosjeka i odnosu faktora koji određuju varijaciju. Indikatori varijacije se koriste za karakterizaciju i organizaciju statističkih populacija.

Rezultati sažimanja i grupisanja materijala statističkog posmatranja, predstavljeni u obliku statističkih serija distribucije, predstavljaju uređenu distribuciju jedinica populacije koja se proučava u grupe prema grupisanju (varijantnim) kriterijumima. Ako se kvalitativna karakteristika uzme kao osnova za grupisanje, onda se takav niz raspodjele naziva atributivno(distribucija po profesiji, polu, boji, itd.). Ako je niz distribucije konstruiran na kvantitativnoj osnovi, onda se takav niz naziva varijacijski(raspodjela po visini, težini, plati, itd.). Konstruirati varijacioni niz znači organizirati kvantitativnu distribuciju jedinica stanovništva prema karakterističnim vrijednostima, prebrojati broj jedinica stanovništva sa ovim vrijednostima (učestalost) i složiti rezultate u tabelu.

Umjesto frekvencije varijante, moguće je koristiti njen odnos prema ukupnom obimu opažanja, koji se naziva frekvencija (relativna frekvencija).

Postoje dvije vrste varijantne serije: diskretno i intervalno. Diskretna serija- Ovo je varijacioni niz čija se konstrukcija zasniva na karakteristikama sa diskontinualnim promjenom (diskretne karakteristike). Ovo poslednje uključuje broj zaposlenih u preduzeću, tarifnu kategoriju, broj dece u porodici itd. Diskretna serija varijacija predstavlja tabelu koja se sastoji od dve kolone. Prva kolona označava specifičnu vrijednost atributa, a druga kolona označava broj jedinica u populaciji sa specifičnom vrijednošću atributa. Ako se neka karakteristika stalno mijenja (iznos prihoda, radni staž, trošak osnovnih sredstava preduzeća itd., koji u određenim granicama može poprimiti bilo koju vrijednost), tada je za ovu karakteristiku moguće konstruisati intervalne varijacione serije. Kada se konstruiše niz intervalnih varijacija, tabela takođe ima dve kolone. Prvi označava vrijednost atributa u intervalu "od - do" (opcije), drugi označava broj jedinica uključenih u interval (učestalost). Frekvencija (frekvencija ponavljanja) - broj ponavljanja određene varijante vrijednosti atributa. Intervali mogu biti zatvoreni ili otvoreni. Zatvoreni intervali su ograničeni s obje strane, tj. imaju i donju („od“) i gornju („do“) granicu. Otvoreni intervali imaju jednu granicu: gornju ili donju. Ako su opcije raspoređene u rastućem ili opadajućem redoslijedu, tada se pozivaju redovi rangiran.

Za serije varijacija postoje dvije vrste opcija frekvencijskog odziva: akumulirana frekvencija i akumulirana frekvencija. Akumulirana učestalost pokazuje koliko je opažanja vrijednost karakteristike uzela vrijednosti manje od date vrijednosti. Akumulirana frekvencija se određuje zbrajanjem frekvencijskih vrijednosti neke karakteristike za datu grupu sa svim frekvencijama prethodnih grupa. Akumulirana frekvencija karakteriše specifična gravitacija jedinice promatranja u kojima karakteristične vrijednosti ne prelaze gornju granicu grupe podataka. Dakle, akumulirana frekvencija pokazuje udio opcija u ukupnosti koje imaju vrijednost ne veću od date. Frekvencija, frekvencija, apsolutna i relativna gustina, akumulirana frekvencija i frekvencija su karakteristike veličine varijante.

Varijacije u karakteristikama statističkih jedinica populacije, kao i priroda distribucije, proučavaju se pomoću indikatora i karakteristika serije varijacija, koje uključuju prosječni nivo serije, prosječnu linearnu devijaciju, standardnu ​​devijaciju, disperziju , koeficijenti oscilacije, varijacije, asimetrije, kurtosis itd.

Za karakterizaciju distributivnog centra koriste se prosječne vrijednosti. Prosjek je generalizirajuća statistička karakteristika u kojoj se kvantifikuje tipičan nivo karakteristike koju posjeduju pripadnici populacije koja se proučava. Međutim, mogu postojati slučajevi podudarnosti aritmetičkih sredina sa različitim obrascima distribucije, pa se kao statističke karakteristike varijacionih serija računaju takozvane strukturne sredine - mod, medijan, kao i kvantili, koji dijele distributivnu seriju na jednake. dijelovi (kvartili, decili, percentili, itd.).

Moda - Ovo je vrijednost karakteristike koja se u distribucijskom nizu pojavljuje češće od ostalih vrijednosti. Za diskretne serije, ovo je opcija s najvećom frekvencijom. U intervalnim varijantnim serijama, da bi se odredio mod, potrebno je prvo odrediti interval u kojem se nalazi, tzv. modalni interval. U seriji varijacija sa u jednakim intervalima modalni interval je određen najvišom frekvencijom, u seriji sa nejednakim intervalima - ali najvećom gustinom distribucije. Formula se zatim koristi za određivanje načina rada u redovima u jednakim intervalima

gdje je Mo modna vrijednost; xMo - donja granica modalnog intervala; h-širina modalnog intervala; / Mo - frekvencija modalnog intervala; / Mo j je frekvencija premodalnog intervala; / Mo+1 je frekvencija postmodalnog intervala, a za serije sa nejednakim intervalima u ovoj formuli za izračunavanje, umjesto frekvencija / Mo, / Mo, / Mo, treba koristiti gustine distribucije Um 0 _| , Um 0> UMO+"

Ako postoji jedan mod, tada se distribucija vjerovatnoće slučajne varijable naziva unimodalna; ako postoji više od jednog načina, naziva se multimodalni (polimodalni, multimodalni), u slučaju dva načina - bimodalni. Po pravilu, multimodalnost ukazuje da distribucija koja se proučava nije u skladu sa zakonom normalna distribucija. Homogene populacije, po pravilu, karakteriziraju jednovrhske distribucije. Multiverteks takođe ukazuje na heterogenost populacije koja se proučava. Pojava dva ili više vrhova čini neophodnim pregrupisavanje podataka kako bi se identifikovale homogenije grupe.

U nizu intervalnih varijacija, mod se može odrediti grafički pomoću histograma. Da biste to učinili, nacrtajte dvije linije koje se ukrštaju od gornjih tačaka najviše kolone histograma do gornjih tačaka dva susjedna stupca. Zatim se od točke njihovog sjecišta okomica spušta na osu apscise. Vrijednost karakteristike na x-osi koja odgovara okomici je mod. U mnogim slučajevima, kada se populacija karakteriše kao generalizovani indikator, prednost se daje modu, a ne aritmetičkoj sredini.

medijana - Ovo centralni značaj Karakteristika ga ima centralni član rangirane distributivne serije. U diskretnom nizu, da biste pronašli vrijednost medijane, prvo odredite njegovu serijski broj. Da biste to učinili, ako je broj jedinica neparan, jedan se dodaje zbroju svih frekvencija, a broj se dijeli sa dva. Ako postoji paran broj jedinica u nizu, postojaće dvije srednje jedinice, tako da se u ovom slučaju medijan definira kao prosjek vrijednosti dvije srednje jedinice. Dakle, medijan u diskretnom varijacionom nizu je vrijednost koja dijeli niz na dva dijela koji sadrže isti broj opcija.

U intervalnim serijama, nakon određivanja serijskog broja medijane, medijalni interval se pronalazi koristeći akumulirane frekvencije (frekvencije), a zatim se pomoću formule za izračunavanje medijane određuje vrijednost same medijane:

gdje je Me srednja vrijednost; x ja - donja granica srednjeg intervala; h-širina srednjeg intervala; - zbir frekvencija distributivnih serija; /D - akumulirana frekvencija premedijalnog intervala; / Me - frekvencija srednjeg intervala.

Medijan se može naći grafički koristeći kumulat. Da biste to učinili, na skali akumuliranih frekvencija (frekvencija) kumulata, iz tačke koja odgovara rednom broju medijane, povlači se ravna linija paralelna s apscisnom osom dok se ne siječe s kumulatom. Zatim, od točke presjeka označene linije s kumulatom, okomica se spušta na osu apscise. Vrijednost atributa na x-osi koja odgovara nacrtanoj ordinati (okomito) je medijan.

Medijan je karakteriziran sljedećim svojstvima.

  • 1. Ne zavisi od onih vrednosti atributa koje se nalaze sa obe strane.
  • 2. Ima svojstvo minimalnosti, što znači da zbir apsolutnih odstupanja vrijednosti atributa od medijane predstavlja minimalnu vrijednost u odnosu na odstupanje vrijednosti atributa od bilo koje druge vrijednosti.
  • 3. Kada se kombinuju dve distribucije sa poznatim medijanima, nemoguće je unapred predvideti vrednost medijane nove distribucije.

Ova svojstva medijana se široko koriste u dizajniranju tačaka. queuing- škole, ambulante, benzinske pumpe, vodovodi itd. Na primjer, ako se planira izgradnja ambulante u određenom bloku grada, onda bi bilo svrsishodnije locirati je na tački u bloku koja prepolovi ne dužinu bloka, već broj stanovnika.

Odnos moda, medijane i aritmetičke sredine ukazuje na prirodu distribucije karakteristike u agregatu i omogućava nam da procenimo simetriju distribucije. Ako x Me onda postoji desna asimetrija serije. Sa normalnom distribucijom X - Ja - Mo.

K. Pearson bazirano poravnanje razne vrste krivulje su utvrdile da za umjereno asimetrične distribucije vrijede sljedeće približne veze između aritmetičke sredine, medijane i moda:

gdje je Me srednja vrijednost; Mo - značenje mode; x aritam - vrijednost aritmetičke sredine.

Ako postoji potreba da se detaljnije prouči struktura serije varijacija, onda izračunajte karakteristične vrijednosti slične medijani. Takve karakteristične vrijednosti dijele sve jedinice distribucije na jednake brojeve nazivaju se kvantili ili gradijenti. Kvantili se dijele na kvartile, decile, percentile itd.

Kvartili dijele populaciju na četiri jednaka dijela. Prvi kvartil se izračunava slično kao medijana koristeći formulu za izračunavanje prvog kvartila, nakon što je prethodno određen prvi kvartalni interval:

gdje je Qi vrijednost prvog kvartila; xQ^- donja granica raspona prvog kvartila; h- širina intervala prve četvrtine; /, - frekvencije intervalne serije;

Kumulativna frekvencija u intervalu koji prethodi prvom intervalu kvartila; Jq ( - frekvencija prvog kvartilnog intervala.

Prvi kvartil pokazuje da je 25% jedinica stanovništva manje od njegove vrijednosti, a 75% više. Drugi kvartil je jednak medijani, tj. Q 2 = Ja.

Po analogiji, izračunava se treći kvartil, nakon što se prvo pronađe treći kvartalni interval:

gdje je donja granica raspona trećeg kvartila; h- širina intervala trećeg kvartila; /, - frekvencije intervalne serije; /X" - akumulirana frekvencija u prethodnom intervalu

G

interval trećeg kvartila; Jq je frekvencija trećeg kvartilnog intervala.

Treći kvartil pokazuje da je 75% jedinica stanovništva manje od njegove vrijednosti, a 25% više.

Razlika između trećeg i prvog kvartila je interkvartilni raspon:

gdje je Aq vrijednost interkvartilnog raspona; Q 3 - vrijednost trećeg kvartila; Q, je vrijednost prvog kvartila.

Decili dijele stanovništvo na 10 jednakih dijelova. Decil je vrijednost karakteristike u nizu distribucije koja odgovara desetinama veličine populacije. Po analogiji s kvartilima, prvi decil pokazuje da je 10% jedinica stanovništva manje od njegove vrijednosti, a 90% veće, a deveti decil otkriva da je 90% jedinica stanovništva manje od njegove vrijednosti, a 10% je veći. Odnos devetog i prvog decila, tj. Decilni koeficijent se široko koristi u proučavanju diferencijacije prihoda za mjerenje omjera nivoa dohotka 10% najimućnije i 10% najmanje bogatog stanovništva. Percentili dijele rangiranu populaciju na 100 jednakih dijelova. Izračun, značenje i primjena percentila su slični decilima.

Kvartili, decili i drugi strukturne karakteristike može se grafički odrediti po analogiji sa medijanom koristeći kumulate.

Za mjerenje veličine varijacije koriste se sljedeći indikatori: raspon varijacije, prosječna linearna devijacija, standardna devijacija, disperzija. Veličina raspona varijacije u potpunosti zavisi od slučajnosti distribucije ekstremnih članova serije. Ovaj indikator je od interesa u slučajevima kada je važno znati kolika je amplituda fluktuacija vrijednosti neke karakteristike:

Gdje R- vrijednost raspona varijacije; x max - maksimalna vrijednost atributa; x tt - minimalna vrijednost atributa.

Prilikom izračunavanja raspona varijacije, vrijednost velike većine članova serije se ne uzima u obzir, dok je varijacija povezana sa svakom vrijednošću člana serije. Indikatori koji su prosjeci dobijeni iz odstupanja pojedinačnih vrijednosti karakteristike od njihove prosječne vrijednosti nemaju ovaj nedostatak: prosječnu linearnu devijaciju i standardnu ​​devijaciju. Postoji direktna veza između individualnih odstupanja od prosjeka i varijabilnosti određene osobine. Što je fluktuacija jača, to više apsolutne dimenzije odstupanja od prosjeka.

Prosječna linearna devijacija je aritmetička sredina od apsolutne vrijednosti odstupanja pojedinih opcija od njihove prosječne vrijednosti.

Prosječna linearna devijacija za negrupirane podatke

gdje je /pr vrijednost prosječne linearne devijacije; x, - je vrijednost atributa; X - P - broj jedinica u populaciji.

Prosječna linearna devijacija grupisanih serija

gdje je / vz - vrijednost srednjeg linearnog odstupanja; x je vrijednost atributa; X - prosječna vrijednost karakteristike za populaciju koja se proučava; / - broj populacijskih jedinica u posebnoj grupi.

Znakovi odstupanja u u ovom slučaju se zanemaruju, inače će zbir svih odstupanja biti jednak nuli. Prosječna linearna devijacija, ovisno o grupiranju analiziranih podataka, izračunava se primjenom različitih formula: za grupisane i negrupisane podatke. Prosečno linearno odstupanje se, zbog svoje uslovljenosti, odvojeno od ostalih pokazatelja varijacije, u praksi relativno retko koristi (posebno za karakterizaciju ispunjenja ugovornih obaveza za ujednačenost isporuke; u analizi prometa spoljna trgovina, sastav radnika, ritam proizvodnje, kvalitet proizvoda, uzimajući u obzir tehnološke karakteristike proizvodnja itd.).

Standardna devijacija karakterizira koliko u prosjeku pojedinačne vrijednosti karakteristike koja se proučava odstupaju od prosječne vrijednosti populacije, a izražava se u mjernim jedinicama karakteristike koja se proučava. Standardna devijacija, kao jedna od glavnih mjera varijacije, široko se koristi u procjeni granica varijacije karakteristike u homogenoj populaciji, u određivanju ordinatnih vrijednosti krivulje normalne distribucije, kao i u proračunima vezanim za organizacija posmatranja uzorka i utvrđivanje tačnosti karakteristika uzorka. Standardna devijacija negrupisanih podataka izračunava se pomoću sljedećeg algoritma: svako odstupanje od srednje vrijednosti se kvadrira, svi kvadrati se zbrajaju, nakon čega se zbroj kvadrata dijeli sa brojem članova serije i izvlači se kvadratni korijen iz količnik:

gdje je Iip vrijednost standardne devijacije; Xj- vrijednost atributa; X- prosječna vrijednost karakteristike za populaciju koja se proučava; P - broj jedinica u populaciji.

Za grupisane analizirane podatke, standardna devijacija podataka se izračunava pomoću ponderisane formule

Gdje - vrijednost standardne devijacije; Xj- vrijednost atributa; X - prosječna vrijednost karakteristike za populaciju koja se proučava; f x - broj populacijskih jedinica u određenoj grupi.

Izraz ispod korijena u oba slučaja naziva se varijansa. Dakle, disperzija se izračunava kao prosječni kvadrat odstupanja vrijednosti atributa od njihove prosječne vrijednosti. Za neponderisane (jednostavne) vrijednosti atributa, varijansa se određuje na sljedeći način:

Za ponderisane karakteristične vrijednosti

Postoji i posebna pojednostavljena metoda za izračunavanje varijanse: općenito

za neponderisane (jednostavne) karakteristične vrednosti za ponderisane karakteristične vrednosti
koristeći metodu zasnovanu na nuli

gdje je a 2 vrijednost disperzije; x, - je vrijednost atributa; X - prosječna vrijednost karakteristike, h- vrijednost grupnog intervala, t 1 - težina (A =

Disperzija ima nezavisan izraz u statistici i odnosi se na broj najvažniji pokazatelji varijacije. Mjeri se u jedinicama koje odgovaraju kvadratu mjernih jedinica karakteristike koja se proučava.

Disperzija ima sljedeća svojstva.

  • 1. Varijanca konstantne vrijednosti je nula.
  • 2. Smanjenje svih vrijednosti karakteristike za istu vrijednost A ne mijenja vrijednost disperzije. To znači da se prosječni kvadrat odstupanja može izračunati ne iz datih vrijednosti neke karakteristike, već iz njihovih odstupanja od nekog konstantnog broja.
  • 3. Smanjenje bilo koje karakteristične vrijednosti u k puta smanjuje disperziju za k 2 puta, a standardna devijacija je in k puta, tj. sve vrijednosti atributa mogu se podijeliti nekim konstantnim brojem (recimo, vrijednošću intervala serije), može se izračunati standardna devijacija, a zatim pomnožiti sa konstantnim brojem.
  • 4. Ako izračunamo prosječni kvadrat odstupanja od bilo koje vrijednosti I ako se u jednom ili drugom stepenu razlikuje od aritmetičke sredine, onda će ona uvek biti veća od prosečnog kvadrata odstupanja izračunatih od aritmetičke sredine. Prosječni kvadrat odstupanja će biti veći za vrlo izvjestan iznos - za kvadrat razlike između prosječne i ove konvencionalno uzete vrijednosti.

Varijacija alternativne karakteristike se sastoji u prisustvu ili odsustvu proučavanog svojstva u jedinicama populacije. Kvantitativno, varijacija alternativnog atributa se izražava sa dvije vrijednosti: prisustvo jedinice proučavanog svojstva označava se sa jedan (1), a njeno odsustvo označava se nulom (0). Udio jedinica koje imaju ispitivano svojstvo označava se sa P, a udio jedinica koje nemaju ovo svojstvo označava se sa G. Dakle, varijansa alternativnog atributa jednaka je proizvodu udjela jedinica koje posjeduju ovo svojstvo (P) sa udjelom jedinica koje ne posjeduju ovo svojstvo (G). Najveća varijacija stanovništva postiže se u slučajevima kada dio populacije, koji čini 50% ukupnog obima stanovništva, ima karakteristiku, a drugi dio populacije, također jednak 50%, nema ovu karakteristiku, a disperzija dostiže maksimalnu vrijednost od 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 i o 2 = 0,5 0,5 = 0,25. Donja granica ovog indikatora je nula, što odgovara situaciji u kojoj nema varijacije u agregatu. Praktična primjena varijanse alternativne karakteristike je konstruiranje intervali poverenja prilikom vršenja posmatranja uzorka.

Kako manje vrijednosti varijansa i standardna devijacija, što je populacija homogenija i prosjek će biti tipičniji. U praksi statistike često postoji potreba za poređenjem varijacija razni znakovi. Na primjer, zanimljivo je uporediti varijacije u dobi radnika i njihovim kvalifikacijama, dužini radnog staža i plaćama, troškovima i dobiti, dužini radnog staža i produktivnosti rada itd. Za takva poređenja pokazatelji apsolutne varijabilnosti karakteristika su neprikladni: nemoguće je uporediti varijabilnost radnog staža, izraženu u godinama, sa varijacijama plata, izraženih u rubljama. Za obavljanje ovakvih poređenja, kao i poređenja varijabilnosti iste karakteristike u nekoliko populacija sa različitim aritmetičkim prosecima, koriste se indikatori varijacije - koeficijent oscilacije, linearni koeficijent varijacije i koeficijent varijacije, koji pokazuju u kojoj mjeri ekstremne vrijednosti fluktuiraju oko prosjeka.

Koeficijent oscilacije:

Gdje V R - vrijednost koeficijenta oscilacije; R- vrijednost opsega varijacije; X -

Linearni koeficijent varijacije".

Gdje Vj- vrijednost linearnog koeficijenta varijacije; ja - vrijednost prosječne linearne devijacije; X - prosječna vrijednost karakteristike za populaciju koja se proučava.

Koeficijent varijacije:

Gdje V a - vrijednost koeficijenta varijacije; a je vrijednost standardne devijacije; X - prosječna vrijednost karakteristike za populaciju koja se proučava.

Koeficijent oscilacije je procentualni odnos raspona varijacije prema prosječnoj vrijednosti karakteristike koja se proučava, a linearni koeficijent varijacije je odnos prosječne linearne devijacije i prosječne vrijednosti karakteristike koja se proučava, izražen kao postotak. Koeficijent varijacije je procenat standardne devijacije u odnosu na prosječnu vrijednost karakteristike koja se proučava. Kao relativna vrijednost, izražena u procentima, koeficijent varijacije se koristi za poređenje stepena varijacije različitih karakteristika. Koristeći koeficijent varijacije, procjenjuje se homogenost statističke populacije. Ako je koeficijent varijacije manji od 33%, onda je ispitana populacija homogena i varijacija je slaba. Ako je koeficijent varijacije veći od 33%, onda je ispitana populacija heterogena, varijacija je jaka, a prosječna vrijednost je netipična i ne može se koristiti kao opći pokazatelj ove populacije. Osim toga, koeficijenti varijacije se koriste za poređenje varijabilnosti jedne osobine u različitim populacijama. Na primjer, da se procijeni varijacija u dužini radnog staža u dva preduzeća. Što je veća vrijednost koeficijenta, značajnija je varijacija karakteristike.

Na osnovu izračunatih kvartila moguće je izračunati i relativni pokazatelj kvartalne varijacije koristeći formulu

gdje je Q 2 I

Interkvartilni raspon je određen formulom

Kvartilna devijacija se koristi umjesto raspona varijacije kako bi se izbjegli nedostaci povezani s korištenjem ekstremnih vrijednosti:

Za nejednako intervalne serije varijacija izračunava se i gustina distribucije. Definira se kao količnik odgovarajuće frekvencije ili frekvencije podijeljen sa vrijednošću intervala. U nejednakim intervalnim serijama koriste se apsolutne i relativne gustine raspodjele. Apsolutna gustina distribucije je frekvencija po jedinici dužine intervala. Relativna gustina distribucije je frekvencija po jedinici dužine intervala.

Sve navedeno vrijedi za redove raspodjele čiji je zakon raspodjele dobro opisan normalnim zakonom raspodjele ili mu je blizak.

Koncept serije varijacija. Prvi korak u sistematizaciji materijala za statističko posmatranje je prebrojavanje broja jedinica koje imaju određenu karakteristiku. Raspoređivanjem jedinica u rastućem ili opadajućem redosledu njihove kvantitativne karakteristike i prebrojavanjem broja jedinica sa određenom vrednošću karakteristike, dobijamo varijacioni niz. Varijacijska serija karakterizira raspodjelu jedinica određene statističke populacije prema nekoj kvantitativnoj karakteristici.

Serija varijacija se sastoji od dva stupca, lijeva kolona sadrži vrijednosti varijabilne karakteristike, koje se nazivaju varijante i označavaju (x), a desna kolona sadrži apsolutne brojeve koji pokazuju koliko puta se svaka varijanta pojavljuje. Indikatori u ovoj koloni nazivaju se frekvencijama i označeni su (f).

Serija varijacija može se shematski prikazati u obliku tabele 5.1:

Tabela 5.1

Vrsta varijantne serije

Opcije (x)

Frekvencije (f)

U desnoj koloni mogu se koristiti i relativni indikatori koji karakterišu udio učestalosti pojedinih opcija u ukupnom zbiru frekvencija. Ovi relativni indikatori nazivaju se frekvencijama i konvencionalno se označavaju sa , tj. . Zbir svih frekvencija jednak je jedan. Frekvencije se mogu izraziti i u procentima, i tada će njihov zbir biti jednak 100%.

Mogu biti različiti znakovi drugačiji karakter. Varijante nekih karakteristika izražavaju se cijelim brojevima, na primjer, broj soba u stanu, broj objavljenih knjiga itd. Ovi znakovi se nazivaju diskontinuirani ili diskretni. Varijante drugih karakteristika mogu poprimiti bilo koje vrijednosti u određenim granicama, kao što je, na primjer, realizacija planiranih zadataka, nadnica itd. Ovi znakovi se nazivaju kontinuirani.

Diskretne serije varijacija. Ako su varijante varijacionog niza izražene u obliku diskretne količine, onda se takav varijacijski niz naziva diskretnim, it izgled predstavljeno u tabeli. 5.2:

Tabela 5.2

Raspodjela studenata prema ispitnim ocjenama

Ocjene (x)

Broj učenika (f)

U % od ukupnog ()

Priroda distribucije u diskretnim serijama je grafički prikazana u obliku poligona distribucije, slika 5.1.

Rice. 5.1. Raspodjela studenata prema ocjenama dobijenim na ispitu.

Serija intervalnih varijacija. Za kontinuirane karakteristike, varijacioni nizovi se konstruišu kao intervalni, tj. vrijednosti karakteristike u njima izražene su u obliku intervala "od i do". U ovom slučaju, minimalna vrijednost karakteristike u takvom intervalu naziva se donja granica intervala, a maksimalna se naziva gornja granica interval.

Intervalne varijacijske serije se konstruiraju kako za diskontinuirane karakteristike (diskretne) tako i za one koje variraju u velikom rasponu. Intervalni redovi mogu biti sa jednakim ili nejednakim intervalima. U ekonomskoj praksi se koristi većina nejednakih intervala, koji se progresivno povećavaju ili smanjuju. Ova potreba se javlja posebno u slučajevima kada se fluktuacija neke karakteristike javlja neravnomjerno iu velikim granicama.

Razmotrimo vrstu intervalne serije sa jednakim intervalima, tabela. 5.3:

Tabela 5.3

Raspodjela radnika po proizvodnji

Izlaz, t.r. (X)

Broj radnika (f)

Kumulativna frekvencija (f´)

Serija intervalne distribucije grafički je prikazana u obliku histograma, slika 5.2.

Sl.5.2. Raspodjela radnika po proizvodnji

Akumulirana (kumulativna) frekvencija. U praksi postoji potreba za transformacijom distributivnih serija u kumulativne serije, izgrađen prema akumuliranim frekvencijama. Uz njihovu pomoć, možete odrediti strukturne prosjeke koji olakšavaju analizu podataka serije distribucije.

Kumulativne frekvencije se određuju uzastopnim dodavanjem učestalosti (ili učestalosti) prve grupe ovih indikatora sljedećih grupa distribucijske serije. Kumulati i oživi se koriste za ilustraciju distributivnih serija. Za njihovu konstruiranje, vrijednosti diskretne karakteristike (ili krajevi intervala) su označene na osi apscise, a kumulativni zbroji frekvencija (kumulati) su označeni na osi ordinata, slika 5.3.

Rice. 5.3. Kumulativna distribucija radnika po proizvodnji

Ako su skale frekvencija i opcija obrnute, tj. osa apscisa odražava akumulirane frekvencije, a osa ordinata prikazuje vrijednosti varijanti, tada će se kriva koja karakterizira promjenu frekvencija od grupe do grupe nazvati distribucijskim ogive, slika 5.4.

Rice. 5.4. Ogiva raspodjele radnika po proizvodnji

Varijacijski nizovi sa jednakim intervalima predstavljaju jedan od najvažnijih zahtjeva za statističke serije distribucije, osiguravajući njihovu uporedivost u vremenu i prostoru.

Gustina distribucije. Međutim, frekvencije pojedinačnih nejednakih intervala u imenovanoj seriji nisu direktno uporedive. U takvim slučajevima, da bi se osigurala potrebna uporedivost, izračunava se gustina distribucije, tj. odrediti koliko jedinica u svakoj grupi ima po jedinici vrijednosti intervala.

Prilikom konstruiranja grafa distribucije niza varijacija s nejednakim intervalima, visina pravokutnika se određuje proporcionalno ne frekvencijama, već pokazateljima gustoće distribucije vrijednosti karakteristike koja se proučava u odgovarajućem intervalima.

Izrada varijacionog niza i njegovo grafičko predstavljanje je prvi korak u obradi početnih podataka i prva faza u analizi populacije koja se proučava. Sljedeći korak u analizi varijacionih serija je određivanje glavnih opštih indikatora, koji se nazivaju karakteristike serije. Ove karakteristike bi trebale dati predstavu o prosječnoj vrijednosti karakteristike među populacijskim jedinicama.

prosječna vrijednost. Prosječna vrijednost je generalizovana karakteristika karakteristike koja se proučava u populaciji koja se proučava, odražavajući njen tipičan nivo po jedinici populacije u specifičnim uslovima mjesta i vremena.

Prosječna vrijednost je uvijek imenovana i ima istu dimenziju kao karakteristika pojedinih jedinica populacije.

Prije izračunavanja prosječnih vrijednosti, potrebno je grupirati jedinice populacije koja se proučava, identifikujući kvalitativno homogene grupe.

Prosjek izračunat za populaciju u cjelini naziva se ukupnim prosjekom, a za svaku grupu - grupnim prosjekom.

Postoje dvije vrste prosjeka: snaga (aritmetička sredina, harmonijska sredina, geometrijska sredina, kvadratna sredina); strukturni (mod, medijan, kvartili, decili).

Izbor prosjeka za izračunavanje ovisi o namjeni.

Vrste prosječnih snaga i metode za njihovo izračunavanje. U praksi statističke obrade prikupljeni materijal nastati razne zadatke, koji zahtijevaju različite prosjeke za rješavanje.

Matematička statistika izvodi različite prosjeke iz formula prosječne moći:

gdje je prosječna vrijednost; x – pojedinačne opcije (vrijednosti karakteristika); z – eksponent (sa z = 1 – aritmetička sredina, z = 0 geometrijska sredina, z = - 1 – harmonijska sredina, z = 2 – kvadratna sredina).

Međutim, rješava se pitanje koji tip prosjeka treba primijeniti u svakom pojedinačnom slučaju specifične analize populaciju koja se proučava.

Najčešći tip prosjeka u statistici je aritmetička sredina. Izračunava se u slučajevima kada se volumen prosječne karakteristike formira kao zbir njenih vrijednosti za pojedinačne jedinice statističke populacije koja se proučava.

U zavisnosti od prirode izvornih podataka, aritmetička sredina se određuje na različite načine:

Ako su podaci negrupisani, tada se izračunavanje vrši pomoću jednostavne prosječne formule

Izračunavanje aritmetičke sredine u diskretne serije odvija se prema formuli 3.4.

Izračunavanje aritmetičke sredine u intervalnoj seriji. U nizu varijacije intervala, gdje se vrijednost karakteristike u svakoj grupi konvencionalno uzima kao sredina intervala, aritmetička sredina može se razlikovati od srednje izračunate iz negrupisanih podataka. Štaviše, što je veći interval u grupama, veća su moguća odstupanja prosjeka izračunatog iz grupisanih podataka od prosjeka izračunatog iz negrupisanih podataka.

Prilikom izračunavanja prosjeka u nizu varijacije intervala, da bi se izvršili potrebni proračuni, kreće se od intervala do njihovih srednjih tačaka. Zatim se prosjek izračunava korištenjem formule ponderiranog aritmetičkog prosjeka.

Svojstva aritmetičke sredine. Aritmetička sredina ima neka svojstva koja omogućavaju pojednostavljenje izračunavanja;

1. Aritmetička sredina konstantnih brojeva jednaka je ovom konstantnom broju.

Ako je x = a. Onda .

2. Ako se ponderi svih opcija mijenjaju proporcionalno, tj. povećati ili smanjiti za isti broj puta, tada se aritmetička sredina nove serije neće promijeniti.

Ako se sve težine f smanje za k puta, onda .

3. Zbir pozitivnih i negativnih odstupanja pojedinačnih opcija od prosjeka, pomnožen ponderima, jednak je nuli, tj.

Ako onda. Odavde.

Ako se sve opcije smanje ili poveća za bilo koji broj, tada će se aritmetička sredina nove serije smanjiti ili povećati za isti iznos.

Smanjimo sve opcije x on a, tj. x´ = xa.

Onda

Aritmetička sredina originalnog niza može se dobiti dodavanjem smanjene srednje vrijednosti prethodno oduzetog broja od opcija a, tj. .

5. Ako su sve opcije smanjene ili povećane k puta, tada će se aritmetička sredina nove serije smanjiti ili povećati za isti iznos, tj. V k jednom.

Neka bude onda .

Dakle, tj. da bi se dobio prosjek originalne serije, aritmetički prosjek nove serije (sa smanjenim opcijama) mora se povećati za k jednom.

Harmonična sredina. Harmonska sredina je recipročna vrijednost aritmetičke sredine. Koristi se kada statističke informacije ne sadrže frekvencije za pojedinačne varijante populacije, već se predstavljaju kao njihov proizvod (M = xf). Harmonička sredina će se izračunati korištenjem formule 3.5

Praktična primjena harmonijske sredine je izračunavanje nekih indeksa, posebno indeksa cijena.

Geometrijska sredina. Kada se koristi geometrijska sredina, pojedinačne vrijednosti karakteristike su po pravilu relativne vrijednosti dinamike, konstruirane u obliku lančanih vrijednosti, kao omjer prema prethodnom nivou svakog nivoa u nizu dinamike. Prosjek tako karakteriše prosječnu stopu rasta.

Prosjek geometrijska veličina se također koristi za određivanje ekvidistantne vrijednosti od maksimalne i minimalne vrijednosti karakteristike. Na primjer, osiguravajuće društvo zaključuje ugovore o pružanju usluga auto osiguranja. Ovisno o konkretnom osiguranom slučaju plaćanje osiguranja može se kretati od 10.000 do 100.000 dolara godišnje. Prosječan iznos plaćanja osiguranja će biti USD.

Geometrijska sredina je veličina koja se koristi kao prosjek odnosa ili u serijama distribucije, predstavljena kao geometrijska progresija, kada je z = 0. Ovaj prosjek je pogodan za korištenje kada se pažnja ne obraća na apsolutne razlike, već na omjere dva broja.

Formule za izračun su sljedeće

gdje su varijante karakteristike koje se prosječuju; – proizvod opcija; f– učestalost opcija.

Geometrijska sredina se koristi u proračunima prosječnih godišnjih stopa rasta.

Srednji kvadrat. Formula srednjeg kvadrata se koristi za mjerenje stepena fluktuacije pojedinačnih vrijednosti karakteristike oko aritmetičke sredine u seriji distribucije. Dakle, pri izračunavanju indikatora varijacije prosjek se izračunava iz kvadrata odstupanja pojedinačnih vrijednosti karakteristike od aritmetičke sredine.

Srednja kvadratna vrijednost izračunava se pomoću formule

U ekonomskim istraživanjima, modifikovani srednji kvadrat se široko koristi u izračunavanju indikatora varijacije neke karakteristike, kao što su disperzija i standardna devijacija.

Vladavina većine. Postoji sljedeća veza između prosječnih snaga - što je veći eksponent, to je veća vrijednost prosjeka, tabela 5.4:

Tabela 5.4

Odnos između prosjeka

z vrijednost

Odnos između prosjeka

Ovaj odnos se naziva pravilo većine.

Strukturni proseci. Za karakterizaciju strukture stanovništva koriste se posebni indikatori, koji se mogu nazvati strukturnim prosjecima. Ovi indikatori uključuju mod, medijan, kvartile i decile.

Moda. Mod (Mo) je najčešća vrijednost karakteristike među jedinicama stanovništva. Mod je vrijednost atributa koja odgovara maksimalnoj tački teorijske krivulje distribucije.

Moda se široko koristi u komercijalnoj praksi prilikom proučavanja potražnje potrošača (prilikom određivanja veličina odjeće i obuće za kojima se traži velika potražnja) i evidentiranja cijena. Može postojati nekoliko modova ukupno.

Proračun moda u diskretnoj seriji. U diskretnoj seriji, mod je varijanta sa najvećom frekvencijom. Razmotrimo pronalaženje moda u diskretnoj seriji.

Proračun moda u intervalnoj seriji. U intervalnoj varijacionoj seriji, mod se približno smatra centralnom varijantom modalnog intervala, tj. interval koji ima najveću frekvenciju (frekvenciju). Unutar intervala morate pronaći vrijednost atributa koji je način rada. Za intervalnu seriju, mod će biti određen formulom

gdje je donja granica modalnog intervala; – vrijednost modalnog intervala; – frekvencija koja odgovara modalnom intervalu; – frekvencija koja prethodi modalnom intervalu; – učestalost intervala koji slijedi nakon modalnog.

Medijan. Medijan () je vrijednost atributa srednje jedinice rangirane serije. Rangirani niz je niz u kojem se vrijednosti atributa pišu uzlaznim ili silaznim redoslijedom. Ili je medijan vrijednost koja dijeli broj uređene varijacijske serije na dva jednaka dijela: jedan dio ima vrijednost varijabilne karakteristike koja je manja od prosječne opcije, a drugi ima vrijednost koja je veća.

Da biste pronašli medijanu, prvo odredite njen redni broj. Da biste to učinili, ako je broj jedinica neparan, jedan se dodaje zbroju svih frekvencija i sve se dijeli sa dva. Kod parnog broja jedinica, medijana se nalazi kao vrijednost atributa jedinice, čiji je serijski broj određen ukupnim zbrojem frekvencija podijeljenim s dva. Poznavajući serijski broj medijane, lako je pronaći njegovu vrijednost koristeći akumulirane frekvencije.

Izračunavanje medijane u diskretnom nizu. Uzorkom istraživanja dobijeni su podaci o raspodjeli porodica po broju djece, tabela. 5.5. Da bismo odredili medijan, prvo odredimo njegov redni broj

U ovim porodicama broj djece je jednak 2, dakle = 2. Dakle, u 50% porodica broj djece ne prelazi 2.

– akumulirana frekvencija koja prethodi srednjem intervalu;

S jedne strane, ovo je vrlo pozitivno svojstvo jer u ovom slučaju se uzima u obzir efekat svih uzroka koji utiču na sve jedinice populacije koja se proučava. S druge strane, čak i jedno zapažanje koje je slučajno uključeno u izvorne podatke može značajno iskriviti ideju o stupnju razvoja osobine koja se proučava u populaciji koja se razmatra (posebno u kratkim serijama).

Kvartili i decili. Analogno pronalaženju medijane u nizu varijacija, možete pronaći vrijednost karakteristike za bilo koju jedinicu rangirane serije. Tako, posebno, možete pronaći vrijednost atributa za jedinice koje dijele niz na 4 jednaka dijela, na 10 itd.

Kvartili. Opcije koje dijele rangiranu seriju na četiri jednaka dijela nazivaju se kvartili.

U ovom slučaju razlikuju: donji (ili prvi) kvartil (Q1) - vrijednost atributa za jedinicu rangirane serije, dijeleći populaciju u omjeru od ¼ do ¾ i gornji (ili treći) kvartil ( Q3) - vrijednost atributa za jedinicu rangirane serije, dijeleći populaciju u omjeru ¾ prema ¼.

– frekvencije kvartilnih intervala (donji i gornji)

Intervali koji sadrže Q1 i Q3 određeni su akumuliranim frekvencijama (ili frekvencijama).

Decili. Osim kvartila, izračunavaju se decili - opcije koje dijele rangiranu seriju na 10 jednakih dijelova.

Označeni su sa D, prvi decil D1 dijeli niz u omjeru 1/10 i 9/10, drugi D2 - 2/10 i 8/10, itd. Izračunavaju se prema istoj shemi kao medijana i kvartili.

I medijan, kvartil i decil pripadaju takozvanoj ordinalnoj statistici, koja se podrazumijeva kao opcija koja zauzima određeno redno mjesto u rangiranoj seriji.

​ Varijaciona serija - serija u kojoj se porede (po stepenu povećanja ili smanjenja) opcije i odgovarajući frekvencije

Opcije su pojedinačni kvantitativni izrazi karakteristike. Označeno latiničnim slovom V . Klasično razumijevanje pojma „varijanta“ pretpostavlja da se svaka jedinstvena vrijednost karakteristike naziva varijanta, bez uzimanja u obzir broja ponavljanja.

Na primjer, u seriji varijacija indikatora sistoličkog krvnog tlaka mjerenih kod deset pacijenata:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

Na raspolaganju je samo 6 vrijednosti:

110, 120, 130, 140, 160, 170.

Učestalost je broj koji pokazuje koliko puta se opcija ponavlja. Označava se latiničnim slovom P . Zbir svih frekvencija (koji je, naravno, jednak broju svih proučavanih) označava se kao n.

    U našem primjeru, frekvencije će poprimiti sljedeće vrijednosti:
  • za opciju 110 frekvencija P = 1 (vrijednost 110 javlja se kod jednog pacijenta),
  • za opciju 120, frekvencija P = 2 (vrijednost 120 javlja se kod dva pacijenta),
  • za opciju 130 frekvencija P = 3 (vrijednost 130 javlja se kod tri pacijenta),
  • za opciju 140 frekvencija P = 2 (vrijednost 140 javlja se kod dva pacijenta),
  • za opciju 160 frekvencija P = 1 (vrijednost 160 javlja se kod jednog pacijenta),
  • za opciju 170 frekvencija P = 1 (vrijednost 170 javlja se kod jednog pacijenta),

Vrste varijantnih serija:

  1. jednostavno- ovo je serija u kojoj se svaka opcija javlja samo jednom (sve frekvencije su jednake 1);
  2. suspendovan- serija u kojoj se jedna ili više opcija pojavljuju više puta.

Serija varijacija se koristi za opisivanje velikih nizova brojeva, u ovom obliku su prikupljeni podaci većine medicinskih studija. Da bi se okarakterisala serija varijacija, izračunavaju se posebni indikatori, uključujući prosječne vrijednosti, indikatore varijabilnosti (tzv. disperzije) i indikatore reprezentativnosti podataka uzorka.

Indikatori serije varijacija

1) Aritmetička sredina je opšti pokazatelj koji karakteriše veličinu karakteristike koja se proučava. Aritmetička sredina se označava kao M , je najčešći tip prosjeka. Aritmetička sredina se izračunava kao omjer zbira vrijednosti indikatora svih jedinica posmatranja i broja svih proučavanih subjekata. Metoda za izračunavanje aritmetičke sredine razlikuje se za jednostavnu i ponderisanu seriju varijacija.

Formula za proračun jednostavan aritmetički prosjek:

Formula za proračun ponderisani aritmetički prosjek:

M = Σ(V * P)/ n

​ 2) Mod je još jedna prosječna vrijednost serije varijacija, koja odgovara opciji koja se najčešće ponavlja. Ili, drugačije rečeno, ovo je opcija koja odgovara najvišoj frekvenciji. Označeno kao Mo . Režim se izračunava samo za ponderisane serije, budući da in jednostavni redovi nijedna opcija se ne ponavlja i sve frekvencije su jednake jednoj.

Na primjer, u nizu varijacija vrijednosti otkucaja srca:

80, 84, 84, 86, 86, 86, 90, 94;

vrijednost moda je 86, pošto se ova opcija pojavljuje 3 puta, stoga je njena frekvencija najveća.

3) Medijan - vrijednost opcije koja dijeli varijacioni niz na pola: na obje njegove strane nalazi se jednak broj opcija. Medijan se, kao i aritmetička sredina i mod, odnosi na prosječne vrijednosti. Označeno kao Ja

4) Standardna devijacija (sinonimi: standardna devijacija, sigma devijacija, sigma) - mjera varijabilnosti serije varijacija. To je integralni indikator koji objedinjuje sve slučajeve odstupanja od prosjeka. Zapravo, odgovara na pitanje: koliko se i koliko često varijante šire od aritmetičke sredine. Označeno grčkim slovom σ ("sigma").

Ako je veličina populacije veća od 30 jedinica, standardna devijacija se izračunava pomoću sljedeće formule:

Za male populacije - 30 jedinica posmatranja ili manje - standardna devijacija se izračunava pomoću druge formule:

Varijacijski nizovi: definicija, tipovi, glavne karakteristike. Metoda kalkulacije
mod, medijan, aritmetička sredina u medicinskim i statističkim istraživanjima
(prikaži sa uslovnim primerom).

Varijacijska serija je niz numeričkih vrijednosti karakteristike koja se proučava, koje se međusobno razlikuju po veličini i raspoređene u određenom nizu (uzlaznim ili silaznim redoslijedom). Svaka numerička vrijednost serije naziva se varijanta (V), a brojevi koji pokazuju koliko se često određena varijanta pojavljuje u datoj seriji nazivaju se frekvencijom (p).

Ukupan broj slučajeva posmatranja koji čine niz varijacija označen je slovom n. Razlika u značenju karakteristika koje se proučavaju naziva se varijacija. Ako varijabilna karakteristika nema kvantitativnu mjeru, varijacija se naziva kvalitativnom, a serija distribucije naziva se atributivnom (na primjer, distribucija prema ishodu bolesti, zdravstvenom statusu, itd.).

Ako promjenljiva karakteristika ima kvantitativni izraz, takva varijacija se naziva kvantitativna, a serija distribucije naziva se varijantna.

Varijacijski nizovi se dijele na diskontinuirane i kontinuirane - na osnovu prirode kvantitativne karakteristike i ponderisane - na osnovu učestalosti pojavljivanja varijante.

U jednostavnoj seriji varijacija, svaka opcija se pojavljuje samo jednom (p=1), u ponderiranoj seriji, ista opcija se pojavljuje nekoliko puta (p>1). O primjerima takvih serija će biti riječi dalje u tekstu. Ako je kvantitativna karakteristika kontinuirana, tj. Između cjelobrojnih veličina postoje međudjelične veličine, niz varijacija se naziva kontinuiranim.

Na primjer: 10.0 – 11.9

14,0 – 15,9 itd.

Ako je kvantitativna karakteristika diskontinuirana, tj. njegove pojedinačne vrijednosti (varijante) razlikuju se jedna od druge za cijeli broj i nemaju međuvrijednosti razlomaka, serija varijacija se naziva diskontinuirana ili diskretna.

Koristeći podatke o pulsu iz prethodnog primjera

za 21 učenika konstruisaćemo varijacioni niz (tabela 1).

Tabela 1

Distribucija studenata medicine prema pulsu (bpm)

Dakle, konstruisati varijantni niz znači dostupno numeričke vrijednosti(opcije) sistematizovati, organizovati, tj. poređati u određenom nizu (uzlaznim ili silaznim) sa odgovarajućim frekvencijama. U primjeru koji se razmatra, opcije su raspoređene u rastućem redoslijedu i izražene kao cjelobrojni diskontinuirani (diskretni) brojevi, svaka opcija se javlja nekoliko puta, tj. imamo posla sa ponderisanim, diskontinuiranim ili diskretnim nizovima varijacija.

U pravilu, ako broj zapažanja u statističkoj populaciji koju proučavamo ne prelazi 30, tada je dovoljno sve vrijednosti karakteristike koja se proučava u rastućem nizu varijacija, kao u tabeli. 1, ili silazni red.

Uz veliki broj zapažanja (n>30), broj varijanti koje se pojavljuju može biti vrlo velik, u ovom slučaju se sastavlja intervalna ili grupirana serija varijacija, u kojoj se radi pojednostavljenja naknadne obrade i pojašnjenja prirode distribucije; varijante su kombinovane u grupe.

Obično se broj grupnih opcija kreće od 8 do 15.

Trebalo bi da ih bude najmanje 5, jer... inače će biti pregrubo, pretjerano uvećanje, što iskrivljuje cjelokupnu sliku varijacije i u velikoj mjeri utiče na tačnost prosječnih vrijednosti. Kada je broj grupnih varijanti veći od 20-25, točnost izračunavanja prosječnih vrijednosti se povećava, ali su karakteristike varijacije karakteristike značajno iskrivljene i matematička obrada postaje složenija.

Prilikom sastavljanja grupisane serije potrebno je voditi računa

− grupe opcija moraju biti raspoređene određenim redoslijedom (uzlazno ili silazno);

− intervali u grupama opcija moraju biti isti;

− vrijednosti granica intervala ne bi trebale da se podudaraju, jer biće nejasno u koje grupe svrstati pojedinačne varijante;

− potrebno je uzeti u obzir kvalitativne karakteristike prikupljenog materijala prilikom postavljanja granica intervala (na primjer, kod proučavanja težine odraslih osoba prihvatljiv je interval od 3-4 kg, a za djecu u prvim mjesecima života ne bi trebalo da prelazi 100 g)

Napravimo grupiranu (intervalnu) seriju koja karakteriše podatke o pulsu (otkucaja u minuti) za 55 studenata medicine prije ispita: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Da biste napravili grupiranu seriju potrebno vam je:

1. Odrediti veličinu intervala;

2. Odredite sredinu, početak i kraj grupa varijacionog niza.

● Veličina intervala (i) određena je brojem pretpostavljenih grupa (r), čiji se broj određuje u zavisnosti od broja posmatranja (n) prema posebnoj tabeli

Broj grupa u zavisnosti od broja posmatranja:

U našem slučaju za 55 učenika možete kreirati od 8 do 10 grupa.

Vrijednost intervala (i) određena je sljedećom formulom -

i = V max-V min/r

U našem primjeru, vrijednost intervala je 82-58/8= 3.

Ako je vrijednost intervala razlomak broj, rezultat treba zaokružiti na cijeli broj.

Postoji nekoliko vrsta prosjeka:

● aritmetička sredina,

● geometrijska sredina,

● harmonska sredina,

● srednji kvadrat,

● prosječna progresivna,

● medijana

IN medicinska statistika Najčešće se koriste aritmetički prosjeci.

Aritmetička sredina (M) je generalizirajuća vrijednost koja određuje šta je tipično za cijelu populaciju. Glavne metode za izračunavanje M su: metoda aritmetičke sredine i metoda momenata (uslovna odstupanja).

Metoda aritmetičke sredine se koristi za izračunavanje proste aritmetičke sredine i ponderisane aritmetičke sredine. Izbor metode za izračunavanje aritmetičke sredine zavisi od vrste varijacione serije. U slučaju jednostavne serije varijacija, u kojoj se svaka opcija javlja samo jednom, aritmetička sredina jednostavna se određuje formulom:

gdje je: M – srednja aritmetička vrijednost;

V – vrijednost varijabilne karakteristike (varijante);

Σ – označava radnju – zbrajanje;

n – ukupan broj zapažanja.

Primjer izračunavanja jednostavnog aritmetičkog prosjeka. Brzina disanja (broj disajnih pokreta u minuti) kod 9 muškaraca starosti 35 godina: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Za određivanje prosječnog nivoa respiratorne frekvencije kod muškaraca starosti 35 godina potrebno je:

1. Konstruirajte niz varijacija, raspoređujući sve opcije u rastućem ili opadajućem redoslijedu. Dobili smo jednostavnu varijantnu seriju, jer vrijednosti opcija se javljaju samo jednom.

M = ∑V/n = 171/9 = 19 udisaja u minuti

Zaključak. Stopa disanja kod muškaraca starosti 35 godina je u prosjeku 19 pokreti disanja za minut.

Ako se pojedinačne vrijednosti varijante ponavljaju, nije potrebno svaku varijantu zapisivati ​​u red, dovoljno je navesti koje se veličine varijante (V) pojavljuju i pored toga navesti broj njihovih ponavljanja (p; ). Takva serija varijacija, u kojoj su opcije takoreći odmjerene brojem frekvencija koje im odgovaraju, naziva se ponderirani varijacioni niz, a izračunata srednja vrijednost je ponderirana aritmetička sredina.

Ponderisana aritmetička sredina određena je formulom: M= ∑Vp/n

gdje je n broj zapažanja, jednak zbiru frekvencije – Σr.

Primjer izračunavanja aritmetičkog ponderiranog prosjeka.

Trajanje invaliditeta (u danima) kod 35 pacijenata sa akutnim respiratornim oboljenjima (ARI) liječenih kod lokalnog ljekara tokom prvog kvartala tekuće godine iznosilo je: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dana .

Metoda za određivanje prosječnog trajanja invaliditeta kod pacijenata sa akutnim respiratornim infekcijama je sljedeća:

1. Hajde da konstruišemo ponderisani varijacioni niz, jer Pojedinačne vrijednosti opcije se ponavljaju nekoliko puta. Da biste to učinili, možete rasporediti sve opcije u rastućem ili opadajućem redoslijedu s njihovim odgovarajućim frekvencijama.

U našem slučaju, opcije su raspoređene u rastućem redoslijedu

2. Izračunajte aritmetički ponderisani prosek koristeći formulu: M = ∑Vp/n = 233/35 = 6,7 dana

Distribucija pacijenata sa akutnim respiratornim infekcijama prema trajanju invaliditeta:

Trajanje invalidnosti (V) Broj pacijenata (p) Vp
∑p = n = 35 ∑Vp = 233

Zaključak. Trajanje invaliditeta kod pacijenata sa akutnim respiratornim oboljenjima u prosjeku je 6,7 dana.

Mod (Mo) je najčešća opcija u seriji varijacija. Za distribuciju predstavljenu u tabeli, režim odgovara opciji jednakoj 10, javlja se češće od ostalih - 6 puta.

Distribucija pacijenata prema dužini boravka u bolničkom krevetu (u danima)

V
str

Ponekad je teško odrediti tačnu veličinu modusa jer može postojati nekoliko „najčešćih“ zapažanja u podacima koji se proučavaju.

Medijan (Me) je neparametarski indikator koji varijantnu seriju dijeli na dvije jednake polovine: isti broj varijanti nalazi se na obje strane medijane.

Na primjer, za distribuciju prikazanu u tabeli, medijan je 10, jer sa obe strane ove vrednosti nalazi se opcija 14, tj. broj 10 zauzima centralna pozicija u ovoj seriji je njegova medijana.

S obzirom da je broj zapažanja u ovom primjeru paran (n=34), medijan se može odrediti na sljedeći način:

Ja = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

To znači da sredina serije pada na sedamnaestu opciju, što odgovara medijani jednakoj 10. Za distribuciju prikazanu u tabeli, aritmetička sredina je jednaka:

M = ∑Vp/n = 334/34 = 10.1

Dakle, za 34 zapažanja iz tabele. 8, dobili smo: Mo=10, Me=10, aritmetička sredina (M) je 10,1. U našem primjeru ispostavilo se da su sva tri indikatora jednaka ili bliska jedan drugom, iako su potpuno različiti.

Aritmetička sredina je rezultujući zbir svih uticaja bez izuzetka, uključujući i one ekstremne, često netipične za datu pojavu ili populaciju, koje učestvuju u njenom formiranju.

Mod i medijan, za razliku od aritmetičke sredine, ne ovise o vrijednosti svih pojedinačnih vrijednosti varijabilne karakteristike (vrijednosti ekstremnih varijanti i stepena disperzije serije). Aritmetička sredina karakterizira cjelokupnu masu opažanja, mod i medijan karakteriziraju većinu

Posebno mjesto u statističkoj analizi pripada određivanju prosječnog nivoa karakteristike ili pojave koja se proučava. Prosječni nivo osobine mjeri se prosječnim vrijednostima.

Prosječna vrijednost karakteriše opšti kvantitativni nivo karakteristike koja se proučava i predstavlja grupno svojstvo statističke populacije. On izravnava, slabi nasumična odstupanja pojedinačnih zapažanja u jednom ili drugom smjeru i ističe glavno, tipično svojstvo karakteristike koja se proučava.

Prosjeci se široko koriste:

1. Procijeniti zdravstveno stanje stanovništva: karakteristike fizičkog razvoja (visina, težina, obim prsa itd.), utvrđivanje prevalencije i trajanja razne bolesti, analiza demografski pokazatelji(prirodno kretanje stanovništva, prosječan životni vijek, reprodukcija stanovništva, prosječna veličina populacije, itd.).

2. Proučavanje aktivnosti medicinskih ustanova, medicinsko osoblje i procjenu kvaliteta njihovog rada, planiranje i utvrđivanje potreba stanovništva za razne vrste medicinsku njegu(prosječan broj zahtjeva ili posjeta po stanovniku godišnje, prosječno trajanje boravak pacijenta u bolnici, prosječno trajanje pregled pacijenta, prosječna dostupnost ljekara, kreveta itd.).

3. Okarakterisati sanitarno-epidemiološko stanje (prosečan sadržaj prašine u vazduhu u radionici, prosečna površina po osobi, prosečna potrošnja proteina, masti i ugljenih hidrata itd.).

4. Odrediti medicinske i fiziološke pokazatelje u normalnim i patološkim stanjima, prilikom obrade laboratorijskih podataka, utvrditi pouzdanost rezultata uzorak ankete u socijalno-higijenskim, kliničkim, eksperimentalnim studijama.

Izračunavanje prosječnih vrijednosti vrši se na osnovu varijacionih serija. Varijacijska serija je kvalitativno homogen statistički skup, čije pojedinačne jedinice karakterišu kvantitativne razlike karakteristike ili fenomena koji se proučava.

Kvantitativna varijacija može biti dva tipa: diskontinuirana (diskretna) i kontinuirana.

Diskontinuirani (diskretni) atribut se izražava samo kao cijeli broj i ne može imati nikakve međuvrijednosti (na primjer, broj posjeta, stanovništvo stranice, broj djece u porodici, težina bolesti u bodovima , itd.).

Kontinuirana karakteristika može poprimiti bilo koje vrijednosti unutar određenih granica, uključujući i frakcijske, i izražava se samo približno (na primjer, težina - za odrasle može biti ograničena na kilograme, a za novorođenčad - na grame; visina, arterijski pritisak, vrijeme provedeno u pregledu pacijenta, itd.).



Digitalna vrijednost svake pojedinačne karakteristike ili fenomena uključene u seriju varijacija naziva se varijanta i označava se slovom V . U matematičkoj literaturi se, na primjer, nalaze i druge oznake x ili y.

Serija varijacija, u kojoj je svaka opcija naznačena jednom, naziva se jednostavna. Takve serije se koriste u većini statističkih problema u slučaju kompjuterske obrade podataka.

Kako se broj zapažanja povećava, pojavljuju se ponavljajuće vrijednosti varijanti. U ovom slučaju se kreira grupisane serije varijacija, gdje je označen broj ponavljanja (učestalost, označena slovom “ R »).

Serija rangiranih varijacija sastoji se od opcija raspoređenih u rastućem ili opadajućem redoslijedu. I jednostavne i grupisane serije mogu se sastaviti sa rangiranjem.

Serija intervalnih varijacija sastavljen u cilju pojednostavljenja naknadnih proračuna izvedenih bez upotrebe računara, sa veoma velikim brojem jedinica posmatranja (više od 1000).

Kontinuirana serija varijacija uključuje vrijednosti opcija, koje mogu biti bilo koje vrijednosti.

Ako su u nizu varijacija vrijednosti karakteristike (varijante) date u obliku pojedinačnih specifičnih brojeva, tada se takav niz naziva diskretno.

Opće karakteristike Vrijednosti karakteristike prikazane u nizu varijacija su prosječne vrijednosti. Među njima se najčešće koriste: aritmetička sredina M, moda Mo i medijana Ja. Svaka od ovih karakteristika je jedinstvena. One se međusobno ne mogu zamijeniti i samo zajedno predstavljaju karakteristike varijantnog niza sasvim u potpunosti i u sažetom obliku.

Moda (Mo) navedite vrijednost opcija koje se najčešće pojavljuju.

Medijan (ja) – ovo je vrijednost opcije koja rangirani niz varijacija dijeli na pola (na svakoj strani medijane nalazi se polovina opcije). U rijetkim slučajevima, kada postoji simetrična varijantna serija, mod i medijan su međusobno jednaki i poklapaju se sa vrijednošću aritmetičke sredine.

Većina tipična karakteristika vrijednost opcija je aritmetička sredina vrijednost( M ). U matematičkoj literaturi se označava .

Aritmetička sredina (M, ) je opšta kvantitativna karakteristika određene karakteristike fenomena koji se proučava, čineći kvalitativno homogenu statističku populaciju. Postoje jednostavne i ponderisane aritmetičke sredine. Prosta aritmetička sredina izračunava se za jednostavnu seriju varijacija tako što se zbroje sve opcije i podijeli ovaj zbir sa ukupno opcija uključena u ovu seriju varijacija. Izračuni se vrše prema formuli:

,

gdje: M - prosta aritmetička sredina;

Σ V - opcija iznosa;

n- broj zapažanja.

U grupisanom nizu varijacija utvrđuje se ponderisana aritmetička sredina. Formula za njegovo izračunavanje:

,

gdje: M - aritmetički ponderisani prosek;

Σ Vp - zbir proizvoda varijante po njihovim frekvencijama;

n- broj zapažanja.

Uz veliki broj zapažanja, u slučaju ručnih proračuna, može se koristiti metoda momenata.

Aritmetička sredina ima sledeća svojstva:

· zbir odstupanja od prosjeka ( Σ d ) jednak je nuli (vidi tabelu 15);

· pri množenju (dijeljenju) svih opcija sa istim faktorom (djeliteljem), aritmetička sredina se množi (dijeli) istim faktorom (djeliteljem);

· ako svim opcijama dodate (oduzmete) isti broj, aritmetička sredina se povećava (smanjuje) za isti broj.

Aritmetički prosjeci, uzeti sami po sebi, bez uzimanja u obzir varijabilnosti serije iz koje su izračunati, možda neće u potpunosti odražavati svojstva varijacione serije, posebno kada je potrebno poređenje sa drugim prosjecima. Prosjeci blizu vrijednosti mogu se dobiti iz serije sa različitim stepenima rasipanje. Što su pojedinačne opcije bliže jedna drugoj u smislu svojih kvantitativnih karakteristika, to je manje disperzija (oscilacija, varijabilnost) serije, tipičniji je njen prosek.

Glavni parametri koji nam omogućavaju da procijenimo varijabilnost osobine su:

· Obim;

· Amplituda;

· Standardna devijacija;

· Koeficijent varijacije.

Varijabilnost osobine može se približno ocijeniti rasponom i amplitudom serije varijacija. Raspon označava maksimalnu (V max) i minimalnu (V min) opcije u seriji. Amplituda (A m) je razlika između ovih opcija: A m = V max - V min.

Glavna, općeprihvaćena mjera varijabilnosti varijacione serije je disperzija (D ). Ali najčešće se koristi pogodniji parametar izračunat na osnovu disperzije - standardna devijacija ( σ ). Uzima u obzir veličinu odstupanja ( d ) svake serije varijacija iz njene aritmetičke sredine ( d=V - M ).

Budući da odstupanja od prosjeka mogu biti pozitivna i negativna, kada se saberu daju vrijednost “0” (S d=0). Da bi se to izbjeglo, vrijednosti odstupanja ( d) se podižu na drugi stepen i prosječuju. Dakle, disperzija niza varijacija je srednji kvadrat odstupanja varijante od aritmetičke sredine i izračunava se po formuli:

.

Ona je slučajno najvažnija karakteristika varijabilnost i koristi se za izračunavanje mnogih statističkih testova.

Budući da se disperzija izražava kao kvadrat odstupanja, njena vrijednost se ne može koristiti u poređenju sa aritmetičkom sredinom. U te svrhe se koristi standardna devijacija, koji je označen znakom "Sigma" ( σ ). Karakterizira prosječno odstupanje svih varijanti varijacionog niza od srednje aritmetičke vrijednosti u istim jedinicama kao i sama prosječna vrijednost, tako da se mogu koristiti zajedno.

Standardna devijacija se određuje formulom:

Navedena formula se primjenjuje kada se broj zapažanja ( n ) više od 30. Sa manjim brojem n vrijednost standardne devijacije će imati grešku povezanu s matematičkim pomakom ( n - 1). S tim u vezi, točniji rezultat može se dobiti uzimanjem u obzir takve pristranosti u formuli za izračunavanje standardne devijacije:

standardna devijacija (s ) je procjena standardne devijacije slučajne varijable X u vezi nje matematičko očekivanje na osnovu nepristrasne procjene njegove varijanse.

Sa vrijednostima n > 30 standardne devijacije ( σ ) i standardna devijacija ( s ) bit će isti ( σ =s ). Stoga se u većini praktičnih priručnika smatra da ovi kriteriji imaju različita značenja. IN Excel program izračunavanje standardne devijacije može se izvršiti pomoću funkcije =STDEV(opseg). A da biste izračunali standardnu ​​devijaciju, morate kreirati odgovarajuću formulu.

Srednji kvadrat ili standardna devijacija vam omogućavaju da odredite koliko se vrijednosti neke karakteristike mogu razlikovati od prosječne vrijednosti. Pretpostavimo da postoje dva grada sa istom prosječnom dnevnom temperaturom ljeti. Jedan od ovih gradova nalazi se na obali, a drugi na kontinentu. Poznato je da su u gradovima koji se nalaze na obali razlike u dnevnim temperaturama manje nego u gradovima koji se nalaze u unutrašnjosti. Stoga će standardna devijacija dnevnih temperatura za primorski grad biti manja nego za drugi grad. U praksi to znači da je prosječna temperatura zraka svake od njih određeni dan u gradu koji se nalazi na kontinentu će se razlikovati više od prosjeka nego u gradu na obali. Osim toga, standardna devijacija vam omogućava da procijenite moguća odstupanja temperature od prosjeka sa potrebnim nivoom vjerovatnoće.

Prema teoriji vjerovatnoće, u pojavama koje se pridržavaju zakona normalne distribucije, postoji stroga veza između vrijednosti aritmetičke sredine, standardne devijacije i opcija ( tri sigma pravilo). Na primjer, 68,3% vrijednosti različite karakteristike je unutar M ± 1 σ , 95,5% - unutar M ± 2 σ i 99,7% - unutar M ± 3 σ .

Vrijednost standardne devijacije omogućava suditi o prirodi homogenosti serije varijacija i studijske grupe. Ako je vrijednost standardne devijacije mala, onda to ukazuje na prilično visoku homogenost fenomena koji se proučava. Aritmetičku sredinu u ovom slučaju treba smatrati prilično karakterističnom za dati niz varijacija. Međutim, premala sigma vrijednost navodi na razmišljanje o vještačkom odabiru opažanja. Uz vrlo veliku sigmu, aritmetička sredina u manjoj mjeri karakterizira varijacijski niz, što ukazuje na značajnu varijabilnost karakteristike ili fenomena koji se proučava ili heterogenost grupe koja se proučava. Međutim, poređenje vrijednosti standardne devijacije moguće je samo za karakteristike iste dimenzije. Zaista, ako uporedimo raznolikost težine novorođene djece i odraslih, uvijek ćemo dobiti veće sigma vrijednosti kod odraslih.

Poređenje varijabilnosti karakteristika različitih dimenzija može se izvršiti pomoću koeficijent varijacije. Izražava različitost kao postotak srednje vrijednosti, omogućavajući poređenje između različitih osobina. Koeficijent varijacije u medicinskoj literaturi označen je znakom “ WITH ", i u matematici" v"i izračunava se po formuli:

.

Vrijednosti koeficijenta varijacije manje od 10% ukazuju na malo rasipanje, od 10 do 20% - oko prosjeka, više od 20% - na jako rasipanje oko aritmetičke sredine.

Aritmetička sredina se obično izračunava na osnovu podataka iz populacije uzorka. Uz ponovljene studije, pod uticajem slučajnih pojava, aritmetička sredina se može promeniti. To je zbog činjenice da se, po pravilu, proučava samo dio mogućih jedinica posmatranja, odnosno populacija uzorka. Podaci o svim mogućim jedinicama koje predstavljaju fenomen koji se proučava mogu se dobiti proučavanjem cjeline stanovništva, što nije uvek moguće. Istovremeno, za potrebe generalizacije eksperimentalnih podataka, od interesa je vrijednost prosjeka u opštoj populaciji. Stoga, da bi se formulisao opšti zaključak o fenomenu koji se proučava, rezultati dobijeni na osnovu populacije uzorka moraju se statističkim metodama preneti na opštu populaciju.

Da bi se odredio stepen slaganja između studije uzorka i opšte populacije, potrebno je procijeniti veličinu greške koja neizbježno nastaje tokom posmatranja uzorka. Ova greška se zove " Greška reprezentativnosti"ili "Prosječna greška aritmetičke sredine." To je zapravo razlika između prosjeka dobijenih iz uzorka statističko posmatranje, te slične vrijednosti koje bi se dobile tokom kontinuiranog proučavanja istog objekta, tj. prilikom proučavanja opšte populacije. Budući da je srednja vrijednost uzorka slučajna varijabla, takva prognoza se izvodi sa nivoom vjerovatnoće prihvatljivim za istraživača. IN medicinska istraživanja to je najmanje 95%.

Greška reprezentativnosti se ne može brkati sa greškama u registraciji ili greškama pažnje (promašaji, pogrešni proračuni, greške u kucanju, itd.), koje treba minimizirati adekvatnim metodama i alatima koji se koriste tokom eksperimenta.

Veličina greške reprezentativnosti zavisi i od veličine uzorka i od varijabilnosti osobine. Kako veći broj posmatranja, što je uzorak bliži populaciji i manja je greška. Što je predznak varijabilniji, to je veća statistička greška.

U praksi, za određivanje greške reprezentativnosti u nizu varijacija, koristi se sljedeća formula:

,

gdje: m – greška reprezentativnosti;

σ - standardna devijacija;

n– broj zapažanja u uzorku.

Iz formule je jasno da je veličina prosečna greška je direktno proporcionalna standardnoj devijaciji, tj. varijabilnosti karakteristike koja se proučava, i obrnuto proporcionalna kvadratnom korijenu broja opažanja.

Prilikom izvođenja statističke analize zasnovane na izračunavanju relativnih vrijednosti, konstruiranje varijacionog niza nije potrebno. U ovom slučaju, određivanje prosječne greške za relativne pokazatelje može se izvršiti korištenjem pojednostavljene formule:

,

gdje: R– vrijednost relativnog indikatora, izražena u procentima, ppm, itd.;

q– recipročan P i izražen kao (1-P), (100-P), (1000-P) itd., u zavisnosti od osnove na kojoj se indikator izračunava;

n– broj opservacija u populaciji uzorka.

Međutim, navedena formula za izračunavanje greške reprezentativnosti za relativne vrijednosti može se primijeniti samo kada je vrijednost indikatora manja od njegove osnove. U jednom broju slučajeva izračunavanja intenzivnih indikatora ovaj uslov nije ispunjen, te se indikator može izraziti kao broj veći od 100% ili 1000%. U takvoj situaciji se konstruiše varijacioni niz i izračunava se greška reprezentativnosti pomoću formule za prosečne vrednosti na osnovu standardne devijacije.

Predviđanje vrijednosti aritmetičke sredine u populaciji vrši se navođenjem dvije vrijednosti – minimalne i maksimalne. Ove ekstremne vrednosti moguća odstupanja, unutar kojih željena prosječna vrijednost stanovništva može fluktuirati nazivaju se “ Granice povjerenja».

Postulati teorije vjerovatnoće su dokazali da uz normalnu distribuciju karakteristike sa vjerovatnoćom od 99,7%, ekstremne vrijednosti odstupanja prosjeka neće biti veće od vrijednosti trostruke greške reprezentativnosti ( M ± 3 m ); u 95,5% – ne više od dvostruke prosječne greške prosječne vrijednosti ( M ± 2 m ); u 68,3% – ne više od jedne prosečne greške ( M ± 1 m ) (Sl. 9).

P%

Rice. 9. Gustoća vjerovatnoće normalne distribucije.

Imajte na umu da je gornja izjava tačna samo za osobinu koja se pridržava normalnog Gaussovog zakona raspodjele.

Većina eksperimentalno istraživanje, uključujući i područje medicine, povezana je s mjerenjima, čiji rezultati mogu uzeti gotovo bilo koju vrijednost u datom intervalu, pa se po pravilu opisuju modelom kontinuiranih slučajnih varijabli. U tom smislu, većina statističkih metoda razmatra kontinuirane distribucije. Jedna od ovih distribucija, koja ima osnovnu ulogu u matematičke statistike, je normalna ili Gausova distribucija.

To je zbog brojnih razloga.

1. Prije svega, mnoga eksperimentalna opažanja mogu se uspješno opisati korištenjem normalne distribucije. Odmah treba napomenuti da ne postoje distribucije empirijskih podataka koje bi bile sasvim normalne, budući da je normalno raspoređena slučajna vrijednost je u rasponu od do , što se nikada ne dešava u praksi. Međutim, normalna raspodjela vrlo često dobro funkcionira kao aproksimacija.

Bilo da se vrše mjerenja težine, visine i drugih fizioloških parametara ljudskog tijela - svuda na rezultate utiče veoma veliki broj nasumičnih faktora ( prirodni uzroci i greške mjerenja). Štaviše, po pravilu, efekat svakog od ovih faktora je beznačajan. Iskustvo pokazuje da će rezultati u takvim slučajevima biti približno normalno raspoređeni.

2. Mnoge distribucije povezane sa slučajnim uzorkovanjem postaju normalne kako se volumen potonjeg povećava.

3. Normalna distribucija je prikladna kao aproksimacija drugih kontinuiranih distribucija (na primjer, iskrivljene).

4. Normalna distribucija ima niz povoljnih matematička svojstva, koji je to u velikoj mjeri obezbijedio široka primena u statistici.

Istovremeno, treba napomenuti da u medicinskim podacima postoje mnoge eksperimentalne distribucije koje se ne mogu opisati normalnim modelom distribucije. U tu svrhu, statistika je razvila metode koje se obično nazivaju “neparametrijski”.

Izbor statističke metode koja je pogodna za obradu podataka iz određenog eksperimenta treba vršiti u zavisnosti od toga da li dobijeni podaci pripadaju normalnom zakonu distribucije. Testiranje hipoteze o podređenosti znaka zakonu normalne distribucije vrši se korištenjem histograma (grafa) raspodjele frekvencije, kao i niza statističkih kriterija. Među njima:

Kriterijum asimetrije ( b );

Kriterijum za testiranje kurtoze ( g );

Shapiro-Wilksov test ( W ) .

Za svaki parametar se vrši analiza prirode distribucije podataka (koja se naziva i test za normalnost distribucije). Za pouzdanu procjenu da li raspodjela parametra odgovara normalnom zakonu, potreban je dovoljno veliki broj jedinica promatranja (najmanje 30 vrijednosti).

Za normalnu distribuciju, kriterijumi nagnutosti i ekscesa uzimaju vrijednost 0. Ako je distribucija pomaknuta udesno b > 0 (pozitivna asimetrija), sa b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. At g > 0 kriva distribucije je oštrija ako g < 0 пик более сглаженный, чем функция нормального распределения.

Da biste provjerili normalnost koristeći Shapiro-Wilksov test, trebate pronaći vrijednost ovog kriterija koristeći statističke tablice na adresi potreban nivo značaj i zavisnost od broja jedinica posmatranja (stepeni slobode). Dodatak 1. Hipoteza normalnosti se odbacuje pri malim vrijednostima ovog kriterija, po pravilu, pri w <0,8.



Novo na sajtu

>

Najpopularniji