Bahay Paggamot ng ngipin Pagtukoy sa laki ng sample na populasyon. Laki ng sample - paraan ng sampling ng sosyolohikal na pananaliksik

Pagtukoy sa laki ng sample na populasyon. Laki ng sample - paraan ng sampling ng sosyolohikal na pananaliksik

Pagkalkula ng laki ng sample

Sa lahat ng mga tanong na itinanong sa mga sikat na Gallup pollster, ang pinakasikat ay ito: Paano mo mahuhusgahan ang iniisip ng 250 milyong Amerikano pagkatapos makapanayam ang 1,000 katao?

Upang masagot ang tanong na ito, kinakailangang banggitin hindi lamang ang mataas na kwalipikasyon at malawak na praktikal na karanasan ng mga empleyado, kundi pati na rin ang kanilang paggamit ng mga istatistika at matematika. Kung ang mga pamamaraan ng survey ay hindi batay sa agham, ang mga resulta ay maaaring mapanlinlang.

Sa mga istatistika, tinatanggap ang sumusunod na delimitation ng mga laki ng sample. Ang laki ng sample na sapat upang kanselahin ang randomness at makakuha ng mga istatistikal na katangian ng isang regular na kalikasan ay 30. Ang isang sample ng ganitong laki ay tinatawag maliit Ang likas na katangian ng pamamahagi ng mga halaga ng katangian sa maliliit na sample ay lumalapit sa normal habang ang bilang ng mga pagsubok ay tumataas. Ang pinakamababang laki ng sample na nagpapahintulot sa isa na makakuha ng mga average na halaga ng isang katangian na may indikasyon ng mga probabilidad ng kumpiyansa ay 5. Ang mga sample ng ganitong laki ay tinatawag napakaliit. Ang pamamahagi ng mga halaga ng katangian sa naturang mga sample ay nailalarawan sa pamamagitan ng pamamahagi ng Mag-aaral. Ngunit kadalasan sa sosyolohiya ay nakikitungo sila sa mas malaking sukat ng sample.

Kapag nagpaplano ng sample na survey, darating ang panahon na kailangan mong magpasya kung gaano karaming tao ang pakikipanayam, i.e. ano dapat ang sample size? Napakahalaga ng desisyong ito, dahil ang napakalaking sample ay magkakaroon ng mga hindi kinakailangang gastos, at ang masyadong maliit ay makakabawas sa kalidad ng mga resulta.

Laki ng sample- ang kabuuang bilang ng mga yunit ng pagmamasid na kasama sa sample na populasyon.

Dahil ang sample na populasyon ay isang bahagi populasyon, pinili gamit ang mga espesyal na pamamaraan, - mahalaga na ang bahaging ito ay hindi papangitin ang ideya ng kabuuan, i.e. kinakatawan siya. Ang mga sosyologo na madalas nagsasagawa ng empirical na pananaliksik ay patuloy na nababahala sa tanong kung gaano karaming tao ang kailangang makapanayam upang makakuha ng maaasahang impormasyon? Ang Gallup Institute sa USA ay nagsasagawa ng mga regular na botohan sa isang pambansang sample ng 1.5 libong mga tao at nakakamit ng kamangha-manghang katumpakan (mga saklaw ng error sa sampling mula 1 hanggang 1.5%). Ang Socio-Express Center ng Institute of Sociology ng Russian Academy of Sciences ay nagsasagawa ng pananaliksik sa isang sample ng 2 libong tao, at ang sampling error ay hindi lalampas sa 3% 31 .

Naniniwala ang mga eksperto na ang pinakamahusay na sample ay hindi kinakailangang malaki. Siyempre, mas malaki ang sukat ng sample, mas mataas ang katumpakan ng mga resulta nito. Gayunpaman, kahit na ang isang malaking sample ay hindi ginagarantiyahan ang tagumpay kung ang populasyon ay "mahinang halo-halong", i.e. ay magkakaiba. homogenous isang set kung saan ang kinokontrol na katangian ay ibinahagi nang pantay-pantay at hindi bumubuo ng mga void o condensations ay isinasaalang-alang. Sa kasong ito, sa pamamagitan ng pakikipanayam sa ilang tao, maaari kang makakuha ng tumpak na impormasyon tungkol sa pamamahagi ng katangiang ito sa pangkalahatang populasyon.

Kaya, ang pagiging kinatawan ng data ay naiimpluwensyahan hindi ng mga quantitative na katangian ng sample na populasyon (volume nito), ngunit sa pamamagitan ng mga qualitative na katangian ng pangkalahatang populasyon - ang antas ng homogeneity nito.

Sa sosyolohiya, ang isang solong at malinaw na pormula ay hindi pa naimbento, kung saan maaaring kalkulahin ng isa ang pinakamainam na sukat ng sample na populasyon - ang gayong pormula ay hindi umiiral sa kalikasan. At ito ay ipinaliwanag nang napakasimple. Ang katotohanan ay ang pagtukoy sa laki ng sample na populasyon ay hindi masyadong isang istatistikal na problema bilang isang substantibo. Sa madaling salita, ang laki ng sample na populasyon ay nakasalalay sa maraming mga kadahilanan, kabilang ang mga layunin at layunin, teoretikal na modelo, hypotheses at pamamaraan ng pananaliksik, ang antas ng homogeneity ng populasyon, at panghuli, ang kinakailangang katumpakan ng impormasyong natanggap.

Lagi nating tandaan na ang bawat pagtaas ng porsyento sa katumpakan ng impormasyon sa isang pag-aaral ay humahantong sa matalim na pagtaas gastos para sa pagpapatupad nito. Natuklasan ng sikat na Gallup Institute, na nagsasagawa ng mga botohan sa United States sa loob ng maraming dekada, na may pambansang sample na 100 tao, ang sampling error ay nasa loob ng ±11%; 200 tao - ± 8%; 400 - ±6%; 600 - ± 5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 tao - ±2%. Iyon ang dahilan kung bakit nagsasagawa siya ng mga pambansang survey sa Estados Unidos sa isang sample ng 1500-2000 katao. Tulad ng makikita, mas gusto niya ang 1% na pagtaas ng error kaysa sa maraming pagtaas sa gastos ng pag-aaral.

Ipinapakita ng pagsasanay na para sa maraming sosyologo ang pagbibigay-katwiran sa laki ng sample ay isang hadlang, sa kabila ng malaking halaga ng panitikan na nakatuon sa mga pamamaraan ng sampling at, lalo na, ang pagkalkula ng laki ng sample. Mayroong ilang mga dahilan: 1) kakulangan espesyalisadong panitikan sa paligid; 2) kakulangan ng oras para sa pag-aaral sa sarili; 3) kawalan ng kakayahang gumamit ng mathematical apparatus. Sa pagsasaalang-alang na ito, may pangangailangan na balangkasin ang diskarte at taktika para sa pagbibigay-katwiran sa laki ng sample nang walang kumplikadong mga pormula sa matematika.

Ang pamamaraan para sa pagkalkula ng laki ng sample ay isang kadena ng walang katapusang mga kompromiso sa pagitan ng pagnanais para sa katumpakan at limitadong mga mapagkukunan, kakulangan ng oras at hindi kumpletong impormasyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan. Kasabay nito, ito ay isang agham at isang sining, ang kaalaman kung saan ay naa-access sa bawat tao. Gayunpaman, para dito kailangan mong malaman ang mga estratehiya para sa pagkalkula ng laki ng sample (paunang pagkalkula, sunud-sunod at pinagsamang mga estratehiya), pati na rin ang mga salik na nakakaimpluwensya sa laki ng sample (laki ng populasyon, pagkakaiba-iba sa mga sagot ng mga respondent, katumpakan ng pagtatantya, ang likas na katangian ng inaasahang pamamahagi ng mga sagot, pamamaraan ng pananaliksik, pamamaraan ng pagproseso) .

Diskarte bago ang pagkalkula ay ang sukat ng sample ay tinutukoy bago isagawa ang pangunahing pag-aaral. Sa pinakasimpleng kaso, maaari mong gamitin ang naipon na karanasan, halimbawa, ng Gallup Institute, na gumagamit ng sample na laki ng humigit-kumulang 1500-2000 katao. Para sa isang karaniwang domestic study, ang sample size ay humigit-kumulang 400-600 tao.

Upang kalkulahin ang laki ng isang random na sample, kailangan mong malaman ang nais na katumpakan ng pagtatantya, ang laki ng panganib ng resultang sagot, at ang antas ng pagkakaiba-iba ng sagot. Ayon sa kaugalian, ang katumpakan ng pagtatantya ay kinukuha bilang 5%, at ang halaga ng panganib bilang 0.95. Sa madaling salita, kung, ayon sa isang sample na pag-aaral, 60% ng mga sumasagot ay nasiyahan sa kanilang trabaho, kung gayon maaari itong maitalo na sa pangkalahatang populasyon ang proporsyon ng mga nasiyahan ay mula 55 hanggang 65% sa 95% ng mga kaso, at sa 5% ng mga kaso ang proporsyon na ito ay maaaring mahulog sa labas ng agwat na ito. Sa pag-aakalang 5% na katumpakan at isang panganib na halaga na 0.95, ang laki ng sample ay ang mga sumusunod (Talahanayan 2.4).

mesa 2.4 Pagdepende sa laki ng sample sa laki ng populasyon



Ang mga resulta ay ipinapakita sa talahanayan. 2.4, tumestigo laban sa karaniwang maling kuru-kuro na ang laki ng sample ay isang mahigpit na nakapirming porsyento ng pangkalahatang populasyon, katumbas ng 10. Sa katunayan, ang halagang ito ay hindi pare-pareho, ngunit isang variable na nagbabago sa mga partikular na kundisyon. Ang laki ng sample ay depende rin sa kung anong mga tanong ang ginamit sa questionnaire. Ang mga numero sa talahanayan. 2.4 ay may bisa lamang para sa isang kaso - pagdating sa isang dichotomous na tanong, kung saan ang maximum na pagkalat ng mga sagot ay 50 hanggang 50%. Nang walang paunang impormasyon tungkol sa pagkalat ng mga pagtatantya, ang sociologist, tulad ng dati, ay sinisiguro ang kanyang sarili nang maaga at naniniwala na ang pagkalat na ito ay magiging 50 hanggang 50%. Kung magagamit ang naturang impormasyon, ang laki ng sample ay magiging tulad ng sumusunod.

Talahanayan 2.5 Pagdepende sa laki ng sample sa pamamahagi ng isang dichotomous na tugon

Sa mesa Ipinapakita ng Figure 2.5 ang distribusyon ng mga sagot sa mga tanong na husay. Pagkalkula ng laki ng sample para sa dami ng mga tanong na kinabibilangan ng edad at sahod", ay batay sa koepisyent ng variation (Talahanayan 2.6), na nagpapakita kung anong porsyento ang karaniwang paglihis mula sa arithmetic mean, at nagbibigay-daan sa iyong paghambingin ang anumang mga katangian sa bawat isa (sa mga tuntunin ng antas ng pagkakaiba-iba).

Talahanayan 2.6 Depende sa laki ng sample sa koepisyent ng pagkakaiba-iba

Ang koepisyent ng pagkakaiba-iba, %
Laki ng sample

Kung pinag-aaralan ang mga kondisyon sa pagtatrabaho, relasyon sa pangkat, sahod, atbp. gamit ang isang limang-miyembro na sukat, ang koepisyent ng pagkakaiba-iba dito ay nag-iiba mula 27 hanggang 62%, at kapag gumagamit ng pitong miyembrong sukat - mula 78 hanggang 113%. Samakatuwid, kung mas mahaba ang sukat, mas mataas ang koepisyent ng pagkakaiba-iba at mas malaki dapat ang sukat ng sample. Kung nais ng isang sosyologo na makayanan ang isang maliit na sample, kung gayon ang mga tanong ay dapat na buuin nang mas simple. Minsan iniisip na kung mas mahaba ang sukat, mas tumpak ang pagsukat. Ngunit ang mga bentahe ng seven-point scales sa five-point scales ay hindi pa napatunayan.

Mayroong karaniwang paniniwala sa mga sosyologo na mas malaki ang sample size, mas tumpak ang resulta, at pinipilit silang dagdagan ang bilang ng mga respondent nang labis. Sa katotohanan, iba ang sitwasyon: talahanayan. Ang Figure 2.7, batay sa data ng Gallup, ay nagpapakita ng kaugnayan sa pagitan ng laki ng sample at katumpakan ng pagtatantya bilang isang porsyento. Ito ay sumusunod mula dito na habang tumataas ang laki ng sample, tumataas ang katumpakan, ngunit hanggang sa isang tiyak na threshold. Mayroon nang 600 respondents, ang nais na 5% na antas ng katumpakan ay nakakamit. Samakatuwid, ang 600 tao ay isang katanggap-tanggap na laki ng sample.

Walang kontradiksyon sa pagitan ng mga bilang na 400 at 600 katao. Sa unang kaso, ang laki ng sample ay kinakalkula batay sa pagpapalagay ng isang normal na distribusyon ng mga sagot ng mga respondent, at sa pangalawa, mula sa pagsasanay. Ang pagkakaiba sa pagitan ng teorya at kasanayan ay dahil sa ang katunayan na sa isang tunay na sitwasyon ang pamamahagi ng mga pagtatasa ay naiiba sa normal, kaya ang laki ng sample ay dapat kalkulahin na isinasaalang-alang ang partikular na pangyayari; Ang pinaka-epektibong paraan upang bawasan ang laki ng sample ay upang bawasan ang koepisyent ng pagkakaiba-iba ng mga pagtatantya.

Talahanayan 2.7 Relasyon sa pagitan ng laki ng sample at katumpakan ng pagtatantya

Kapag kinakalkula ang laki ng sample, madalas na nagkakamali ang mga sosyologo: sa pagkalkula ng kinakailangang laki ng sample para sa kabuuan ng populasyon gamit ang mga umiiral na formula, pagkatapos ay proporsyonal nilang inilalagay ito sa mga indibidwal na sampling unit, halimbawa, sa pamamagitan ng mga workshop, negosyo, distrito, lungsod. , at mga uri ng pamilya. Pagkatapos nito, sa yugto ng pagproseso ng data, ang mga pagkakaiba sa pagitan ng mga departamento mismo ay nasuri. Gayunpaman, mas tama na kalkulahin ang laki ng sample nang hiwalay para sa bawat departamento, at pagkatapos ay isama ang mga indibidwal na volume. Sabihin natin na ang mga kalkulasyon ng laki ng sample para sa tatlong mga workshop (isinasaalang-alang ang sukat ng sukat, ang bilang ng mga empleyado, ang likas na katangian ng inaasahang pamamahagi ng mga pagtatasa) ay naging posible upang maitatag na sa unang workshop kinakailangan na magtanong 384 katao, sa pangalawa - 222, at sa pangatlo - 600. Pagkatapos ang kabuuang sukat ng sample ay magiging 384 + 222 + 600 = 1206 katao.

Kung ang isang sosyologo ay kailangang makapanayam ng isang kategorya ng mga manggagawa (halimbawa, mga driver ng bus), tungkol sa kung saan ito ay kilala lamang na ang ikasampung empleyado ng isang negosyo ay kabilang dito, at nagpasya siyang magtanong sa 139 na mga driver ng bus, at ang kabuuang laki ng sample para sa ang enterprise ay magiging 1390 tao, mga. sa madaling salita, sa pamamagitan ng random na pagpili ng 1,390 respondents mula sa isang enterprise, kami, alinsunod sa sampling theory, ay umaasa na matukoy ang 139 na tao sa specialty na interesado kami.

Kapag nagkalkula ng sample ng quota, kadalasang arbitraryong tinutukoy ng mga sosyologo ang laki nito sa 1000 katao, batay sa kaginhawahan ng pagkalkula ng mga quota. Ngunit maaari mo ring kunin ang anumang iba pang round number. Ang isang mas makatwirang diskarte ay ang kalkulahin ang laki ng sample ng quota bilang para sa random. Ang isa pang opsyon para sa pagkalkula ng quota sample size ay ang paggamit ng maliit na sample theory. Ang kakanyahan nito: kung ang layunin ay hindi magbigay ng magkakaibang pagsusuri ng mga grupo ng mga manggagawa, pagkatapos ay i-multiply ang bilang ng mga gradasyon ng mga isyu na pag-aaralan ng 25 (ang pinakamababang laki ng pangkat na makabuluhang istatistika). Halimbawa, tatlong mga variable ang pinag-aaralan: kasarian - dalawang kategorya, edad - dalawang kategorya (sa ilalim ng 30 taon at higit sa 30 taon), kasiyahan sa trabaho - sinusukat sa limang puntos na sukat. Pagkatapos ang kinakailangang laki ng sample para sa halimbawang ito ay magiging 2x2x5x25 = 500 tao. Ang laki ng sample ay tumataas ng 2.5 beses. Ito ay malinaw na sa pagpapalawak ng bilang ng mga variable at ang bilang ng mga gradasyon, ang laki ng sample ay maaaring maging malaking sakuna. Mayroon lamang isang paraan: isang detalyadong pag-aaral ng orihinal na problema, na magpapahintulot sa iyo na alisin ang mga hindi kinakailangang tanong sa talatanungan, na iniiwan ang pinakamahalaga. Kung ang isang pag-aaral ay sumusubok ng maraming hypothesis, ang laki ng sample upang subukan ang bawat hypothesis ay kinakalkula nang hiwalay. Kaya, kapag gumagamit ng sampling, ang bilang ng mga tanong sa questionnaire at hypotheses ay dapat na minimal.

Kaya, kinakalkula namin ang kinakailangang laki ng sample. Ngayon, at ngayon lamang, kinakailangan upang suriin kung ang resultang halaga ay tugma sa mga inilalaan na mapagkukunan. Karaniwang pagkakamali maraming inilapat na sosyologo ay kapag kinakalkula ang laki ng sample, ang mga magagamit na mapagkukunan ay inilalagay sa unahan, o, mas masahol pa, ang sosyolohista ay pasibong tinatanggap ang lahat ng mga kundisyon na idinidikta ng customer. Ito ay sa panimula mali para sa ilang mga kadahilanan. Una, ang pagkalkula ng laki ng sample ay nagbibigay-daan sa iyo upang makakuha ng mas malalim na pananaw sa kakanyahan ng paksang pinag-aaralan at ang mga detalye ng mga pamamaraan ng pananaliksik, na nangangahulugang maaari kang humiling ng mas maraming mapagkukunan o gumawa ng tamang desisyon upang bawasan ang laki ng sample. Kung ang administrasyon ay tumanggi sa karagdagang mga mapagkukunan, at ang mga layunin ng pananaliksik ay hindi nagpapahintulot na bawasan ang laki ng sample (ibig sabihin, ang sosyologo ay hindi maaaring tanggapin ang desisyon ng administrasyon), pagkatapos ay kinakailangan na lumipat sa isa pang disenyo ng pananaliksik. Pangalawa, ang isang makatwirang pagkalkula ng laki ng sample ay nagpapakita ng propesyonalismo ng sosyologo at ginagawang mas magalang ang pagtrato sa kanya ng customer.

Diskarte sa pagkalkula ng sunud-sunod laki ng sample. Kapag kinakalkula ang laki ng sample, kanais-nais na malaman ang pagkalat ng mga pagtatantya at ilang iba pang mga parameter. Gayunpaman, ang mga ito, bilang isang patakaran, ay hindi kilala. Upang maiwasan ang mga pagkakamali, mas mahusay na ipagpalagay na ang mga ito ay maximum. Ang presyo para sa aming kamangmangan ay isang pagtaas sa laki ng sample na lampas sa kung ano ang kinakailangan at karagdagang mga gastos sa pananalapi at oras (kailangan naming mag-interview ng mas maraming tao). Upang makatipid ng mga gastos, isang pare-parehong diskarte ang ginagamit - ang laki ng sample ay hindi kinakalkula nang maaga, ngunit ginawang nakadepende sa mga huling resulta ng pag-aaral. Halimbawa, nakikipanayam sila sa 100 tao, pagkatapos ay tinutukoy ang pagkalat ng mga pagtatantya at, depende dito, kinakalkula ang kinakailangang laki ng sample. Kung lumalabas na sapat na ang 100 tao, pagkatapos ay matatapos ang pag-aaral. Kung hindi, ang kinakailangang bilang ng mga sumasagot ay makakarating doon, ngunit hindi hanggang sa infinity. Mayroong isang kilalang halimbawa mula sa pagsasanay ni J. Gallup, na sa simula ng kanyang karera ay aktibong nag-eksperimento sa mga laki ng sample. Noong 1936, tinanong ang mga Amerikano: “Gusto mo bang ma-renew ang National Industrial Recovery Act?” Isang kakaibang kabalintunaan ang lumitaw: Si J. Gallup ay unang nag-survey sa 500 katao at sinukat ang sampling error, at pagkatapos ay sunud-sunod na pinataas ang bilang ng mga respondent sa 30,000. Sa kanyang panghihinayang, natuklasan niya na ang pagdaragdag ng 29.5 libong mga respondent ay nagpapataas ng katumpakan ng impormasyon nang mas mababa sa 1%. Dahil dito, maaaring ihinto ang survey pagkatapos ng 500 respondents. Ipinapakita ng halimbawang ito na sa pamamagitan ng paglalapat ng isang sunud-sunod na diskarte, posibleng makamit ang isang makabuluhang pagbawas sa kinakailangang bilang ng mga obserbasyon kumpara sa isang paunang pagkalkula ng laki ng sample.

Gayunpaman, nagdudulot ang diskarte ng sunud-sunod na pagkalkula ng laki ng sample ninanais na resulta lamang kung ang sosyologo ay maaaring gumawa ng mga kinakailangang kalkulasyon sa panahon ng survey mismo, halimbawa isang survey sa telepono, gamit ang mga computer system. Ipinasok ng sosyologo ang mga sagot ng respondent sa kanyang personal na computer, kung saan ang mga resulta ay agad na ipinadala sa computer ng direktor ng pananaliksik, naproseso, at ang display screen ay nagbibigay ng impormasyon hindi lamang tungkol sa mga one-dimensional na frequency na ibinahagi sa isang partikular na isyu, kundi pati na rin tungkol sa kinakailangang laki ng sample.

Kung may panganib na ang laki ng sample ay maaaring malaking sakuna, kinakailangang pagsamahin ang parehong uri ng diskarte - paunang at sunud-sunod, i.e. mag-apply pinagsamang diskarte. Sa pamamagitan ng pagkalkula ng sample ayon sa paunang diskarte, nakukuha namin ang mga pinahihintulutang halaga sa itaas para sa sequential na diskarte o, sa madaling salita, ang halaga ng laki ng sample, kapag naabot kung saan huminto ang botohan ayon sa sunud-sunod na diskarte.

Ang pinaka-makatwiran at tamang diskarte sa pagtukoy ng laki ng sample ay batay sa pagkalkula ng mga pagitan ng kumpiyansa, na batay sa isang bilang ng mga pangunahing konsepto ng mga istatistika ng matematika (variation, standard deviation, confidence interval, mean square error).

Upang kalkulahin ang kinakailangang laki ng sample sa dami ng pananaliksik Dalawang konsepto ng istatistika ang kadalasang ginagamit - agwat ng kumpiyansa at posibilidad ng kumpiyansa. Agwat ng kumpiyansa kumakatawan sa sampling error na iyong tinukoy nang maaga. Halimbawa, kung nagtakda ka ng confidence interval na 3% at ang partikular na sagot sa isang partikular na tanong sa pananaliksik ay 48%, nangangahulugan ito na kahit na survey mo ang buong populasyon, ang tunay na halaga ay mahuhulog sa pagitan ng 45 (48 - 3) at 51 % (48 + 3). probabilidad ng kumpiyansa nagpapakita kung gaano ka kumpiyansa sa mga resultang nakuha, na ang mga katangian ng sample ay tumutugma sa mga katangian ng buong populasyon - sa madaling salita, gaano kalamang na ang isang random na sagot ay mahulog sa pagitan ng kumpiyansa. Karaniwan, ang mga antas ng kumpiyansa na 95 at 99% ay ginagamit. Ang pinakakaraniwang ginagamit ay 95% - ito ay sapat na sa karamihan ng mga pag-aaral. Kung pagsasamahin natin ang posibilidad ng kumpiyansa at ang pagitan ng kumpiyansa, masasabi nating ang mga sagot sa tanong ay may 95% na posibilidad na mahulog sa pagitan ng 45 at 51%.

Ang sumusunod na magaspang na pagtatantya ng pagiging maaasahan ng mga resulta ng sample na survey ay lubhang kapaki-pakinabang. Ang pagtaas ng pagiging maaasahan ay nagbibigay-daan sa isang sampling error na hanggang 3%, karaniwan - mula 3 hanggang 10% (pagtitiwala sa pagitan ng mga pamamahagi sa antas ng 0.03-0.1), tinatayang - mula 10 hanggang 20%, tinatayang - mula 20 hanggang 40%, at tinatantya - higit sa 40%.

Batay sa mga konseptong ito at isinasaalang-alang ang isang bilang ng mga pagpapalagay, ang mga formula para sa pagkalkula ng laki ng sample ay hinango, na ipinapalagay na ang pagiging kinatawan ay ginagarantiyahan sa pamamagitan ng paggamit ng mga tamang probabilistic sampling na pamamaraan.

Sa ilang mga kaso, ang halaga ng pagsasagawa ng isang survey ay ginagamit bilang pangunahing argumento sa pagtukoy ng laki ng sample. Kaya, ang badyet ng pananaliksik sa marketing ay nagbibigay para sa mga gastos sa pagsasagawa ng ilang mga survey, na hindi maaaring lumampas, at ito ay malinaw na ang halaga ng impormasyon na nakuha ay hindi isinasaalang-alang. Gayunpaman, sa ilang mga kaso, ang isang maliit na sample ay maaaring magbigay ng medyo tumpak na mga resulta.

Iminumungkahi ng kasanayan sa pananaliksik ang sumusunod na panuntunan: ang laki ng sample ay dapat magbigay ng hindi bababa sa 100 obserbasyon para sa bawat pangunahin at hindi bababa sa 20-50 obserbasyon para sa bawat bahagi ng pangalawang pag-uuri. Ang 11 pangunahing mga bahagi ng pag-uuri ay tumutugma sa pinaka-kritikal, at ang mga pangalawa ay tumutugma sa hindi bababa sa kritikal na mga cell ng cross-classification na pinagtibay sa pag-aaral na ito 34. Ang mga teoretikal na kalkulasyon at kasanayan ay nagpapatunay na upang makakuha ng maaasahang data sa mga opinyon at kagustuhan ng populasyon ng isang malaking lungsod tulad ng St. Petersburg, sapat na upang mag-survey sa 700-800 katao. Gayunpaman, karamihan sa mga survey ng populasyon dito ay isinasagawa sa mga sample na hanggang 1.5 libong tao.

Error sa pag-sample

Tulad ng alam na natin, ang pagiging kinatawan ay ang pag-aari ng isang sample na populasyon upang kumatawan sa mga katangian ng pangkalahatang populasyon. Kung walang laban, sabi nila pagkakamali sa pagiging kinatawan- ang lawak kung saan ang istatistikal na istraktura ng sample ay lumihis mula sa istruktura ng kaukulang pangkalahatang populasyon. Ipagpalagay natin na ang average na buwanang kita ng pamilya ng mga pensiyonado sa pangkalahatang populasyon ay 2 libong rubles, at sa sample na populasyon - 6 na libong rubles. Nangangahulugan ito na ang sosyologo ay nakapanayam lamang ng mayayamang bahagi ng mga pensiyonado, at isang pagkakamali sa pagiging representatibo ang pumasok sa kanyang pag-aaral. Sa madaling salita, ang error sa representasyon ay tinatawag pagkakaiba sa pagitan ng dalawang populasyon- pangkalahatan, kung saan nakadirekta ang teoretikal na interes ng sosyolohista at isang ideya ng mga katangian na sa wakas ay nais niyang makuha, at pumipili, kung saan ang praktikal na interes ng sosyolohista ay nakadirekta, na gumaganap bilang isang bagay ng survey at isang paraan ng pagkuha ng impormasyon tungkol sa pangkalahatang populasyon.

Kasama ng terminong "error sa pagiging representatibo," isa pang termino ang makikita sa lokal na literatura: "error sa pag-sampling." Minsan ang mga ito ay ginagamit nang palitan, at kung minsan ang "sampling error" ay ginagamit sa halip na "representative error" bilang isang quantitatively mas tumpak na konsepto.

Error sa pag-sample- paglihis ng average na katangian ng sample na populasyon mula sa average na katangian ng pangkalahatang populasyon.

Sa pagsasagawa, ang sampling error ay tinutukoy sa pamamagitan ng paghahambing ng mga kilalang katangian ng populasyon sa sample na paraan. Sa sosyolohiya, kapag sinusuri ang populasyon ng nasa hustong gulang, kadalasang ginagamit ang data mula sa mga census ng populasyon, kasalukuyang istatistika, at ang mga resulta ng mga nakaraang survey. Ang mga katangiang sosyo-demograpiko ay karaniwang ginagamit bilang mga parameter ng kontrol. Ang paghahambing ng mga average ng pangkalahatan at sample na populasyon, sa batayan ng pagpapasiya ng error sa sampling at pagbabawas nito ay tinatawag kontrol ng pagiging kinatawan. Dahil ang paghahambing ng data ng sarili at ng ibang tao ay maaaring gawin pagkatapos makumpleto ang pag-aaral, ang pamamaraang ito ng kontrol ay tinatawag na isang posterior, mga. natupad pagkatapos ng karanasan.

Sa Gallup poll, kinokontrol ang pagiging kinatawan gamit ang data na makukuha sa mga pambansang census sa pamamahagi ng populasyon ayon sa kasarian, edad, edukasyon, kita, propesyon, lahi, lugar ng paninirahan, at laki ng paninirahan. Ang All-Russian Center for the Study of Public Opinion (VTsIOM) ay gumagamit para sa mga naturang layunin ng mga tagapagpahiwatig tulad ng kasarian, edad, edukasyon, uri ng paninirahan, marital status, lugar ng trabaho, katayuan sa trabaho ng respondent, na hiniram mula sa ang Komite ng Estado sa Istatistika ng Russian Federation. Sa parehong mga kaso, ang populasyon ay kilala. Ang sampling error ay hindi matukoy kung ang mga halaga ng variable sa sample at populasyon ay hindi alam.

Tinitiyak ng mga espesyalista sa VTsIOM ang maingat na pag-aayos ng sample sa panahon ng pagsusuri ng data upang mabawasan ang mga paglihis na lumitaw sa yugto gawain sa bukid. Ang mga partikular na matinding bias ay sinusunod sa mga tuntunin ng kasarian at edad. Ito ay ipinaliwanag sa pamamagitan ng katotohanan na ang mga kababaihan at mga taong may mas mataas na edukasyon ay gumugugol ng mas maraming oras sa bahay at mas madaling makipag-ugnayan sa tagapanayam, i.e. ay isang madaling maabot na grupo kumpara sa mga lalaki at mga taong "walang pinag-aralan".

Ang error sa sampling ay sanhi ng dalawang salik: paraan ng sampling at laki ng sample.

Ang mga error sa sampling ay nahahati sa dalawang uri - random at sistematiko. Random na error - ay ang posibilidad na ang sample mean ay (o hindi) mahuhulog sa labas ng isang ibinigay na pagitan. Kasama sa mga random na error ang mga statistical error na likas sa mismong paraan ng sampling. Bumababa ang mga ito sa pagtaas ng laki ng sample (Talahanayan 2.8).

Talahanayan 2.8

Pagdepende sa laki ng sample sa error 36 nito (ang laki ng pangkalahatang populasyon ay 20 libong mga yunit)

Sampling error, %
Laki ng sample, mga yunit

Ang pangalawang uri ng sampling error ay sistematikong mga pagkakamali. Kung nagpasya ang isang sosyologo na alamin ang opinyon ng lahat ng residente ng lungsod tungkol sa patakarang panlipunan na hinahabol ng mga lokal na awtoridad, at sinuri lamang ang mga may telepono, kung gayon ang isang sinasadyang pagkiling sa sample ay lumitaw na pabor sa mayayamang strata, i.e. sistematikong pagkakamali.

Kaya, ang mga sistematikong pagkakamali ay bunga ng sariling gawain ng mananaliksik. Ang mga ito ang pinaka-mapanganib dahil humahantong sila sa medyo makabuluhang bias sa mga resulta ng pananaliksik. Ang mga sistematikong pagkakamali ay itinuturing na mas masahol kaysa sa mga random na pagkakamali dahil hindi ito makokontrol at masusukat.

Bumangon sila kapag, halimbawa: 1) ang sample ay hindi tumutugma sa mga layunin ng pag-aaral (nagpasya ang sosyologo na pag-aralan lamang ang mga nagtatrabaho na pensiyonado, ngunit kinapanayam ang lahat); 2) may halatang kamangmangan sa likas na katangian ng pangkalahatang populasyon (naisip ng sosyologo na 70% ng lahat ng mga pensiyonado ay hindi nagtatrabaho, ngunit lumabas na 10% lamang ang hindi gumagana); 3) tanging ang mga "panalong" elemento ng pangkalahatang populasyon ang napili (halimbawa, mga mayayamang pensiyonado lamang).

Pansin!Hindi tulad ng mga random na error, hindi bumababa ang mga sistematikong error sa pagtaas ng laki ng sample.

Ang pagkakaroon ng summarized ng lahat ng mga kaso kung saan ang sistematikong mga error ay nangyari, ang mga methodologist ay nagtipon ng isang rehistro ng mga ito. Naniniwala sila na ang mga sumusunod na salik ay maaaring ang pinagmulan ng hindi nakokontrol na mga pagbaluktot sa pamamahagi ng mga sample na obserbasyon:

♦ metodolohikal at metodolohikal na mga tuntunin para sa pagsasagawa sosyolohikal na pananaliksik;

♦ hindi sapat na mga pamamaraan para sa pagbuo ng sample na populasyon, mga paraan para sa pagkolekta at pagkalkula ng data ay pinili;

♦ ang kinakailangang mga yunit ng pagmamasid ay pinalitan ng iba, mas madaling ma-access;

♦ nabanggit ang hindi kumpletong saklaw ng sample na populasyon (hindi sapat na pagtanggap ng mga talatanungan, hindi kumpletong pagkumpleto ng mga ito, hindi naaabot ng mga yunit ng pagmamasid).

Ang isang sosyologo ay bihirang gumawa ng mga sinasadyang pagkakamali. Mas madalas, ang mga pagkakamali ay lumitaw dahil sa ang katunayan na ang sosyologo ay hindi gaanong nalalaman ang istraktura ng pangkalahatang populasyon: ang pamamahagi ng mga tao ayon sa edad, propesyon, kita, atbp.

Ang mga sistematikong error ay mas madaling pigilan (kumpara sa mga random), ngunit napakahirap alisin. Pinakamainam na maiwasan ang mga sistematikong pagkakamali sa pamamagitan ng tumpak na pag-asa sa kanilang mga mapagkukunan nang maaga - sa pinakadulo simula ng pag-aaral.

Narito ang ilan mga paraan upang maiwasan ang mga pagkakamali:

♦ bawat yunit sa populasyon ay dapat magkaroon ng pantay na posibilidad na mapabilang sa sample;

♦ ipinapayong pumili mula sa magkakatulad na populasyon;

♦ kailangan mong malaman ang mga katangian ng pangkalahatang populasyon;

♦ kapag nag-iipon ng sample na populasyon, ang mga random at sistematikong pagkakamali ay dapat isaalang-alang.

Kung ang sample na populasyon (o simpleng sample) ay iginuhit nang tama, ang sociologist ay makakakuha ng maaasahang mga resulta na nagpapakilala sa buong populasyon. Kung ito ay pinagsama-sama nang hindi tama, kung gayon ang error na lumitaw sa yugto ng sampling ay pinararami sa bawat kasunod na yugto ng sosyolohikal na pananaliksik at sa huli ay umaabot sa ganoong halaga na higit sa halaga ng isinagawang pananaliksik. Sinasabi nila na ang naturang pananaliksik ay higit na nakakasama kaysa sa mabuti.

Ang mga ganitong error ay maaari lamang mangyari sa isang sample na populasyon. Upang maiwasan o mabawasan ang posibilidad na magkamali, ang pinakamadaling paraan ay dagdagan ang laki ng sample (at mas mabuti sa laki ng pangkalahatang populasyon: kapag magkatugma ang parehong populasyon, ang error sa pag-sample ay tuluyang mawawala). Sa ekonomiya, imposible ang pamamaraang ito. May nananatiling isa pang paraan - upang mapabuti ang mga pamamaraan ng matematika para sa sampling. Ginagamit ang mga ito sa pagsasanay. Ito ang unang channel ng pagtagos sa sosyolohiya ng matematika. Ang pangalawang channel ay mathematical data processing.

Ang problema ng mga error ay nagiging lalong mahalaga sa pananaliksik sa marketing, kung saan ginagamit ang maliliit na sample. Karaniwan ang bilang nila ay ilang daan, mas madalas - isang libong mga sumasagot. Dito, ang panimulang punto para sa pagkalkula ng sample ay ang tanong ng pagtukoy sa laki ng sample na populasyon. Ang laki ng sample ay nakasalalay sa dalawang salik: I) ang halaga ng pagkolekta ng impormasyon at 2) ang pagnanais para sa isang tiyak na antas ng istatistikal na kumpiyansa sa mga resulta na inaasahan na makuha ng mananaliksik. Siyempre, kahit na ang mga taong hindi nakaranas sa mga istatistika at sosyolohiya ay madaling maunawaan na mas malaki ang laki ng sample, i.e. Kung mas malapit sila sa laki ng populasyon sa kabuuan, mas maaasahan at wasto ang mga datos na nakuha. Gayunpaman, napag-usapan na natin sa itaas ang praktikal na imposibilidad ng patuloy na mga survey sa mga kaso kung saan isinasagawa ang mga ito sa mga bagay na ang bilang ay lumampas sa sampu, daan-daang libo at kahit milyon-milyon. Malinaw na ang halaga ng pagkolekta ng impormasyon (kabilang ang pagbabayad para sa pagtitiklop ng mga kasangkapan, ang paggawa ng mga talatanungan, mga tagapamahala ng larangan at mga operator ng pag-input ng computer) ay nakasalalay sa halaga na handang ilaan ng customer, at kaunti lamang ang nakasalalay sa mga mananaliksik. Tulad ng para sa pangalawang kadahilanan, tatalakayin natin ito nang kaunti pa.

Kaya, mas malaki ang sample size, mas maliit ang posibleng error. Bagaman dapat tandaan na kung nais mong i-double ang katumpakan, kailangan mong dagdagan ang sample hindi sa dalawa, ngunit sa apat. Halimbawa, upang makagawa ng pagtatantya ng data na nakuha mula sa isang survey ng 400 tao nang dalawang beses na mas tumpak, kakailanganin mong mag-survey sa 1,600 tao sa halip na 800. Gayunpaman, hindi malamang na ang pananaliksik sa marketing ay nangangailangan ng 100% na katumpakan. Kung kailangang malaman ng isang brewer kung anong proporsyon ng mga mamimili ng beer ang mas gusto ang kanyang tatak kaysa sa tatak ng kanyang kakumpitensya - 60% o 40% - kung gayon ang kanyang mga plano ay hindi maaapektuhan sa anumang paraan ng pagkakaiba sa pagitan ng 57%, 60 o 63%.

Maaaring nakadepende ang error sa pag-sample hindi lamang sa laki nito, kundi pati na rin sa antas ng mga pagkakaiba sa pagitan ng mga indibidwal na yunit sa loob ng populasyon na aming pinag-aaralan. Halimbawa, kung gusto nating malaman kung gaano karaming beer ang nauubos, makikita natin na sa loob ng ating populasyon ang mga rate ng pagkonsumo iba't ibang tao malaki ang pagkakaiba (magkakaiba pangkalahatang populasyon). Sa isa pang kaso, pag-aaralan natin ang pagkonsumo ng tinapay at malalaman na ito ay hindi gaanong naiiba sa iba't ibang tao (homogeneous pangkalahatang populasyon). Kung mas malaki ang variation (o heterogeneity) sa loob ng isang populasyon, mas malaki ang magnitude ng posibleng error sa sampling. Kinukumpirma lamang ng pattern na ito kung ano ang sinasabi sa atin ng simpleng sentido komun. Kaya, tulad ng tamang iginiit ni V. Yadov, "Ang laki (volume) ng sample ay nakasalalay sa antas ng homogeneity o heterogeneity ng mga bagay na pinag-aaralan. Kung mas homogenous ang mga ito, mas maliit ang mga numero na makakapagbigay ng maaasahang konklusyon sa istatistika."

Ang pagtukoy sa laki ng sample ay nakasalalay din sa antas ng agwat ng kumpiyansa ng pinahihintulutang error sa istatistika. Dito namin ibig sabihin ang tinatawag na random mga error na nauugnay sa katangian ng anumang mga error sa istatistika. SA AT. Ang Paniotto ay nagbibigay ng mga sumusunod na kalkulasyon para sa isang kinatawan na sample na may pag-aakalang may 5% na error (Talahanayan 2.9):

Talahanayan 2.9

Mga kalkulasyon ng sample ng kinatawan

Nangangahulugan ito na kung ikaw, nang mag-survey, sabihin nating, 400 katao sa isang rehiyonal na lungsod, kung saan ang populasyon ng may sapat na gulang na solvent ay 100 libong tao, ay natagpuan na 33% ng mga na-survey na mamimili ay mas gusto ang mga produkto ng isang lokal na planta ng pagproseso ng karne, pagkatapos ay may 95% probabilidad na maaari mong sabihin na ang mga regular na bumibili ng mga produktong ito ay 33±5% (i.e. mula 28 hanggang 38%) ng mga residente ng lungsod na ito.

Maaari mo ring gamitin ang mga kalkulasyon ng Gallup upang tantyahin ang kaugnayan sa pagitan ng laki ng sample at error sa pag-sample (tingnan sa itaas).

Ngayon, maraming mahirap na mga kalkulasyon ang ginagawa ng teknolohiya, at ang mga programang istatistika ay maaaring makuha sa Internet. Kaya, sa pagkalkula ng sample, ang tamad na sociologist ay binigyan ng ganoong pagkakataon sa website ng Analytical Center na "Negosyo at Marketing" (http://www.bma.ru/enter.htm), kung saan kailangan lamang ng user. upang ipasok ang kinakailangang data at pagkatapos ay mag-click sa pindutang "Kalkulahin."

Bago direktang magsagawa ng isang sample na obserbasyon, ang tanong kung gaano karaming mga yunit ng populasyon na pinag-aaralan ang dapat piliin para sa sampling ay laging nareresolba. Ang mga formula para sa pagtukoy ng bilang nito ay hinango mula sa mga formula para sa maximum na mga error sa sampling alinsunod sa mga sumusunod na panimulang punto:

  • uri ng iminungkahing sample;
  • paraan ng pagpili (paulit-ulit o hindi paulit-ulit);
  • pagpili ng pagtatantya ng parameter (average na halaga o proporsyon).

Bilang karagdagan, kinakailangan upang matukoy nang maaga ang halaga ng posibilidad ng kumpiyansa na angkop sa mamimili ng impormasyon, at ang laki ng pinahihintulutang maximum sampling error. Ang pagtatakda ng D at I (naaayon sa posibilidad ng kumpiyansa), bilang panuntunan, ay hindi nagpapakita ng anumang partikular na mga paghihirap, dahil nauugnay ang mga ito sa likas na katangian ng populasyon na pinag-aaralan.

Gayunpaman, dapat nating tandaan na ang isang malaking posibilidad ng kumpiyansa ay lubos na nagpapataas ng laki ng sample. Ang sitwasyon ay katulad ng marginal sampling error: bawasan ito ng kalahating apat na beses ang laki ng sample. Ang tanong kung anong katumpakan ang natutugunan ng mananaliksik ay nagiging pundamental kung ang pagsusuri ng isa pang yunit ng pagmamasid ay humahantong sa malalaking gastos sa pananalapi at materyal (ibinigay ang liblib ng teritoryo ng mga yunit ng pagmamasid, pagiging kompidensiyal ng nakolektang data, pagiging kumplikado ng programa ng pagmamasid, atbp.), at hindi mahalaga kung ang halaga ng pag-survey sa isang yunit ay medyo maliit.

Mga formula para sa pagkalkula ng kinakailangang laki ng sample para sa iba't ibang paraan ang pagpili ay ipinapakita sa talahanayan. 13.10.

Kapag ginagamit ang mga formula na ibinigay sa talahanayan, inirerekumenda na bilugan ang resultang laki ng sample upang matiyak ang isang tiyak na "margin" ng katumpakan.

Sa karagdagan, sa istatistikal na kasanayan, ang isang karaniwang opsyon ay kapag ang halaga ng maximum sampling error ay tinukoy bilang isang porsyento (relative maximum sampling error). Sa kasong ito, ang ganap na halaga ng error ay hinati sa average na halaga ng katangian at pinarami ng 100%. Pagkatapos, upang mailapat ang mga formula ng talahanayan, dapat mong mahanap ang ganap na halaga ng maximum na error tulad ng sumusunod:

Talahanayan 13.10

Mga formula para sa paghahanap ng laki ng sample

Paraan ng pagpili

Muling pagpili

Paulit-ulit na pagpili

Kapag tinatantya ang average

Tamang random

Mekanikal

Karaniwan

Serial na may pantay na serye

Kapag tinatantya ang bahagi

Tamang random

Mekanikal

Pagtatapos

Paraan ng pagpili

Muling pagpili

Paulit-ulit na pagpili

Karaniwan

Serial na may pantay na serye

Kung ang mga paunang parameter para sa pagtukoy ng laki ng sample ay ang relatibong error na D% at ang koepisyent ng variation

ng pinag-aralan na katangian, na kinakalkula bilang F„=^100%, pagkatapos ay ang formula

Ang aktwal na random na sample sa panahon ng paulit-ulit na pagpili ay maaaring mabago tulad ng sumusunod:

Ang tunay na kahirapan sa pagtukoy ng laki ng sample ay ang pagtukoy sa laki ng pagkakaiba-iba ng katangian - ang pagpapakalat. Sa pagsasagawa, ang halagang ito ay kadalasang nananatiling hindi alam hanggang sa maisagawa ang survey. Ang dapat gawin sa bawat partikular na kaso ay napagpasyahan ng mananaliksik mismo.

Minsan tinatantya ang pagkakaiba sa mga direktang paraan:

  • magsagawa ng malawak na pagsusuri bago magsimula ang pangunahing obserbasyon upang matukoy ang halaga ng o 2;
  • may kondisyon silang tinatanggap ang halaga ng pagkakaiba-iba mula sa mga nakaraang katulad na survey (ang pamamaraang kadalasang ginagamit sa pagsasanay). Ang ganitong diskarte ay makatwiran kung ang pangkalahatang populasyon, dahil sa likas na katangian nito, ay hindi nakumpirma ng mga makabuluhang dynamic na proseso o ang kanilang mga pagpapakita ay hindi masyadong maliwanag.

Mayroon ding ilang "hindi direktang" pamamaraan para sa paghahanap ng pagkakaiba-iba ng katangiang pinag-aaralan, na ilang mga pamamaraan sa matematika na nakabatay sa mga katangian ng mga istatistikal na populasyon. Dahil ang mga distribusyon ng karamihan sa mga ito ay malapit sa normal na batas, ang halaga ng dispersion ay maaaring humigit-kumulang na matukoy tulad ng sumusunod.

Dahil ang lahat ng mga halaga ng variant ng katangian sa ilalim ng normal na batas sa pamamahagi ay inilalagay sa 3 sa isang direksyon o sa iba pa mula sa average, mayroong isang tinatayang pagkakapantay-pantay. R«6a, saan R- ang hanay ng pagkakaiba-iba ng isang katangian, tinukoy bilang R= x max - x min .

Kaya naman,

Sa pagsasagawa, upang makakuha ng isang tiyak na "reserba" ng mga sample na yunit upang matiyak ang kinakailangang katumpakan, kadalasang mas gusto nilang gamitin ang kaugnayan

Ang mga halaga ng x max at x min kapag sinusubaybayan ang mga prosesong sosyo-ekonomiko ay karaniwang nalalaman o tinutukoy ng kasalukuyang batas. Halimbawa, ang karaniwang bilang ng mga empleyado sa maliliit na negosyo ay mahigpit na nililimitahan ng batas.

Para sa socio-economic phenomena, kung sa ilang paraan (halimbawa, mula sa data mula sa mga nakaraang survey) ang halaga ng mean ay kilala, ang kaugnayan ay ginagamit upang tantiyahin ang standard deviation

Ang pagkakaiba ng isang alternatibong katangian ay nakasalalay sa proporsyon ng mga yunit na may pinag-aralan na katangian (pag-aari) w. Kung ang fraction na ito ay hindi alam, ang maximum na posibleng dispersion value ay kinukuha - 0.25, nakamit sa w = 0,5.

Mula sa mga formula sa Talahanayan. 13.10 sumusunod na ang laki ng sample ay direktang proporsyonal sa pagkakaiba-iba ng katangiang pinag-aaralan. Sa katunayan, habang tumataas ang pagkakaiba-iba ng mga yunit, upang makuha ang pagkakaiba-iba, ang pagtaas ng bilang ng mga ito ay kinakailangan para sa pagpili at pagsasama sa sample.

Kaya, isinasaalang-alang namin ang pagtukoy ng laki ng sample para sa isang nakikitang katangian. Ngunit paano kung mayroong ilang mga tampok na katangian at ang pagkakaiba-iba ng mga tampok na ito ay naiiba o ang ilan sa mga ito ay alternatibo. Magiging lohikal na piliin ang katangian kung saan ang mga kalkulasyon ay humahantong sa pinakamalaking laki ng sample sa iba pa (ang katangiang ito ay ang isa kung saan kinakailangan upang makuha ang pinakamaliit na kamag-anak na sampling error sa parehong posibilidad ng kumpiyansa). Sa katunayan, sa kasong ito, ang pagtukoy sa pangkalahatang mga parameter ng iba pang mga katangian ay sasamahan ng higit na katumpakan kaysa sa kinakailangan, i.e. magkakaroon ng ilang "margin" ng katumpakan.

Dapat ding tandaan na sa pagsasagawa, ang laki ng sample ay madalas na nababagay alinsunod sa magagamit na pinansiyal at human resources, kung gayon ang pangangailangan upang makamit ang pinakamainam na balanse ng mga gastos at katumpakan ng mga resulta ay isinasaalang-alang. Kung may mga kahirapan sa pagpopondo sa mga istatistikal na obserbasyon, lalo na kung ang pagbawas sa mga gastos ay nangyayari nang malaki sa katanggap-tanggap na pagkalugi sa katumpakan, ang naturang hakbang ay higit pa sa makatwiran.

Ang pagtukoy sa laki ng sample ay naiimpluwensyahan din ng isang napakakaraniwang phenomenon sa mga static na obserbasyon na nauugnay sa hindi pagtugon ng mga na-survey na unit. Sa kaso ng malalaking populasyon na sinusukat sa daan-daan o milyon-milyon (halimbawa, ang populasyon ng isang bansa), ang ilang pagsasaayos para sa hindi pagtugon ay maaaring gawin sa pamamagitan ng pagtaas ng sample size. Gayunpaman, kapag nagpoproseso ng mga resulta ng survey at lalo na kapag gumagamit ng mga partikular na rekomendasyon batay sa mga ito, dapat tandaan ng isa ang mga pagpapalagay na ginawa kapag nangongolekta ng data.

Tingnan natin ang mga halimbawa ng mga problema upang matukoy ang kinakailangang laki ng isang sample na populasyon.

Halimbawa 13. 7. Ilang bagay mula sa kabuuang 507 mga kumpanya ang dapat suriin ng inspektor ng buwis upang matukoy, na may posibilidad na 0.997, ang bahagi ng mga kumpanyang may mga paglabag sa pagbabayad ng mga buwis? Ayon sa nakaraang survey, ang standard deviation ay 0.15; ang laki ng mga sampling error ay hindi dapat mas mataas sa 0.15.

Kapag inuulit ang random sampling, dapat mong suriin

Sa kaso ng paulit-ulit na random na pagkakakonekta, kinakailangan upang suriin

Tulad ng nakikita natin, ang paggamit ng hindi paulit-ulit na sampling ay humahantong sa pagsusuri ng isang mas maliit na bilang ng mga bagay.

Halimbawa 13.8. Ang pangangasiwa ng isa sa mga nasasakupang entidad ng Russian Federation ay nagpasya na magsagawa ng isang sample na survey ng 366 maliliit na kumpanya, kung saan ito ay binalak upang matukoy:

  • ang bahagi ng mga taong may mas mataas na edukasyon na nagtatrabaho sa maliliit na kumpanya (ang laki ng maximum na error ay hindi dapat lumampas sa 0.1);
  • ang bahagi ng kababaihang nagtatrabaho sa maliliit na kumpanya (ang laki ng maximum na error ay hindi dapat lumampas sa 0.12);
  • ang average na edad ng mga manggagawa sa maliliit na kumpanya (ang laki ng maximum na error ay hindi dapat lumampas sa dalawang taon).

Ang pamamahagi ng maliliit na kumpanya ayon sa mga sektor ng ekonomiya ay ang mga sumusunod:

Ipinapalagay ng administrasyong lungsod na ang kahulugan ng mga pinag-aralan na katangian ay malaki ang pagkakaiba-iba depende sa industriya ng kumpanya, kaya isang tipikal na sample ang napili, proporsyonal sa laki ng mga tipikal na grupo.

Tukuyin natin kung ano ang dapat na bilang nito at kung gaano karaming mga yunit ng pagmamasid ang dapat makuha mula sa bawat tipikal na pangkat na may posibilidad na kumpiyansa na 0.954. Ang unang dalawang palatandaan ay kahalili, kung gayon ang pagtatantya ng hindi kilalang pagkakaiba ay ang pinakamataas na halaga nito - 0.25.

Ang kinakailangang laki ng sample kapag tinatantya ang bahagi ng mga taong may mas mataas na edukasyon ay magkakaroon ng sumusunod na halaga:

Ang pagtatantya ng bahagi ng mga manggagawang kababaihan ay nangangailangan ng survey

Posibleng agad na matukoy kung anong batayan ang dapat isagawa ng mga kalkulasyon. Ito ay palaging ang isa na may higit na katumpakan (mas maliit na error para sa parehong antas ng kumpiyansa). Gayunpaman, ang pangatlong tanda sa aming halimbawa ay quantitative. Alamin natin kung anong sample size ang kailangan para matantya ito. Nakukuha namin ang tinatayang halaga ng dispersion batay sa mga katangian ng normal na distribusyon:

(na may pinakamataas at pinakamababang edad na 60 at 18 taon, ayon sa pagkakabanggit, na pinakamalamang na saklaw).

Saan nagmula ang St. 2 = 49?

Gawin natin ang pagkalkula:

Kaya, upang makamit ang isang naibigay na katumpakan para sa lahat ng sinusunod na mga katangian, dapat piliin ng isa ang maximum na bilang na nakuha para sa lahat ng tatlong mga tagapagpahiwatig, i.e. n = 65 kumpanya.

Sangay ng ekonomiya

Bilang ng mga kumpanyang napili sa sample na populasyon

Industriya

Agrikultura

Konstruksyon

Transportasyon at komunikasyon

Trade at catering

Pangkalahatang aktibidad sa negosyo

Mga serbisyong pabahay at pangkomunidad at mga uri ng hindi produksyon ng mga serbisyo ng consumer para sa populasyon

Iba pang mga industriya

Di-pormal na paraan ng sampling. Ang isyu ng pinakamainam na laki ng sample ay palaging kontrobersyal sa mga mananaliksik. Ang desisyon tungkol sa laki ng sample na populasyon ay ginawa na isinasaalang-alang ang isang bilang ng mga salik, kung saan dalawa ang gumaganap ng pinakamahalagang papel: 1) ang halaga at bagong bagay ng impormasyong nakuha bilang resulta ng pag-aaral; 2) ang mga gastos sa pagsasagawa ng pag-aaral (kabilang ang oras) para sa ibinigay na laki ng sample.

Sa maraming mga kaso, ang isa ay maaaring magabayan ng itinatag na kasanayan, i.e. sukat ng sample na ginamit sa mga katulad na pag-aaral. Bilang karagdagan, mayroong mga sumusunod na simpleng panuntunan para sa pagtukoy ng laki ng sample na populasyon.

Ang laki ng sample ay lumalaki kung:

  • ito ay kinakailangan upang makakuha ng data para sa mga indibidwal na subgroup (ang mga laki ng mga subsample ay summed up at ang sample sa kabuuan ay lumalaki sa proporsyon sa bilang ng mga subgroup);
  • Ang impormasyon na magagamit na sa mga pangunahing isyu ay hindi sapat at ang kawalan ng katiyakan ay mahalaga.

Bilang karagdagan, ang pagsasanay ng maraming pag-aaral ay nakagawa na ng "karaniwang" mga laki ng sample. Kaya, para sa mga pambansang survey ng populasyon, ang mga volume na ito ay nag-iiba sa pagitan ng 1000-2500 na mga respondent (depende sa bilang ng mga pangkat na nasuri). Para sa mga panrehiyong survey at survey ng mga espesyal na populasyon - mula 200 hanggang 500 (kapag sinusuri ang maraming mga subgroup, ang laki ng isang rehiyonal o espesyal na sample ng populasyon ay karaniwang tumataas sa hindi bababa sa 1000 katao). Ang mga ipinahiwatig na halaga, siyempre, ay maaari lamang magsilbi bilang isang pangkalahatang patnubay para sa pagtukoy pinakamainam na sukat mga sample.

Sa pagsasagawa, ang desisyon sa laki ng sample ay isang kompromiso sa pagitan ng pagpapalagay ng katumpakan ng mga resulta ng survey at ang pagiging posible ng kanilang praktikal na pagpapatupad (ibig sabihin, batay sa mga gastos sa pagsasagawa ng survey).

Sa pagsasagawa, maraming mga diskarte ang ginagamit upang matukoy ang laki ng sample. Bigyang-pansin natin ang pinakasimple sa kanila. Ang una sa mga ito ay tinatawag na random na diskarte at nakabatay sa aplikasyon ng "rule of thumb".

Halimbawa, ito ay tinatanggap nang walang ebidensya na upang makakuha ng tumpak na mga resulta, ang sample ay dapat na 5% ng populasyon. Ang diskarte na ito ay simple at madaling ipatupad, ngunit hindi pinapayagan ang pagkuha ng mga tumpak na resulta. Ang kalamangan nito ay ang relatibong mababang gastos. Sa pangalawang diskarte, maaaring itakda ang laki ng sample batay sa mga paunang tinukoy na kundisyon. Ang customer ng pananaliksik sa marketing, halimbawa, ay nakakaalam na kapag nag-aaral ng pampublikong opinyon ang sample ay karaniwang 1000 - 1200 katao, kaya inirerekomenda niya na manatili ang mananaliksik sa figure na ito.

Ang ikatlong diskarte ay nangangahulugan na sa ilang mga kaso ang pangunahing pagsasaalang-alang sa pagtukoy ng laki ng sample ay maaaring ang halaga ng pagsasagawa ng survey. Kahit na ang halaga at pagiging maaasahan ng impormasyong natanggap ay hindi isinasaalang-alang.

Sa ikaapat na diskarte, ang laki ng sample ay tinutukoy batay sa istatistikal na pagsusuri. Ang diskarte na ito ay nagsasangkot ng pagtukoy ng pinakamababang laki ng sample, na isinasaalang-alang ang mga kinakailangan para sa pagiging maaasahan at bisa ng mga resulta na nakuha.

Ang ikalimang diskarte ay itinuturing na pinaka theoretically batay at ang tamang diskarte sa pagtukoy ng laki ng sample. Ito ay batay sa pagkalkula ng isang agwat ng kumpiyansa.

Ang agwat ng kumpiyansa ay isang hanay na ang mga sukdulang punto ay nagpapakita ng porsyento ng ilang partikular na sagot sa isang tanong. Ang konsepto ng kuwarta ay nauugnay sa konsepto ng "karaniwang paglihis ng nagresultang katangian sa pangkalahatang populasyon." Kung mas malaki ito, mas malawak ang agwat ng kumpiyansa upang maisama, halimbawa, ang 9.5% ng mga tugon.

Mula sa mga katangian ng normal na distribution curve, sumusunod na ang mga end point ng confidence interval, na katumbas ng, halimbawa, 9.5%, ay tinukoy bilang produkto ng: 1.96 (normalized deviation) at ang standard deviation.

Ang mga numerong 1.96 at 2.58 (para sa 99% confidence interval) ay itinalagang z.

Mayroong mga talahanayan na "Halaga ng integral na posibilidad", na ginagawang posible upang matukoy ang mga halaga ng z para sa iba't ibang mga agwat ng kumpiyansa. Ang agwat ng kumpiyansa na 95% o 99% ay pamantayan kapag nagsasagawa ng pananaliksik sa marketing.

Halimbawa, ang isang pag-aaral ay isinagawa sa bilang ng mga pagbisita ng mga may-ari ng kotse sa mga workshop ng serbisyo bawat taon. Ang agwat ng kumpiyansa para sa ibig sabihin ng bilang ng mga pagbisita ay kinakalkula na 5-7 pagbisita sa 99% na antas ng kumpiyansa. Nangangahulugan ito na kung magiging posible na independiyenteng magsagawa ng mga sample na pag-aaral nang 100 beses, pagkatapos ay para sa 99 sample na pag-aaral ang average na bilang ng mga pagbisita ay mahuhulog sa hanay mula 5 hanggang 7 pagbisita. Sa ibang paraan, 99% ng mga may-ari ng sasakyan ay mahuhulog sa loob ang pagitan ng kumpiyansa.

Sabihin nating nagsagawa ng pag-aaral sa hanggang 50 independiyenteng sample. Ang ibig sabihin ng mga marka para sa mga sample na ito ay bumuo ng isang normal na distribution curve na tinatawag sampling distribution.

Ang mean score para sa populasyon sa kabuuan ay katumbas ng mean score ng distribution curve. Ang konsepto ng "sampling distribution" ay isinasaalang-alang din bilang isa sa mga pangunahing konsepto ng teoretikal na konsepto na pinagbabatayan ng kahulugan ng V sample.

Naturally, walang kumpanya ang makakagawa ng 10, 20, 50 independiyenteng sample. Karaniwan isang sample lang ang ginagamit.

Binibigyang-daan ka ng mga istatistika ng matematika na makakuha ng ilang impormasyon tungkol sa distribusyon ng sampling sa pamamagitan ng pagkakaroon ng tumpak na data tungkol sa pagkakaiba-iba ng isang sample.

Ang isang tagapagpahiwatig ng antas kung saan ang isang pagtatantya ay totoo para sa populasyon sa kabuuan ay naiiba sa inaasahan para sa isang karaniwang sample ay root mean square error. Halimbawa, ang opinyon ng mga mamimili tungkol sa isang bagong produkto ay pinag-aralan at ang customer itong pag aaral ipinahiwatig na siya ay masisiyahan sa katumpakan ng mga resulta na nakuha, katumbas ng plus o minus 5%.

Ipagpalagay natin na 30% ng sample ay pabor sa bagong produkto. Nangangahulugan ito na ang saklaw ng mga posibleng pagtatantya para sa buong populasyon ay 25 - 35%. Bukod dito, mas malaki ang sample size, mas maliit ang error. Ang isang mataas na halaga ng variation ay nagdudulot ng isang mataas na halaga ng error at vice versa.

Tukuyin natin ang sample size batay sa pagkalkula ng confidence interval. Ang paunang impormasyon na kinakailangan upang maipatupad ang pamamaraang ito ay:

  • · ang dami ng pagkakaiba-iba na pinaniniwalaang mayroon ang isang populasyon;
  • · nais na katumpakan;
  • · ang antas ng pagiging maaasahan na dapat matugunan ng mga resulta ng survey.

Kapag on tanong na tanong Mayroon lamang dalawang pagpipilian sa sagot, na ipinahayag bilang isang porsyento (isang porsyento na sukat ang ginagamit), ang laki ng sample ay tinutukoy ng sumusunod na formula:

kung saan ang n ay ang sample size;

z - normalized deviation, tinutukoy batay sa napiling antas ng kumpiyansa (Talahanayan 7);

p – natagpuan ang pagkakaiba-iba para sa sample;

q = (100 – p);

e – pinahihintulutang error.

Talahanayan 7

Ang halaga ng normalized deviation ng z score mula sa mean value

depende sa probabilidad ng kumpiyansa (a) ng resultang nakuha

Halimbawa, ang isang kumpanya ng pagmamanupaktura ng gulong ay nagsasagawa ng isang survey sa mga motorista na gumagamit ng radial na gulong.

Samakatuwid, sa tanong na: "Gumagamit ka ba ng radial gulong?" 2 sagot lang ang posible: “Oo” o “Hindi”. Kung ipagpalagay natin na ang populasyon ng mga mahilig sa kotse ay may mababang koepisyent ng pagkakaiba-iba, nangangahulugan ito na halos lahat ng sinuri ay gumagamit ng radial na gulong. SA sa kasong ito isang sapat na maliit na sukat ng sample ay maaaring mabuo. Sa formula (1), ang produkto pg ay nagpapahayag ng pagkakaiba-iba na likas sa populasyon. Halimbawa, sabihin nating 90% ng mga yunit sa populasyon ay gumagamit ng radial na gulong. Nangangahulugan ito na pg = 900. Kung ipagpalagay natin na ang koepisyent ng pagkakaiba-iba ay mas mataas (p = 70%), pagkatapos ay pg = 2100. Ang pinakamalaking pagkakaiba-iba ay nakakamit kapag ang kalahati ng populasyon (50%) ay gumagamit ng radial na gulong at ang iba pa Huwag. Sa kasong ito, ang produkto ay umabot sa isang halaga na katumbas ng 2500.

Kapag nagsasagawa ng isang survey, mahalagang ipahiwatig ang katumpakan ng mga pagtatantya na nakuha. Halimbawa, napag-alaman na 44% ng mga respondente ang gumagamit ng radial na gulong. Ang mga resulta ng pagsukat ay dapat ipakita sa anyo: ang porsyento ng mga motorista na gumagamit ng radial gulong ay 44 plus o minus %. Ang halaga ng pinahihintulutang error ay magkasamang tinutukoy nang maaga ng customer ng pananaliksik at ng kontratista.

Ang antas ng kumpiyansa sa pananaliksik sa marketing ay karaniwang tinatasa batay sa dalawang halaga: 95% o 99%. Ang unang halaga ay tumutugma sa halagang z = 1.96; ang pangalawa – z = 2.58. Kung pipiliin ang antas ng kumpiyansa na 99%, nangangahulugan ito ng sumusunod: 99% tayo ay kumpiyansa (sa madaling salita, ang antas ng kumpiyansa ay 0.99) na ang porsyento ng mga miyembro ng populasyon na nasa saklaw ng plus - minus e% ay katumbas ng ang porsyento ng mga sample na miyembro , na nasa loob ng parehong saklaw ng error. Kung ipagpalagay na ang isang pagkakaiba-iba ng 50%, isang katumpakan ng 10% sa isang 95% na antas ng kumpiyansa, kinakalkula namin ang laki ng sample:

n = 1.962 (50 x 50) / 102 = 96.

Sa antas ng kumpiyansa na 99%, at e = ±3%, n = 1067.

Kapag tinutukoy ang index ng pagkakaiba-iba para sa isang tiyak na populasyon, ipinapayong magsagawa ng isang paunang pagsusuri ng husay ng populasyon na pinag-aaralan at itatag ang pagkakatulad ng mga yunit ng populasyon sa demograpiko, panlipunan at iba pang aspeto ng interes ng mananaliksik. Posibleng matukoy ang laki ng sample gamit ang paraan sa halip na mga porsyento. Ipagpalagay na ang antas ng kumpiyansa ay pinili na 95% (z = 1.96,), ang karaniwang deviation (S) ay kinakalkula na 100, at ang nais na katumpakan (bias) ay ±10. Pagkatapos ang laki ng sample ay magiging

Sa katotohanan, sa pagsasagawa, kung ang sample ay nabuo muli at ang mga katulad na survey ay hindi naisagawa, S ay hindi kilala.

Sa kasong ito, ipinapayong itakda ang error e sa mga fraction ng standard deviation. Ang formula ng pagkalkula ay binago at kinuha ang sumusunod na anyo:

Madalas naming pinag-uusapan ang tungkol sa napakalaking laki ng mga pagsasama-sama na nagpapakilala sa mga merkado ng consumer goods. Ngunit sa ilang mga kaso ang mga pinagsama-samang ay hindi masyadong malaki, at halimbawa sa mga merkado indibidwal na species Produktong pang-industriya.

Karaniwan, kung ang sample ay mas mababa sa 5% ng populasyon, kung gayon ang populasyon ay itinuturing na malaki, at ang mga kalkulasyon ay isinasagawa ayon sa mga panuntunan sa itaas.

Kung ang V ng sample ay lumampas sa 5% ng populasyon, kung gayon ang huli ay itinuturing na maliit, at ang isang kadahilanan ng pagwawasto ay ipinakilala sa mga formula sa itaas. Ang laki ng sample sa kasong ito ay tinutukoy bilang mga sumusunod:

kung saan ang n1 ay ang sample size para sa isang maliit na populasyon,

n – laki ng sample (alinman sa mga sukat ng porsyento o para sa mga average), kinakalkula gamit ang mga formula sa itaas,

Ang N ay ang dami ng pangkalahatang populasyon.

Halimbawa, ang opinyon ng mga miyembro ng isang populasyon na binubuo ng 1000 mga kumpanya ay pinag-aaralan tungkol sa pagtatayo ng isang planta ng kemikal sa loob ng mga hangganan ng lungsod ng Tomsk. Dahil sa kakulangan ng impormasyon tungkol sa pagkakaiba-iba, ang pinakamasamang kaso ay ipinapalagay: 50:50. Nagpasya ang mananaliksik na gumamit ng antas ng kumpiyansa na 95%. Ang customer ng pag-aaral ay nagpahiwatig na siya ay masisiyahan sa katumpakan ng mga resulta plus o minus 5%. Sa kasong ito, ang sumusunod na pormula para sa sukat ng porsyento ay ginagamit:

Ang diskarteng ito sa pagbuo ng V sample, na may ilang partikular na reserbasyon, ay maaari ding gamitin kapag kinakalkula ang laki ng panel at ekspertong grupo.

Ang mga ibinigay na sample na formula sa pagkalkula ay batay sa pag-aakalang sinunod ang lahat ng panuntunan sa pag-sample, at ang error lang ay ang error dahil sa laki nito.

Kabanata mula sa aklat na "Marketing Research"

  • Sikolohiya: personalidad at negosyo

Pagkilala sa mga bagay ng populasyon

Pagpili ng paraan ng pagsusuri

Kumpletuhin ang pagsusuri

Halimbawang survey

Pagpili ng isang sampling procedure

Pagkalkula ng laki ng sample

Pagpapatupad ng sampling plan

kanin. 4.3. Pagpaplano ng sampling

Kasama sa pagpaplano ng sampling ang mga sumusunod na pamamaraan (Figure 4.3):

    Pagkilala sa mga bagay ng pangkalahatang populasyon.

    Pagpapasiya ng paraan ng pagsusuri.

    Pagtukoy sa pamamaraan ng sampling.

    Pagtukoy sa laki ng sample.

Pagkilala sa mga bagay sa pangkalahatang populasyon

Populasyon ay ang set ng lahat ng mga yunit na mga bagay ng pag-aaral.

Sa yugtong ito ng paghahanda ng pananaliksik, kinakailangan upang matukoy kung aling mga paksa ang bumubuo sa populasyon na pinag-aaralan. Bilang isang patakaran, ang mga paksa na kasama sa pangkalahatang populasyon ay magkakaiba, samakatuwid, kapag tinutukoy ang mga tipikal na kinatawan ng object ng pananaliksik, ang ilang mga grupo ay maaaring napalampas. Ito ay lalong mahirap na katawanin ang lahat ng mga elemento ng isang populasyon na binubuo ng mga organisasyon, dahil hindi lahat ng mga kumpanya ay nag-aanunsyo ng kanilang mga aktibidad. Ang pangkalahatang populasyon ay maaaring tukuyin bilang ang merkado sa kabuuan, isang segment ng merkado o isang target na grupo ng mga paksa.

Pagpapasiya ng paraan ng pagsusuri

Depende sa laki ng populasyon at mga layunin ng pag-aaral, maaaring gamitin ang tuloy-tuloy o sample na pamamaraan ng survey.

Paraan ng patuloy na pagsusuri binubuo ng pag-aaral sa lahat ng yunit ng pangkalahatang populasyon. Ang pamamaraan ay nauugnay sa mataas na gastos sa pananaliksik; ang paggamit nito ay makatwiran, halimbawa, sa kaso ng isang maliit na bilang ng mga mamimili na kumakatawan sa isang segment, o sa kaso kapag ang dami ng mga pagbili ng isang partikular na kliyente ay bumubuo ng isang makabuluhang bahagi ng merkado kapasidad sa kabuuan.

Sample- ito ay isang pangkat ng mga bagay sa pananaliksik na nagtataglay ng mga katangian ng lahat ng mga yunit ng pangkalahatang populasyon, halimbawa, isang pangkat ng mga mamimili na kumakatawan sa mga interes at panlasa ng buong target na merkado.

Ang sample na paraan ng survey ay nagbibigay ng mas kaunting katumpakan kumpara sa tuloy-tuloy na pamamaraan ng survey, ngunit ito ay hindi gaanong labor-intensive. Maipapayo na gamitin ang pamamaraang ito sa pagkakaroon ng isang malaking bilang ng mga homogenous na yunit ng pangkalahatang populasyon.

Paraan ng sampling nagbibigay ng impormasyon tungkol sa populasyon batay sa isang survey ng bahagi lamang nito, kaya ang data na nakuha sa panahon ng isang sample na survey ay probabilistic sa kalikasan. Sa pagsasagawa, nangangahulugan ito na bilang isang resulta ng pag-aaral, hindi isang tiyak na halaga ang tinutukoy, ngunit ang pagitan kung saan matatagpuan ang nais na halaga. Tinatawag ang probabilidad kung saan masasabi na ang sampling error ay hindi lalampas sa isang tiyak na halaga posibilidad ng kumpiyansa.

Ang pag-aari ng isang sample upang ipakita ang mga katangian ng populasyon ay tinatawag na representasyon. Ang pagkakaiba sa pagitan ng mga katangian ng pangkalahatan at sample na populasyon ay tinatawag na sampling error, na depende sa napiling sampling procedure.

Mga pamamaraan ng sampling

Pamamaraan ng sampling ay ang pagkakasunod-sunod ng pagpili ng mga respondente para sa sample.

Ang pagpili ng mga respondente ay maaaring may kasamang sistematiko at random na mga pagkakamali. Mga sistematikong pagkakamali lumitaw kapag ang pamamaraan ng sampling ay napili nang hindi tama. Mga random na error palaging umiiral dahil nauugnay ang mga ito sa impluwensya ng mga kadahilanan na mahirap hulaan. Ang impluwensya ng randomness ay hindi maaaring ganap na maalis, ngunit ang magnitude ng random na error ay maaaring matukoy gamit ang mga istatistikal na pamamaraan. Hindi matantya ang bias ngunit maaaring alisin sa pamamagitan ng pagbabago ng pamamaraan ng sampling.

Isinasaalang-alang ang pagkakaroon ng dalawang uri ng mga error sa sampling, random (probabilistic) at non-random (deterministic) na mga uri ng sampling procedure ay nakikilala.

Non-random na mga pamamaraan ng sampling

Hindi random Ang mga pamamaraan ng sampling sa pamamagitan ng proseso ng sampling mismo ay nagsasangkot ng isang hindi random na pagpili ng mga respondent, na ang opinyon ay maaaring naiiba mula sa opinyon ng pangkalahatang populasyon sa kabuuan, at sa gayon ay nagdudulot ng pagkakaroon ng hindi random (sistematikong) error sa data sa mga resulta ng pananaliksik . Kapag gumagamit ng mga hindi random na pamamaraan, ang pagpili ng mga respondent sa sample ay ginawa batay sa anumang tinatanggap na mga kondisyon na naglilimita sa bilog ng mga malamang na kalahok sa pag-aaral. Halimbawa, tanging ang mga respondent na nagmamay-ari ng computer o nagpunta sa tindahan sa pagitan ng 10 at 11 o'clock lamang ang napili para sa sample.

Posible ang mga sumusunod na uri ng mga hindi random na sample:

Random sampling - ang mga elemento ay pinipili nang walang plano, basta-basta; ang pamamaraan ay mura at maginhawa, ngunit bumubuo ng hindi kawastuhan at hindi pagkakatawan;

    tipikal na sample - ang set ay limitado lamang sa mga katangian (tipikal) na elemento ng pangkalahatang populasyon; ginamit, halimbawa, kapag bumubuo ng mga focus group; gayunpaman, nangangailangan ito ng impormasyon tungkol sa tipikal ng mga bagay na pinag-aaralan;

    quota sampling - ang istraktura ng sampling ay binuo sa pamamagitan ng pagkakatulad sa pamamahagi ng ilang mga katangian sa pangkalahatang populasyon; Mula sa bawat pangkat ng pangkalahatang populasyon, pinipili ang mga kalahok sa pananaliksik, ang bilang nito ay proporsyonal sa representasyon ng grupo sa pangkalahatang populasyon.

Random na mga pamamaraan ng sampling

Sa pagbuo ng random sample Nalalapat ang mga sumusunod na pamamaraan.

    simpleng pagpili - ang mga elemento ay pinili gamit random na mga numero; sa pamamaraang ito ay ipinapalagay na para sa lahat ng mga yunit ng pangkalahatang populasyon ang posibilidad na mapili sa sample na populasyon ay pareho (ang halaga ng posibilidad ay katumbas ng ratio ng laki ng sample sa laki ng pangkalahatang populasyon). Ang pamamaraan ay napaka-labor-intensive at nangangailangan ng pagkakaroon ng isang listahan ng lahat ng mga yunit sa pangkalahatang populasyon;

    sistematikong (mekanikal) sampling - ang unang elemento ay pinili gamit ang mga random na numero, ang natitirang mga elemento ng sample ay pinili sa pantay na pagitan (jump interval), na katumbas ng ratio ng laki ng populasyon sa laki ng sample. Ang pamamaraan ng sampling na ito ay lubos na nagpapasimple sa pamamaraan, ngunit maaaring magpasok ng mga pagbaluktot sa istraktura ng sampling kung ang populasyon ay inayos ayon sa anumang katangian.

Kung ang pangkalahatang populasyon ay inayos ng isang mahalagang katangian (ang isang katangian ay itinuturing na makabuluhan kung ito ay tumutukoy sa estado ng tagapagpahiwatig na pinag-aaralan), pagkatapos ay upang mabawasan ang mga pagbaluktot sa sample na katangian, ang mga sampling unit ay dapat mapili mula sa gitna ng itinatag na pagitan. Ang parehong ay ginagawa sa kaso kapag ang pangkalahatang populasyon ay inayos ayon sa isang pangalawang katangian na bahagyang nakakaimpluwensya sa bagay na pinag-aaralan.

Kung ang pangkalahatang populasyon ay inayos ayon sa isang neutral na katangian (na hindi nakakaapekto sa pag-uugali ng bagay na pinag-aaralan), pagkatapos ay pinahihintulutan na isama sa sample ang anumang yunit ng pangkalahatang populasyon mula sa itinatag na pagitan;

Stratified (typical o group) sampling - ang pangkalahatang populasyon ay nahahati sa mga pangkat na may isang hanay ng ilang mga katangian (segment o strata), kung saan ang bawat isa ay nabuo ang sariling sample gamit ang random na pagpili; weight coefficient ng bawat stratum in kabuuang volume sample na tumutugma dito tiyak na gravity sa pangkalahatang populasyon; cluster (serial) sampling - ang pangkalahatang populasyon ay nahahati sa magkatulad na grupo (mga pugad, bulaklak na kama o kumpol). Ang mga cluster ay dapat na magkapareho hangga't maaari; ang komposisyon ng cluster ay dapat na katulad ng pangkalahatang populasyon. Maraming grupo ang random na pinili mula sa pangkalahatang populasyon at sumasailalim sa isang kumpletong survey (one-stage approach). Posible rin ang dalawang yugtong diskarte, kapag ang isang sample ay unang nabuo mula sa mga kumpol, at ang mga yunit ng pananaliksik ay random na pinili mula dito (ibig sabihin, ang sampling unit ng nakaraang yugto ay nagiging pangkalahatang populasyon para sa susunod). Ang kawalan ng pamamaraang ito ng sampling ay ang mga kumpol ay maaaring magkakaiba sa kanilang mga sarili, ngunit ang pamamaraang ito ay simple at matipid.

Multi-stage sampling

Ang anumang uri ng sampling ay maaaring maging isa o maraming yugto. Ginagamit ang multistage sampling sa mga kaso kung saan mahirap direktang kumuha ng sample mula sa pangkalahatang populasyon, habang ang lahat ng sampling unit sa bawat yugto ay katumbas para sa survey.

Multi-stage na pagpili sa pagkonekta iba't ibang mga pamamaraan sampling, ginagawang pinagsama ang sample. Ang pagpipiliang sampling na ito ay nagbibigay-daan sa amin na makamit ang pinaka makatuwiran at matipid na mga kondisyon para sa pangongolekta ng data alinsunod sa mga layunin.

Pagtukoy sa laki ng sample

Ang pagtukoy sa laki ng sample ay isang kompromiso sa pagitan ng teorya ng katumpakan ng mga resulta ng pananaliksik at ang posibilidad ng praktikal na pagpapatupad nito sa mga tuntunin ng halaga ng pagkolekta ng impormasyon.

Pinaka naaangkop sumusunod na pamamaraan pagtukoy ng laki ng sample:

1. Arbitrary na paraan ng pagkalkula; sa kasong ito, ang laki ng sample ay tinutukoy sa antas ng 5-10% ng pangkalahatang populasyon.

    Tradisyunal na paraan ng pagkalkula; nagsasangkot ng pagsasagawa ng pana-panahong taunang survey ng, halimbawa, 500, 1000 o 1500 na mga respondent.

    Paraan ng pagkalkula ng istatistika; ay batay sa pagtukoy sa istatistikal na pagiging maaasahan ng impormasyon.

    Paraan ng pagkalkula gamit ang mga nomogram.

    Empirical na pamamaraan; sa kasong ito, ang sample ay itinuturing na sapat kapag ang lahat ng bagong impormasyon ay nagpapakilala lamang ng maliliit na pagbabago (na maaaring mapabayaan) sa mga nakolektang resulta ng pananaliksik.

    Paraan ng gastos; batay sa halaga ng mga gastusin na maaaring gastusin sa pagsasagawa ng pananaliksik.

Paraan ng istatistika para sa pagkalkula ng laki ng sample

Ang mga sumusunod na salik ay nakakaimpluwensya sa laki ng istatistikal na sample:

    Availability ng impormasyon tungkol sa laki ng populasyon at ang antas ng homogeneity nito.

    Ang kinakailangang katumpakan ng mga resulta, na kinokontrol ng halaga ng maximum na pinahihintulutang error ng pagiging kinatawan at ang halaga ng antas ng kumpiyansa kung saan ginawa ang isang konklusyon tungkol sa pagiging maaasahan ng mga resulta ng pananaliksik.

    Availability ng impormasyon tungkol sa average na mga indicator ng pangkalahatang populasyon para sa katangiang pinag-aaralan o tungkol sa pagitan ng pagkakaiba-iba ng katangian (variance).

    Posibilidad ng paulit-ulit na pagsasama ng isang yunit ng populasyon sa sample.

Kapag tinutukoy ang laki ng sample para sa malalaking populasyon (kapag ang laki ng sample ay mas mababa sa 5% populasyon) ang mga sumusunod na formula ay maaaring gamitin:

a) paulit-ulit na sampling (kung posible para sa isang yunit ng pangkalahatang populasyon na maisama muli sa sample) na may hindi alam na laki ng pangkalahatang populasyon, ngunit kilalang pamamahagi kontroladong tanda:

saan t- normalized deviation, na tinutukoy ng napiling antas ng kumpiyansa (sa 95% na antas ng kumpiyansa t= 1.96; sa 99% na antas ng kumpiyansa t= 2,58); R - natagpuan ang pagkakaiba-iba ng pangkalahatang populasyon, sa % o sa mga bahagi; q= 100 - R; D - pinahihintulutang error, sa% o sa pagbabahagi;

b) paulit-ulit na sampling na may alam na pagkakaiba ng katangiang pinag-aaralan (o):

c) hindi paulit-ulit na sampling (maliban sa posibilidad ng paulit-ulit na pagpasok ng isang yunit ng pangkalahatang populasyon sa sample) na may kilalang dami ng pangkalahatang populasyon at isang kilalang pamamahagi ng kontroladong katangian:

saan N- ;

d) hindi paulit-ulit na sampling na may kilalang pagkakaiba ng katangiang pinag-aaralan:

Ang isang sample ay itinuturing na maliit kung ang laki nito ay lumampas sa 5% ng pangkalahatang populasyon, kung saan ang laki ng sample ay maaaring isaayos:

saan P" - laki ng sample para sa isang maliit na populasyon, P - istatistikal na sukat ng sample, N- laki ng pangkalahatang populasyon.

Pagkalkula ng statistical sampling na may normalized deviation t= 2 at isang katanggap-tanggap na error na 5% (tingnan ang Talahanayan 4.2) ay nagpapakita na para sa malalaking populasyon ang laki ng sample ay maaaring matukoy sa anumang paraan, dahil ang mga praktikal na pamamaraan na ginamit ay may posibilidad na labis na tantiyahin ang laki ng populasyon na sinusuri.

Talahanayan 4.2 Depende sa laki ng sample sa laki ng populasyon*

Laki ng populasyon

Laki ng sample

* na may normalized deviation t= 2 at pinahihintulutang error 5%.

Mula sa mesa 4.2 malinaw na kapag ang laki ng populasyon ay higit sa 5000, ang halaga nito ay hindi makakaapekto sa laki ng sample, kaya ang formula ay maaaring kunin ang sumusunod na anyo (ang halaga 1/ N maaaring pabayaan):

(4.6)

Halimbawa, mula sa mga nakaraang pag-aaral ay alam na ang distribusyon ng mga sagot sa tanong ng interes sa mananaliksik (halimbawa, tungkol sa katayuan ng gumagamit) ay 60% at 40% (60% ng mga respondent ay sumagot ng positibo sa tanong tungkol sa gamit ang produkto at 40% ang sumagot ng negatibo). Ang bahagi ng mga target na respondente sa kabuuang bilang ng mga respondente ay 70%. Para sa karagdagang detalyadong pagsusuri kailangan mong makakuha ng 100 positibong sagot. Para makuha ang resultang ito, kailangan mong magsurvey sa 238 tao:

Kaya, sa kawalan ng tumpak na impormasyon tungkol sa laki at katangian ng populasyon (sa kondisyon na ito ay hindi bababa sa 5000), sapat na upang isama ang 400 ng mga kinatawan nito sa sample. Gayunpaman, dapat tandaan na kung makokontrol natin ang sample na istraktura kasama ang ilang mga parameter, kung gayon ang laki ng sample ay magiging mas malaki. Si G. A. Churchill sa kanyang akda na "Marketing Research" ay nagbibigay ng panuntunan sa bagay na ito: "Ang laki ng sample ay dapat magbigay ng hindi bababa sa 100 obserbasyon para sa bawat pangunahin at hindi bababa sa 20-50 na mga obserbasyon para sa bawat pangalawang bahagi ng pag-uuri"; Dapat ding gumawa ng allowance para sa posibilidad na ang mga indibidwal na respondent na kasama sa sample ay maaaring hindi maabot o maaaring tumangging lumahok sa pag-aaral.1

Ang bilang ng mga respondent na kailangang makapanayam upang makuha ang kinakailangang bilang ng mga positibong sagot sa tanong ng interes ay maaaring kalkulahin gamit ang formula:

saan P - ang bilang ng mga positibong tugon na kinakailangan para sa pagsusuri; Pj - proporsyon ng mga positibong sagot; R 2 - ibahagi target na mga grupo, na kinakalkula bilang produkto ng lahat ng bahagi ng mga respondent na nakakatugon sa mga itinatag na kinakailangan (edad, kasarian, katayuan ng user, atbp.).

Paggamit ng mga nomogram upang kalkulahin ang laki ng sample

Ang pagnanais na pasimplehin ang pamamaraan para sa pagkalkula ng laki ng sample ay humahantong sa paglikha ng mga talahanayan, kaliskis o mga programa na nakatuon sa pagtiyak ng pagiging maaasahan ng istatistika ng impormasyon, ngunit huwag pasanin ang gumagamit ng kaalaman sa mga espesyal na formula mula sa larangan ng istatistika. Halimbawa, mayroong isang sampling calculator (www. shortway. to/few/calculator, htm), sa website ng Gallup (www. gallup. ru) makakahanap ka ng isang talahanayan na nagli-link ng mga tagapagpahiwatig ng laki ng sample, pamamahagi ng tugon na may karaniwang error (Talahanayan 4.3).

Talahanayan 4.3 Relasyon sa pagitan ng mga tagapagpahiwatig ng laki ng sample at pamamahagi ng tugon at karaniwang error

Pamamahagi ng mga sagot,

Laki ng sample

Ang nomogram ay isang graphical na paraan upang matukoy ang laki ng sample. Kasama sa nomogram ang tatlong kaliskis (Larawan 4.4). Sa scale sa kaliwa, ang pagmamarka ng standard deviation indicator o ang pamamahagi ng bahagi ng katangian ay nakatakda. Sa tamang sukat, ang katumpakan ng pagsukat ay minarkahan sa anyo ng isang katanggap-tanggap na error (kalahati ng pagitan) sa isang ibinigay na posibilidad ng kumpiyansa na 95 o 99%. Ang mga marka ay ginawa sa gitnang sukat na naaayon sa kinakailangang laki ng sample. Ang mga marka ay ginawa sa kanan at kaliwang mga kaliskis sa antas ng nais na mga halaga ng tagapagpahiwatig (ang bahagi ng katangian at ang pinahihintulutang error). Ang dalawang marka na ito ay konektado sa isang ruler; sa intersection ng ruler na may gitnang iskala, isang marka ang ginawa na tumutugma sa sample volume na nakakatugon sa mga kagustuhan ng mananaliksik.

kanin. 4.4. Nomogram para sa pagtukoy ng laki ng sample (95% na antas ng kumpiyansa)"

4.5. Pagtukoy sa laki ng sample

Kasama sa pamamaraan ng sampling plan sunud-sunod na solusyon ng sumusunod na tatlong gawain:

Kahulugan ng object ng pananaliksik;

Pagtukoy sa istraktura ng sampling;

Pagtukoy sa laki ng sample.

Karaniwan, bagay ng pananaliksik sa marketing ay isang hanay ng mga bagay sa pagmamasid, na maaaring mga mamimili, empleyado ng kumpanya, tagapamagitan, atbp. Kung ang populasyon na ito ay napakaliit na ang pangkat ng pananaliksik ay may kinakailangang paggawa, pinansiyal at oras na mapagkukunan upang maitaguyod ang pakikipag-ugnay sa bawat isa sa mga elemento nito, kung gayon posible na magsagawa ng patuloy na pag-aaral ng buong populasyon. Sa kasong ito, nang matukoy ang layunin ng pananaliksik, maaari kang magpatuloy sa susunod na pamamaraan (pagpili ng paraan ng pagkolekta ng data, instrumento ng pananaliksik at paraan ng komunikasyon sa madla).

Gayunpaman, sa pagsasagawa, madalas na hindi posible o ipinapayong magsagawa ng komprehensibong pag-aaral ng buong populasyon. Maaaring may mga sumusunod na dahilan para dito:

Kawalan ng kakayahang magtatag ng pakikipag-ugnayan sa ilang elemento ng kabuuan;

Hindi makatwirang mataas na gastos para sa pagsasagawa ng patuloy na pag-aaral o pagkakaroon ng mga paghihigpit sa pananalapi na hindi nagpapahintulot sa pagsasagawa ng kumpletong pag-aaral;

Ang maikling time frame na inilaan para sa pananaliksik ay dahil sa pagkawala ng kaugnayan ng impormasyon sa paglipas ng panahon o iba pang mga kadahilanan at hindi pinapayagan ang koleksyon, sistematisasyon at pagsusuri ng malawak na data para sa buong populasyon.

Samakatuwid, ang malaki at dispersed na populasyon ay madalas na pinag-aaralan gamit ang isang sample, na, gaya ng nalalaman, ay nauunawaan bilang isang bahagi ng populasyon na nilalayon upang kumatawan sa populasyon sa kabuuan.

Ang katumpakan kung saan ang isang sample ay sumasalamin sa populasyon sa kabuuan ay nakasalalay sample na istraktura at sukat.

Mayroong dalawang diskarte sa disenyo ng sampling- probabilistiko at deterministiko.

Probabilistic na diskarte sa sampling na disenyo Ipinapalagay na ang anumang elemento ng populasyon ay maaaring mapili na may tiyak na (hindi zero) na posibilidad. Umiiral iba't ibang uri mga sample batay sa probability theory (typical, nested, atbp.). Ang pinakasimple at pinakakaraniwan sa pagsasanay ay ang simpleng random sampling, kung saan ang bawat elemento ng populasyon ay may pantay na posibilidad na mapili para sa pananaliksik.

Ang probability sampling ay mas tumpak at nagbibigay-daan sa mananaliksik na masuri ang antas ng pagiging maaasahan ng data na kanyang nakolekta, bagama't ito ay mas kumplikado at mas mahal kaysa sa deterministic sampling.

Deterministikong diskarte sa sampling frame Ipinapalagay na ang pagpili ng mga elemento ng populasyon ay ginawa sa pamamagitan ng mga pamamaraan batay sa alinman sa mga pagsasaalang-alang sa kaginhawahan, o sa desisyon ng mananaliksik, o sa mga grupong hindi nagbabago.

para sa mga dahilan ng kaginhawahan, ay binubuo sa pagpili ng anumang elemento ng populasyon batay sa kadalian ng pakikipag-ugnayan sa kanila. Ang di-kasakdalan ng pamamaraang ito ay posibleng dahil sa mababang representasyon ng resultang sample, dahil Ang mga elemento ng isang populasyon na maginhawa para sa isang mananaliksik ay maaaring hindi sapat na kinatawan ng mga kinatawan ng populasyon dahil sa kanilang hindi random at walang batayan na pagpili.

Gayunpaman, sa kabilang banda, ang pagiging simple, ekonomiya at kahusayan ng pananaliksik na isinagawa ng pamamaraang ito ay nakakuha ng medyo malawakang paggamit sa pagsasanay at, higit sa lahat, sa panahon ng paunang pananaliksik na naglalayong linawin ang mga pangunahing problema.

Batay sa paraan ng sampling sa desisyon ng mananaliksik, ay binubuo sa pagpili ng mga elemento ng populasyon, na, sa kanyang opinyon, ay ang mga katangiang kinatawan nito. Ang pamamaraang ito ay mas advanced kaysa sa nauna, dahil nakabatay ito sa isang oryentasyon patungo sa mga katangiang kinatawan ng populasyon na pinag-aaralan, bagama't pinili batay sa mga pansariling ideya ng mga mananaliksik tungkol dito.

Paraan ng sampling batay sa contingent na mga pamantayan, ay binubuo sa pagpili ng mga katangiang elemento ng populasyon alinsunod sa mga dating nakuhang katangian ng populasyon sa kabuuan. Ang mga katangiang ito ay maaaring makuha sa pamamagitan ng pagsasagawa ng paunang pananaliksik at, hindi katulad ng naunang pamamaraan, ay hindi subjective. Samakatuwid, ang pamamaraang ito ay mas advanced; pinapayagan nito ang pagkuha ng mga sample na populasyon na hindi gaanong kinatawan kaysa sa mga probability sample sa makabuluhang mas mababang gastos para sa pagsasagawa ng survey.

Ang pagkakaroon ng napiling sample na istraktura (ang diskarte sa pagbuo nito, ang uri ng probabilistic o deterministic sampling), ang mananaliksik ay kailangang matukoy ang dami, i.e. bilang ng mga elemento sa sample na populasyon.

Laki ng sample tinutukoy ang pagiging maaasahan ng impormasyon nakuha bilang isang resulta ng kanyang pananaliksik, pati na rin ang mga gastos na kinakailangan upang maisagawa ang pananaliksik. Depende ang laki ng sample sa antas ng homogeneity o pagkakaiba-iba ng mga bagay na pinag-aaralan.

Kung mas malaki ang sample size, mas mataas ang katumpakan nito at mas mataas ang mga gastos sa pagsasagawa ng survey nito. Sa isang probabilistic na diskarte sa sample na istraktura, ang dami nito ay maaaring matukoy gamit ang mga kilalang istatistikal na formula, batay sa tinukoy na mga kinakailangan para sa katumpakan nito.

Sa pagsasagawa, maraming mga diskarte ang ginagamit upang matukoy ang laki ng sample:

1. Libreng diskarte batay sa aplikasyon ng "rule of thumb". Halimbawa, ito ay tinatanggap nang walang ebidensya na upang makakuha ng tumpak na mga resulta, ang sample ay dapat na 5% ng populasyon. Ang diskarte na ito ay simple at madaling ipatupad, ngunit hindi posible na matukoy ang katumpakan ng mga resulta na nakuha. Sa isang sapat na malaking populasyon, maaari rin itong maging medyo mahal.

Maaaring itakda ang laki ng sample batay sa ilang partikular na paunang napagkasunduang kundisyon. Halimbawa, alam ng customer ng pananaliksik sa marketing na kapag nag-aaral ng opinyon ng publiko, ang sample ay karaniwang 1000-1200 katao, kaya inirerekomenda niya na manatili ang mananaliksik sa figure na ito. Kung ang taunang pananaliksik ay isinasagawa sa isang partikular na merkado, kung gayon ang isang sample ng parehong laki ay ginagamit sa bawat taon. Sa kaibahan sa unang diskarte, dito, kapag tinutukoy ang laki ng sample, ginagamit ang kilalang lohika, na, gayunpaman, ay napaka-mahina.

Halimbawa, kapag nagsasagawa ng ilang partikular na pag-aaral, maaaring kailanganin ang mas kaunting katumpakan kaysa kapag nag-aaral ng opinyon ng publiko, at ang laki ng populasyon ay maaaring maraming beses na mas maliit kaysa kapag nag-aaral ng opinyon ng publiko. Kaya, ang diskarteng ito ay hindi isinasaalang-alang ang mga kasalukuyang pangyayari at maaaring maging medyo mahal.

Sa ilang mga kaso, ang halaga ng pagsasagawa ng isang survey ay ginagamit bilang pangunahing argumento sa pagtukoy ng laki ng sample. Kaya, ang badyet ng pananaliksik sa marketing ay nagbibigay para sa mga gastos sa pagsasagawa ng ilang mga survey, na hindi maaaring lumampas. Malinaw, ang halaga ng impormasyong natanggap ay hindi isinasaalang-alang. Gayunpaman, sa ilang mga kaso, ang isang maliit na sample ay maaaring magbigay ng medyo tumpak na mga resulta.

Mukhang makatwirang isaalang-alang ang mga gastos hindi sa ganap na termino, ngunit may kaugnayan sa pagiging kapaki-pakinabang ng impormasyong nakuha mula sa mga survey na isinagawa. Dapat isaalang-alang ng kliyente at mananaliksik ang iba't ibang laki ng sample at paraan ng pangongolekta ng data, gastos, at iba pang mga salik

2. Laki ng sample mula sa antas ng agwat ng kumpiyansa ng pinahihintulutang error, na, tulad ng nabanggit na, ay natutukoy sa pamamagitan ng angkop na katumpakan ng mga huling paglalahat: mula sa tumaas hanggang sa indikatibo. Gayunpaman, ito ay tumutukoy sa tinatawag na random na mga error na nauugnay sa likas na katangian ng anumang statistical error. Ang mga ito ay kinakalkula bilang mga error sa pagiging kinatawan ng mga sample ng probabilidad.

Ibinibigay ng V.I. Paniotto ang mga sumusunod na kalkulasyon para sa isang kinatawan na sample na may pag-aakalang 5 porsyentong error (Talahanayan 4.2).

Talahanayan 4.2

Halimbawang talahanayan ng pagkalkula

Para sa isang populasyon na higit sa 100,000, ang sample size ay 400 units. Kung isaisip natin ang pangkalahatang populasyon na 5 libo o higit pa, kung gayon, ayon sa mga kalkulasyon ng parehong may-akda, maaari nating ipahiwatig ang laki ng aktwal na error sa pag-sample depende sa dami nito, na napakahalaga para sa atin, na tandaan na ang laki ng pinahihintulutang error ay depende sa layunin ng pag-aaral at hindi kailangang malapit sa 5 porsiyentong antas.

Talahanayan 4.3

Talahanayan ng pagkalkula

Kasama ng mga random na error, posible ang mga sistematikong error. Nakadepende sila sa organisasyon ng sample na survey. Ito ay iba't ibang sampling biases patungo sa isa sa mga pole ng sample na parameter.

3. Laki ng sample batay sa pagsusuri sa istatistika . Ang diskarte na ito ay batay sa pagtukoy ng pinakamababang laki ng sample batay sa ilang mga kinakailangan para sa pagiging maaasahan at bisa ng mga resultang nakuha. Ginagamit din ito kapag sinusuri ang mga resultang nakuha para sa mga indibidwal na subgroup na nabuo sa loob ng sample ayon sa kasarian, edad, antas ng edukasyon, atbp. Ang mga kinakailangan para sa pagiging maaasahan at katumpakan ng mga resulta para sa mga indibidwal na subgroup ay nagdidikta ng ilang mga kinakailangan para sa laki ng sample sa kabuuan.

Ang pinaka-teoretikal na batayan at tamang diskarte sa pagtukoy ng laki ng sample ay batay sa pagkalkula ng mga mapagkakatiwalaang pagitan. Inilalarawan ng konsepto ng variation ang dami ng dissimilarity (similarity) ng mga sagot ng mga respondent sa isang partikular na tanong. Sa isang mas mahigpit na kahulugan, ang pagkakaiba-iba sa mga halaga ng isang katangian sa pinagsama-samang ay ang pagkakaiba sa mga halaga nito sa iba't ibang mga yunit ng isang naibigay na populasyon sa parehong panahon o punto ng oras. Ang mga resulta ng mga tugon sa survey ay karaniwang ipinakita sa anyo ng isang kurba ng pamamahagi (Figure 4.1). Kapag mataas ang pagkakapareho ng mga sagot, nagsasalita tayo ng mababang variation (makitid na kurba ng pamamahagi), at kapag mababa ang pagkakapareho ng mga sagot, nagsasalita tayo ng mataas na pagkakaiba-iba (malawak na kurba ng pamamahagi).

Bilang sukatan ng variation, karaniwang kinukuha ang standard deviation, na nagpapakilala sa average na distansya mula sa average na pagtatasa ng mga sagot ng bawat respondent sa isang partikular na tanong.

Maliit na pagkakaiba-iba

Mataas na Variation

kanin. 4.1. Variation at distribution curves

Dahil ang lahat ng desisyon sa marketing ay ginawa sa ilalim ng mga kondisyon ng kawalan ng katiyakan, ipinapayong isaalang-alang ang sitwasyong ito kapag tinutukoy ang laki ng sample. Dahil ang pagpapasiya ng mga pinag-aralan na halaga para sa isang populasyon sa isang makitid na paraan ay isinasagawa sa batayan ng mga sample na istatistika, kinakailangan upang maitatag ang hanay (confidence interval) kung saan ang mga pagtatantya para sa populasyon sa kabuuan ay inaasahang pagkahulog, at ang pagkakamali sa kanilang pagpapasiya.

Ang agwat ng kumpiyansa ay isang hanay na ang mga matinding puntos ay tumutugma sa isang tiyak na porsyento ng ilang mga sagot sa isang tanong. Ang agwat ng kumpiyansa ay malapit na nauugnay sa karaniwang paglihis ng katangiang pinag-aaralan sa populasyon: kung mas malaki ito, mas malawak ang agwat ng kumpiyansa upang maisama ang isang tiyak na porsyento ng mga tugon.

Ang agwat ng kumpiyansa na alinman sa 95% o 99% ay pamantayan kapag nagsasagawa ng pananaliksik sa merkado. Walang kumpanya ang nagsasagawa ng pananaliksik sa marketing gamit ang maraming sample. AT mga istatistika sa matematika ginagawang posible na makakuha ng ilang impormasyon tungkol sa distribusyon ng sampling, pagkakaroon lamang ng data sa variation ng isang sample.

Ang isang tagapagpahiwatig ng antas kung saan ang pagtatantya ay totoo para sa populasyon sa kabuuan ay naiiba sa pagtatantya na inaasahan para sa isang karaniwang sample ay ang mean square error. Bukod dito, mas malaki ang sample size, mas maliit ang error. Ang isang mataas na halaga ng variation ay nagdudulot ng isang mataas na halaga ng error at vice versa.

Kapag mayroon lamang dalawang posibleng sagot sa isang naibigay na tanong, na ipinahayag bilang isang porsyento (isang porsyento na sukat ang ginagamit), ang laki ng sample ay tinutukoy ng sumusunod na formula:

kung saan ang n ay ang sample size; z – normalized deviation, tinutukoy batay sa napiling antas ng kumpiyansa; p – natagpuan ang pagkakaiba-iba para sa sample; g – (100-r); e – pinahihintulutang error.

Kapag tinutukoy ang index ng pagkakaiba-iba para sa isang tiyak na populasyon, una sa lahat ay ipinapayong magsagawa ng isang paunang pagsusuri ng husay ng populasyon na pinag-aaralan, una sa lahat, upang maitaguyod ang pagkakapareho ng mga yunit ng populasyon sa demograpiko, panlipunan at iba pang aspeto ng interes sa mananaliksik. Posibleng magsagawa ng pilot study, gamit ang mga resulta ng mga katulad na pag-aaral na isinagawa noong nakaraan. Kapag ginagamit ang porsyento na sukatan ng pagkakaiba-iba, isinasaalang-alang na ang pinakamataas na pagkakaiba-iba ay nakakamit para sa p = 50%, na siyang pinakamasamang kaso. Bukod dito, ang tagapagpahiwatig na ito ay hindi radikal na nakakaapekto sa laki ng sample. Ang opinyon ng customer ng pananaliksik tungkol sa laki ng sample ay isinasaalang-alang din.

Posibleng matukoy ang laki ng sample gamit ang paraan sa halip na mga porsyento.

kung saan ang s ay ang standard deviation.

Sa pagsasagawa, kung ang sample ay bagong nabuo at ang mga katulad na survey ay hindi pa naisagawa, ang s ay hindi alam. Sa kasong ito, ipinapayong itakda ang error e sa mga fraction ng standard deviation. Ang formula ng pagkalkula ay binago at kinuha ang sumusunod na anyo:

saan .

Sa itaas ay may usapan tungkol sa mga pinagsama-samang napakalaking sukat. Gayunpaman, sa ilang mga kaso ang mga pinagsama-sama ay hindi malaki. Karaniwan, kung ang sample ay mas mababa sa limang porsyento ng populasyon, kung gayon ang populasyon ay itinuturing na malaki at ang mga kalkulasyon ay isinasagawa ayon sa mga panuntunan sa itaas. Kung ang laki ng sample ay lumampas sa 5% ng populasyon, kung gayon ang huli ay itinuturing na maliit at isang kadahilanan ng pagwawasto ay ipinakilala sa mga formula sa itaas.

Ang laki ng sample sa kasong ito ay tinutukoy bilang mga sumusunod:

,

Pagtukoy sa Probability Sample Size

Dami Ang probability sampling ay tinutukoy gamit ang mga espesyal na formula, depende sa ibinigay pagiging maaasahan, katumpakan pananaliksik at mga pagkakaiba-iba pangkalahatang populasyon.

Ang teoretikal na batayan para sa posibilidad ng paggamit ng isang sample na survey upang suriin ang mga katangian populasyon ay Central limit theorem.

Central limit theorem estado: para sa mga simpleng random na sample dami n, nakahiwalay sa pangkalahatang populasyon na may totoong mean μ At pagpapakalat σ2, Para sa malaki n distribusyon ng sample na paraan lumalapit sa normal na may sentrong katumbas ng tunay na mean at isang pagkakaiba-iba na katumbas ng ratio ng pagkakaiba-iba ng populasyon sa laki ng sample, iyon ay:

Ang theorem ay totoo para sa anumang frequency distribution sa populasyon, ngunit kung mas malapit ang distribution sa populasyon sa normal, mas maliit ang sample size na kinakailangan upang makamit ang katumbas na pagiging maaasahan at katumpakan ng pag-aaral.

Sa pagsasagawa, ang mananaliksik ay bumubuo lamang ng isang sample mula sa populasyon at kailangang malaman kung ano ang dapat na sukat ng sample upang mapanatili ang tinukoy na mga parameter ng pagiging maaasahan at katumpakan. Formula para sa pagtukoy ng laki ng sample kapag tinatasa ang average ay maaaring makuha batay sa mga probisyon ng central limit theorem, at may anyo:

n- kinakailangang laki ng sample;

z- ang bilang ng mga agwat na nagpapakilala sa pangangailangan para sa pagiging maaasahan ng pag-aaral;

H- kinakailangang halaga ng katumpakan ng pananaliksik;

σ2- pagpapakalat ng pangkalahatang populasyon.

Tingnan natin ang mga parameter sa kanang bahagi ng equation.

kredibilidad nailalarawan ang posibilidad na ang isang partikular na random na sample ay sapat na sumasalamin sa mga katangian ng populasyon.

Ang kumpiyansa ng 99% ay nangangahulugan na sa 99 na mga sample sa 100, ang ibig sabihin ng populasyon ay nasa pagitan ng mean na nakuha bilang resulta ng sample na pag-aaral.

Halimbawa . Halimbawa, tatlong independiyenteng sample na pag-aaral ng antas ng kita ng populasyon sa isang partikular na rehiyon ang isinagawa. Ang sumusunod na data sa average na antas ng kita ay nakuha: 300 10 UAH, 310 10 UAH, 305 10 UAH, ang tunay na average na halaga ay 302 UAH.

Tulad ng nakikita natin, ang tunay na average na halaga ay kasama sa lahat ng tatlong pagitan.

Sa pagiging maaasahan ng 99% at isang tinukoy na katumpakan ng 10 UAH. sa 99 na mga sample sa isang daan, ang average na sample ay nasa hanay mula 292 hanggang 312 UAH. Sa isang kaso sa isang daan, makakakuha tayo ng resulta sa ibaba 292 UAH o higit sa 312 UAH. Ang mga resulta ng naturang pag-aaral ay hindi mapagkakatiwalaan, dahil ang average ng pangkalahatang populasyon ay hindi isasama sa koridor ng average na halaga na nakuha bilang resulta ng sample na pag-aaral.

Sa ipinakita na formula, ang pagiging maaasahan ay nailalarawan sa pamamagitan ng z value, na tinutukoy mula sa z-distribution table depende sa tinukoy na pagiging maaasahan bilang isang porsyento.

Ipinakita namin ang sulat para lamang sa ilang karaniwang probabilidad: 68.26% (z=1), 95.45% (z=2), 99.73% (z=3).

z-distribution – Karaniwang normal (Z) distribution

Ang z value ay ang bilang ng mga karaniwang error kung saan ang isang punto ay tinanggal mula sa mean.

Sa halip na isang talahanayan upang makalkula ang posibilidad ng isang hit random variable sa may markang (shaded) na hanay

Maaari mong gamitin ang sumusunod na formula ng EXCEL:

2*NORMSDIST(z)-1

pagpapalit ng kinakailangang z value dito. Halimbawa:

Katumpakan tinutukoy ng mananaliksik batay sa tiyak na gawain.

Kung ang halaga sa ilalim ng pag-aaral ay ganap, ang katumpakan ay dapat na kinakatawan bilang isang ganap at hindi isang kamag-anak na halaga. Kapag tinutukoy ang mga porsyento (mga pagbabahagi), ang katumpakan ay tinutukoy bilang isang porsyento.

Kapag tinutukoy ang katumpakan, dapat isaalang-alang ng mananaliksik posibleng pananaliksik dynamics ng indicator.

Halimbawa . Halimbawa, kung may katumpakan na 10 UAH. Tinukoy ng mga resulta ng pag-aaral noong nakaraang taon ang average na kita sa 300 UAH, at sa taong ito ay 305 UAH. Hindi tama na gumawa ng mga konklusyon tungkol sa pagtaas ng kita, dahil ang magnitude ng pagbabago ay nasa loob ng tinukoy na agwat ng katumpakan (mas mababa sa 10 UAH).

Ang pinakamahirap na bagay kapag kinakalkula ang laki ng sample ay ang pagtukoy mga pagkakaiba-iba . Kapag tinatantya ang average, dalawang pangunahing kaso ang lumitaw:

1) ang pagkakaiba ng populasyon ay nalalaman batay sa mga nakaraang pag-aaral;

2) hindi alam ang pagkakaiba-iba ng populasyon.

Posibilidad ng paggamit pagkakaiba-iba na nakuha mula sa mga nakaraang pag-aaral, ay batay sa katotohanan na ang parameter ng populasyon na ito ay mas inertial kaysa sa average. Sa madaling salita, ito ay nagbabago nang mas mabagal at, samakatuwid, kung ikaw, halimbawa, ay pag-aralan ang antas ng kita ng populasyon bawat taon, maaari mong gamitin ang halaga ng pagkakaiba-iba na nakuha sa mga pag-aaral noong nakaraang taon.

Halimbawa ng pagkalkula ng laki ng sample.

Una, ang laki ng sample ay apektado ng antas ng kumpiyansa α, na ginagamit upang matukoy gamit ang isang espesyal na talahanayan normalized na paglihis z. Halimbawa, para sa kaso ng α = 99%, mula sa talahanayan nakita namin ang z = 2.58.

Pangalawa, nakakaimpluwensya antas (coefficient) ng variation . Kunin natin, halimbawa, ang koepisyent ng pagkakaiba-iba = 50%.

Pangatlo, ang laki ng sample ay apektado ng kinakailangan katumpakan (pinapayagan na error)

Kung Wala kang alam tungkol sa pangkalahatang antas, pagkatapos ay upang tantiyahin ang antas ng pagpapakalat posible na gamitin tatlong sigma panuntunan . Sa normal na distribusyon, 99% ng mga parameter ng katangian ay dapat nasa pagitan plus o minus tatlong sigma mula sa tunay na average. Kapag nagsasagawa ng pananaliksik, dapat mong tantyahin ang tipikal na itaas ( b) at mas mababa (a ) mga antas ng parameter, ang pagitan ng kung saan ay anim na sigma. Ang halaga ng sigma ay ang pagkakaiba sa mga antas ng parameter na hinati sa 6.

Pagpapakalat o pagkakaiba-iba var:

,

saan b,a– ang itaas at mas mababang mga halaga ng parameter, ayon sa pagkakabanggit.

Sigma ay ang root mean square deviation (standard deviation):

.

Halimbawa . Halimbawa, kapag nagsasaliksik antas ng kita ang mas mababang halaga ng parameter ay kinuha sa antas ng 0 UAH, at ang itaas na halaga, ipagpalagay, sa antas ng 6000 UAH. Sa kasong ito ang halaga root mean square (standard) deviation ay magiging: (6000-0)/6=1000.

Dapat pansinin na kung ang mananaliksik ay talagang handa na magsagawa ng pananaliksik, pagkatapos ay tinutukoy ang tipikal na mas mababa at itaas na limitasyon ang mga parameter ay hindi partikular na mahirap.

Kapag nagtatrabaho sa mga scale ng marketing, ang tinatanggap na halaga ng pagkakaiba ay depende sa bilang ng mga puntos ng sukat at ang uri ng pamamahagi ng dalas.

Ang pinakamasamang kaso sa pananaliksik sa marketing (naaayon sa maximum na pagkakaiba) ay isinasaalang-alang pare-parehong pamamahagi mga tugon sa pagitan ng mga puntos sa iskala. Ang pinakamahusay ay normal na may pinakamataas na dalas ng mga sagot sa gitna ng iskala.

Talahanayan 5.1. Mga karaniwang saklaw ng pagpapakalat depende sa bilang ng mga puntos ng sukat

Ang mga mas mababang antas ng hanay ay tumutugma sa normal na pamamahagi mga frequency, mga nasa itaas - pare-pareho.

Inilapat ang formula para sa pagtukoy ng laki ng sample na tinalakay sa itaas kapag tinatantya ang mga average.

Kung nagtatrabaho ang mananaliksik na may mga porsyento o pagbabahagi, pagkatapos ay binago ang formula sa sumusunod na anyo:

,

kung saan ang p ay ang proporsyon ng mga taong sumagot sa tanong na positibo o negatibo.

Kapag nagtatrabaho sa mga porsyento, palitan ang 100 sa halip na isa sa formula.

Malinaw, ang maximum na halaga ng multiplier (1-р)р ay nangyayari na may pantay na proporsyon ng positibo at negatibong mga sagot at 0.25 kapag nagtatrabaho sa mga pagbabahagi, at 2500 kapag nagtatrabaho sa mga porsyento. Gayunpaman, ang resulta kapag nagtatrabaho sa mga pagbabahagi o mga porsyento ay maging katumbas, dahil ang numerical na halaga ng parisukat ng katumpakan sa denominator ay mag-iiba din sa pamamagitan ng isang kadahilanan na 10,000.

Maliban kung ang huling salik sa pagsasaayos ng populasyon ay inilapat. Ito ay maaaring mukhang hindi kapani-paniwala, ngunit kung iisipin mo ito, ang pahayag na ito ay may katuturan. Halimbawa, kung ang mga pinag-aralan na katangian ng lahat ng elemento ng populasyon ay magkapareho, kung gayon ang isang sample na binubuo ng isang elemento ay sapat na upang makalkula ang average. Totoo rin ito kung ang populasyon ay binubuo ng 50, 500, 5000 o 50000 na elemento.

Kasabay nito, ang pagkakaiba-iba ng mga katangian ng populasyon ay direktang nakakaapekto sa laki ng sample. Isinasaalang-alang ang pagkakaiba-iba na ito kapag kinakalkula ang laki ng sample gamit ang pagkakaiba-iba ng populasyon σ2 o sample na variance s2.

Halimbawa (N.B. Safronova, I.E. Korneeva). Kalkulahin natin ang sample para sa isang pag-aaral sa marketing sa kamalayan ng consumer sa brand. Probability value P = 0.954, ang maximum na pinapayagang error ng pag-aaral na ito ay hindi dapat lumampas sa 5%. Ilang mga respondente ang kailangang sarbey upang malutas ang problemang ito gamit ang random re-sampling, dahil walang data sa distribusyon ng mga katangian?

Solusyon . Dahil hindi alam ang bahagi ng attribute, ipagpalagay natin na 50% ng mga consumer ang nakakaalam trademark, at 50% - hindi. Ginagamit namin ang formula para sa pagkalkula ng sample na isinasaalang-alang ang bahagi ng katangian:

= =400 tao

Higit pang mga sopistikadong pamamaraan para sa pagkalkula ng laki ng sample ay kinakailangan kapag doble o triple tabulasyon ang ginamit sa proseso ng pagsusuri. Ito ay dahil sa ang katunayan na ang pagiging maaasahan at katumpakan na nakamit sa kinakalkula na laki ng sample para sa sample sa kabuuan ay hindi nakakamit para sa mga indibidwal na bahagi nito kung saan ang sample ay nahahati sa panahon ng proseso ng tabulation.

Halimbawa . Halimbawa, kapag tinutukoy ang average na antas ng kita ng populasyon, maaaring sapat ang isang partikular na laki ng sample, ngunit hindi ito sapat upang matukoy ang average na antas ng kita ng mga lalaki at babae (na may ibinigay na katumpakan at pagiging maaasahan). Madali itong maunawaan dahil ang bilang ng mga lalaki at babae na hiwalay na lumahok sa survey ay mas mababa kaysa sa bilang ng lahat ng mga respondente. Ang pag-alam, gayunpaman, ang ratio ng mga kalalakihan at kababaihan, madaling matukoy kung anong katumpakan ang antas ng average na kita ay kinakalkula para sa bawat isa sa mga pangkat na isinasaalang-alang.

Pagpapasiya ng sample size: average

Ang paraan na ginamit upang lumikha ng agwat ng kumpiyansa ay maaaring mabago upang matukoy ang laki ng sample batay sa nais na agwat ng kumpiyansa. Ipagpalagay na gusto mong tantyahin ang buwanang paggastos ng department store ng isang sambahayan nang mas tumpak upang ang resulta ay nasa loob ng ±$5.00 ng tunay na average ng populasyon. Ano dapat ang sample size? Sa mesa Ang 12.2 ay nagbibigay ng kinakailangang listahan ng mga aksyon na dapat mong gawin.

1. Tukuyin ang antas ng katumpakan. Ito ang maximum na pinapayagang pagkakaiba (D) sa pagitan ng sample mean at ng population mean. Sa ating halimbawa D=±$5.00.

2. Tukuyin ang antas ng kumpiyansa. Ipagpalagay na ang nais na antas ng kumpiyansa ay 95%.

3. Tukuyin ang halaga ng r na nauugnay sa isang naibigay na antas ng kumpiyansa gamit ang talahanayan. 2 sa Appendix na "Statistical Tables". Sa 95% na antas ng kumpiyansa, ang posibilidad na ang ibig sabihin ng populasyon ay mahuhulog sa labas ng one-sided interval ay 0.025 (0.05/2). Ang katumbas na halaga ng r ay 1.96.

4. Tukuyin ang karaniwang paglihis ng mean ng populasyon. Maaari itong makuha mula sa mga pangalawang mapagkukunan o kalkulahin sa pamamagitan ng pagsasagawa ng isang pilot study. Bukod pa rito, maaaring itakda ang standard deviation batay sa opinyon ng mananaliksik. Halimbawa, ang hanay ng isang normal na ipinamamahaging variable ay humigit-kumulang anim standard deviations(tatlo sa kaliwa at kanan ng average). Kaya, ang karaniwang paglihis ay maaaring kalkulahin sa pamamagitan ng paghahati ng halaga ng buong hanay sa 6. Madalas na matukoy ng mananaliksik ang laki ng hanay batay sa kanyang sariling pag-unawa sa mga phenomena na sinusuri.

5. Tukuyin ang laki ng sample gamit ang karaniwang error ng mean formula:

Sa ating halimbawa

(na-round up sa pinakamalapit na buong numero).

ang standard deviation ng sample 5 ay 50.00. Pagkatapos ay ang naitama na agwat ng kumpiyansa ay magiging

Tandaan na ang resultang confidence interval ay mas makitid kaysa sa inaasahan. Ito ay dahil ang standard deviation ng populasyon ay napalaki batay sa mga katangian ng sample.

8. Minsan ang katumpakan ay tinukoy sa kamag-anak sa halip na ganap na mga termino. Sa madaling salita, maaaring malaman na ang resulta ng pagkalkula ay dapat na plus o minus R% mula sa karaniwan. Ibig sabihin nito ay D = rm.

Sa kasong ito, ang laki ng sample ay maaaring matukoy bilang

Laki ng populasyon N ay hindi direktang nakakaapekto sa laki ng sample maliban kung ang isang panghuling kadahilanan sa pagsasaayos ng populasyon ay inilapat. Ito ay maaaring mukhang hindi kapani-paniwala, ngunit kung iisipin mo ito, ang pahayag na ito ay may katuturan. Halimbawa, kung ang mga pinag-aralan na katangian ng lahat ng elemento ng populasyon ay magkapareho, kung gayon ang isang sample na binubuo ng isang elemento ay sapat na upang makalkula ang average. Totoo rin ito kung ang populasyon ay binubuo ng 50,500,5000 o 50000 elemento. Kasabay nito, ang pagkakaiba-iba ng mga katangian ng populasyon ay direktang nakakaapekto sa laki ng sample. Isinasaalang-alang ang variability na ito kapag kinakalkula ang laki ng sample gamit ang population variance s2 o sample variance s2.

Ang kabuuang bilang ng mga bagay ng pagmamasid (mga tao, sambahayan, negosyo, pamayanan, atbp.) na may isang tiyak na hanay ng mga katangian (kasarian, edad, kita, numero, turnover, atbp.), Limitado sa espasyo at oras. Mga halimbawa ng populasyon

  • Lahat ng residente ng Moscow (10.6 milyong tao ayon sa 2002 census)
  • Mga Lalaking Muscovite (4.9 milyong tao ayon sa census noong 2002)
  • Mga legal na entity ng Russia (2.2 milyon sa simula ng 2005)
  • Mga retail outlet na nagbebenta ng mga produktong pagkain (20 thousand sa simula ng 2008), atbp.

Sample (Sample na Populasyon)

Isang bahagi ng isang populasyon na pinili para sa pag-aaral upang makagawa ng mga konklusyon tungkol sa buong populasyon. Upang ang konklusyon na nakuha sa pamamagitan ng pag-aaral ng sample ay mapalawak sa buong populasyon, ang sample ay dapat magkaroon ng pag-aari ng pagiging kinatawan.

Pagkakatawan ng sample

Ang pag-aari ng isang sample upang maipakita nang tama ang populasyon. Ang parehong sample ay maaaring maging kinatawan at hindi kinatawan para sa iba't ibang populasyon.
Halimbawa:

  • Ang isang sample na ganap na binubuo ng mga Muscovite na nagmamay-ari ng kotse ay hindi kumakatawan sa buong populasyon ng Moscow.
  • Ang isang sample ng mga negosyong Ruso na may hanggang 100 empleyado ay hindi kumakatawan sa lahat ng mga negosyo sa Russia.
  • Ang isang sample ng Muscovite na namimili sa merkado ay hindi kumakatawan sa pag-uugali sa pagbili ng lahat ng Muscovite.

Kasabay nito, ang mga sample na ito (napapailalim sa iba pang mga kundisyon) ay maaaring ganap na kumakatawan sa mga Muscovite na maliit at katamtamang laki ng mga may-ari ng kotse. mga negosyong Ruso at mga mamimili na namimili sa mga pamilihan, ayon sa pagkakabanggit.
Mahalagang maunawaan na ang pagiging kinatawan ng sample at error sa sampling ay magkaibang phenomena. Ang pagiging kinatawan, hindi katulad ng pagkakamali, ay hindi nakadepende sa anumang paraan sa laki ng sample.
Halimbawa:
Gaano man natin dagdagan ang bilang ng mga Muscovite na may-ari ng sasakyan na na-survey, hindi namin magagawang katawanin ang lahat ng Muscovite gamit ang sample na ito.

Sampling error (confidence interval)

Ang paglihis ng mga resultang nakuha gamit ang sample observation mula sa totoong data ng pangkalahatang populasyon.
Mayroong dalawang uri ng error sa sampling - istatistika at sistematiko. Ang error sa istatistika ay depende sa laki ng sample. Kung mas malaki ang sample size, mas mababa ito.
Halimbawa:
Para sa isang simpleng random na sample na 400 units, ang maximum statistical error (na may 95% confidence level) ay 5%, para sa sample na 600 units - 4%, para sa sample na 1100 units - 3% Kadalasan, kapag pinag-uusapan nila ang sampling error, ang ibig nilang sabihin ay statistical error .
Ang sistematikong pagkakamali ay nakasalalay sa iba't ibang salik na patuloy na nakakaimpluwensya sa pag-aaral at pinapakiling ang mga resulta ng pag-aaral sa isang tiyak na direksyon.
Halimbawa:

  • Ang paggamit ng anumang mga sample ng posibilidad ay maliitin ang proporsyon ng mga taong may mataas na kita na namumuno sa isang aktibong pamumuhay. Nangyayari ito dahil sa ang katunayan na ito ay mas mahirap na makahanap ng gayong mga tao sa anumang partikular na lugar (halimbawa, sa bahay).
  • Ang problema ng mga sumasagot na tumatangging sagutin ang mga tanong (ang bahagi ng mga "refuseniks" sa Moscow, para sa iba't ibang mga survey, ay mula 50% hanggang 80%)

Sa ilang mga kaso, kapag ang tunay na mga distribusyon ay nalaman, ang sistematikong error ay maaaring i-level out sa pamamagitan ng pagpapakilala ng mga quota o muling pagtimbang ng data, ngunit sa karamihan ng mga tunay na pag-aaral, maaari itong maging medyo problemado kahit na tantiyahin ito.

Mga uri ng sample

Ang mga sample ay nahahati sa dalawang uri:

  • probabilistiko
  • hindi probabilistiko

1. Mga sample ng probabilidad
1.1 Random sampling (simple random sampling)
Ipinapalagay ng naturang sample ang homogeneity ng populasyon, ang parehong posibilidad ng pagkakaroon ng lahat ng elemento, at ang pagkakaroon ng kumpletong listahan ng lahat ng elemento. Kapag pumipili ng mga elemento, bilang panuntunan, ginagamit ang isang talahanayan ng mga random na numero.
1.2 Mechanical (systematic) sampling
Isang uri ng random na sample, na inayos ayon sa ilang katangian (alphabetical order, numero ng telepono, petsa ng kapanganakan, atbp.). Ang unang elemento ay pinili nang random, pagkatapos, sa hakbang na 'n', ang bawat 'k' na elemento ay pinili. Ang laki ng populasyon, sa kasong ito – N=n*k
1.3 Stratified (na-zoned)
Ginagamit ito sa kaso ng heterogeneity ng populasyon. Ang pangkalahatang populasyon ay nahahati sa mga pangkat (strata). Sa bawat stratum, ang pagpili ay isinasagawa nang random o mekanikal.
1.4 Serial (cluster o cluster) sampling
Sa serial sampling, ang mga yunit ng pagpili ay hindi ang mga bagay mismo, ngunit mga grupo (mga kumpol o pugad). Ang mga pangkat ay pinili nang random. Ang mga bagay sa loob ng mga grupo ay sinusuri nang maramihan.

2. Non-probability sample
Ang pagpili sa naturang sample ay isinasagawa hindi ayon sa mga prinsipyo ng randomness, ngunit ayon sa subjective na pamantayan - availability, typicality, pantay na representasyon, atbp.
2.1. quota sampling
Sa una, ang isang bilang ng mga pangkat ng mga bagay ay nakilala (halimbawa, mga lalaki na may edad na 20-30 taon, 31-45 taon at 46-60 taong gulang; mga taong may kita hanggang 30 libong rubles, na may kita mula 30 hanggang 60 libong rubles at na may kita na higit sa 60 libong rubles ) Para sa bawat pangkat, ang bilang ng mga bagay na dapat suriin ay tinukoy. Ang bilang ng mga bagay na dapat mahulog sa bawat isa sa mga pangkat ay kadalasang itinakda alinman sa proporsyon sa dating kilalang bahagi ng pangkat sa pangkalahatang populasyon, o pareho para sa bawat pangkat. Sa loob ng mga grupo, ang mga bagay ay random na pinipili. Ang quota sampling ay madalas na ginagamit.
2.2. Paraan ng snowball
Ang sample ay itinayo bilang mga sumusunod. Ang bawat respondent, simula sa una, ay hinihingan ng impormasyon sa pakikipag-ugnayan ng kanyang mga kaibigan, kasamahan, kakilala na akma sa mga kundisyon sa pagpili at maaaring makilahok sa pag-aaral. Kaya, maliban sa unang hakbang, ang sample ay nabuo sa partisipasyon ng mga paksa ng pananaliksik mismo. Ang pamamaraan ay kadalasang ginagamit kapag kinakailangan upang mahanap at makapanayam ang mga mahirap abutin na grupo ng mga respondent (halimbawa, mga respondent na may mataas na kita, mga respondent na kabilang sa parehong propesyonal na grupo, mga respondent na may katulad na libangan/interes, atbp.)
2.3 Spontaneous sampling
Ang pinaka-naa-access na mga respondente ay kinapanayam. Mga karaniwang halimbawa kusang mga sample - sa mga pahayagan/magazine, na ibinigay sa mga respondent para sa sariling pagkumpleto, karamihan sa mga online na survey. Ang laki at komposisyon ng mga kusang sample ay hindi alam nang maaga, at tinutukoy lamang ng isang parameter - ang aktibidad ng mga sumasagot.
2.4 Sample ng mga tipikal na kaso
Pinipili ang mga yunit ng pangkalahatang populasyon na may average (karaniwang) halaga ng katangian. Pinapataas nito ang problema sa pagpili ng isang tampok at pagtukoy sa karaniwang halaga nito.

Kurso ng mga lektura sa teorya ng istatistika

Higit pa Detalyadong impormasyon para sa mga sample na obserbasyon ay maaaring makuha sa pamamagitan ng pagtingin.



Bago sa site

>

Pinaka sikat