Rumah Rawatan pergigian Menentukan saiz populasi sampel. Saiz sampel - kaedah persampelan penyelidikan sosiologi

Rawatan pergigian

Menentukan saiz populasi sampel. Saiz sampel - kaedah persampelan penyelidikan sosiologi

Pengiraan saiz sampel

Daripada semua soalan yang ditanya kepada tinjauan pendapat Gallup yang terkenal, yang paling popular ialah ini: Bagaimanakah anda boleh menilai apa yang difikirkan oleh 250 juta rakyat Amerika selepas menemu bual 1,000 orang?

Untuk menjawab soalan ini, adalah perlu untuk menyebut bukan sahaja kelayakan tinggi dan pengalaman praktikal pekerja yang luas, tetapi juga penggunaan statistik dan matematik mereka. Jika kaedah tinjauan tidak berdasarkan sains, hasilnya mungkin mengelirukan.

Dalam statistik, persempadanan saiz sampel berikut diterima. Saiz sampel yang mencukupi untuk membatalkan rawak dan mendapatkan ciri statistik yang bersifat tetap ialah 30. Sampel bersaiz ini dipanggil kecil Sifat taburan nilai atribut dalam sampel kecil menghampiri normal apabila bilangan ujian meningkat. Saiz sampel minimum yang membolehkan seseorang memperoleh nilai purata ciri dengan petunjuk kebarangkalian keyakinan ialah 5. Sampel saiz ini dipanggil ultra-kecil. Taburan nilai atribut dalam sampel tersebut dicirikan oleh taburan Pelajar. Tetapi selalunya dalam sosiologi mereka berurusan dengan saiz sampel yang lebih besar.

Apabila merancang tinjauan sampel, tiba masanya anda perlu memutuskan berapa ramai orang untuk ditemuduga, i.e. apakah saiz sampel yang sepatutnya? Keputusan ini amat penting, kerana sampel yang terlalu besar akan menanggung kos yang tidak perlu, dan terlalu kecil akan mengurangkan kualiti keputusan.

Saiz sampel- jumlah bilangan unit pemerhatian yang termasuk dalam populasi sampel.

Oleh kerana populasi sampel adalah sebahagian penduduk, dipilih menggunakan kaedah khas, - adalah penting bahawa bahagian ini tidak memesongkan idea keseluruhan, i.e. mewakilinya. Ahli sosiologi yang sering menjalankan penyelidikan empirikal sentiasa bimbang dengan persoalan berapa ramai orang yang perlu ditemu bual untuk mendapatkan maklumat yang boleh dipercayai? Institut Gallup di Amerika Syarikat menjalankan tinjauan tetap pada sampel kebangsaan 1.5 ribu orang dan mencapai ketepatan yang menakjubkan (julat ralat pensampelan dari 1 hingga 1.5%). Pusat Sosio Ekspres Institut Sosiologi Akademi Sains Rusia menjalankan penyelidikan ke atas sampel 2 ribu orang, dan ralat pensampelan tidak melebihi 3% 31 .

Pakar percaya bahawa sampel terbaik tidak semestinya yang besar. Sudah tentu, lebih besar saiz sampel, lebih tinggi ketepatan keputusannya. Walau bagaimanapun, walaupun sampel yang besar tidak menjamin kejayaan jika populasi "kurang bercampur", i.e. adalah heterogen. homogen set di mana ciri terkawal diagihkan sama rata dan tidak membentuk lompang atau pemeluwapan dipertimbangkan. Dalam kes ini, dengan menemu bual beberapa orang, anda boleh mendapatkan maklumat yang tepat tentang taburan ciri ini dalam populasi umum.

Oleh itu, keterwakilan data tidak dipengaruhi oleh ciri kuantitatif populasi sampel (jumlahnya), tetapi oleh ciri kualitatif populasi umum - tahap kehomogenannya.

Dalam sosiologi, formula tunggal dan jelas belum dicipta, dengan menggunakan mana seseorang boleh mengira saiz optimum populasi sampel - formula sedemikian tidak wujud secara semula jadi. Dan ini dijelaskan dengan sangat mudah. Hakikatnya ialah menentukan saiz populasi sampel bukanlah masalah statistik tetapi masalah substantif. Dalam erti kata lain, saiz populasi sampel bergantung kepada banyak faktor, termasuk matlamat dan objektif, model teori, hipotesis dan kaedah penyelidikan, tahap kehomogenan populasi, dan akhirnya, ketepatan yang diperlukan bagi maklumat yang diterima.

Kita mesti sentiasa ingat bahawa setiap peratus peningkatan ketepatan maklumat dalam kajian membawa kepada peningkatan mendadak perbelanjaan untuk pelaksanaannya. Institut Gallup yang terkenal, yang telah menjalankan tinjauan pendapat di Amerika Syarikat selama beberapa dekad, telah mendapati bahawa dengan sampel kebangsaan 100 orang, ralat pensampelan akan berada dalam ±11%; 200 orang - ±8%; 400 - ±6%; 600 - ±5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 orang - ±2%. Itulah sebabnya dia menjalankan tinjauan nasional di Amerika Syarikat pada sampel 1500-2000 orang. Seperti yang dapat dilihat, dia lebih suka peningkatan 1% dalam kesilapan daripada peningkatan berganda dalam kos kajian.

Amalan menunjukkan bahawa bagi kebanyakan ahli sosiologi, justifikasi saiz sampel adalah batu penghalang, walaupun terdapat sejumlah besar literatur yang dikhaskan untuk kaedah pensampelan dan, khususnya, pengiraan saiz sampel. Terdapat beberapa sebab: 1) kekurangan kesusasteraan khusus di pinggir; 2) kekurangan masa untuk pendidikan diri; 3) ketidakupayaan untuk menggunakan radas matematik. Dalam hal ini, terdapat keperluan untuk menggariskan strategi dan taktik untuk mewajarkan saiz sampel tanpa formula matematik yang kompleks.

Prosedur untuk mengira saiz sampel adalah rantaian kompromi yang tidak berkesudahan antara keinginan untuk ketepatan dan sumber yang terhad, kekurangan masa dan maklumat yang tidak lengkap tentang fenomena yang sedang dikaji. Pada masa yang sama, ini adalah sains dan seni, pengetahuan yang boleh diakses oleh setiap orang. Walau bagaimanapun, untuk ini anda perlu mengetahui strategi untuk mengira saiz sampel (pengiraan awal, strategi berurutan dan gabungan), serta faktor-faktor yang mempengaruhi saiz sampel (saiz populasi, variasi dalam jawapan responden, ketepatan anggaran, sifat pengedaran jawapan yang dijangkakan, kaedah penyelidikan, prosedur pemprosesan) .

Strategi pra-pengiraan ialah saiz sampel ditentukan sebelum kajian utama dijalankan. Dalam kes paling mudah, anda boleh menggunakan pengalaman yang telah terkumpul, sebagai contoh, Institut Gallup, yang menggunakan saiz sampel kira-kira 1500-2000 orang. Bagi purata kajian domestik, saiz sampel adalah lebih kurang 400-600 orang.

Untuk mengira saiz sampel rawak, anda perlu mengetahui ketepatan anggaran yang dikehendaki, magnitud risiko jawapan yang terhasil, dan tahap kebolehubahan jawapan. Secara tradisinya, ketepatan anggaran diambil sebagai 5%, dan nilai risiko sebagai 0.95. Dalam erti kata lain, jika, menurut kajian sampel, 60% responden berpuas hati dengan kerja mereka, maka boleh dikatakan bahawa dalam populasi umum bahagian mereka yang berpuas hati adalah dari 55 hingga 65% dalam 95% kes, dan dalam 5% kes bahagian ini mungkin berada di luar selang waktu ini. Dengan mengandaikan ketepatan 5% dan nilai risiko 0.95, saiz sampel adalah seperti berikut (Jadual 2.4).

Jadual 2.4 Kebergantungan saiz sampel pada saiz populasi

Keputusan ditunjukkan dalam jadual. 2.4, memberi keterangan terhadap salah tanggapan umum bahawa saiz sampel ialah peratusan tetap bagi populasi umum, bersamaan dengan 10. Malah, nilai ini bukan pemalar, tetapi pembolehubah yang berubah dalam keadaan tertentu. Saiz sampel juga bergantung kepada soalan yang digunakan dalam soal selidik. Nombor dalam jadual. 2.4 hanya sah untuk satu kes - apabila ia datang kepada soalan dikotomi, yang mana sebaran maksimum jawapan ialah 50 hingga 50%. Tanpa maklumat awal tentang penyebaran anggaran, ahli sosiologi, seolah-olah, menginsuranskan dirinya terlebih dahulu dan percaya bahawa penyebaran ini akan menjadi 50 hingga 50%. Jika maklumat sedemikian tersedia, maka saiz sampel adalah seperti berikut.

Jadual 2.5 Kebergantungan saiz sampel pada taburan tindak balas dikotomi

Dalam jadual Rajah 2.5 menunjukkan taburan jawapan kepada soalan kualitatif. Pengiraan saiz sampel untuk soalan kuantitatif yang merangkumi umur dan upah", adalah berdasarkan pekali variasi (Jadual 2.6), yang menunjukkan berapa peratus sisihan piawai daripada min aritmetik, dan membolehkan anda membandingkan sebarang ciri antara satu sama lain (dari segi darjah variasi).

Jadual 2.6 Kebergantungan saiz sampel pada pekali variasi

Pekali variasi, %

Saiz sampel

Jika keadaan kerja, hubungan dalam pasukan, gaji, dan lain-lain dikaji. menggunakan skala lima ahli, pekali variasi berbeza di sini dari 27 hingga 62%, dan apabila menggunakan skala tujuh ahli - dari 78 hingga 113%. Oleh itu, lebih panjang skala, lebih tinggi pekali variasi dan lebih besar saiz sampel sepatutnya. Sekiranya seorang ahli sosiologi ingin bertahan dengan sampel yang kecil, maka soalan-soalan harus dirumuskan dengan lebih mudah. Kadangkala difikirkan bahawa semakin panjang skala, semakin tepat ukurannya. Tetapi kelebihan skala tujuh mata berbanding skala lima mata belum terbukti.

Terdapat kepercayaan umum di kalangan ahli sosiologi bahawa lebih besar saiz sampel, lebih tepat hasilnya, dan ini memaksa mereka untuk meningkatkan bilangan responden secara berlebihan. Pada hakikatnya, keadaannya berbeza: jadual. Rajah 2.7, berdasarkan data Gallup, menunjukkan hubungan antara saiz sampel dan ketepatan anggaran sebagai peratusan. Ia berikutan daripada ini bahawa apabila saiz sampel meningkat, ketepatan meningkat, tetapi sehingga ambang tertentu. Sudah dengan 600 responden, tahap ketepatan 5% yang diingini tercapai. Oleh itu, 600 orang adalah saiz sampel yang boleh diterima.

Tidak ada percanggahan antara angka 400 dan 600 orang. Dalam kes pertama, saiz sampel dikira berdasarkan andaian taburan normal jawapan responden, dan dalam kedua, daripada amalan. Percanggahan antara teori dan amalan adalah disebabkan oleh fakta bahawa dalam situasi sebenar taburan penilaian berbeza daripada biasa, jadi saiz sampel mesti dikira dengan mengambil kira keadaan tertentu ini; Cara paling berkesan untuk mengurangkan saiz sampel ialah mengurangkan pekali variasi anggaran.

Jadual 2.7 Hubungan antara saiz sampel dan ketepatan anggaran

Apabila mengira saiz sampel, ahli sosiologi sering membuat kesilapan berikut: setelah mengira saiz sampel yang diperlukan untuk populasi secara keseluruhan menggunakan formula sedia ada, mereka kemudian secara berkadar meletakkannya di antara unit persampelan individu, contohnya, oleh bengkel, perusahaan, daerah, bandar. , dan jenis keluarga. Selepas itu, pada peringkat pemprosesan data, perbezaan antara jabatan itu sendiri dianalisis. Walau bagaimanapun, adalah lebih tepat untuk mengira saiz sampel secara berasingan untuk setiap jabatan, dan kemudian menjumlahkan volum individu. Katakan pengiraan saiz sampel untuk tiga bengkel (dengan mengambil kira dimensi skala, bilangan pekerja, sifat pengagihan penilaian yang dijangkakan) memungkinkan untuk menentukan bahawa dalam bengkel pertama adalah perlu untuk bertanya 384 orang, dalam kedua - 222, dan dalam ketiga - 600. Maka jumlah saiz sampel akan menjadi 384 + 222 + 600 = 1206 orang.

Jika ahli sosiologi perlu menemu bual kategori pekerja (contohnya, pemandu bas), yang mana ia hanya diketahui bahawa pekerja kesepuluh sebuah perusahaan adalah miliknya, dan dia memutuskan untuk meminta 139 pemandu bas, dan jumlah saiz sampel untuk perusahaan akan menjadi 1390 orang, mereka. dalam erti kata lain, dengan memilih 1,390 responden secara rawak daripada perusahaan, kami, mengikut teori persampelan, berharap dapat mengenal pasti 139 orang dalam kepakaran yang kami minati.

Apabila mengira sampel kuota, ahli sosiologi sering sewenang-wenangnya menentukan saiznya pada 1000 orang, berdasarkan kemudahan mengira kuota. Tetapi anda boleh mengambil mana-mana nombor pusingan lain dengan mudah. Pendekatan yang lebih munasabah ialah mengira saiz sampel kuota seperti untuk sampel rawak. Pilihan lain untuk mengira saiz sampel kuota ialah menggunakan teori sampel kecil. Intipatinya: jika matlamatnya bukan untuk menyediakan analisis yang dibezakan oleh kumpulan pekerja, maka darabkan bilangan penggredan isu yang akan dikaji dengan 25 (saiz kumpulan minimum yang signifikan secara statistik). Sebagai contoh, tiga pembolehubah dikaji: jantina - dua kategori, umur - dua kategori (bawah 30 tahun dan lebih 30 tahun), kepuasan kerja - diukur pada skala lima mata. Kemudian saiz sampel yang diperlukan untuk contoh ini ialah 2x2x5x25 = 500 orang. Saiz sampel meningkat sebanyak 2.5 kali ganda. Adalah jelas bahawa dengan pengembangan bilangan pembolehubah dan bilangan penggredan, saiz sampel boleh menjadi besar secara besar-besaran. Hanya ada satu jalan keluar: kajian terperinci tentang masalah asal, yang akan membolehkan anda menghapuskan soalan yang tidak perlu dalam soal selidik, meninggalkan yang paling penting. Jika kajian menguji berbilang hipotesis, saiz sampel untuk menguji setiap hipotesis dikira secara berasingan. Oleh itu, apabila menggunakan persampelan, bilangan soalan dalam soal selidik dan hipotesis hendaklah minimum.

Jadi, kami telah mengira saiz sampel yang diperlukan. Kini, dan hanya sekarang, adalah perlu untuk menyemak sama ada nilai yang terhasil serasi dengan sumber yang diperuntukkan. Kesilapan biasa ramai ahli sosiologi gunaan ialah apabila mengira saiz sampel, sumber yang ada diletakkan di hadapan atau, lebih teruk lagi, ahli sosiologi secara pasif menerima semua syarat yang ditentukan oleh pelanggan. Ini pada asasnya salah kerana beberapa sebab. Pertama, mengira saiz sampel membolehkan anda memperoleh gambaran yang lebih mendalam tentang intipati subjek yang sedang dikaji dan spesifik kaedah penyelidikan, yang bermaksud anda boleh meminta lebih banyak sumber secara munasabah atau membuat keputusan yang tepat untuk mengurangkan saiz sampel. Jika pentadbiran menolak sumber tambahan, dan matlamat penyelidikan tidak membenarkan mengurangkan saiz sampel (iaitu, ahli sosiologi tidak dapat menerima keputusan pentadbiran), maka perlu beralih kepada reka bentuk penyelidikan lain. Kedua, pengiraan yang munasabah bagi saiz sampel menunjukkan profesionalisme ahli sosiologi dan membuatkan pelanggan melayannya dengan lebih hormat.

Strategi pengiraan berurutan saiz sampel. Apabila mengira saiz sampel, adalah wajar untuk mengetahui penyebaran anggaran dan beberapa parameter lain. Walau bagaimanapun, mereka, sebagai peraturan, tidak diketahui. Untuk mengelakkan kesilapan, adalah lebih baik untuk menganggap bahawa ia adalah maksimum. Harga untuk kejahilan kami adalah peningkatan dalam saiz sampel melebihi apa yang diperlukan dan kos kewangan dan masa tambahan (kami perlu menemu bual lebih ramai orang). Untuk menjimatkan kos, strategi yang konsisten digunakan - saiz sampel tidak dikira terlebih dahulu, tetapi dibuat bergantung kepada keputusan akhir kajian. Sebagai contoh, mereka menemu bual 100 orang, kemudian menentukan sebaran anggaran dan, bergantung pada ini, mengira saiz sampel yang diperlukan. Jika ternyata cukup 100 orang, maka tamatlah kajian. Jika tidak, bilangan responden yang diperlukan akan sampai ke sana, tetapi tidak sehingga infiniti. Terdapat contoh yang terkenal dari amalan J. Gallup, yang pada awal kerjayanya secara aktif bereksperimen dengan saiz sampel. Pada tahun 1936, orang Amerika ditanya: "Adakah anda mahu Akta Pemulihan Perindustrian Kebangsaan diperbaharui?" Paradoks pelik muncul: J. Gallup mula-mula meninjau 500 orang dan mengukur ralat pensampelan, dan kemudian berturut-turut meningkatkan bilangan responden kepada 30 ribu. Dengan kesalnya, beliau mendapati bahawa menambah 29.5 ribu responden meningkatkan ketepatan maklumat kurang daripada 1%. Oleh itu, tinjauan boleh dihentikan selepas 500 responden. Contoh ini menunjukkan bahawa dengan menggunakan strategi berurutan, adalah mungkin untuk mencapai pengurangan ketara dalam bilangan pemerhatian yang diperlukan berbanding dengan pengiraan saiz sampel awal.

Walau bagaimanapun, strategi pengiraan saiz sampel berjujukan membawa hasil yang diingini hanya jika ahli sosiologi boleh membuat pengiraan yang diperlukan semasa tinjauan itu sendiri, contohnya tinjauan telefon, menggunakan sistem komputer. Ahli sosiologi memasukkan jawapan responden ke dalam komputer peribadinya, dari mana hasilnya segera dihantar ke komputer pengarah penyelidikan, diproses, dan skrin paparan memberikan maklumat bukan sahaja tentang frekuensi satu dimensi yang diedarkan pada isu tertentu, tetapi juga tentang yang diperlukan. saiz sampel.

Sekiranya terdapat bahaya bahawa saiz sampel mungkin besar secara besar-besaran, adalah perlu untuk menggabungkan kedua-dua jenis strategi - awal dan berurutan, i.e. memohon strategi gabungan. Dengan mengira sampel mengikut strategi awal, kami memperoleh nilai atas yang dibenarkan untuk strategi berjujukan atau, dalam erti kata lain, nilai saiz sampel, apabila mencapai tempat pengundian mengikut strategi berjujukan berhenti.

Pendekatan yang paling munasabah dan betul untuk menentukan saiz sampel adalah berdasarkan pengiraan selang keyakinan, yang berdasarkan beberapa konsep asas statistik matematik (variasi, sisihan piawai, selang keyakinan, ralat min kuasa dua).

Untuk mengira saiz sampel yang diperlukan dalam penyelidikan kuantitatif Dua konsep statistik paling kerap digunakan - selang keyakinan dan kebarangkalian keyakinan. Selang keyakinan mewakili ralat pensampelan yang anda tentukan terlebih dahulu. Contohnya, jika anda menetapkan selang keyakinan sebanyak 3% dan jawapan khusus kepada soalan kajian khusus ialah 48%, ini bermakna walaupun anda meninjau keseluruhan populasi, nilai sebenar akan jatuh antara 45 (48 - 3) dan 51 % (48 + 3). Kebarangkalian keyakinan menunjukkan betapa yakinnya anda dalam keputusan yang diperolehi, bahawa ciri-ciri sampel sepadan dengan ciri-ciri keseluruhan populasi - dengan kata lain, seberapa besar kemungkinan jawapan rawak jatuh dalam selang keyakinan. Biasanya, tahap keyakinan 95 dan 99% digunakan. Yang paling biasa digunakan ialah 95% - ini mencukupi dalam kebanyakan kajian. Jika kita menggabungkan kebarangkalian keyakinan dan selang keyakinan, kita boleh mengatakan bahawa jawapan kepada soalan mempunyai kebarangkalian 95% untuk jatuh antara 45 dan 51%.

Anggaran kasar berikut tentang kebolehpercayaan hasil tinjauan sampel adalah sangat berguna. Peningkatan kebolehpercayaan membolehkan ralat pensampelan sehingga 3%, biasa - dari 3 hingga 10% (selang keyakinan pengedaran pada tahap 0.03-0.1), anggaran - dari 10 hingga 20%, anggaran - dari 20 hingga 40%, dan dianggarkan - lebih daripada 40%.

Berdasarkan konsep ini dan mengambil kira beberapa andaian, formula untuk mengira saiz sampel diperolehi, yang menganggap bahawa keterwakilan dijamin dengan menggunakan prosedur pensampelan kebarangkalian yang betul.

Dalam sesetengah kes, kos menjalankan tinjauan digunakan sebagai hujah utama dalam menentukan saiz sampel. Oleh itu, belanjawan penyelidikan pemasaran memperuntukkan kos menjalankan tinjauan tertentu, yang tidak boleh melebihi, dan jelas bahawa nilai maklumat yang diperolehi tidak diambil kira. Walau bagaimanapun, dalam beberapa kes, sampel kecil boleh memberikan hasil yang agak tepat.

Amalan penyelidikan mencadangkan peraturan berikut: saiz sampel harus menyediakan sekurang-kurangnya 100 pemerhatian untuk setiap primer dan sekurang-kurangnya 20-50 pemerhatian untuk setiap komponen pengelasan sekunder. 11komponen pengelasan utama sepadan dengan yang paling kritikal, dan yang kedua sepadan dengan sel paling kritikal klasifikasi silang yang diterima pakai dalam kajian ini 34. Pengiraan dan amalan teori membuktikan bahawa untuk mendapatkan data yang boleh dipercayai mengenai pendapat dan keutamaan penduduk di bandar besar seperti St. Petersburg, cukup untuk meninjau 700-800 orang. Walau bagaimanapun, kebanyakan tinjauan populasi di sini dijalankan ke atas sampel sehingga 1.5 ribu orang.

Ralat pensampelan

Seperti yang kita sedia maklum, keterwakilan ialah hak milik populasi sampel untuk mewakili ciri-ciri populasi umum. Jika tiada jodoh, kata mereka kesilapan perwakilan- sejauh mana struktur statistik sampel menyimpang daripada struktur populasi umum yang sepadan. Mari kita anggap bahawa purata pendapatan keluarga bulanan pesara dalam populasi umum ialah 2 ribu rubel, dan dalam populasi sampel - 6 ribu rubel. Ini bermakna ahli sosiologi itu hanya menemu bual bahagian kaya daripada pesara, dan kesilapan keterwakilan menyelinap ke dalam kajiannya. Dalam erti kata lain, kesilapan perwakilan dipanggil percanggahan antara dua populasi- umum, yang mana kepentingan teori ahli sosiologi diarahkan dan idea tentang sifat-sifat yang akhirnya dia ingin dapatkan, dan selektif, yang mana minat praktikal ahli sosiologi diarahkan, yang bertindak sebagai objek tinjauan dan cara. untuk mendapatkan maklumat tentang populasi umum.

Bersama dengan istilah "kesilapan keterwakilan", istilah lain boleh didapati dalam kesusasteraan domestik: "kesilapan pensampelan." Kadang-kadang ia digunakan secara bergantian, dan kadangkala "ralat pensampelan" digunakan dan bukannya "ralat perwakilan" sebagai konsep kuantitatif yang lebih tepat.

Ralat pensampelan- sisihan ciri purata populasi sampel daripada ciri purata populasi umum.

Dalam amalan, ralat pensampelan ditentukan dengan membandingkan ciri populasi yang diketahui dengan cara sampel. Dalam sosiologi, apabila meninjau populasi dewasa, data daripada banci penduduk, statistik semasa dan hasil tinjauan terdahulu paling kerap digunakan. Ciri sosio-demografi biasanya digunakan sebagai parameter kawalan. Perbandingan purata populasi umum dan sampel, berdasarkan penentuan ralat pensampelan ini dan pengurangannya dipanggil kawalan keterwakilan. Memandangkan perbandingan data sendiri dan data orang lain boleh dilakukan selepas menyelesaikan kajian, kaedah kawalan ini dipanggil posterior, mereka. dijalankan selepas pengalaman.

Dalam tinjauan pendapat Gallup, keterwakilan dikawal menggunakan data yang tersedia dalam banci kebangsaan mengenai taburan penduduk mengikut jantina, umur, pendidikan, pendapatan, profesion, bangsa, tempat kediaman dan saiz penempatan. Pusat Kajian Pendapat Awam Semua-Rusia (VTsIOM) menggunakan penunjuk tujuan seperti jantina, umur, pendidikan, jenis penempatan, status perkahwinan, bidang pekerjaan, status pekerjaan responden, yang dipinjam daripada Jawatankuasa Statistik Negeri Persekutuan Rusia. Dalam kedua-dua kes, populasi diketahui. Ralat persampelan tidak dapat ditentukan jika nilai pembolehubah dalam sampel dan populasi tidak diketahui.

Pakar VTsIOM memastikan pembaikan teliti sampel semasa analisis data untuk meminimumkan penyelewengan yang timbul pada peringkat kerja lapangan. Kecondongan yang sangat kuat diperhatikan dari segi jantina dan umur. Ini dijelaskan oleh fakta bahawa wanita dan orang yang mempunyai pendidikan tinggi menghabiskan lebih banyak masa di rumah dan membuat hubungan dengan penemuduga dengan lebih mudah, i.e. adalah kumpulan yang mudah dicapai berbanding lelaki dan orang "tidak berpendidikan".

Ralat persampelan disebabkan oleh dua faktor: kaedah persampelan dan saiz sampel.

Ralat pensampelan dibahagikan kepada dua jenis - rawak dan sistematik. Ralat rawak - ialah kebarangkalian bahawa min sampel akan (atau tidak) jatuh di luar selang tertentu. Ralat rawak termasuk ralat statistik yang wujud dalam kaedah persampelan itu sendiri. Mereka berkurangan dengan peningkatan saiz sampel (Jadual 2.8).

Jadual 2.8

Kebergantungan saiz sampel pada ralat 36 (saiz populasi umum ialah 20 ribu unit)

Ralat pensampelan, %

Saiz sampel, unit

Jenis ralat pensampelan kedua ialah kesilapan sistematik. Sekiranya ahli sosiologi memutuskan untuk mengetahui pendapat semua penduduk bandar tentang dasar sosial yang dijalankan oleh pihak berkuasa tempatan, dan hanya meninjau mereka yang mempunyai telefon, maka kecenderungan yang disengajakan dalam sampel timbul memihak kepada strata kaya, i.e. ralat sistematik.

Oleh itu, kesilapan sistematik adalah hasil daripada aktiviti penyelidik sendiri. Mereka adalah yang paling berbahaya kerana ia membawa kepada berat sebelah yang agak ketara dalam hasil penyelidikan. Ralat sistematik dianggap lebih teruk daripada ralat rawak juga kerana ia tidak boleh dikawal dan diukur.

Mereka timbul apabila, sebagai contoh: 1) sampel tidak sesuai dengan objektif kajian (ahli sosiologi memutuskan untuk belajar hanya pesara yang bekerja, tetapi menemu bual semua orang); 2) terdapat kejahilan yang jelas tentang sifat penduduk umum (ahli sosiologi berpendapat bahawa 70% daripada semua pesara tidak bekerja, tetapi ternyata hanya 10% yang tidak bekerja); 3) hanya elemen "menang" penduduk umum dipilih (contohnya, hanya pesara kaya).

Perhatian!Tidak seperti ralat rawak, ralat sistematik tidak berkurangan dengan peningkatan saiz sampel.

Setelah meringkaskan semua kes di mana ralat sistematik berlaku, ahli metodologi menyusun daftarnya. Mereka percaya bahawa faktor berikut mungkin menjadi punca herotan yang tidak terkawal dalam pengedaran pemerhatian sampel:

♦ peraturan metodologi dan metodologi untuk menjalankan penyelidikan sosiologi;

♦ kaedah yang tidak mencukupi untuk membentuk populasi sampel, kaedah untuk mengumpul dan mengira data telah dipilih;

♦ unit pemerhatian yang diperlukan telah digantikan dengan unit lain yang lebih mudah diakses;

♦ liputan populasi sampel yang tidak lengkap dicatatkan (penerimaan soal selidik yang tidak mencukupi, pengisian yang tidak lengkap, unit pemerhatian tidak boleh diakses).

Seorang ahli sosiologi jarang membuat kesilapan yang disengajakan. Lebih kerap, kesilapan timbul disebabkan oleh fakta bahawa ahli sosiologi kurang menyedari struktur populasi umum: pengagihan orang mengikut umur, profesion, pendapatan, dll.

Ralat sistematik lebih mudah dicegah (berbanding ralat rawak), tetapi ia sangat sukar untuk dihapuskan. Adalah lebih baik untuk mengelakkan kesilapan sistematik dengan menjangka sumbernya dengan tepat - pada awal kajian.

Berikut adalah beberapa cara untuk mengelakkan kesilapan:

♦ setiap unit dalam populasi mesti mempunyai kebarangkalian yang sama untuk dimasukkan ke dalam sampel;

♦ adalah dinasihatkan untuk memilih daripada populasi homogen;

♦ anda perlu mengetahui ciri-ciri populasi umum;

♦ semasa menyusun populasi sampel, ralat rawak dan sistematik mesti diambil kira.

Jika populasi sampel (atau hanya sampel) disediakan dengan betul, maka ahli sosiologi memperoleh hasil yang boleh dipercayai yang mencirikan keseluruhan populasi. Jika tersalah penyusunan, maka ralat yang timbul pada peringkat persampelan digandakan pada setiap peringkat penyelidikan sosiologi yang seterusnya dan akhirnya mencapai nilai yang melebihi nilai penyelidikan yang dijalankan. Mereka mengatakan bahawa penyelidikan sedemikian lebih mendatangkan kemudaratan daripada kebaikan.

Ralat sedemikian hanya boleh berlaku dengan populasi sampel. Untuk mengelakkan atau mengurangkan kemungkinan ralat, cara paling mudah ialah meningkatkan saiz sampel (dan idealnya kepada saiz populasi umum: apabila kedua-dua populasi sepadan, ralat pensampelan akan hilang sama sekali). Dari segi ekonomi, kaedah ini adalah mustahil. Masih ada cara lain - untuk menambah baik kaedah matematik untuk pensampelan. Mereka digunakan dalam amalan. Ini adalah saluran pertama penembusan ke dalam sosiologi matematik. Saluran kedua ialah pemprosesan data matematik.

Masalah kesilapan menjadi sangat penting dalam penyelidikan pemasaran, di mana sampel kecil digunakan. Biasanya mereka berjumlah beberapa ratus, kurang kerap - seribu responden. Di sini, titik permulaan untuk pengiraan sampel ialah persoalan menentukan saiz populasi sampel. Saiz sampel bergantung kepada dua faktor: I) kos mengumpul maklumat dan 2) keinginan untuk tahap keyakinan statistik tertentu terhadap keputusan yang pengkaji harap dapat diperolehi. Sudah tentu, walaupun orang yang tidak berpengalaman dalam statistik dan sosiologi secara intuitif memahami bahawa semakin besar saiz sampel, i.e. Semakin hampir dengan saiz populasi secara keseluruhan, semakin dipercayai dan sah data yang diperoleh. Walau bagaimanapun, kami telah bercakap di atas tentang kemustahilan praktikal tinjauan berterusan dalam kes-kes di mana ia dijalankan pada objek yang bilangannya melebihi puluhan, ratusan ribu dan bahkan berjuta-juta. Adalah jelas bahawa kos mengumpul maklumat (termasuk bayaran untuk replikasi alat, tenaga kerja soal selidik, pengurus lapangan dan operator input komputer) bergantung pada jumlah yang pelanggan bersedia untuk memperuntukkan, dan bergantung sedikit kepada penyelidik. Bagi faktor kedua, kami akan membincangkannya dengan lebih terperinci.

Jadi, semakin besar saiz sampel, semakin kecil kemungkinan ralat. Walaupun perlu diperhatikan bahawa jika anda ingin menggandakan ketepatan, anda perlu meningkatkan sampel bukan dua, tetapi empat. Sebagai contoh, untuk membuat anggaran data yang diperoleh daripada tinjauan 400 orang dua kali lebih tepat, anda perlu meninjau 1,600 orang dan bukannya 800 orang. Walau bagaimanapun, tidak mungkin penyelidikan pemasaran memerlukan ketepatan 100%. Jika pembuat bir perlu mengetahui bahagian pengguna bir yang lebih suka jenamanya berbanding jenama pesaingnya - 60% atau 40% - maka rancangannya tidak akan terjejas dalam apa cara sekalipun dengan perbezaan antara 57%, 60 atau 63%.

Ralat pensampelan mungkin bergantung bukan sahaja pada saiznya, tetapi juga pada tahap perbezaan antara unit individu dalam populasi yang kita kaji. Sebagai contoh, jika kita ingin mengetahui berapa banyak bir yang digunakan, kita akan mendapati bahawa dalam populasi kita kadar penggunaan orang yang berbeza berbeza dengan ketara (heterogen Populasi umum). Dalam kes lain, kami akan mengkaji penggunaan roti dan mendapati bahawa ia berbeza dengan ketara di kalangan orang yang berbeza (homogen Populasi umum). Lebih besar variasi (atau heterogeniti) dalam populasi, lebih besar magnitud kemungkinan ralat pensampelan. Corak ini hanya mengesahkan apa yang dikatakan oleh akal sehat kepada kita. Oleh itu, seperti yang dinyatakan dengan betul oleh V. Yadov, “saiz (isipadu) sampel bergantung kepada tahap homogeniti atau heterogeniti objek yang dikaji. Lebih homogen mereka, lebih kecil nombor boleh memberikan kesimpulan yang boleh dipercayai secara statistik.

Menentukan saiz sampel juga bergantung pada tahap selang keyakinan ralat statistik yang dibenarkan. Di sini kita maksudkan apa yang dipanggil rawak ralat yang dikaitkan dengan sifat sebarang ralat statistik. DALAM DAN. Paniotto menyediakan pengiraan berikut untuk sampel perwakilan dengan andaian ralat 5% (Jadual 2.9):

Jadual 2.9

Pengiraan sampel perwakilan

Ini bermakna jika anda, setelah meninjau, katakan, 400 orang di bandar serantau, di mana populasi pelarut dewasa adalah 100 ribu orang, mendapati bahawa 33% daripada pembeli yang ditinjau lebih suka produk kilang pemprosesan daging tempatan, kemudian dengan 95% kebarangkalian anda boleh mengatakan bahawa pembeli tetap produk ini adalah 33±5% (iaitu dari 28 hingga 38%) daripada penduduk bandar ini.

Anda juga boleh menggunakan pengiraan Gallup untuk menganggarkan hubungan antara saiz sampel dan ralat pensampelan (lihat di atas).

Hari ini, banyak pengiraan sukar dilakukan oleh teknologi, dan program statistik boleh diperolehi di Internet. Oleh itu, dengan pengiraan sampel, ahli sosiologi yang malas diberi peluang sedemikian di laman web Pusat Analisis "Perniagaan dan Pemasaran" (http://www.bma.ru/enter.htm), di mana pengguna hanya memerlukan untuk memasukkan data yang diperlukan dan kemudian klik pada butang "Kira."

Sebelum secara langsung menjalankan pemerhatian sampel, persoalan berapa banyak unit populasi yang dikaji mesti dipilih untuk persampelan sentiasa diselesaikan. Formula untuk menentukan bilangannya diperoleh daripada formula untuk ralat pensampelan maksimum mengikut titik permulaan berikut:

jenis sampel yang dicadangkan;
kaedah pemilihan (berulang atau tidak berulang);
pilihan anggaran parameter (nilai purata atau perkadaran).

Di samping itu, adalah perlu untuk menentukan terlebih dahulu nilai kebarangkalian keyakinan yang sesuai dengan pengguna maklumat, dan saiz ralat pensampelan maksimum yang dibenarkan. Penetapan D dan I (sepadan dengan kebarangkalian keyakinan), sebagai peraturan, tidak memberikan sebarang kesulitan tertentu, kerana ia berkaitan dengan sifat populasi yang dikaji.

Walau bagaimanapun, kita mesti ingat bahawa kebarangkalian keyakinan yang besar akan meningkatkan saiz sampel. Keadaannya sama dengan ralat pensampelan marginal: mengurangkannya sebanyak separuh empat kali ganda saiz sampel. Persoalan tentang ketepatan yang memuaskan hati penyelidik menjadi asas jika pemeriksaan unit pemerhatian lain membawa kepada kos kewangan dan material yang besar (memandangkan keterpencilan wilayah unit pemerhatian, kerahsiaan data yang dikumpul, kerumitan program pemerhatian, dll.), dan tidak penting jika kos ukur satu unit agak kecil.

Formula untuk mengira saiz sampel yang diperlukan untuk cara yang berbeza pemilihan ditunjukkan dalam jadual. 13.10.

Apabila menggunakan formula yang diberikan dalam jadual, adalah disyorkan untuk membulatkan saiz sampel yang terhasil untuk memastikan "margin" ketepatan tertentu.

Di samping itu, dalam amalan statistik, pilihan biasa ialah apabila nilai ralat pensampelan maksimum dinyatakan sebagai peratusan (ralat pensampelan maksimum relatif). Dalam kes ini, nilai mutlak ralat dibahagikan dengan nilai purata ciri dan didarab dengan 100%. Kemudian, untuk menggunakan formula jadual, anda harus mencari nilai mutlak ralat maksimum seperti berikut:

Jadual 13.10

Formula untuk mencari saiz sampel

Kaedah pemilihan	Pemilihan semula	Pemilihan berulang
Apabila menganggarkan purata
Rambang betul
mekanikal
tipikal
Siri dengan siri yang sama
Apabila menganggarkan bahagian
Rambang betul
mekanikal

Berakhir

Kaedah pemilihan	Pemilihan semula	Pemilihan berulang
tipikal
Siri dengan siri yang sama

Jika parameter awal untuk menentukan saiz sampel ialah ralat relatif D% dan pekali variasi

daripada sifat yang dikaji, dikira sebagai F„=^100%, kemudian formula

Sampel rawak sebenar semasa pemilihan berulang boleh diubah seperti berikut:

Kesukaran sebenar dalam menentukan saiz sampel adalah menentukan saiz variasi atribut - penyebaran. Dalam amalan, nilai ini selalunya kekal tidak diketahui sehingga tinjauan dijalankan. Apa yang perlu dilakukan dalam setiap kes tertentu ditentukan oleh penyelidik sendiri.

Kadangkala varians dianggarkan dengan cara langsung:

menjalankan pemeriksaan menyeluruh sebelum pemerhatian utama bermula untuk menentukan nilai o 2;
mereka menerima secara bersyarat nilai varians daripada tinjauan serupa sebelumnya (kaedah yang paling kerap digunakan dalam amalan). Pendekatan sedemikian wajar jika populasi umum, kerana sifatnya, tidak disahkan oleh proses dinamik yang ketara atau manifestasi mereka tidak begitu jelas.

Terdapat juga beberapa kaedah "tidak langsung" untuk mencari varians ciri yang sedang dikaji, yang merupakan teknik matematik tertentu yang berdasarkan sifat populasi statistik. Oleh kerana taburan kebanyakannya adalah hampir dengan hukum biasa, nilai serakan boleh ditentukan secara lebih kurang seperti berikut.

Oleh kerana semua nilai varian atribut di bawah undang-undang taburan normal diletakkan pada 3 dalam satu arah atau yang lain daripada purata, terdapat kesamaan anggaran R« 6a, di mana R- julat variasi sesuatu sifat, ditakrifkan sebagai R= x maks - x min .

Oleh itu,

Dalam amalan, untuk mendapatkan "rizab" unit sampel tertentu untuk memastikan ketepatan yang diperlukan, mereka selalunya lebih suka menggunakan hubungan

Nilai x max dan x min apabila memantau proses sosio-ekonomi biasanya diketahui atau ditentukan oleh undang-undang semasa. Sebagai contoh, purata bilangan pekerja dalam perusahaan kecil adalah terhad oleh undang-undang.

Untuk fenomena sosio-ekonomi, jika dalam beberapa cara (contohnya, daripada data daripada tinjauan lepas) nilai min diketahui, perkaitan itu digunakan untuk menghampiri sisihan piawai

Varians ciri alternatif bergantung kepada perkadaran unit yang mempunyai ciri yang dikaji (sifat) w. Jika pecahan ini tidak diketahui, nilai serakan maksimum yang mungkin diambil - 0.25, dicapai pada w = 0,5.

Daripada formula dalam Jadual. 13.10 ia berikutan bahawa saiz sampel adalah berkadar terus dengan varians ciri yang dikaji. Sesungguhnya, apabila kebolehubahan unit meningkat, untuk menangkap variasi, bilangan yang semakin meningkat diperlukan untuk pemilihan dan kemasukan dalam sampel.

Jadi, kami telah mempertimbangkan untuk menentukan saiz sampel untuk satu ciri yang boleh diperhatikan. Tetapi bagaimana jika terdapat beberapa ciri ciri dan variasi ciri ini berbeza atau sebahagian daripadanya adalah alternatif. Adalah logik untuk memilih ciri yang mana pengiraan membawa kepada saiz sampel terbesar di kalangan yang lain (ciri ini akan menjadi ciri yang diperlukan untuk mendapatkan ralat pensampelan relatif terkecil pada kebarangkalian keyakinan yang sama). Sesungguhnya, dalam kes ini, menentukan parameter umum ciri-ciri lain akan disertai dengan ketepatan yang lebih besar daripada yang diperlukan, i.e. akan ada beberapa "margin" ketepatan.

Perlu diingatkan juga bahawa dalam amalan, saiz sampel sering diselaraskan mengikut sumber kewangan dan manusia yang ada, maka keperluan untuk mencapai keseimbangan kos yang optimum dan ketepatan keputusan diambil kira. Sekiranya terdapat kesukaran dengan pemerhatian statistik pembiayaan, terutamanya jika pengurangan kos berlaku agak ketara dengan kerugian yang boleh diterima dalam ketepatan, langkah sedemikian adalah lebih daripada wajar.

Penentuan saiz sampel juga dipengaruhi oleh fenomena yang sangat biasa dalam pemerhatian statik yang dikaitkan dengan bukan tindak balas unit yang dikaji. Dalam kes populasi besar yang diukur dalam ratusan atau berjuta-juta (contohnya, populasi sesebuah negara), beberapa pelarasan untuk bukan tindak balas boleh dibuat dengan meningkatkan saiz sampel. Walau bagaimanapun, apabila memproses hasil tinjauan dan terutamanya apabila menggunakan pengesyoran khusus berdasarkannya, seseorang harus mengingati andaian yang dibuat semasa mengumpul data.

Mari kita lihat contoh masalah untuk menentukan saiz populasi sampel yang diperlukan.

Contoh 13. 7. Berapa banyak objek daripada sejumlah 507 firma yang mesti diperiksa oleh inspektorat cukai untuk menentukan, dengan kebarangkalian 0.997, bahagian firma yang melakukan pelanggaran dalam membayar cukai? Menurut tinjauan sebelumnya, sisihan piawai ialah 0.15; saiz ralat pensampelan tidak boleh lebih tinggi daripada 0.15.

Apabila mengulangi persampelan rawak, anda harus menyemak

Sekiranya berlaku pemotongan rawak berulang, adalah perlu untuk menyemak

Seperti yang dapat kita lihat, penggunaan persampelan tidak berulang membawa kepada pemeriksaan bilangan objek yang jauh lebih kecil.

Contoh 13.8. Pentadbiran salah satu entiti konstituen Persekutuan Rusia memutuskan untuk menjalankan tinjauan sampel 366 firma kecil, di mana ia dirancang untuk menentukan:

bahagian orang yang mempunyai pendidikan tinggi yang bekerja di firma kecil (saiz ralat maksimum tidak boleh melebihi 0.1);
bahagian wanita yang bekerja di firma kecil (saiz ralat maksimum tidak boleh melebihi 0.12);
umur purata pekerja di firma kecil (saiz ralat maksimum tidak boleh melebihi dua tahun).

Pengagihan firma kecil mengikut sektor ekonomi adalah seperti berikut:

Pentadbiran bandar mengandaikan bahawa makna ciri yang dikaji berbeza dengan ketara bergantung pada industri syarikat, jadi sampel biasa dipilih, berkadar dengan saiz kumpulan biasa.

Mari kita tentukan bilangannya yang sepatutnya dan berapa banyak unit cerapan yang perlu diekstrak daripada setiap kumpulan biasa dengan kebarangkalian keyakinan 0.954. Dua tanda pertama adalah alternatif, maka anggaran varians yang tidak diketahui adalah nilai maksimumnya - 0.25.

Saiz sampel yang diperlukan apabila menganggar bahagian orang yang mempunyai pendidikan tinggi akan mempunyai nilai berikut:

Menganggar bahagian wanita bekerja memerlukan tinjauan

Adalah mungkin untuk menentukan dengan segera atas dasar apa pengiraan harus dijalankan. Ia sentiasa yang mempunyai ketepatan yang lebih besar (ralat yang lebih kecil untuk tahap keyakinan yang sama). Walau bagaimanapun, tanda ketiga dalam contoh kami adalah kuantitatif. Mari tentukan saiz sampel yang diperlukan untuk menganggarkannya. Kami memperoleh nilai anggaran serakan berdasarkan sifat taburan normal:

(dengan umur maksimum dan minimum 60 dan 18 tahun, masing-masing, yang merupakan julat yang paling mungkin).

Dari manakah st. 2 = 49 berasal?

Mari buat pengiraan:

Jadi, untuk mencapai ketepatan yang diberikan untuk semua ciri yang diperhatikan, seseorang harus memilih nombor maksimum yang diperoleh untuk ketiga-tiga penunjuk, i.e. n = 65 syarikat.

Cawangan ekonomi		Bilangan firma yang dipilih dalam populasi sampel
industri
pertanian
Pembinaan
Pengangkutan dan komunikasi
Perdagangan dan katering
Aktiviti perniagaan am
Perumahan dan perkhidmatan komunal dan jenis perkhidmatan pengguna bukan pengeluaran untuk penduduk

Industri lain

Kaedah pensampelan tidak formal. Isu saiz sampel optimum sentiasa menjadi kontroversi di kalangan penyelidik. Keputusan mengenai saiz populasi sampel dibuat dengan mengambil kira beberapa faktor, antaranya dua memainkan peranan paling penting: 1) nilai dan kebaharuan maklumat yang diperoleh hasil daripada kajian; 2) kos menjalankan kajian (termasuk masa) untuk saiz sampel tertentu.

Dalam banyak kes, seseorang boleh dibimbing oleh amalan yang telah ditetapkan, i.e. saiz sampel yang digunakan dalam kajian yang serupa. Di samping itu, terdapat peraturan mudah berikut untuk menentukan saiz populasi sampel.

Saiz sampel semakin meningkat Jika:

adalah perlu untuk mendapatkan data untuk subkumpulan individu (saiz subsampel disimpulkan dan sampel secara keseluruhannya berkembang mengikut kadar bilangan subkumpulan);
Maklumat yang sedia ada mengenai isu utama tidak mencukupi dan ketidakpastian adalah penting.

Di samping itu, amalan banyak kajian telah menghasilkan saiz sampel "tipikal". Oleh itu, untuk tinjauan penduduk negara, volum ini berbeza antara 1000-2500 responden (bergantung kepada bilangan kumpulan yang dianalisis). Untuk tinjauan serantau dan tinjauan populasi khas - dari 200 hingga 500 (apabila menganalisis banyak subkumpulan, saiz sampel populasi serantau atau khas biasanya meningkat kepada sekurang-kurangnya 1000 orang). Nilai yang ditunjukkan, sudah tentu, hanya boleh berfungsi sebagai garis panduan umum untuk menentukan saiz optimum sampel.

Dalam amalan, keputusan mengenai saiz sampel adalah kompromi antara andaian ketepatan keputusan tinjauan dan kemungkinan pelaksanaan praktikalnya (iaitu, berdasarkan kos menjalankan tinjauan).

Dalam amalan, beberapa pendekatan digunakan untuk menentukan saiz sampel. Mari kita perhatikan yang paling mudah daripada mereka. Yang pertama ini dipanggil pendekatan rawak dan berdasarkan penggunaan "peraturan ibu jari".

Sebagai contoh, ia diterima tanpa bukti bahawa untuk mendapatkan keputusan yang tepat, sampel mestilah 5% daripada populasi. Pendekatan ini mudah dan mudah dilaksanakan, tetapi tidak membenarkan mendapatkan hasil yang tepat. Kelebihannya ialah kos relatif rendah. Dalam pendekatan kedua, saiz sampel boleh ditetapkan berdasarkan syarat yang telah ditetapkan. Pelanggan penyelidikan pemasaran, misalnya, tahu bahawa apabila mengkaji pendapat umum sampel biasanya 1000 - 1200 orang, jadi dia mengesyorkan agar pengkaji berpegang pada angka ini.

Pendekatan ketiga bermakna dalam beberapa kes pertimbangan utama dalam menentukan saiz sampel mungkin kos menjalankan tinjauan. Walaupun nilai dan kebolehpercayaan maklumat yang diterima tidak diambil kira.

Dalam pendekatan keempat, saiz sampel ditentukan berdasarkan analisis statistik. Pendekatan ini melibatkan penentuan saiz sampel minimum, dengan mengambil kira keperluan untuk kebolehpercayaan dan kesahihan keputusan yang diperolehi.

Pendekatan kelima dianggap paling berasaskan teori dan pendekatan yang betul dalam menentukan saiz sampel. Ia adalah berdasarkan pengiraan selang keyakinan.

Selang keyakinan ialah julat yang titik ekstremnya mencirikan peratusan jawapan tertentu kepada soalan. Konsep doh ini dikaitkan dengan konsep "sisihan piawai bagi ciri yang terhasil dalam populasi umum." Lebih besar ia, lebih luas selang keyakinan mestilah untuk memasukkan, sebagai contoh, 9.5% daripada respons.

Daripada sifat keluk taburan normal, ia berikutan bahawa titik akhir selang keyakinan, bersamaan dengan, sebagai contoh, 9.5%, ditakrifkan sebagai hasil darab: 1.96 (sisihan ternormal) dan sisihan piawai.

Nombor 1.96 dan 2.58 (untuk selang keyakinan 99%) ditetapkan z.

Terdapat jadual "Nilai kamiran kebarangkalian", yang memungkinkan untuk menentukan nilai z untuk pelbagai selang keyakinan. Selang keyakinan 95% atau 99% adalah standard semasa menjalankan penyelidikan pemasaran.

Sebagai contoh, kajian telah dijalankan ke atas bilangan lawatan pemilik kereta ke bengkel servis setahun. Selang keyakinan untuk bilangan purata lawatan dikira sebagai 5-7 lawatan pada tahap keyakinan 99%. Ini bermakna bahawa jika menjadi mungkin untuk menjalankan kajian sampel secara bebas sebanyak 100 kali, maka untuk 99 kajian sampel, bilangan purata lawatan akan jatuh dalam julat dari 5 hingga 7 lawatan. Dengan kata lain, 99% pemilik kereta akan berada dalam lingkungan selang keyakinan.

Katakan kajian telah dijalankan ke atas sehingga 50 sampel bebas. Skor min bagi sampel ini membentuk keluk taburan normal yang dipanggil pengedaran pensampelan.

Skor min bagi populasi secara keseluruhan adalah sama dengan skor min keluk taburan. Konsep "taburan persampelan" juga dianggap sebagai salah satu konsep asas konsep teori yang mendasari definisi sampel V.

Sememangnya, tiada syarikat yang dapat membentuk 10, 20, 50 sampel bebas. Biasanya hanya satu sampel digunakan.

Statistik matematik membolehkan anda mendapatkan beberapa maklumat tentang taburan pensampelan dengan mempunyai data yang tepat tentang variasi sampel tunggal.

Penunjuk sejauh mana anggaran benar untuk populasi secara keseluruhan berbeza daripada yang dijangkakan untuk sampel biasa ialah punca ralat min kuasa dua. Sebagai contoh, pendapat pengguna tentang produk baru dikaji dan pelanggan kajian ini menunjukkan bahawa dia akan berpuas hati dengan ketepatan keputusan yang diperoleh, sama dengan tambah atau tolak 5%.

Katakan bahawa 30% daripada sampel memihak kepada produk baharu. Ini bermakna julat anggaran yang mungkin untuk keseluruhan populasi ialah 25 – 35%. Lebih-lebih lagi, lebih besar saiz sampel, lebih kecil ralat. Nilai variasi yang tinggi menyebabkan nilai ralat yang tinggi dan begitu juga sebaliknya.

Mari tentukan saiz sampel berdasarkan pengiraan selang keyakinan. Maklumat awal yang diperlukan untuk melaksanakan pendekatan ini ialah:

· jumlah variasi yang dipercayai ada pada populasi;
· ketepatan yang dikehendaki;
· tahap kebolehpercayaan yang mesti dipenuhi oleh hasil tinjauan.

Apabila dihidupkan ditanya soalan Terdapat hanya dua pilihan jawapan, dinyatakan sebagai peratusan (ukuran peratusan digunakan), saiz sampel ditentukan oleh formula berikut:

di mana n ialah saiz sampel;

z – sisihan ternormal, ditentukan berdasarkan tahap keyakinan yang dipilih (Jadual 7);

p – variasi didapati untuk sampel;

q = (100 – p);

e – kesilapan yang dibenarkan.

Jadual 7

Nilai sisihan ternormal skor z daripada nilai min

bergantung kepada kebarangkalian keyakinan (a) keputusan yang diperolehi

Sebagai contoh, sebuah syarikat pengeluar tayar menjalankan tinjauan ke atas pemandu yang menggunakan tayar jejari.

Oleh itu, kepada soalan: "Adakah anda menggunakan tayar jejari?" Hanya 2 jawapan yang mungkin: "Ya" atau "Tidak". Jika kita mengandaikan bahawa populasi penggemar kereta mempunyai pekali variasi yang rendah, ini bermakna hampir semua orang yang ditinjau menggunakan tayar jejari. DALAM dalam kes ini saiz sampel yang cukup kecil boleh dibentuk. Dalam formula (1), produk pg menyatakan variasi yang wujud dalam populasi. Sebagai contoh, katakan 90% daripada unit dalam populasi menggunakan tayar jejari. Ini bermakna pg = 900. Jika kita mengandaikan bahawa pekali variasi lebih tinggi (p = 70%), maka pg = 2100. Variasi terbesar dicapai apabila separuh daripada populasi (50%) menggunakan tayar jejari dan yang lain jangan. Dalam kes ini, produk mencapai nilai yang sama dengan 2500.

Semasa menjalankan tinjauan, adalah penting untuk menunjukkan ketepatan anggaran yang diperolehi. Sebagai contoh, didapati 44% responden menggunakan tayar jejari. Keputusan pengukuran mesti dibentangkan dalam bentuk: peratusan pemandu menggunakan tayar jejari ialah 44 tambah atau tolak %. Jumlah kesilapan yang dibenarkan ditentukan bersama terlebih dahulu oleh pelanggan penyelidikan dan kontraktor.

Tahap keyakinan dalam penyelidikan pemasaran biasanya dinilai berdasarkan dua nilai: 95% atau 99%. Nilai pertama sepadan dengan nilai z = 1.96; kedua – z = 2.58. Jika tahap keyakinan 99% dipilih, maka ini bermakna yang berikut: kami yakin 99% (dengan kata lain, tahap keyakinan ialah 0.99) bahawa peratusan ahli populasi yang berada dalam julat tambah - tolak e% adalah sama dengan peratusan ahli sampel , termasuk dalam julat ralat yang sama. Dengan mengandaikan variasi 50%, ketepatan 10% pada tahap keyakinan 95%, kami mengira saiz sampel:

n = 1.962 (50 x 50) / 102 = 96.

Dengan tahap keyakinan 99%, dan e = ±3%, n = 1067.

Apabila menentukan indeks variasi untuk populasi tertentu, adalah dinasihatkan untuk menjalankan analisis kualitatif awal populasi yang dikaji dan mewujudkan persamaan unit populasi dalam aspek demografi, sosial dan lain-lain yang menarik minat penyelidik. Adalah mungkin untuk menentukan saiz sampel menggunakan min dan bukannya peratusan. Andaikan tahap keyakinan dipilih sebagai 95% (z = 1.96,), sisihan piawai (S) dikira sebagai 100, dan ketepatan yang dikehendaki (bias) ialah ±10. Kemudian saiz sampel akan menjadi

Pada hakikatnya, dalam amalan, jika sampel dibentuk semula dan tinjauan serupa belum dijalankan, S tidak diketahui.

Dalam kes ini, adalah dinasihatkan untuk menetapkan ralat e dalam pecahan sisihan piawai. Formula pengiraan diubah dan mengambil bentuk berikut:

Kami kebanyakannya bercakap tentang pengagregatan bersaiz sangat besar yang mencirikan pasaran barangan pengguna. Tetapi dalam beberapa kes, agregat tidak begitu besar, dan sebagai contoh dalam pasaran spesies individu produk industri.

Biasanya, jika sampel kurang daripada 5% daripada populasi, maka populasi dianggap besar, dan pengiraan dijalankan mengikut peraturan di atas.

Jika V sampel melebihi 5% daripada populasi, maka yang terakhir dianggap kecil, dan faktor pembetulan dimasukkan ke dalam formula di atas. Saiz sampel dalam kes ini ditentukan seperti berikut:

di mana n1 ialah saiz sampel untuk populasi kecil,

n – saiz sampel (sama ada untuk ukuran peratusan atau untuk purata), dikira menggunakan formula di atas,

N ialah isipadu populasi umum.

Sebagai contoh, pendapat ahli populasi yang terdiri daripada 1000 syarikat sedang dikaji mengenai pembinaan loji kimia di dalam sempadan bandar Tomsk. Disebabkan kekurangan maklumat tentang variasi, kes terburuk diandaikan: 50:50. Pengkaji memutuskan untuk menggunakan tahap keyakinan 95%. Pelanggan kajian menunjukkan bahawa dia akan berpuas hati dengan ketepatan keputusan tambah atau tolak 5%. Dalam kes ini, formula berikut untuk ukuran peratusan digunakan:

Pendekatan untuk membentuk sampel V ini, dengan tempahan tertentu, juga boleh digunakan semasa mengira saiz panel dan kumpulan pakar.

Formula pengiraan sampel yang diberikan adalah berdasarkan andaian bahawa semua peraturan persampelan telah dipatuhi, dan satu-satunya ralat adalah ralat kerana saiznya.

Bab dari buku "Penyelidikan Pemasaran"

Psikologi: personaliti dan perniagaan

	Pengenalpastian objek populasi

	Pemilihan kaedah peperiksaan

Peperiksaan lengkap			Contoh tinjauan


		Memilih prosedur pensampelan		Pengiraan saiz sampel


	Pelaksanaan pelan persampelan

nasi. 4.3. Perancangan persampelan

Perancangan persampelan merangkumi prosedur berikut (Rajah 4.3):

Pengenalpastian objek populasi umum.

Penentuan kaedah peperiksaan.

Menentukan prosedur persampelan.

Menentukan saiz sampel.

Pengenalpastian objek dalam populasi umum

Penduduk ialah set semua unit yang menjadi objek kajian.

Pada peringkat penyediaan penyelidikan ini, adalah perlu untuk menentukan subjek mana yang membentuk populasi yang dikaji. Sebagai peraturan, subjek yang termasuk dalam populasi umum adalah heterogen, oleh itu, apabila menentukan wakil tipikal objek penyelidikan, beberapa kumpulan mungkin terlepas. Amat sukar untuk mewakili semua elemen populasi yang terdiri daripada organisasi, kerana tidak semua firma mengiklankan aktiviti mereka. Populasi umum boleh ditakrifkan sebagai pasaran secara keseluruhan, segmen pasaran atau kumpulan sasaran subjek.

Penentuan kaedah peperiksaan

Bergantung kepada saiz populasi dan objektif kajian, kaedah tinjauan berterusan atau sampel boleh digunakan.

Kaedah peperiksaan berterusan terdiri daripada mengkaji semua unit populasi umum. Kaedah ini dikaitkan dengan kos penyelidikan yang tinggi; penggunaannya adalah wajar, sebagai contoh, dalam kes sebilangan kecil pengguna yang mewakili segmen, atau dalam kes apabila jumlah pembelian pelanggan tertentu membentuk bahagian pasaran yang besar. kapasiti secara keseluruhan.

Sampel- ini adalah sekumpulan objek penyelidikan yang mempunyai ciri-ciri semua unit populasi umum, sebagai contoh, sekumpulan pengguna yang mewakili minat dan cita rasa keseluruhan pasaran sasaran.

Kaedah tinjauan sampel memberikan kurang ketepatan berbanding kaedah tinjauan berterusan, tetapi ia kurang intensif buruh. Adalah dinasihatkan untuk menggunakan kaedah ini dengan kehadiran sejumlah besar unit homogen populasi umum.

Kaedah persampelan menyediakan maklumat tentang populasi berdasarkan tinjauan hanya sebahagian daripadanya, jadi data yang diperoleh semasa tinjauan sampel adalah bersifat probabilistik. Secara praktiknya, ini bermakna hasil kajian, bukan nilai khusus yang ditentukan, tetapi selang di mana nilai yang dikehendaki berada. Kebarangkalian yang boleh dinyatakan bahawa ralat pensampelan tidak akan melebihi nilai tertentu dipanggil kebarangkalian keyakinan.

Sifat sampel untuk mencerminkan ciri-ciri populasi dipanggil keterwakilan. Perbezaan antara ciri-ciri populasi umum dan sampel dipanggil ralat pensampelan, yang bergantung pada prosedur pensampelan yang dipilih.

Prosedur persampelan

Prosedur pensampelan ialah urutan pemilihan responden untuk sampel.

Pemilihan responden mungkin disertakan dengan ralat sistematik dan rawak. Kesilapan sistematik timbul apabila prosedur persampelan dipilih secara salah. Ralat rawak sentiasa wujud kerana dikaitkan dengan pengaruh faktor yang sukar diramal. Pengaruh rawak tidak boleh dihapuskan sepenuhnya, tetapi magnitud ralat rawak boleh ditentukan menggunakan kaedah statistik. Bias tidak boleh dianggarkan tetapi boleh dihapuskan dengan mengubah prosedur pensampelan.

Memandangkan kehadiran dua jenis ralat dalam persampelan, jenis prosedur persampelan rawak (kebarangkalian) dan bukan rawak (deterministik) dibezakan.

Prosedur persampelan bukan rawak

Bukan rawak prosedur persampelan oleh proses persampelan itu sendiri melibatkan pemilihan responden secara tidak rawak, yang pendapatnya mungkin berbeza dengan pendapat populasi umum secara keseluruhan, sehingga menimbulkan adanya ralat data tidak rawak (sistematik) dalam hasil kajian. . Apabila menggunakan prosedur bukan rawak, pemilihan responden ke dalam sampel dibuat berdasarkan sebarang syarat yang diterima yang mengehadkan kalangan kemungkinan peserta dalam kajian. Sebagai contoh, hanya responden yang memiliki komputer atau pergi ke kedai antara jam 10 dan 11 sahaja dipilih untuk sampel.

Jenis sampel bukan rawak berikut adalah mungkin:

Persampelan rawak - elemen dipilih tanpa pelan, secara sembarangan; kaedahnya adalah murah dan mudah, tetapi menjana ketidaktepatan dan tidak mewakili;

sampel tipikal - set hanya terhad kepada elemen ciri (tipikal) populasi umum; digunakan, sebagai contoh, apabila membentuk kumpulan fokus; walau bagaimanapun, ia memerlukan maklumat tentang tipikal objek yang sedang dikaji;

persampelan kuota - struktur persampelan dibina secara analogi dengan taburan ciri-ciri tertentu dalam populasi umum; Daripada setiap kumpulan populasi umum, peserta kajian dipilih, bilangannya adalah berkadar dengan perwakilan kumpulan dalam populasi umum.

Prosedur persampelan rawak

Pada membentuk sampel rawak Prosedur berikut digunakan.

pemilihan mudah - elemen dipilih menggunakan nombor rawak; dengan pendekatan ini diandaikan bahawa untuk semua unit populasi umum kebarangkalian untuk dipilih ke dalam populasi sampel adalah sama (nilai kebarangkalian adalah sama dengan nisbah saiz sampel kepada saiz populasi umum). Kaedah ini sangat intensif buruh dan memerlukan senarai semua unit dalam populasi umum;

persampelan sistematik (mekanikal) - elemen pertama dipilih menggunakan nombor rawak, baki elemen sampel dipilih pada selang yang sama (selang lompat), yang sama dengan nisbah saiz populasi kepada saiz sampel. Prosedur pensampelan ini sangat memudahkan prosedur, tetapi boleh menyebabkan herotan ke dalam struktur pensampelan jika populasi disusun mengikut sebarang atribut.

Jika populasi umum disusun mengikut ciri penting (ciri dianggap penting jika ia menentukan keadaan penunjuk yang dikaji), maka untuk mengurangkan herotan dalam ciri sampel, unit pensampelan harus dipilih dari tengah selang yang ditetapkan. Perkara yang sama dilakukan dalam kes apabila populasi umum disusun mengikut ciri sekunder yang mempengaruhi sebahagian objek yang sedang dikaji.

Jika populasi umum disusun mengikut ciri neutral (yang tidak menjejaskan kelakuan objek yang sedang dikaji), maka ia dibenarkan untuk memasukkan dalam sampel mana-mana unit populasi umum dari selang yang ditetapkan;

Persampelan berstrata (tipikal atau kumpulan) - populasi umum dibahagikan kepada kumpulan dengan satu set ciri tertentu (segmen atau strata), di mana setiap sampelnya dibentuk menggunakan pemilihan rawak; pekali berat setiap lapisan dalam jumlah isipadu sampel sepadan dengannya graviti tertentu dalam populasi umum; persampelan kelompok (siri) - populasi umum dibahagikan kepada kumpulan yang sama (sarang, katil bunga atau kelompok). Kluster hendaklah sama yang mungkin; komposisi kluster hendaklah serupa dengan populasi umum. Beberapa kumpulan dipilih secara rawak daripada populasi umum dan tertakluk kepada tinjauan lengkap (pendekatan satu peringkat). Pendekatan dua peringkat juga mungkin, apabila sampel pada mulanya dibentuk daripada kelompok, dan unit penyelidikan dipilih secara rawak daripadanya (iaitu, unit persampelan peringkat sebelumnya menjadi populasi umum untuk yang seterusnya). Kelemahan prosedur pensampelan ini ialah kluster mungkin heterogen di antara mereka, tetapi prosedur ini mudah dan menjimatkan.

Persampelan pelbagai peringkat

Sebarang jenis persampelan boleh sama ada satu atau berbilang peringkat. Persampelan berbilang peringkat digunakan dalam kes di mana sukar untuk mengekstrak sampel secara langsung daripada populasi umum, manakala semua unit persampelan pada setiap peringkat adalah setara untuk tinjauan.

Penyambungan pemilihan berbilang peringkat pelbagai prosedur pensampelan, menjadikan sampel digabungkan. Pilihan pensampelan ini membolehkan kami mencapai keadaan yang paling rasional dan ekonomik untuk pengumpulan data selaras dengan objektif.

Menentukan saiz sampel

Menentukan saiz sampel adalah kompromi antara teori ketepatan hasil penyelidikan dan kemungkinan pelaksanaan praktikalnya dari segi kos mengumpul maklumat.

Paling sesuai kaedah berikut penentuan saiz sampel:

1. Kaedah pengiraan sewenang-wenangnya; dalam kes ini, saiz sampel ditentukan pada tahap 5-10% daripada populasi umum.

Kaedah pengiraan tradisional; melibatkan menjalankan tinjauan tahunan berkala, sebagai contoh, 500, 1000 atau 1500 responden.

Kaedah pengiraan statistik; adalah berdasarkan penentuan kebolehpercayaan statistik maklumat.

Kaedah pengiraan menggunakan nomogram.

Kaedah empirikal; dalam kes ini, sampel dianggap mencukupi apabila semua maklumat baharu hanya memperkenalkan perubahan kecil (yang boleh diabaikan) dalam hasil penyelidikan yang telah dikumpul.

Kaedah kos; berdasarkan jumlah perbelanjaan yang boleh dibelanjakan untuk menjalankan penyelidikan.

Kaedah statistik untuk mengira saiz sampel

Faktor berikut mempengaruhi saiz sampel statistik:

Ketersediaan maklumat tentang saiz populasi dan tahap kehomogenannya.

Ketepatan keputusan yang diperlukan, dikawal oleh nilai ralat keterwakilan maksimum yang dibenarkan dan nilai tahap keyakinan yang membuat kesimpulan tentang kebolehpercayaan hasil penyelidikan.

Ketersediaan maklumat tentang penunjuk purata populasi umum untuk ciri yang dikaji atau tentang selang variasi ciri (variance).

Kemungkinan kemasukan berulang unit populasi dalam sampel.

Apabila menentukan saiz sampel untuk populasi yang besar (apabila saiz sampel kurang daripada 5% populasi) formula berikut boleh digunakan:

a) persampelan berulang (jika mungkin untuk satu unit populasi umum dimasukkan ke dalam sampel semula) dengan saiz populasi umum yang tidak diketahui, tetapi pengedaran yang diketahui tanda terkawal:

di mana t- sisihan ternormal, yang ditentukan oleh tahap keyakinan yang dipilih (pada tahap keyakinan 95%. t= 1.96; pada tahap keyakinan 99%. t= 2,58); R - didapati variasi populasi umum, dalam % atau dalam saham; q= 100 - R; D - kesilapan yang dibenarkan, dalam% atau dalam saham;

b) persampelan berulang dengan varians diketahui bagi ciri yang sedang dikaji (o):

c) persampelan tidak berulang (dengan pengecualian kemungkinan kemasukan berulang unit populasi umum ke dalam sampel) dengan jumlah populasi umum yang diketahui dan taburan ciri terkawal yang diketahui:

di mana N- ;

d) persampelan tidak berulang dengan varians yang diketahui bagi ciri yang dikaji:

Sampel dianggap kecil jika saiznya melebihi 5% daripada populasi umum, yang mana saiz sampel boleh dilaraskan:

di mana P" - saiz sampel untuk populasi kecil, P - saiz sampel statistik, N- saiz populasi umum.

Pengiraan persampelan statistik dengan sisihan ternormal t= 2 dan ralat yang boleh diterima sebanyak 5% (lihat Jadual 4.2) menunjukkan bahawa untuk populasi yang besar saiz sampel boleh ditentukan dalam apa jua cara, kerana teknik praktikal yang digunakan cenderung untuk melebihkan saiz populasi yang dikaji.

Jadual 4.2 Kebergantungan saiz sampel pada saiz populasi*

Saiz penduduk
Saiz sampel

* dengan sisihan ternormal t= 2 dan ralat yang dibenarkan 5%.

Dari meja 4.2 adalah jelas bahawa apabila saiz populasi melebihi 5000, nilainya tidak menjejaskan saiz sampel, jadi formula boleh mengambil bentuk berikut (nilai 1/ N boleh diabaikan):

(4.6)

Sebagai contoh, daripada kajian lepas diketahui bahawa taburan jawapan kepada soalan yang diminati oleh penyelidik (sebagai contoh, tentang status pengguna) adalah 60% dan 40% (60% responden menjawab secara afirmatif kepada soalan tentang menggunakan produk dan 40% menjawab negatif). Bahagian sasaran responden dalam jumlah keseluruhan responden ialah 70%. Untuk lebih analisis terperinci anda perlu mendapat 100 jawapan positif. Untuk mendapatkan hasil ini, anda perlu meninjau 238 orang:

Oleh itu, jika tiada maklumat yang tepat tentang saiz dan ciri populasi (dengan syarat sekurang-kurangnya 5000), adalah memadai untuk memasukkan 400 wakilnya dalam sampel. Walau bagaimanapun, perlu diingatkan bahawa jika kita akan mengawal struktur sampel di sepanjang beberapa parameter, maka saiz sampel akan menjadi lebih besar. G. A. Churchill dalam karyanya "Penyelidikan Pemasaran" memberikan peraturan dalam hal ini: "Saiz sampel harus menyediakan sekurang-kurangnya 100 pemerhatian untuk setiap primer dan sekurang-kurangnya 20-50 pemerhatian untuk setiap komponen pengelasan sekunder"; Elaun juga mesti dibuat untuk kemungkinan individu responden yang termasuk dalam sampel mungkin tidak dapat dihubungi atau mungkin menolak untuk menyertai kajian.1

Bilangan responden yang perlu ditemu bual untuk mendapatkan bilangan jawapan positif yang diperlukan untuk soalan minat boleh dikira menggunakan formula:

di mana P - bilangan tindak balas positif yang diperlukan untuk analisis; Pj - perkadaran jawapan positif; R 2 - kongsi kumpulan sasaran, dikira sebagai produk semua bahagian responden yang memenuhi keperluan yang ditetapkan (umur, jantina, status pengguna, dsb.).

Menggunakan nomogram untuk mengira saiz sampel

Keinginan untuk memudahkan prosedur pengiraan saiz sampel membawa kepada penciptaan jadual, skala atau program yang memberi tumpuan kepada memastikan kebolehpercayaan statistik maklumat, tetapi tidak membebankan pengguna dengan pengetahuan tentang formula khas dari bidang statistik. Sebagai contoh, terdapat kalkulator pensampelan (www. shortway. to/few/calculator, htm), di laman web Gallup (www. gallup. ru) anda boleh mencari jadual yang menghubungkan penunjuk saiz sampel, pengedaran tindak balas dengan ralat standard (Jadual 4.3).

Jadual 4.3 Hubungan antara penunjuk saiz sampel dan taburan tindak balas dan ralat piawai

Agihan jawapan,			Saiz sampel
Agihan jawapan,

Nomogram ialah cara grafik untuk menentukan saiz sampel. Nomogram termasuk tiga skala (Rajah 4.4). Pada skala di sebelah kiri, penandaan penunjuk sisihan piawai atau pengagihan bahagian ciri ditetapkan. Pada skala yang betul, ketepatan pengukuran ditandakan dalam bentuk ralat yang boleh diterima (separuh selang) pada kebarangkalian keyakinan tertentu 95 atau 99%. Penandaan dibuat pada skala tengah sepadan dengan saiz sampel yang diperlukan. Tanda dibuat pada skala kanan dan kiri pada tahap nilai penunjuk yang dikehendaki (bahagian ciri dan ralat yang dibenarkan). Kedua-dua tanda ini disambungkan dengan pembaris; di persimpangan pembaris dengan skala tengah, tanda dibuat sepadan dengan jumlah sampel yang memenuhi kehendak penyelidik.

nasi. 4.4. Nomogram untuk menentukan saiz sampel (95% tahap keyakinan)"

4.5. Menentukan saiz sampel

Prosedur pelan persampelan termasuk penyelesaian berurutan bagi tiga tugas berikut:

Definisi objek kajian;

Menentukan struktur pensampelan;

Menentukan saiz sampel.

Biasanya, objek penyelidikan pemasaran ialah satu set objek pemerhatian, yang boleh menjadi pengguna, pekerja syarikat, perantara, dsb. Sekiranya populasi ini sangat kecil sehingga pasukan penyelidik mempunyai tenaga buruh, kewangan dan sumber masa yang diperlukan untuk menjalin hubungan dengan setiap elemennya, maka adalah mungkin untuk menjalankan kajian berterusan terhadap keseluruhan populasi. Dalam kes ini, setelah menentukan objek penyelidikan, anda boleh meneruskan ke prosedur seterusnya (memilih kaedah pengumpulan data, instrumen kajian dan kaedah komunikasi dengan penonton).

Walau bagaimanapun, dalam amalan, selalunya tidak mungkin atau dinasihatkan untuk menjalankan kajian menyeluruh terhadap keseluruhan populasi. Mungkin terdapat sebab berikut untuk ini:

Ketidakupayaan untuk menjalin hubungan dengan beberapa elemen keseluruhan;

Kos yang tidak munasabah tinggi untuk menjalankan kajian berterusan atau kehadiran sekatan kewangan yang tidak membenarkan menjalankan kajian lengkap;

Jangka masa yang singkat yang diperuntukkan untuk penyelidikan adalah disebabkan oleh kehilangan kaitan maklumat dari semasa ke semasa atau sebab lain dan tidak membenarkan pengumpulan, sistematisasi dan analisis data yang luas untuk keseluruhan populasi.

Oleh itu, populasi yang besar dan tersebar sering dikaji menggunakan sampel, yang, seperti yang diketahui, difahami sebagai sebahagian daripada populasi yang bertujuan untuk mewakili populasi secara keseluruhan.

Ketepatan sampel mencerminkan populasi secara keseluruhan bergantung pada struktur dan saiz sampel.

Terdapat dua pendekatan untuk reka bentuk persampelan- probabilistik dan deterministik.

Pendekatan kebarangkalian untuk reka bentuk persampelan mengandaikan bahawa mana-mana elemen populasi boleh dipilih dengan kebarangkalian tertentu (bukan sifar). wujud jenis lain sampel berdasarkan teori kebarangkalian (tipikal, bersarang, dll.). Yang paling mudah dan paling biasa dalam amalan ialah persampelan rawak mudah, di mana setiap elemen populasi mempunyai kebarangkalian yang sama untuk dipilih untuk penyelidikan.

Persampelan kebarangkalian adalah lebih tepat dan membolehkan penyelidik menilai tahap kebolehpercayaan data yang dikumpulnya, walaupun ia lebih kompleks dan lebih mahal daripada pensampelan deterministik.

Pendekatan deterministik kepada bingkai pensampelan mengandaikan bahawa pemilihan elemen populasi dibuat dengan kaedah sama ada berdasarkan pertimbangan kemudahan, atau keputusan penyelidik, atau kumpulan kontinjen.

atas sebab kemudahan, terdiri daripada memilih mana-mana elemen populasi berdasarkan kemudahan menjalin hubungan dengan mereka. Ketidaksempurnaan kaedah ini mungkin disebabkan oleh keterwakilan sampel yang terhasil yang rendah, kerana elemen populasi yang sesuai untuk penyelidik mungkin tidak cukup mewakili wakil populasi kerana pemilihannya yang tidak rawak dan tidak munasabah.

Walau bagaimanapun, sebaliknya, kesederhanaan, ekonomi dan kecekapan penyelidikan yang dijalankan oleh kaedah ini telah menjadikannya digunakan secara meluas dalam amalan dan, di atas semua, semasa penyelidikan awal yang bertujuan untuk menjelaskan masalah utama.

Kaedah persampelan berasaskan atas keputusan penyelidik, terdiri daripada memilih unsur-unsur penduduk, yang, pada pendapatnya, adalah wakil cirinya. Kaedah ini lebih maju daripada yang sebelumnya, kerana ia berdasarkan orientasi terhadap wakil ciri populasi yang dikaji, walaupun dipilih berdasarkan idea subjektif penyelidik mengenainya.

Kaedah persampelan berdasarkan piawaian kontingen, terdiri daripada memilih unsur-unsur ciri populasi sesuai dengan ciri-ciri populasi yang diperoleh sebelumnya secara keseluruhan. Ciri-ciri ini boleh diperolehi dengan menjalankan penyelidikan awal dan, tidak seperti kaedah sebelumnya, tidak subjektif. Oleh itu, kaedah ini lebih maju; ia membolehkan mendapatkan populasi sampel tidak kurang mewakili sampel kebarangkalian pada kos yang jauh lebih rendah untuk menjalankan tinjauan.

Setelah memilih struktur sampel (pendekatan kepada pembentukannya, jenis pensampelan kebarangkalian atau deterministik), penyelidik perlu menentukan isipadu, i.e. bilangan elemen dalam populasi sampel.

Saiz sampel menentukan kebolehpercayaan maklumat diperoleh hasil daripada penyelidikannya, serta kos yang diperlukan untuk menjalankan penyelidikan. Saiz sampel bergantung pada tahap kehomogenan atau kepelbagaian objek yang dikaji.

Lebih besar saiz sampel, lebih tinggi ketepatannya dan lebih tinggi kos menjalankan tinjauannya. Dengan pendekatan kebarangkalian kepada struktur sampel, volumnya boleh ditentukan menggunakan formula statistik yang terkenal, berdasarkan keperluan yang ditentukan untuk ketepatannya.

Dalam amalan, beberapa pendekatan digunakan untuk menentukan saiz sampel:

1. Pendekatan bebas berdasarkan aplikasi "rule of thumb". Sebagai contoh, ia diterima tanpa bukti bahawa untuk mendapatkan keputusan yang tepat, sampel mestilah 5% daripada populasi. Pendekatan ini mudah dan mudah untuk dilaksanakan, tetapi tidak mungkin untuk menentukan ketepatan keputusan yang diperolehi. Dengan populasi yang cukup besar, ia juga boleh menjadi agak mahal.

Saiz sampel boleh ditetapkan berdasarkan syarat tertentu yang telah dipersetujui. Sebagai contoh, pelanggan penyelidikan pemasaran tahu bahawa apabila mengkaji pendapat umum, sampel biasanya 1000-1200 orang, jadi dia mengesyorkan agar penyelidik berpegang pada angka ini. Jika penyelidikan tahunan dijalankan di pasaran tertentu, maka sampel yang sama saiz digunakan pada setiap tahun. Berbeza dengan pendekatan pertama, di sini, apabila menentukan saiz sampel, logik yang terkenal digunakan, yang, bagaimanapun, sangat terdedah.

Contohnya, semasa menjalankan kajian tertentu, ketepatan yang kurang mungkin diperlukan berbanding semasa mengkaji pendapat umum, dan saiz populasi mungkin berkali-kali lebih kecil daripada semasa mengkaji pendapat umum. Oleh itu, pendekatan ini tidak mengambil kira keadaan semasa dan boleh menjadi agak mahal.

Dalam sesetengah kes, kos menjalankan tinjauan digunakan sebagai hujah utama dalam menentukan saiz sampel. Oleh itu, belanjawan penyelidikan pemasaran memperuntukkan kos menjalankan tinjauan tertentu, yang tidak boleh melebihi. Jelas sekali, nilai maklumat yang diterima tidak diambil kira. Walau bagaimanapun, dalam beberapa kes, sampel kecil boleh memberikan hasil yang agak tepat.

Nampaknya munasabah untuk mempertimbangkan kos bukan dari segi mutlak, tetapi berkaitan dengan kegunaan maklumat yang diperoleh daripada tinjauan yang dijalankan. Pelanggan dan penyelidik harus mempertimbangkan saiz sampel yang berbeza dan kaedah pengumpulan data, kos dan faktor lain

2. Saiz sampel daripada tahap selang keyakinan ralat yang dibenarkan, yang, seperti yang telah disebutkan, ditentukan oleh ketepatan yang sesuai untuk generalisasi akhir: daripada meningkat kepada indikatif. Walau bagaimanapun, ini merujuk kepada apa yang dipanggil ralat rawak yang dikaitkan dengan sifat sebarang ralat statistik. Ia dikira sebagai ralat dalam keterwakilan sampel kebarangkalian.

V.I. Paniotto menyediakan pengiraan berikut untuk sampel yang mewakili dengan andaian ralat 5 peratus (Jadual 4.2).

Jadual 4.2

Contoh jadual pengiraan

Bagi populasi lebih daripada 100,000, saiz sampel ialah 400 unit. Jika kita mengingati populasi umum 5 ribu atau lebih, maka, mengikut pengiraan pengarang yang sama, kita boleh menunjukkan magnitud ralat pensampelan sebenar bergantung pada jumlahnya, yang sangat penting bagi kita, dengan mengingati bahawa magnitud ralat yang dibenarkan bergantung kepada kajian tujuan dan tidak perlu menghampiri tahap 5 peratus.

Jadual 4.3

Jadual pengiraan

Bersama-sama dengan ralat rawak, ralat sistematik adalah mungkin. Mereka bergantung pada organisasi tinjauan sampel. Ini adalah pelbagai bias pensampelan terhadap salah satu kutub parameter sampel.

3. Saiz sampel berdasarkan analisis statistik . Pendekatan ini adalah berdasarkan penentuan saiz sampel minimum berdasarkan keperluan tertentu untuk kebolehpercayaan dan kesahihan keputusan yang diperolehi. Ia juga digunakan apabila menganalisis hasil yang diperoleh untuk subkumpulan individu yang dibentuk dalam sampel mengikut jantina, umur, tahap pendidikan, dsb. Keperluan untuk kebolehpercayaan dan ketepatan keputusan untuk subkumpulan individu menentukan keperluan tertentu untuk saiz sampel secara keseluruhan.

Pendekatan yang paling berdasarkan teori dan betul untuk menentukan saiz sampel adalah berdasarkan pengiraan selang yang boleh dipercayai. Konsep variasi mencirikan jumlah ketidaksamaan (similarity) jawapan responden terhadap soalan tertentu. Dalam erti kata yang lebih ketat, variasi dalam nilai ciri dalam agregat adalah perbezaan nilainya di antara unit yang berbeza bagi populasi tertentu pada tempoh atau titik masa yang sama. Hasil maklum balas tinjauan biasanya dibentangkan dalam bentuk keluk taburan (Rajah 4.1). Apabila persamaan jawapan adalah tinggi, kita bercakap tentang variasi rendah (lengkung pengedaran sempit), dan apabila persamaan jawapan adalah rendah, kita bercakap tentang variasi tinggi (lengkung pengedaran luas).

Sebagai ukuran variasi, sisihan piawai biasanya diambil, yang mencirikan purata jarak dari penilaian purata setiap jawapan responden kepada soalan tertentu.

Variasi kecil

Variasi Tinggi

nasi. 4.1. Keluk variasi dan pengedaran

Memandangkan semua keputusan pemasaran dibuat dalam keadaan ketidakpastian, adalah dinasihatkan untuk mengambil kira keadaan ini semasa menentukan saiz sampel. Oleh kerana penentuan nilai yang dikaji untuk populasi secara sempit dijalankan berdasarkan statistik sampel, adalah perlu untuk mewujudkan julat (selang keyakinan) di mana anggaran untuk populasi secara keseluruhan dijangka jatuh, dan kesilapan dalam penentuan mereka.

Selang keyakinan ialah julat yang titik ekstremnya sepadan dengan peratusan tertentu jawapan tertentu kepada soalan. Selang keyakinan berkait rapat dengan sisihan piawai bagi ciri yang sedang dikaji dalam populasi: semakin besar, semakin luas selang keyakinan mestilah untuk memasukkan peratusan respons tertentu.

Selang keyakinan sama ada 95% atau 99% adalah standard semasa menjalankan penyelidikan pasaran. Tiada syarikat menjalankan penyelidikan pemasaran menggunakan berbilang sampel. DAN statistik matematik memungkinkan untuk mendapatkan beberapa maklumat tentang taburan pensampelan, hanya mempunyai data tentang variasi sampel tunggal.

Penunjuk sejauh mana anggaran benar untuk populasi secara keseluruhan berbeza daripada anggaran yang dijangkakan untuk sampel biasa ialah ralat kuasa dua min. Lebih-lebih lagi, lebih besar saiz sampel, lebih kecil ralat. Nilai variasi yang tinggi menyebabkan nilai ralat yang tinggi dan begitu juga sebaliknya.

Apabila terdapat hanya dua kemungkinan jawapan kepada soalan yang diberikan, dinyatakan sebagai peratusan (ukuran peratusan digunakan), saiz sampel ditentukan oleh formula berikut:

di mana n ialah saiz sampel; z – sisihan normal, ditentukan berdasarkan tahap keyakinan yang dipilih; p – variasi didapati untuk sampel; g – (100-r); e – kesilapan yang dibenarkan.

Apabila menentukan indeks variasi untuk populasi tertentu, pertama sekali adalah dinasihatkan untuk menjalankan analisis kualitatif awal populasi yang dikaji, pertama sekali, untuk mewujudkan persamaan unit populasi dalam demografi, sosial dan lain-lain aspek kepentingan kepada penyelidik. Adalah mungkin untuk menjalankan kajian rintis, menggunakan hasil kajian serupa yang dijalankan pada masa lalu. Apabila menggunakan ukuran peratusan kebolehubahan, ia diambil kira bahawa kebolehubahan maksimum dicapai untuk p = 50%, iaitu kes terburuk. Selain itu, penunjuk ini tidak menjejaskan saiz sampel secara radikal. Pendapat pelanggan penyelidik mengenai saiz sampel juga diambil kira.

Adalah mungkin untuk menentukan saiz sampel menggunakan min dan bukannya peratusan.

di mana s ialah sisihan piawai.

Dalam amalan, jika sampel baru dibentuk dan tinjauan serupa belum dijalankan, maka s tidak diketahui. Dalam kes ini, adalah dinasihatkan untuk menetapkan ralat e dalam pecahan sisihan piawai. Formula pengiraan diubah dan mengambil bentuk berikut:

di mana .

Di atas terdapat perbincangan tentang agregat dengan saiz yang sangat besar. Walau bagaimanapun, dalam beberapa kes, agregat tidak besar. Lazimnya, jika sampel kurang daripada lima peratus daripada populasi, maka populasi dianggap besar dan pengiraan dijalankan mengikut peraturan di atas. Jika saiz sampel melebihi 5% daripada populasi, maka yang terakhir dianggap kecil dan faktor pembetulan dimasukkan ke dalam formula di atas.

Saiz sampel dalam kes ini ditentukan seperti berikut:

Menentukan Saiz Sampel Kebarangkalian

Kelantangan pensampelan kebarangkalian ditentukan menggunakan formula khas, bergantung kepada yang diberikan kebolehpercayaan, ketepatan penyelidikan dan kelainan Populasi umum.

Asas teori untuk kemungkinan menggunakan tinjauan sampel untuk menilai ciri populasi adalah teorem had pusat.

Teorem had pusat menyatakan: untuk sampel rawak mudah isipadu n, diasingkan daripada populasi umum dengan min sebenar μ Dan serakan σ2, Untuk besar n taburan sampel min mendekati normal dengan pusat sama dengan min sebenar dan varians sama dengan nisbah varians populasi kepada saiz sampel, iaitu:

Teorem adalah benar untuk sebarang taburan kekerapan dalam populasi, tetapi semakin hampir taburan dalam populasi kepada normal, semakin kecil saiz sampel yang diperlukan untuk mencapai kebolehpercayaan dan ketepatan yang setara bagi kajian.

Dalam amalan, penyelidik hanya membentuk satu sampel daripada populasi dan perlu mengetahui saiz sampel yang sepatutnya untuk mengekalkan parameter kebolehpercayaan dan ketepatan yang ditentukan. Formula untuk menentukan saiz sampel apabila menilai purata boleh diperoleh berdasarkan peruntukan teorem had pusat, dan mempunyai bentuk:

n- saiz sampel yang diperlukan;

z- bilangan selang yang mencirikan keperluan untuk kebolehpercayaan kajian;

H- nilai ketepatan penyelidikan yang diperlukan;

σ2- penyebaran penduduk umum.

Mari kita lihat lebih dekat pada parameter di sebelah kanan persamaan.

Kredibiliti mencirikan kebarangkalian bahawa sampel rawak tertentu menggambarkan dengan secukupnya ciri-ciri populasi.

Keyakinan 99% bermakna dalam 99 sampel daripada 100, min populasi akan berada dalam selang min yang diperoleh hasil daripada kajian sampel.

Contoh . Sebagai contoh, tiga kajian sampel bebas tentang tahap pendapatan penduduk di wilayah tertentu telah dijalankan. Data berikut pada tahap pendapatan purata diperolehi: 300 10 UAH, 310 10 UAH, 305 10 UAH, nilai purata sebenar ialah 302 UAH.

Seperti yang dapat kita lihat, nilai purata sebenar dimasukkan dalam ketiga-tiga selang.

Dengan kebolehpercayaan 99% dan ketepatan yang ditetapkan sebanyak 10 UAH. dalam 99 sampel daripada seratus, purata sampel akan berada dalam julat dari 292 hingga 312 UAH. Dalam satu kes daripada seratus, kami akan mendapat keputusan sama ada di bawah 292 UAH atau lebih daripada 312 UAH. Hasil kajian sedemikian akan menjadi tidak boleh dipercayai, kerana purata populasi umum tidak akan dimasukkan ke dalam koridor nilai purata yang diperoleh hasil daripada kajian sampel.

Dalam formula yang dibentangkan, kebolehpercayaan dicirikan oleh nilai z, yang ditentukan daripada jadual taburan z bergantung pada kebolehpercayaan yang ditentukan sebagai peratusan.

Kami membentangkan surat-menyurat hanya untuk beberapa kebarangkalian biasa: 68.26% (z=1), 95.45% (z=2), 99.73% (z=3).

taburan-z – Taburan normal piawai (Z).

nilai z ialah bilangan ralat piawai yang mana titik dialihkan daripada min.

Daripada jadual untuk mengira kebarangkalian pukulan pembolehubah rawak ke dalam julat yang ditanda (berlorek).

Anda boleh menggunakan formula EXCEL berikut:

2*NORMSDIST(z)-1

menggantikan nilai z yang diperlukan ke dalamnya. Sebagai contoh:

Ketepatan ditentukan oleh pengkaji berdasarkan tugasan tertentu.

Jika nilai yang dikaji adalah mutlak, maka ketepatan harus diwakili sebagai nilai mutlak dan bukan nilai relatif. Apabila menentukan peratusan (saham), ketepatan ditentukan sebagai peratusan.

Apabila menentukan ketepatan, penyelidik mesti mempertimbangkan penyelidikan yang mungkin dinamik penunjuk.

Contoh . Sebagai contoh, jika dengan ketepatan 10 UAH. Hasil kajian tahun lepas menentukan pendapatan purata pada 300 UAH, dan tahun ini ia adalah 305 UAH. Adalah tidak betul untuk membuat kesimpulan tentang peningkatan pendapatan, kerana magnitud perubahan adalah dalam selang ketepatan yang ditentukan (kurang daripada 10 UAH).

Perkara yang paling sukar apabila mengira saiz sampel ialah menentukan kelainan . Apabila menganggarkan purata, dua kes utama timbul:

1) varians populasi diketahui berdasarkan kajian lepas;

2) varians populasi tidak diketahui.

Kemungkinan penggunaan varians yang diperoleh daripada kajian lepas, adalah berdasarkan fakta bahawa parameter populasi ini lebih inersia daripada purata. Dalam erti kata lain, ia berubah dengan lebih perlahan dan, oleh itu, jika anda, sebagai contoh, mengkaji tahap pendapatan penduduk setiap tahun, anda boleh menggunakan jumlah varians yang diperoleh dalam kajian tahun lepas.

Contoh pengiraan saiz sampel.

Pertama, saiz sampel dipengaruhi oleh tahap keyakinan α, yang digunakan untuk menentukan menggunakan jadual khas sisihan ternormal z. Sebagai contoh, untuk kes α = 99%, daripada jadual kita dapati z = 2.58.

Kedua, ia mempengaruhi aras (pekali) variasi . Mari kita ambil, sebagai contoh, pekali variasi = 50%.

Ketiga, saiz sampel dipengaruhi oleh yang diperlukan ketepatan (ralat yang dibenarkan)

Jika Anda tidak tahu apa-apa tentang tahap umum, maka untuk menganggarkan tahap serakan adalah mungkin untuk digunakan peraturan tiga sigma . Dengan taburan normal, 99% daripada parameter ciri harus berada dalam selang waktu tambah atau tolak tiga sigma daripada purata sebenar. Semasa menjalankan penyelidikan, anda harus anggaran atas biasa ( b) dan lebih rendah (a ) aras parameter, selang antaranya ialah enam sigma. Nilai sigma ialah perbezaan dalam tahap parameter dibahagikan dengan 6.

Penyerakan atau variasi var:

di mana b, a– nilai atas dan bawah parameter, masing-masing.

Sigma ialah punca purata sisihan kuasa dua (sisihan piawai):

Contoh . Contohnya, semasa meneliti peringkat pendapatan nilai parameter yang lebih rendah diambil pada tahap 0 UAH, dan nilai atas, katakan, pada tahap 6000 UAH. Dalam kes ini nilai punca purata sisihan kuasa dua (standard). akan menjadi: (6000-0)/6=1000.

Perlu diingatkan bahawa jika penyelidik benar-benar bersedia untuk menjalankan penyelidikan, maka menentukan tipikal yang lebih rendah dan had atas parameter tidak begitu sukar.

Apabila bekerja dengan skala pemasaran, jumlah varians yang diterima bergantung pada bilangan titik skala dan jenis taburan kekerapan.

Kes terburuk dalam penyelidikan pemasaran (bersamaan dengan varians maksimum) dipertimbangkan pengedaran seragam tindak balas antara titik pada skala. Yang terbaik adalah normal dengan kekerapan maksimum jawapan di tengah-tengah skala.

Jadual 5.1. Julat serakan biasa bergantung pada bilangan titik skala

Tahap bawah julat sepadan dengan taburan normal frekuensi, bahagian atas - seragam.

Formula untuk menentukan saiz sampel yang dibincangkan di atas digunakan apabila menganggar purata.

Jika penyelidik bekerja dengan peratusan atau saham, maka formula diubah menjadi bentuk berikut:

di mana p ialah nisbah orang yang menjawab soalan secara positif atau negatif.

Apabila bekerja dengan peratusan, gantikan 100 dan bukannya satu dalam formula.

Jelas sekali, nilai maksimum pengganda (1-р)р berlaku dengan perkadaran yang sama bagi jawapan positif dan negatif dan ialah 0.25 apabila bekerja dengan saham, dan 2500 apabila bekerja dengan peratusan. Walau bagaimanapun, keputusan apabila bekerja dengan saham atau peratusan akan menjadi setara, kerana nilai berangka bagi kuasa dua ketepatan dalam penyebut juga akan berbeza dengan faktor 10,000.

Kecuali apabila faktor pelarasan populasi akhir digunakan. Ini mungkin kelihatan luar biasa, tetapi jika anda memikirkannya, kenyataan ini masuk akal. Sebagai contoh, jika ciri-ciri yang dikaji bagi semua elemen populasi adalah sama, maka sampel yang terdiri daripada satu elemen cukup memadai untuk mengira purata. Ini juga benar jika populasi terdiri daripada 50, 500, 5000 atau 50000 elemen.

Pada masa yang sama, kebolehubahan dalam ciri populasi secara langsung mempengaruhi saiz sampel. Kebolehubahan ini diambil kira semasa mengira saiz sampel menggunakan varians populasi σ2 atau varians sampel s2.

Contoh (N.B. Safronova, I.E. Korneeva). Mari kita mengira sampel untuk kajian pemasaran mengenai kesedaran pengguna terhadap jenama. Nilai kebarangkalian P = 0.954, ralat maksimum yang dibenarkan kajian ini tidak boleh melebihi 5%. Berapakah bilangan responden yang perlu dikaji untuk menyelesaikan masalah ini menggunakan pensampelan semula rawak, memandangkan tiada data mengenai taburan ciri?

Penyelesaian . Oleh kerana bahagian atribut tidak diketahui, mari kita anggap bahawa 50% pengguna tahu tanda dagangan, dan 50% - tidak. Kami menggunakan formula untuk mengira sampel dengan mengambil kira bahagian ciri:

= =400 orang

Kaedah yang lebih canggih untuk mengira saiz sampel diperlukan apabila penjadualan dua atau tiga kali ganda digunakan dalam proses analisis. Ini disebabkan oleh fakta bahawa kebolehpercayaan dan ketepatan yang dicapai dengan saiz sampel yang dikira untuk sampel secara keseluruhan tidak dicapai untuk bahagian individunya di mana sampel dibahagikan semasa proses penjadualan.

Contoh . Sebagai contoh, apabila menentukan tahap pendapatan purata populasi, saiz sampel tertentu mungkin mencukupi, tetapi ia tidak mencukupi untuk menentukan tahap pendapatan purata lelaki dan wanita (dengan ketepatan dan kebolehpercayaan yang diberikan). Ini mudah difahami kerana bilangan lelaki dan wanita yang mengambil bahagian dalam tinjauan secara berasingan adalah kurang daripada bilangan semua responden. Mengetahui, bagaimanapun, nisbah lelaki dan wanita, adalah mudah untuk menentukan dengan ketepatan apa tahap pendapatan purata dikira untuk setiap kumpulan yang dipertimbangkan.

Penentuan saiz sampel: purata

Kaedah yang digunakan untuk mencipta selang keyakinan boleh diubah suai untuk menentukan saiz sampel berdasarkan selang keyakinan yang dikehendaki. Katakan anda ingin menganggarkan perbelanjaan gedung serbaneka bulanan isi rumah dengan lebih tepat supaya hasilnya berada dalam lingkungan ±$5.00 daripada purata populasi sebenar. Apakah saiz sampel yang sepatutnya? Dalam jadual 12.2 menyediakan senarai tindakan yang perlu anda lakukan.

1. Tentukan tahap ketepatan. Ini adalah perbezaan maksimum yang dibenarkan (D) antara min sampel dan min populasi. Dalam contoh kita D=±$5.00.

2. Nyatakan tahap keyakinan. Andaikan tahap keyakinan yang diingini ialah 95%.

3. Tentukan nilai r yang dikaitkan dengan tahap keyakinan tertentu menggunakan jadual. 2 dalam Lampiran "Jadual Statistik". Pada tahap keyakinan 95%, kebarangkalian bahawa min populasi akan berada di luar selang satu sisi ialah 0.025 (0.05/2). Nilai r yang sepadan ialah 1.96.

4. Tentukan sisihan piawai bagi min populasi. Ia boleh diperoleh daripada sumber sekunder atau dikira dengan menjalankan kajian rintis. Selain itu, sisihan piawai boleh ditetapkan berdasarkan pendapat penyelidik. Sebagai contoh, julat pembolehubah taburan normal adalah lebih kurang enam sisihan piawai(tiga ke kiri dan kanan purata). Oleh itu, sisihan piawai boleh dikira dengan membahagikan nilai keseluruhan julat dengan 6. Pengkaji selalunya boleh menentukan saiz julat berdasarkan pemahamannya sendiri tentang fenomena yang dianalisis.

5. Tentukan saiz sampel menggunakan ralat piawai formula min:

Dalam contoh kita

(dibundarkan kepada nombor bulat terdekat).

sisihan piawai sampel 5 ialah 50.00. Maka selang keyakinan yang diperbetulkan ialah

Ambil perhatian bahawa selang keyakinan yang terhasil adalah lebih sempit daripada jangkaan. Ini kerana sisihan piawai populasi dinaikkan berdasarkan ciri sampel.

8. Kadangkala ketepatan ditakrifkan dalam istilah relatif dan bukannya mutlak. Dengan kata lain, mungkin diketahui bahawa hasil pengiraan harus tambah atau tolak R% daripada purata. Maksudnya begitu D = rm.

Dalam kes ini, saiz sampel boleh ditentukan sebagai

Saiz penduduk N tidak menjejaskan saiz sampel secara langsung melainkan faktor pelarasan populasi akhir digunakan. Ini mungkin kelihatan luar biasa, tetapi jika anda memikirkannya, kenyataan ini masuk akal. Sebagai contoh, jika ciri-ciri semua elemen dalam populasi yang dikaji adalah sama, maka sampel yang terdiri daripada satu elemen adalah mencukupi untuk mengira purata. Ini juga benar jika populasi terdiri daripada 50,500,5000 atau 50000 elemen. Pada masa yang sama, kebolehubahan dalam ciri populasi secara langsung mempengaruhi saiz sampel. Kebolehubahan ini diambil kira semasa mengira saiz sampel menggunakan varians populasi s2 atau varians sampel s2.

Jumlah objek pemerhatian (orang, isi rumah, perusahaan, penempatan, dll.) Dengan set ciri tertentu (jantina, umur, pendapatan, bilangan, perolehan, dll.), terhad dalam ruang dan masa. Contoh populasi

Semua penduduk Moscow (10.6 juta orang mengikut banci 2002)
Lelaki Muscovite (4.9 juta orang mengikut banci 2002)
Entiti undang-undang Rusia (2.2 juta pada awal tahun 2005)
Kedai runcit menjual produk makanan (20 ribu pada awal 2008), dsb.

Sampel (Sampel Populasi)

Sebahagian daripada populasi yang dipilih untuk kajian untuk membuat kesimpulan tentang keseluruhan populasi. Agar kesimpulan yang diperoleh dengan mengkaji sampel dapat diperluaskan kepada keseluruhan populasi, sampel mestilah mempunyai sifat keterwakilan.

Kewakilan sampel

Sifat sampel untuk mencerminkan populasi dengan betul. Sampel yang sama boleh mewakili dan tidak mewakili untuk populasi yang berbeza.
Contoh:

Sampel yang terdiri sepenuhnya daripada warga Muscovite yang memiliki kereta tidak mewakili keseluruhan penduduk Moscow.
Sampel perusahaan Rusia dengan sehingga 100 pekerja tidak mewakili semua perusahaan di Rusia.
Sampel Muscovite yang membeli-belah di pasar tidak mewakili gelagat pembelian semua Muscovite.

Pada masa yang sama, sampel ini (tertakluk kepada syarat lain) dengan sempurna boleh mewakili Muscovite yang merupakan pemilik kereta kecil dan sederhana. perusahaan Rusia dan pembeli membeli-belah di pasar, masing-masing.
Adalah penting untuk memahami bahawa keterwakilan sampel dan ralat pensampelan adalah fenomena yang berbeza. Kewakilan, tidak seperti ralat, tidak bergantung dalam apa cara sekalipun pada saiz sampel.
Contoh:
Tidak kira berapa banyak kami meningkatkan bilangan Muscovite yang merupakan pemilik kereta yang dikaji, kami tidak akan dapat mewakili semua Muscovite dengan sampel ini.

Ralat pensampelan (selang keyakinan)

Sisihan keputusan yang diperoleh menggunakan pemerhatian sampel daripada data sebenar populasi umum.
Terdapat dua jenis ralat pensampelan - statistik dan sistematik. Ralat statistik bergantung pada saiz sampel. Semakin besar saiz sampel, semakin rendah ia.
Contoh:
Untuk sampel rawak mudah sebanyak 400 unit, ralat statistik maksimum (dengan tahap keyakinan 95%) ialah 5%, untuk sampel 600 unit - 4%, untuk sampel 1100 unit - 3% Biasanya, apabila mereka bercakap tentang pensampelan ralat, ia bermaksud ralat statistik.
Kesilapan sistematik bergantung kepada pelbagai faktor yang sentiasa mempengaruhi kajian dan berat sebelah keputusan kajian ke arah tertentu.
Contoh:

Menggunakan mana-mana sampel kebarangkalian akan memandang rendah bahagian orang berpendapatan tinggi yang menjalani gaya hidup aktif. Ini berlaku kerana fakta bahawa lebih sukar untuk mencari orang sedemikian di mana-mana tempat tertentu (contohnya, di rumah).
Masalah responden yang enggan menjawab soalan (bahagian "penolakan" di Moscow, untuk tinjauan yang berbeza, berkisar antara 50% hingga 80%)

Dalam sesetengah kes, apabila pengedaran sebenar diketahui, ralat sistematik boleh diratakan dengan memperkenalkan kuota atau menimbang semula data, tetapi dalam kebanyakan kajian sebenar, ia boleh menjadi agak bermasalah untuk menganggarkannya.

Jenis sampel

Sampel dibahagikan kepada dua jenis:

kebarangkalian
bukan kebarangkalian

1. Sampel kebarangkalian
1.1 Persampelan rawak (persampelan rawak mudah)
Sampel sedemikian menganggap kehomogenan populasi, kebarangkalian ketersediaan semua elemen yang sama, dan ketersediaan senarai lengkap semua elemen. Apabila memilih elemen, sebagai peraturan, jadual nombor rawak digunakan.
1.2 Persampelan mekanikal (sistematik).
Jenis sampel rawak, dipesan mengikut beberapa ciri (urutan abjad, nombor telefon, tarikh lahir, dsb.). Elemen pertama dipilih secara rawak, kemudian, dengan langkah 'n', setiap elemen 'k' dipilih. Saiz populasi, dalam kes ini – N=n*k
1.3 Berstrata (berzon)
Ia digunakan dalam kes heterogeniti populasi. Penduduk umum dibahagikan kepada kumpulan (strata). Dalam setiap lapisan, pemilihan dijalankan secara rawak atau mekanikal.
1.4 Persampelan bersiri (kluster atau kluster).
Dalam persampelan bersiri, unit pemilihan bukanlah objek itu sendiri, tetapi kumpulan (kelompok atau sarang). Kumpulan dipilih secara rawak. Objek dalam kumpulan diperiksa secara pukal.

2. Sampel bukan kebarangkalian
Pemilihan dalam sampel sedemikian dilakukan bukan mengikut prinsip rawak, tetapi mengikut kriteria subjektif - ketersediaan, tipikal, perwakilan yang sama, dll.
2.1. Persampelan kuota
Pada mulanya, beberapa kumpulan objek dikenal pasti (contohnya, lelaki berumur 20-30 tahun, 31-45 tahun dan 46-60 tahun; orang yang berpendapatan sehingga 30 ribu rubel, dengan pendapatan dari 30 hingga 60 ribu rubel dan dengan pendapatan melebihi 60 ribu rubel ) Bagi setiap kumpulan, bilangan objek yang mesti diperiksa ditentukan. Bilangan objek yang sepatutnya termasuk dalam setiap kumpulan paling kerap ditetapkan sama ada mengikut nisbah bahagian kumpulan yang diketahui sebelum ini dalam populasi umum, atau sama untuk setiap kumpulan. Dalam kumpulan, objek dipilih secara rawak. Pensampelan kuota digunakan agak kerap.
2.2. Kaedah bola salji
Sampel dibina seperti berikut. Setiap responden, bermula dengan yang pertama, diminta untuk mendapatkan maklumat hubungan rakan, rakan sekerja, kenalannya yang sesuai dengan syarat pemilihan dan boleh mengambil bahagian dalam kajian. Oleh itu, dengan pengecualian langkah pertama, sampel dibentuk dengan penyertaan objek kajian itu sendiri. Kaedah ini sering digunakan apabila perlu mencari dan menemu bual kumpulan responden yang sukar dijangkau (contohnya, responden yang berpendapatan tinggi, responden dalam kumpulan profesional yang sama, responden yang mempunyai hobi/minat yang sama, dsb.)
2.3 Persampelan spontan
Responden yang paling mudah diakses ditinjau. Contoh biasa sampel spontan - dalam surat khabar/majalah, diberikan kepada responden untuk dilengkapkan sendiri, kebanyakan tinjauan dalam talian. Saiz dan komposisi sampel spontan tidak diketahui terlebih dahulu, dan hanya ditentukan oleh satu parameter - aktiviti responden.
2.4 Contoh kes biasa
Unit populasi umum yang mempunyai nilai purata (tipikal) ciri dipilih. Ini menimbulkan masalah memilih ciri dan menentukan nilai tipikalnya.