У дома Зъболечение Определяне на размера на извадката. Размер на извадката - извадков метод на социологическо изследване

Зъболечение

Определяне на размера на извадката. Размер на извадката - извадков метод на социологическо изследване

Изчисляване на размера на извадката

От всички въпроси, задавани на известните изследователи на Галъп, най-популярният е този: Как можете да прецените какво мислят 250 милиона американци, след като интервюирате 1000 души?

За да се отговори на този въпрос, е необходимо да се спомене не само високата квалификация и богат практически опит на служителите, но и тяхното използване на статистика и математика. Ако методите на проучването не се основават на науката, резултатите може да са подвеждащи.

В статистиката се приема следното разграничаване на размера на извадката. Размерът на извадката, достатъчен за премахване на случайността и получаване на статистически характеристики с нормален характер, е 30. Извадка с този размер се нарича малъкЕстеството на разпределението на стойностите на атрибутите в малки проби се доближава до нормалното, тъй като броят на тестовете се увеличава. Минималният размер на извадката, който позволява да се получат средни стойности на характеристика с индикация за вероятности за доверие, е 5. Пробите от този размер се наричат ултрамалък.Разпределението на стойностите на атрибутите в такива проби се характеризира с разпределението на Student. Но най-често в социологията те работят с много по-голям размер на извадката.

Когато планирате извадково проучване, идва момент, когато трябва да решите колко хора да интервюирате, т.е. какъв трябва да бъде размерът на извадката? Това решение е изключително важно, тъй като твърде голямата проба ще доведе до ненужни разходи, а твърде малката ще намали качеството на резултатите.

Размер на извадката- общият брой единици за наблюдение, включени в извадката.

Тъй като извадковата популация е част население, избран с помощта на специални методи, - важно е тази част да не изкривява идеята за цялото, т.е. го представляваше. Социолозите, които често провеждат емпирични изследвания, постоянно се занимават с въпроса колко хора трябва да бъдат интервюирани, за да получат надеждна информация? Институтът Gallup в САЩ провежда редовни проучвания на национална извадка от 1,5 хиляди души и постига удивителна точност (грешката на извадката варира от 1 до 1,5%). Социо-експресният център на Института по социология на Руската академия на науките провежда изследване върху извадка от 2 хиляди души, като грешката на извадката не надвишава 3% 31 .

Експертите смятат, че най-добрата извадка не е непременно голяма. Разбира се, колкото по-голям е размерът на извадката, толкова по-висока е точността на нейните резултати. Въпреки това, дори огромна извадка не гарантира успех, ако популацията е „слабо смесена“, т.е. е разнороден. Хомогеннаразглежда се набор, в който контролираната характеристика е разпределена равномерно и не образува празнини или кондензация. В този случай, като интервюирате няколко души, можете да получите точна информация за разпространението на тази характеристика в общата популация.

По този начин представителността на данните се влияе не от количествените характеристики на извадката (нейния обем), а от качествените характеристики на генералната съвкупност - степента на нейната хомогенност.

В социологията все още не е измислена единна и ясна формула, с помощта на която може да се изчисли оптималният размер на извадката - такава формула просто не съществува в природата. И това се обяснява много просто. Факт е, че определянето на размера на извадката не е толкова статистически проблем, колкото проблем по същество. С други думи, размерът на извадката зависи от много фактори, включително цели и задачи, теоретичен модел, хипотези и методи на изследване, степента на хомогенност на популацията и накрая, необходимата точност на получената информация.

Винаги трябва да помним, че всеки процент увеличение на точността на информацията в едно изследване води до рязко увеличениеразходи за изпълнението му. Известният институт Gallup, който провежда проучвания в Съединените щати в продължение на много десетилетия, установи, че при национална извадка от 100 души грешката на извадката ще бъде в рамките на ±11%; 200 души - ±8%; 400 - ±6%; 600 - ±5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 души - ±2%. Ето защо той провежда национални проучвания в САЩ на извадка от 1500-2000 души. Както се вижда, той предпочита 1% увеличение на грешката пред многократно увеличение на цената на изследването.

Практиката показва, че за много социолози обосновката на размера на извадката е пречка, въпреки значителното количество литература, посветена на методите на извадката и по-специално на изчисляването на размера на извадката. Има няколко причини: 1) недостиг специализирана литературапо периферията; 2) липса на време за самообразование; 3) невъзможност за използване на математически апарат. В тази връзка е необходимо да се очертае стратегията и тактиката за обосноваване на размера на извадката без сложни математически формули.

Процедурата за изчисляване на размера на извадката е верига от безкрайни компромиси между желанието за точност и ограничените ресурси, липсата на време и непълната информация за изследваното явление. В същото време това е наука и изкуство, чието познание е достъпно за всеки човек. За целта обаче трябва да знаете стратегиите за изчисляване на размера на извадката (предварително изчисление, последователни и комбинирани стратегии), както и факторите, влияещи върху размера на извадката (размер на популацията, вариации в отговорите на респондентите, точност на оценката, характер на очакваното разпределение на отговорите, метод на изследване, процедура на обработка) .

Стратегия за предварително изчислениее, че размерът на извадката се определя преди провеждането на основното изследване. В най-простия случай можете да използвате вече натрупания опит, например на Института Галъп, който използва размер на извадката от приблизително 1500-2000 души. За средно вътрешно проучване размерът на извадката е приблизително 400-600 души.

За да изчислите размера на произволна извадка, трябва да знаете желаната точност на оценката, големината на риска от получения отговор и степента на променливост на отговора. Традиционно точността на оценката се приема за 5%, а стойността на риска като 0,95. С други думи, ако според извадково проучване 60% от респондентите са доволни от работата си, тогава може да се твърди, че в общата популация делът на доволните ще бъде от 55 до 65% в 95% от случаите, и в 5% от случаите този дял може да бъде извън този интервал. При допускане на 5% точност и стойност на риска от 0,95, размерът на извадката ще бъде както следва (Таблица 2.4).

Таблица 2.4 Зависимост на размера на извадката от размера на популацията

Резултатите, показани в табл. 2.4, свидетелстват срещу общоприетото погрешно схващане, че размерът на извадката е строго фиксиран процент от генералната съвкупност, равен на 10. Всъщност тази стойност не е константа, а променлива, която се променя при конкретни условия. Размерът на извадката също зависи от въпросите, използвани във въпросника. Числата в таблицата. 2.4 са валидни само за един случай - когато става въпрос за дихотомичен въпрос, за който максималното разпространение на отговорите е 50 на 50%. Без предварителна информация за разпространението на оценките, социологът като че ли се застрахова предварително и смята, че това разпространение ще бъде 50 на 50%. Ако такава информация е налична, тогава размерът на извадката ще бъде както следва.

Таблица 2.5Зависимост на размера на извадката от разпределението на дихотомния отговор

В табл Фигура 2.5 показва разпределението на отговорите на качествени въпроси. Изчисляване на размера на извадката за количествени въпроси, които включват възраст и заплата", се основава на коефициента на вариация (Таблица 2.6), който показва какъв процент е стандартното отклонение от средната аритметична стойност и ви позволява да сравнявате всякакви характеристики помежду си (по отношение на степента на вариация).

Таблица 2.6Зависимост на размера на извадката от коефициента на вариация

Коефициентът на вариация, %

Размер на извадката

Ако се изследват условията на труд, взаимоотношенията в екипа, заплащането и др. при използване на петчленна скала коефициентът на вариация тук варира от 27 до 62%, а при използване на седемчленна скала - от 78 до 113%. Следователно, колкото по-дълга е скалата, толкова по-висок е коефициентът на вариация и толкова по-голям трябва да бъде размерът на извадката. Ако социологът иска да мине с малка извадка, тогава въпросите трябва да бъдат формулирани по-просто. Понякога се смята, че колкото по-дълга е скалата, толкова по-точно е измерването. Но предимствата на седемстепенната скала пред петобалната не са доказани.

Сред социолозите е разпространено мнението, че колкото по-голям е размерът на извадката, толкова по-точен е резултатът и това ги принуждава да увеличат неимоверно броя на респондентите. В действителност ситуацията е различна: маса. Фигура 2.7, базирана на данни на Gallup, показва връзката между размера на извадката и точността на оценката като процент. От това следва, че с увеличаване на размера на извадката точността нараства, но до определен праг. Вече с 600 респонденти е постигнато желаното ниво на точност от 5%. Следователно 600 души е приемлив размер на извадката.

Няма противоречие между цифрите 400 и 600 души. В първия случай размерът на извадката е изчислен въз основа на предположението за нормално разпределение на отговорите на респондентите, а във втория - от практиката. Несъответствието между теорията и практиката се дължи на факта, че в реална ситуация разпределението на оценките се различава от нормалното, така че размерът на извадката трябва да се изчисли, като се вземе предвид това конкретно обстоятелство; Най-ефективният начин за намаляване на размера на извадката е намаляване на коефициента на вариация на оценките.

Таблица 2.7Връзка между размера на извадката и точността на оценката

При изчисляване на размера на извадката социолозите често допускат следната грешка: след като са изчислили необходимия размер на извадката за съвкупността като цяло, използвайки съществуващите формули, те след това го поставят пропорционално сред отделните единици за извадка, например по цехове, предприятия, области, градове , и видове семейства. След това, на етапа на обработка на данните, се анализират различията между самите отдели. Въпреки това е по-правилно да се изчисли размерът на извадката отделно за всеки отдел и след това да се сумират отделните обеми. Да кажем, че изчисленията на размера на извадката за три работилници (като се вземат предвид размерът на скалата, броят на служителите, естеството на очакваното разпределение на оценките) позволиха да се установи, че в първата работилница е необходимо да се зададе 384 души, във втората - 222, а в третата - 600. Тогава общият размер на извадката ще бъде 384 + 222 + 600 = 1206 души.

Ако социолог трябва да интервюира категория работници (например шофьори на автобуси), за които е известно само, че към нея принадлежи десетият служител на предприятието, и той реши да попита 139 шофьори на автобуси и общия размер на извадката за предприятието ще бъде 1390 души, те. с други думи, чрез произволен подбор на 1390 респонденти от предприятие, ние, в съответствие с теорията за извадката, се надяваме да идентифицираме 139 души по специалността, която ни интересува.

При изчисляване на квотна извадка социолозите често произволно определят нейния размер на 1000 души, въз основа на удобството на изчисляване на квотите. Но можете също толкова лесно да вземете всяко друго кръгло число. По-разумният подход е да се изчисли размерът на квотната извадка като за произволна. Друг вариант за изчисляване на размера на квотната извадка е да се използва теорията за малката извадка. Неговата същност: ако целта не е да се осигури диференциран анализ по групи работници, тогава броят на градациите на въпросите, които ще се изучават, се умножава по 25 (минималният статистически значим размер на групата). Например, изследват се три променливи: пол - две категории, възраст - две категории (под 30 години и над 30 години), удовлетвореност от работата - измерена по петобална скала. Тогава необходимият размер на извадката за този пример ще бъде 2x2x5x25 = 500 души. Размерът на извадката се увеличава 2,5 пъти. Ясно е, че с разширяването на броя на променливите и броя на градациите, размерът на извадката може да стане катастрофално голям. Има само един изход: подробно проучване на първоначалния проблем, което ще ви позволи да премахнете ненужните въпроси във въпросника, оставяйки най-важните. Ако едно изследване тества множество хипотези, размерът на извадката за проверка на всяка хипотеза се изчислява отделно. По този начин, когато се използва извадка, броят на въпросите във въпросника и хипотезите трябва да бъде минимален.

И така, изчислихме необходимия размер на извадката. Сега и само сега е необходимо да се провери дали получената стойност е съвместима с разпределените ресурси. Често срещана грешкамного приложни социолози е, че при изчисляване на размера на извадката наличните ресурси се поставят на преден план или, което е по-лошо, социологът пасивно приема всички условия, продиктувани от клиента. Това е фундаментално погрешно по няколко причини. Първо, изчисляването на размера на извадката ви позволява да придобиете по-задълбочен поглед върху същността на изучавания предмет и спецификата на изследователските методи, което означава, че можете разумно да изисквате повече ресурси или да вземете правилното решение да намалите размера на извадката. Ако администрацията откаже допълнителни ресурси и целите на изследването не позволяват намаляване на размера на извадката (т.е. социологът не може да приеме решението на администрацията), тогава е необходимо да се премине към друг дизайн на изследването. Второ, разумното изчисляване на размера на извадката показва професионализма на социолога и кара клиента да се отнася към него по-уважително.

Стратегия за последователно изчислениеразмер на извадката. При изчисляване на размера на извадката е желателно да се знае разпространението на оценките и някои други параметри. Те обаче по правило са неизвестни. За да се предотвратят грешки, по-добре е да се приеме, че те са максимални. Цената за нашето невежество е увеличаване на размера на извадката над необходимото и допълнителни финансови и времеви разходи (трябва да интервюираме повече хора). За спестяване на разходи се използва последователна стратегия - размерът на извадката не се изчислява предварително, а се поставя в зависимост от крайните резултати от изследването. Например, те интервюират 100 души, след това определят разпространението на оценките и в зависимост от това изчисляват необходимия размер на извадката. Ако се окаже, че 100 души са достатъчни, тогава проучването приключва. В противен случай се стига необходимия брой респонденти, но не до безкрайност. Известен е пример от практиката на J. Gallup, който в началото на кариерата си активно експериментира с размера на извадката. През 1936 г. американците бяха попитани: „Искате ли Националният закон за индустриално възстановяване да бъде подновен?“ Възниква странен парадокс: Дж.Галъп първо анкетира 500 души и измерва грешката на извадката, а след това последователно увеличава броя на респондентите до 30 хил. За негово съжаление той открива, че добавянето на 29,5 хил. респонденти повишава точността на информацията с по-малко от 1%. Следователно проучването може да бъде спряно след 500 респонденти. Този пример показва, че чрез прилагане на последователна стратегия е възможно да се постигне значително намаляване на необходимия брой наблюдения в сравнение с предварително изчисление на размера на извадката.

Въпреки това, стратегията за последователно изчисляване на размера на извадката носи желан резултатсамо ако социологът може да направи необходимите изчисления по време на самото проучване, например телефонно проучване, използвайки компютърни системи. Социологът въвежда отговорите на респондента в своя персонален компютър, от който резултатите веднага се изпращат до компютъра на ръководителя на изследването, обработват се и екранът на дисплея предоставя информация не само за едномерните честоти, разпределени по конкретен въпрос, но и за необходимите размер на извадката.

Ако има опасност размерът на извадката да бъде катастрофално голям, е необходимо да се комбинират и двата вида стратегии – предварителна и последователна, т.е. Приложи комбинирана стратегия.Изчислявайки извадката според предварителната стратегия, получаваме горните допустими стойности за последователната стратегия или, с други думи, стойността на размера на извадката, при достигането на която анкетата според последователната стратегия спира.

Най-разумният и правилен подход за определяне на размера на извадката се основава на изчисляването на доверителните интервали, което се основава на редица основни понятия на математическата статистика (вариация, стандартно отклонение, доверителен интервал, средна квадратична грешка).

За да изчислите необходимия размер на извадката в количествени изследванияНай-често се използват две статистически концепции - доверителен интервали вероятност за доверие. Доверителен интервалпредставлява грешката на извадката, която сте посочили предварително. Например, ако зададете доверителен интервал от 3% и конкретният отговор на конкретен изследователски въпрос е 48%, това означава, че дори ако анкетирате цялото население, истинската стойност ще падне между 45 (48 - 3) и 51 % (48 + 3). Вероятност за довериепоказва колко уверени можете да бъдете в получените резултати, че характеристиките на извадката съответстват на характеристиките на цялата съвкупност - с други думи, колко вероятно е случаен отговор да попадне в доверителния интервал. Обикновено се използват нива на доверие от 95 и 99%. Най-често използваният е 95% - това е достатъчно в по-голямата част от проучванията. Ако комбинираме доверителната вероятност и доверителния интервал, можем да кажем, че отговорите на въпроса имат 95% вероятност да попаднат между 45 и 51%.

Следната груба оценка на надеждността на резултатите от извадковото проучване е много полезна. Повишената надеждност позволява извадкова грешка до 3%, обикновена - от 3 до 10% (доверителен интервал на разпределение на ниво 0,03-0,1), приблизителна - от 10 до 20%, приблизителна - от 20 до 40% и прогнозно - повече от 40%.

Въз основа на тези концепции и като се вземат предвид редица допускания, се извеждат формули за изчисляване на размера на извадката, които предполагат, че представителността е гарантирана чрез използване на правилни вероятностни процедури за вземане на извадки.

В някои случаи разходите за провеждане на проучване се използват като основен аргумент при определяне на размера на извадката. По този начин бюджетът за маркетингови проучвания предвижда разходи за провеждане на определени проучвания, които не могат да бъдат надвишени и е очевидно, че не се взема предвид стойността на получената информация. В някои случаи обаче малка извадка може да даде доста точни резултати.

Изследователската практика предполага следното правило: размерът на извадката трябва да осигурява най-малко 100 наблюдения за всеки първичен и най-малко 20-50 наблюдения за всеки вторичен класификационен компонент. 11-те основни класификационни компонента съответстват на най-критичните, а вторичните съответстват на най-малко критичните клетки от кръстосаната класификация, приета в това проучване 34. Теоретичните изчисления и практиката доказват, че за да се получат надеждни данни за мненията и предпочитанията на населението на такъв голям град като Санкт Петербург, е достатъчно да се анкетират 700-800 души. Повечето проучвания на населението тук обаче се провеждат върху извадки до 1,5 хиляди души.

Грешка при вземане на проби

Както вече знаем, представителността е свойството на извадкова съвкупност да представя характеристиките на генералната съвкупност. Ако няма съвпадение, казват грешка в представителността- степента, в която статистическата структура на извадката се отклонява от структурата на съответната генерална съвкупност. Да приемем, че средният месечен семеен доход на пенсионерите в общата съвкупност е 2 хиляди рубли, а в извадката - 6 хиляди рубли. Това означава, че социологът е интервюирал само заможната част от пенсионерите и в изследването му се е прокраднала грешка в представителността. С други думи, грешката на представителността се нарича несъответствие между две популации- общ, към който е насочен теоретичният интерес на социолога и представа за свойствата, които той в крайна сметка иска да получи, и селективен, към който е насочен практическият интерес на социолога, който действа както като обект на изследване, така и като средство за получаване на информация за общото население.

Наред с термина „грешка в представителността“, в местната литература може да се намери още един термин: „грешка на извадката“. Понякога те се използват взаимозаменяемо, а понякога „грешка при вземане на проби“ се използва вместо „представителна грешка“ като количествено по-прецизно понятие.

Грешка при вземане на проби- отклонение на средните характеристики на извадката от съвкупността от средните характеристики на генералната съвкупност.

На практика грешката на извадката се определя чрез сравняване на известните характеристики на популацията със средните стойности на извадката. В социологията при анкетиране на възрастното население най-често се използват данни от преброявания на населението, текуща статистика и резултати от предишни проучвания. Социално-демографските характеристики обикновено се използват като контролни параметри. Сравнението на средните стойности на генералната и извадковата съвкупности въз основа на това определяне на грешката на извадката и нейното намаляване се нарича контрол на представителността.Тъй като след приключване на изследването може да се направи сравнение на собствените и чуждите данни, този метод на контрол се нарича a posteriori,тези. извършено след опита.

В социологическите проучвания на Gallup представителността се контролира с помощта на наличните данни от националните преброявания относно разпределението на населението по пол, възраст, образование, доход, професия, раса, място на пребиваване и размер на населеното място. Всеруският център за изследване на общественото мнение (VTsIOM) използва за такива цели показатели като пол, възраст, образование, тип населено място, семейно положение, сфера на заетост, длъжност на респондента, които са заимствани от Държавния комитет по статистика на Руската федерация. И в двата случая населението е известно. Грешката на извадката не може да бъде определена, ако стойностите на променливата в извадката и популацията са неизвестни.

Специалистите на VTsIOM осигуряват внимателен ремонт на пробата по време на анализа на данните, за да се сведат до минимум отклоненията, възникнали на етапа работа на терен. Особено силни отклонения се наблюдават по отношение на пол и възраст. Това се обяснява с факта, че жените и хората с висше образование прекарват повече време у дома и по-лесно осъществяват контакт с интервюиращия, т.е. са лесно достъпна група в сравнение с мъжете и „необразованите“ хора.

Грешката при вземане на проби се дължи на два фактора: метод на вземане на проби и размер на извадката.

Извадковите грешки се делят на два вида - случайни и систематични. Случайна грешка -е вероятността средната стойност на извадката да (или няма) да попадне извън даден интервал. Случайните грешки включват статистически грешки, присъщи на самия метод на извадка. Те намаляват с увеличаване на размера на извадката (Таблица 2.8).

Таблица 2.8

Зависимост на размера на извадката от нейната грешка 36 (размерът на генералната съвкупност е 20 хиляди единици)

Грешка на извадката, %

Размер на извадката, единици

Вторият вид извадкова грешка е систематични грешки.Ако социолог реши да разбере мнението на всички жители на града относно социалната политика, провеждана от местните власти, и анкетира само онези, които имат телефон, тогава възниква умишлено пристрастие в извадката в полза на богатите слоеве, т.е. систематична грешка.

Следователно систематичните грешки са резултат от собствените дейности на изследователя. Те са най-опасни, защото водят до доста значителни отклонения в резултатите от изследванията. Систематичните грешки се считат за по-лоши от случайните и защото не могат да бъдат контролирани и измерени.

Те възникват, когато например: 1) извадката не отговаря на целите на изследването (социологът решава да изследва само работещи пенсионери, но интервюира всички); 2) има очевидно непознаване на същността на общото население (социологът смяташе, че 70% от всички пенсионери не работят, но се оказа, че само 10% не работят); 3) избрани са само „печеливши“ елементи от общото население (например само богати пенсионери).

внимание!За разлика от случайните грешки, систематичните грешки не намаляват с увеличаване на размера на извадката.

След като обобщиха всички случаи на системни грешки, методистите съставиха регистър за тях. Те вярват, че следните фактори могат да бъдат източник на неконтролирани изкривявания в разпределението на извадковите наблюдения:

♦ методически и методически правила за провеждане социологически изследвания;

♦ избрани са неадекватни методи за формиране на извадкова съвкупност, методи за събиране и изчисляване на данни;

♦ необходимите единици за наблюдение бяха заменени с други, по-достъпни;

♦ констатирано е непълно покритие на извадковата съвкупност (недостатъчно получаване на анкетни карти, непълно попълване, недостъпност на единиците за наблюдение).

Социологът рядко прави умишлени грешки. По-често грешките възникват поради факта, че социологът е слабо запознат със структурата на общата съвкупност: разпределението на хората по възраст, професия, доходи и др.

Систематичните грешки са по-лесни за предотвратяване (в сравнение със случайните), но са много трудни за отстраняване. Най-добре е да се предотвратят системни грешки, като се предвидят точно техните източници предварително – още в самото начало на изследването.

Ето няколко начини за избягване на грешки:

♦ всяка единица от популацията трябва да има еднаква вероятност да бъде включена в извадката;

♦ препоръчително е да се избира от хомогенни популации;

♦ трябва да познавате характеристиките на генералната съвкупност;

♦ при съставяне на извадкова съвкупност трябва да се вземат предвид случайни и систематични грешки.

Ако извадката (или просто извадка) е съставена правилно, тогава социологът получава надеждни резултати, които характеризират цялата популация. Ако е съставен неправилно, тогава грешката, възникнала на етапа на извадката, се умножава на всеки следващ етап от социологическото изследване и в крайна сметка достига такава стойност, която надвишава стойността на проведеното изследване. Казват, че подобни изследвания носят повече вреда, отколкото полза.

Такива грешки могат да възникнат само с извадкова популация. За да избегнете или намалите вероятността от грешка, най-лесният начин е да увеличите размера на извадката (и в идеалния случай до размера на генералната популация: когато и двете популации съвпадат, грешката на извадката ще изчезне напълно). Икономически този метод е невъзможен. Остава и друг начин - да се подобрят математическите методи за вземане на проби. Те се използват в практиката. Това е първият канал за проникване в социологията на математиката. Вторият канал е математическа обработка на данни.

Проблемът с грешките става особено важен в маркетинговите проучвания, където се използват малки извадки. Обикновено те наброяват няколкостотин, по-рядко - хиляда респонденти. Тук отправната точка за изчисляване на извадката е въпросът за определяне на размера на извадката. Размерът на извадката зависи от два фактора: I) разходите за събиране на информация и 2) желанието за определена степен на статистическа увереност в резултатите, които изследователят се надява да получи. Разбира се, дори хора, които нямат опит в статистиката и социологията, интуитивно разбират, че колкото по-голям е размерът на извадката, т.е. Колкото по-близки са те до размера на населението като цяло, толкова по-достоверни и валидни са получените данни. Въпреки това, ние вече говорихме по-горе за практическата невъзможност за непрекъснати проучвания в случаите, когато те се извършват върху обекти, чийто брой надхвърля десетки, стотици хиляди и дори милиони. Ясно е, че разходите за събиране на информация (включително заплащане за репликация на инструменти, труд на въпросници, полеви мениджъри и компютърни оператори) зависят от сумата, която клиентът е готов да отдели, и зависят малко от изследователите. Що се отнася до втория фактор, на него ще се спрем малко по-подробно.

Така че колкото по-голям е размерът на извадката, толкова по-малка е възможната грешка. Въпреки че трябва да се отбележи, че ако искате да удвоите точността, ще трябва да увеличите пробата не с две, а с четири. Например, за да направите два пъти по-точна оценка на данните, получени от проучване на 400 души, ще трябва да анкетирате 1600 души вместо 800. Малко вероятно е обаче маркетинговото проучване да се нуждае от 100% точност. Ако един пивовар трябва да разбере каква част от потребителите на бира предпочитат неговата марка пред марката на неговия конкурент - 60% или 40%, тогава плановете му няма да бъдат повлияни по никакъв начин от разликата между 57%, 60 или 63%.

Грешката на извадката може да зависи не само от нейния размер, но и от степента на разликите между отделните единици в съвкупността, която изучаваме. Например, ако искаме да знаем колко бира се консумира, ще открием, че сред нашето население нивата на потребление различни хорасе различават значително (хетерогененобщото население). В друг случай ще изследваме консумацията на хляб и ще открием, че тя варира много по-малко значително сред различните хора (хомогененобщото население). Колкото по-голяма е вариацията (или хетерогенността) в една съвкупност, толкова по-голяма е величината на възможната грешка при вземане на проби. Този модел само потвърждава това, което простият здрав разум ни казва. Така, както правилно твърди В. Ядов, „размерът (обемът) на пробата зависи от нивото на хомогенност или хетерогенност на изследваните обекти.Колкото по-хомогенни са те, толкова по-малки числа могат да предоставят статистически надеждни заключения.

Определянето на размера на извадката зависи и от нивото на доверителния интервал на допустимата статистическа грешка. Тук имаме предвид т.нар случаенгрешки, които са свързани с естеството на всякакви статистически грешки. В И. Paniotto предоставя следните изчисления за представителна извадка с допускане на грешка от 5% (Таблица 2.9):

Таблица 2.9

Представителни извадкови изчисления

Това означава, че ако вие, като сте анкетирали, да речем, 400 души в областен град, където възрастното платежоспособно население е 100 хиляди души, сте установили, че 33% от анкетираните купувачи предпочитат продуктите на местен месопреработвателен завод, тогава с 95% с вероятност можете да кажете, че редовните купувачи на тези продукти са 33±5% (т.е. от 28 до 38%) от жителите на този град.

Можете също така да използвате изчисленията на Gallup, за да оцените връзката между размера на извадката и грешката на извадката (вижте по-горе).

Днес много трудни изчисления се извършват от технологията, а статистическите програми могат да бъдат получени в Интернет. И така, с изчисляването на извадката, мързеливият социолог получи такава възможност на уебсайта на Аналитичния център „Бизнес и маркетинг“ (http://www.bma.ru/enter.htm), където потребителят трябва само въведете необходимите данни и след това кликнете върху бутона "Изчисли".

Преди директно провеждане на извадково наблюдение винаги се решава въпросът колко единици от изследваната популация трябва да бъдат избрани за извадка. Формулите за определяне на неговия брой се извличат от формулите за максимални грешки на извадката в съответствие със следните отправни точки:

вид на предложената проба;
метод на подбор (повтарящ се или неповтарящ се);
избор на оценка на параметъра (средна стойност или пропорция).

Освен това е необходимо предварително да се определи стойността на вероятността за доверие, която би удовлетворила потребителя на информация, и размера на допустимата максимална грешка на извадката. Настройката D и I (съответстваща на вероятността за доверие) като правило не създава особени затруднения, тъй като те са свързани с естеството на изследваната популация.

Трябва обаче да помним, че голяма вероятност за доверие значително увеличава размера на извадката. Подобна е ситуацията с пределната извадкова грешка: намаляването й наполовина учетворява размера на извадката. Въпросът каква точност удовлетворява изследователя става основен, ако изследването на друга единица за наблюдение води до големи финансови и материални разходи (предвид териториалната отдалеченост на единиците за наблюдение, поверителността на събраните данни, сложността на програмата за наблюдение и т.н.) и не е важно, ако разходите за проучване на една единица са относително малки.

Формули за изчисляване на необходимия размер на извадката за различни начиниизбора са показани в табл. 13.10.

Когато използвате формулите, дадени в таблицата, се препоръчва да закръглите получения размер на извадката, за да осигурите определена „маржа“ на точност.

Освен това в статистическата практика често срещан вариант е, когато стойността на максималната извадкова грешка е посочена като процент (относителна максимална извадкова грешка). В този случай абсолютната стойност на грешката се разделя на средната стойност на характеристиката и се умножава по 100%. След това, за да приложите формулите на таблицата, трябва да намерите абсолютната стойност на максималната грешка, както следва:

Таблица 13.10

Формули за намиране на размера на извадката

Метод на избор	Повторна селекция	Неповторима селекция
При оценка на средната
Съвсем произволно
Механични
Типично
Сериал с равни серии
При оценка на дела
Съвсем произволно
Механични

Край

Метод на избор	Повторна селекция	Неповторима селекция
Типично
Сериал с равни серии

Ако първоначалните параметри за определяне на размера на извадката са относителната грешка D% и коефициентът на вариация

на изследвания признак, изчислен като F„=^100%, след това формулата

Действителната произволна извадка по време на повторен избор може да се трансформира, както следва:

Истинската трудност при определяне на размера на извадката е определянето на размера на вариацията на атрибута - дисперсията. На практика тази стойност най-често остава неизвестна до извършване на проучването. Какво да прави във всеки конкретен случай решава самият изследовател.

Понякога дисперсията се оценява по директен начин:

извършват обширни изследвания преди началото на основното наблюдение, за да се определи стойността на o 2;
условно приемат стойността на дисперсията от предишни подобни изследвания (най-често използвания в практиката метод). Такъв подход е оправдан, ако генералната съвкупност поради естеството си не се потвърждава от значими динамични процеси или техните прояви не са толкова ярки.

Съществуват и редица „непреки“ методи за намиране на дисперсията на изследваната характеристика, които са определени математически техники, които се основават на свойствата на статистическите популации. Тъй като разпределенията на повечето от тях са близки до нормалния закон, стойността на дисперсията може да се определи приблизително по следния начин.

Тъй като всички стойности на варианта на атрибута при нормалния закон за разпределение са поставени на 3 в една или друга посока от средната стойност, има приблизително равенство Р« 6а, където Р- диапазонът на вариация на признак, определен като Р= x max - x min.

следователно

На практика, за да се получи известен „резерв“ от единици за извадка, за да се осигури необходимата точност, те често предпочитат да използват връзката

Стойностите на x max и x min при наблюдение на социално-икономическите процеси обикновено са известни или определени от действащото законодателство. Например средният брой на служителите в малките предприятия е строго ограничен от закона.

За социално-икономически явления, ако по някакъв начин (например от данни от минали проучвания) стойността на средната стойност е известна, връзката се използва за приблизително стандартно отклонение

Дисперсията на алтернативна характеристика зависи от дела на единиците, които имат изследваната характеристика (свойство) w.Ако тази фракция е неизвестна, се приема максимално възможната стойност на дисперсията - 0,25, постигната при w = 0,5.

От формулите в табл. 13.10 следва, че размерът на извадката е правопропорционален на дисперсията на изследваната характеристика. Наистина, тъй като променливостта на единиците се увеличава, за да се улови вариацията, се изисква все по-голям брой от тях за подбор и включване в извадката.

И така, обмислихме определянето на размера на извадката за една наблюдаема характеристика. Но какво ще стане, ако има няколко характерни признака и вариацията на тези признаци е различна или някои от тях са алтернативни. Би било логично да се избере характеристиката, за която изчисленията водят до най-големия размер на извадката сред останалите (тази характеристика ще бъде тази, за която се изисква да се получи най-малката относителна грешка на извадката при същата доверителна вероятност). Наистина, в този случай определянето на общите параметри на други характеристики ще бъде придружено от по-голяма точност от необходимата, т.е. ще има известен „марж“ на точност.

Трябва също така да се отбележи, че на практика размерът на извадката често се коригира в съответствие с наличните финансови и човешки ресурси, след което се отчита необходимостта от постигане на оптимален баланс на разходите и точността на резултатите. Ако има затруднения с финансирането на статистическите наблюдения, особено ако намаляването на разходите е доста значително с приемливи загуби на точност, подобна стъпка е повече от оправдана.

Определянето на размера на извадката се влияе и от едно много често срещано явление при статичните наблюдения, свързано с липса на отговор на изследваните единици. В случай на големи популации, измерени в стотици или милиони (например населението на една страна), може да се направи известна корекция за липса на отговор чрез увеличаване на размера на извадката. Въпреки това, когато обработваме резултатите от проучването и особено когато използваме конкретни препоръки, базирани на тях, трябва да помним предположенията, направени при събирането на данни.

Нека да разгледаме примери за проблеми за определяне на необходимия размер на извадкова съвкупност.

Пример 13. 7. Колко обекта от общо 507 фирми трябва да провери данъчната инспекция, за да определи с вероятност 0,997 дела на фирмите с нарушения при плащане на данъци? Според предишното проучване стандартното отклонение е 0,15; размерът на извадковите грешки не трябва да бъде по-висок от 0,15.

Когато повтаряте произволна извадка, трябва да проверите

В случай на повторно случайно прекъсване на връзката е необходимо да се провери

Както виждаме, използването на еднократно вземане на проби води до изследване на много по-малък брой обекти.

Пример 13.8.Администрацията на един от съставните образувания на Руската федерация реши да проведе извадково проучване на 366 малки фирми, по време на което беше планирано да се определи:

делът на хората с висше образование, работещи в малки фирми (големината на максималната грешка не трябва да надвишава 0,1);
делът на жените, работещи в малки фирми (размерът на максималната грешка не трябва да надвишава 0,12);
средната възраст на работниците в малки фирми (размерът на максималната грешка не трябва да надвишава две години).

Разпределението на малките фирми по икономически сектори е както следва:

Градската администрация приема, че значението на изследваните характеристики варира значително в зависимост от индустрията на компанията, така че е избрана типична извадка, пропорционална на размера на типичните групи.

Нека определим какъв трябва да бъде неговият брой и колко единици за наблюдение трябва да бъдат извлечени от всяка типична група с доверителна вероятност от 0,954. Първите два знака са алтернативни, тогава оценката на неизвестната дисперсия е нейната максимална стойност - 0,25.

Необходимият размер на извадката при оценка на дела на хората с висше образование ще има следната стойност:

Оценката на дела на работещите жени изисква анкетиране

Би било възможно веднага да се определи на каква основа трябва да се извършат изчисленията. Винаги е този, който има по-голяма точност (по-малка грешка за същото ниво на достоверност). Третият знак в нашия пример обаче е количествен. Нека определим какъв размер на извадката е необходим, за да го оценим. Получаваме приблизителната стойност на дисперсията въз основа на свойствата на нормалното разпределение:

(с максимална и минимална възраст съответно 60 и 18 години, което е най-вероятният диапазон).

Откъде идва ст. 2 = 49?

Нека направим изчислението:

Така че, за да се постигне дадена точност за всички наблюдавани характеристики, трябва да се избере максималното число, получено и за трите показателя, т.е. n = 65 компании.

Отрасъл на икономиката		Брой фирми, избрани в извадката
Индустрия
селско стопанство
Строителство
Транспорт и съобщения
Търговия и ресторантьорство
Общи стопански дейности
Жилищни и комунални услуги и непроизводствени видове потребителски услуги за населението

Други отрасли

Неформализирани методи за вземане на проби.Въпросът за оптималния размер на извадката винаги е бил спорен сред изследователите. Решението относно размера на извадката се взема, като се вземат предвид редица фактори, сред които два играят най-важна роля: 1) стойността и новостта на информацията, получена в резултат на изследването; 2) разходите за провеждане на изследването (включително време) за даден размер на извадката.

В много случаи човек може да се ръководи от установената практика, т.е. размер на извадката, използван в подобни проучвания. Освен това има следните прости правила за определяне на размера на извадката.

Размерът на извадката растеАко:

необходимо е да се получат данни за отделни подгрупи (размерите на подпробите се сумират и извадката като цяло нараства пропорционално на броя на подгрупите);
Вече наличната информация по ключови въпроси е недостатъчна и несигурността е значителна.

В допълнение, практиката на многобройни проучвания вече е разработила „типични“ размери на извадката. Така за националните проучвания на населението тези обеми варират между 1000-2500 респонденти (в зависимост от броя на анализираните групи). За регионални проучвания и проучвания на специални популации - от 200 до 500 (при анализ на множество подгрупи размерът на регионална или специална популационна извадка обикновено се увеличава до най-малко 1000 души). Посочените стойности, разбира се, могат да служат само като общ ориентир за определяне оптимален размерпроби.

На практика решението за размера на извадката е компромис между предположението за точността на резултатите от проучването и осъществимостта на тяхното практическо прилагане (т.е. въз основа на разходите за провеждане на проучването).

На практика се използват няколко подхода за определяне на размера на извадката. Нека обърнем внимание на най-простите от тях. Първият от тях се нарича случаен подход и се основава на прилагането на „правилото на палеца“.

Например, без доказателства се приема, че за да се получат точни резултати, извадката трябва да е 5% от популацията. Този подход е прост и лесен за изпълнение, но не позволява получаване на точни резултати. Предимството му е относително ниската цена. При втория подход размерът на извадката може да бъде зададен въз основа на предварително определени условия. Клиентът на маркетингово проучване, например, знае, че при изследване на общественото мнение извадката обикновено е 1000 - 1200 души, така че той препоръчва на изследователя да се придържа към тази цифра.

Третият подход означава, че в някои случаи основното съображение при определяне на размера на извадката може да бъде цената за провеждане на проучването. Въпреки че стойността и надеждността на получената информация не се вземат предвид.

При четвъртия подход размерът на извадката се определя въз основа на статистически анализ. Този подход включва определяне на минималния размер на извадката, като се вземат предвид изискванията за надеждност и валидност на получените резултати.

Петият подход се счита за най-теоретично обоснован и правилният подходпри определяне на размера на извадката. Базира се на изчисляването на доверителен интервал.

Доверителният интервал е диапазон, чиито крайни точки характеризират процента на определени отговори на въпрос. Тази концепция за тестото се свързва с концепцията за „стандартното отклонение на получената характеристика в общата популация“. Колкото по-голям е той, толкова по-широк трябва да бъде доверителният интервал, за да се включат например 9,5% от отговорите.

От свойствата на кривата на нормалното разпределение следва, че крайните точки на доверителния интервал, равен например на 9,5%, се определят като произведение на: 1,96 (нормализирано отклонение) и стандартното отклонение.

Числата 1,96 и 2,58 (за 99% доверителен интервал) са означени с z.

Има таблици „Стойност на вероятностния интеграл“, които позволяват да се определят z стойности за различни доверителни интервали. Доверителният интервал от 95% или 99% е стандартен при провеждане на маркетингови проучвания.

Например, беше проведено проучване за броя на посещенията на собственици на автомобили в сервизи годишно. Доверителният интервал за средния брой посещения беше изчислен на 5–7 посещения при 99% ниво на сигурност. Това означава, че ако стане възможно самостоятелно провеждане на извадкови проучвания 100 пъти, тогава за 99 извадкови проучвания средният брой посещения ще падне в диапазона от 5 до 7. Казано по друг начин, 99% от собствениците на автомобили ще попаднат в доверителния интервал.

Да приемем, че е проведено проучване върху до 50 независими проби. Средните резултати за тези проби образуваха нормална крива на разпределение, наречена разпределение на пробите.

Средният резултат за популацията като цяло е равен на средния резултат на кривата на разпределение. Концепцията за „разпределение на извадката“ също се счита за една от основните концепции на теоретичната концепция, която е в основата на дефиницията на V извадка.

Естествено, никоя компания не е в състояние да формира 10, 20, 50 независими проби. Обикновено се използва само една проба.

Математическата статистика ви позволява да получите известна информация за разпределението на извадката, като разполагате с точни данни за вариацията на една извадка.

Показател за степента, до която оценката, вярна за популацията като цяло, се различава от тази, очаквана за типична извадка, е средна квадратична грешка. Например, мнението на потребителите за нов продукт се изучава и клиентът това учениепосочи, че ще бъде доволен от точността на получените резултати, равна на плюс или минус 5%.

Да приемем, че 30% от извадката е в полза на новия продукт. Това означава, че обхватът на възможните оценки за цялата популация е 25 – 35%. Освен това, колкото по-голям е размерът на извадката, толкова по-малка е грешката. Високата стойност на вариация причинява висока стойност на грешката и обратно.

Нека да определим размера на извадката въз основа на изчисляване на доверителния интервал. Първоначалната информация, необходима за прилагане на този подход, е:

· степента на вариация, която се смята, че има дадена популация;
· желана точност;
· нивото на надеждност, на което трябва да отговарят резултатите от проучването.

Когато е включено зададен въпросИма само два варианта за отговор, изразени като процент (използва се процентна мярка), размерът на извадката се определя по следната формула:

където n е размерът на извадката;

z – нормализирано отклонение, определено въз основа на избраното ниво на доверителност (Таблица 7);

p – намерена вариация за извадката;

q = (100 – p);

e – допустима грешка.

Таблица 7

Стойността на нормализираното отклонение на z резултата от средната стойност

в зависимост от доверителната вероятност (а) на получения резултат

Например, компания за производство на гуми провежда проучване сред автомобилисти, които използват радиални гуми.

Затова на въпроса: „Използвате ли радиални гуми?“ Възможни са само 2 отговора: „Да“ или „Не“. Ако приемем, че популацията от автомобилни ентусиасти има нисък коефициент на вариация, това означава, че почти всички анкетирани използват радиални гуми. IN в такъв случайможе да се формира достатъчно малък размер на извадката. Във формула (1) продуктът pg изразява вариацията, присъща на популацията. Например, да кажем, че 90% от единиците в популацията използват радиални гуми. Това означава, че pg = 900. Ако приемем, че коефициентът на вариация е по-висок (p = 70%), тогава pg = 2100. Най-голямата вариация се постига, когато половината от населението (50%) използва радиални гуми, а останалите Недей. В този случай продуктът достига стойност равна на 2500.

Когато провеждате проучване, е важно да посочите точността на получените оценки. Например, установено е, че 44% от анкетираните използват радиални гуми. Резултатите от измерването трябва да бъдат представени във формата: процентът на автомобилистите, използващи радиални гуми, е 44 плюс или минус %. Размерът на допустимата грешка се определя предварително съвместно от клиента на проучването и изпълнителя.

Нивото на доверие в маркетинговите проучвания обикновено се оценява въз основа на две стойности: 95% или 99%. Първата стойност съответства на стойността z = 1,96; второто – z = 2,58. Ако е избрано ниво на достоверност от 99%, това означава следното: ние сме 99% уверени (с други думи, нивото на достоверност е 0,99), че процентът на членовете на населението, попадащи в диапазона плюс - минус e%, е равен на процентът на членовете на извадката, попадащи в същия диапазон на грешки. Приемайки вариация от 50%, точност от 10% при ниво на достоверност от 95%, ние изчисляваме размера на извадката:

n = 1,962 (50 x 50) / 102 = 96.

С ниво на сигурност от 99% и e = ±3%, n = 1067.

При определяне на индекса на вариация за конкретна популация е препоръчително да се извърши предварителен качествен анализ на изследваната популация и да се установи сходството на популационните единици в демографски, социални и други аспекти, представляващи интерес за изследователя. Възможно е да се определи размерът на извадката, като се използват средни стойности, а не проценти. Да приемем, че нивото на достоверност е избрано да бъде 95% (z = 1,96), стандартното отклонение (S) е изчислено на 100, а желаната прецизност (отклонение) е ±10. Тогава размерът на извадката ще бъде

Реално, на практика, ако извадката се формира наново и не са провеждани подобни изследвания, S е неизвестен.

В този случай е препоръчително да зададете грешката e в части от стандартното отклонение. Формулата за изчисление се трансформира и приема следния вид:

Говорим най-вече за агрегации с много големи размери, които характеризират пазарите на потребителски стоки. Но в някои случаи агрегатите не са толкова големи и например на пазари отделни видовеиндустриални продукти.

Обикновено, ако извадката е по-малка от 5% от популацията, тогава популацията се счита за голяма и изчисленията се извършват съгласно горните правила.

Ако V от извадката надвишава 5% от популацията, тогава последната се счита за малка и в горните формули се въвежда корекционен коефициент. Размерът на извадката в този случай се определя, както следва:

където n1 е размерът на извадката за малка популация,

n – размер на извадката (или за процентни мерки, или за средни), изчислен с помощта на горните формули,

N е обемът на генералната съвкупност.

Например, проучва се мнението на членове на население, състоящо се от 1000 компании, относно изграждането на химически завод в границите на град Томск. Поради липсата на информация за вариацията се приема най-лошият случай: 50:50. Изследователят решава да използва ниво на сигурност от 95%. Клиентът на изследването посочи, че би бил доволен от точността на резултатите плюс-минус 5%. В този случай се използва следната формула за процентната мярка:

Този подход за формиране на V извадка, с известни резерви, може да се използва и при изчисляване на размера на панела и експертната група.

Дадените примерни формули за изчисление се основават на предположението, че са спазени всички правила за вземане на проби и единствената грешка е грешката, дължаща се на нейния размер.

Глава от книгата "Маркетингови изследвания"

Психология: личност и бизнес

	Идентификация на популационни обекти

	Избор на метод за изследване

Пълен преглед			Примерно проучване


		Избор на процедура за вземане на проби		Изчисляване на размера на извадката


	Изпълнение на плана за вземане на проби

Ориз. 4.3. Планиране на вземане на проби

Планирането на вземането на проби включва следните процедури (Фигура 4.3):

Идентификация на обекти от генералната съвкупност.

Определяне на метода на изследване.

Определяне на процедурата за вземане на проби.

Определяне на размера на извадката.

Идентифициране на обекти в генералната съвкупност

Населениее съвкупността от всички единици, които са обект на изследване.

На този етап от подготовката на изследването е необходимо да се определи кои субекти съставляват изследваната популация. По правило субектите, включени в общата съвкупност, са разнородни, поради което при определяне на типичните представители на обекта на изследване някои групи могат да бъдат пропуснати. Особено трудно е да се представят всички елементи на популация, състояща се от организации, тъй като не всички фирми рекламират своята дейност. Генералната съвкупност може да се дефинира като пазар като цяло, пазарен сегмент или целева група субекти.

Определяне на метода на изследване

В зависимост от размера на популацията и целите на изследването могат да се използват непрекъснати или извадкови методи на изследване.

Метод на непрекъснато изследванесе състои в изучаване на всички единици от генералната съвкупност. Методът е свързан с високи разходи за проучване, използването му е оправдано, например, в случай на малък брой потребители, представляващи сегмент, или в случай, когато обемът на покупките на даден клиент представлява значителен дял от пазара. капацитет като цяло.

проба- това е група от обекти на изследване, която носи характеристиките на всички единици от общата съвкупност, например група потребители, представляващи интересите и вкусовете на целия целеви пазар.

Методът на извадковото изследване осигурява по-малка точност в сравнение с метода на непрекъснато изследване, но е по-малко трудоемък. Препоръчително е този метод да се използва при наличие на голям брой хомогенни единици от генералната съвкупност.

Метод на вземане на пробипредоставя информация за населението въз основа на проучване само на част от него, така че данните, получени по време на извадково проучване, са вероятностни по природа. На практика това означава, че в резултат на изследването не се определя конкретна стойност, а интервалът, в който се намира желаната стойност. Нарича се вероятността, с която може да се каже, че грешката на извадката няма да надвиши определена определена стойност вероятност за доверие.

Свойството на извадката да отразява характеристиките на съвкупността се нарича представителност. Разликата между характеристиките на генералната и извадковата популации се нарича извадкова грешка, която зависи от избраната процедура за извадка.

Процедури за вземане на проби

Процедура за вземане на пробие последователността на подбор на респондентите за извадката.

Изборът на респондентите може да бъде придружен от систематични и случайни грешки. Системни грешкивъзникват, когато процедурата за вземане на проби е избрана неправилно. Случайни грешкивинаги съществуват, защото са свързани с влиянието на трудно предвидими фактори. Влиянието на случайността не може да бъде напълно елиминирано, но големината на случайната грешка може да се определи с помощта на статистически методи. Отклонението не може да бъде оценено, но може да бъде елиминирано чрез промяна на процедурата за вземане на проби.

Като се има предвид наличието на два вида грешки при вземането на проби, се разграничават случайни (вероятностни) и неслучайни (детерминирани) видове процедури за вземане на проби.

Процедури за вземане на неслучайни проби

Неслучаенпроцедурите за извадка от самия процес на извадка включват неслучаен подбор на респонденти, чието мнение може да се различава от мнението на общата съвкупност като цяло, което води до наличие на неслучайна (систематична) грешка в данните в резултатите от изследването . Когато се използват неслучайни процедури, подборът на респондентите в извадката се извършва въз основа на всички приети условия, които ограничават кръга от вероятни участници в изследването. Например, само онези респонденти, които притежават компютър или са отишли до магазина между 10 и 11 часа, са избрани за извадката.

Възможни са следните видове неслучайни проби:

Случайна извадка - елементите се избират без план, хаотично; методът е евтин и удобен, но генерира неточност и непредставителност;

типична извадка - наборът е ограничен само до характерни (типични) елементи на генералната съвкупност; използва се например при формиране на фокус групи; но изисква информация за типичността на изследваните обекти;

квотна извадка - структурата на извадката се изгражда по аналогия с разпределението на определени характеристики в генералната съвкупност; От всяка група от генералната съвкупност се избират участници в изследването, чийто брой е пропорционален на представителството на групата в генералната съвкупност.

Процедури за произволно вземане на проби

При формиране на случайна извадкаПрилагат се следните процедури.

проста селекция - елементите се избират с помощта на произволни числа; с този подход се приема, че за всички единици от генералната съвкупност вероятността да бъдат избрани в извадковата съвкупност е една и съща (стойността на вероятността е равна на отношението на размера на извадката към размера на генералната съвкупност). Методът е много трудоемък и изисква наличието на списък на всички единици в генералната съвкупност;

систематично (механично) вземане на проби - първият елемент се избира с помощта на произволни числа, останалите елементи на извадката се избират на равни интервали (интервал на прескачане), които са равни на отношението на размера на популацията към размера на извадката. Тази процедура за вземане на проби значително опростява процедурата, но може да въведе изкривявания в структурата на вземане на проби, ако съвкупността е подредена според който и да е атрибут.

Ако генералната съвкупност е подредена по съществена характеристика (характеристиката се счита за значима, ако определя състоянието на изследвания индикатор), тогава, за да се намалят изкривяванията в характеристиката на извадката, единиците за извадка трябва да бъдат избрани от средата на установения интервал. Същото се прави и в случаите, когато генералната съвкупност е подредена според вторична характеристика, която частично влияе върху обекта, който се изучава.

Ако генералната съвкупност е подредена по неутрална характеристика (която не засяга поведението на обекта, който се изследва), тогава е допустимо в извадката да се включи всяка единица от генералната съвкупност от установения интервал;

Стратифицирана (типична или групова) извадка - генералната съвкупност е разделена на групи с набор от определени характеристики (сегменти или слоеве), във всяка от които се формира собствена извадка чрез случаен подбор; коефициент на тежест на всяка страта в общ обемпробата съвпада с него специфично теглов общата популация; клъстерно (серийно) вземане на проби - генералната популация се разделя на идентични групи (гнезда, цветни лехи или клъстери). Клъстерите трябва да бъдат възможно най-сходни; съставът на клъстера трябва да бъде подобен на общата популация. Няколко групи се избират на случаен принцип от общата популация и се подлагат на пълно проучване (едноетапен подход). Възможен е и двуетапен подход, когато извадката първоначално се формира от клъстери и изследователските единици се избират на случаен принцип от нея (т.е. единицата за вземане на проби от предишния етап става генерална съвкупност за следващия). Недостатъкът на тази процедура за вземане на проби е, че клъстерите могат да бъдат хетерогенни помежду си, но тази процедура е проста и икономична.

Многоетапно вземане на проби

Всеки тип вземане на проби може да бъде едно- или многоетапно. Многоетапното вземане на проби се използва в случаите, когато е трудно директно да се извлече извадка от генералната съвкупност, докато всички единици за вземане на проби на всеки етап са еквивалентни за изследването.

Свързване на многоетапен избор различни процедуривземане на проби, прави пробата комбинирана. Тази опция за вземане на проби ни позволява да постигнем най-рационалните и икономични условия за събиране на данни в съответствие с целите.

Определяне на размера на извадката

Определянето на размера на извадката е компромис между теорията за точността на резултатите от изследването и възможността за нейното практическо прилагане по отношение на разходите за събиране на информация.

Най-приложимо следните методиопределяне на размера на извадката:

1. Произволен метод на изчисление; в този случай размерът на извадката се определя на ниво 5-10% от генералната съвкупност.

Традиционен метод на изчисление; включва провеждане на периодични годишни проучвания на, например, 500, 1000 или 1500 респонденти.

Статистически изчислителен метод; се основава на определяне на статистическата надеждност на информацията.

Метод на изчисление с помощта на номограми.

Емпиричен метод; в този случай извадката се счита за достатъчна, когато цялата нова информация въвежда само незначителни промени (които могат да бъдат пренебрегнати) във вече събраните резултати от изследването.

Себестойностен метод; въз основа на размера на разходите, които могат да бъдат изразходвани за провеждане на изследвания.

Статистически метод за изчисляване на размера на извадката

Следните фактори влияят върху размера на статистическата извадка:

Наличие на информация за размера на популацията и степента на нейната хомогенност.

Необходимата точност на резултатите, регулирана от стойността на максимално допустимата грешка на представителност и стойността на степента на достоверност, с която се прави заключение за достоверността на резултатите от изследването.

Наличие на информация за средните показатели на генералната съвкупност за изследваната характеристика или за интервала на изменение на характеристиката (дисперсия).

Възможност за повторно включване на единица съвкупност в извадката.

При определяне на размера на извадката за големи популации (когато размерът на извадката е по-малък от 5% население) могат да се използват следните формули:

а) повторно вземане на проби (ако е възможно единица от генералната съвкупност да бъде включена отново в извадката) с неизвестен размер на генералната съвкупност, но известно разпределениеконтролиран знак:

Където T- нормализирано отклонение, което се определя от избраното ниво на достоверност (при 95% ниво на достоверност T= 1,96; при 99% ниво на сигурност T= 2,58); R -открита вариация на генералната съвкупност, в % или в дялове; р= 100 - R; D - допустима грешка, в % или в дялове;

б) повторно вземане на проби с известна вариация на изследваната характеристика (o):

в) неповтаряща се извадка (с изключение на възможността за повторно въвеждане на единица от генералната съвкупност в извадката) с известен обем на генералната съвкупност и известно разпределение на контролираната характеристика:

Където н- ;

г) неповтарящо се вземане на проби с известна вариация на изследваната характеристика:

Една извадка се счита за малка, ако нейният размер надвишава 5% от общата съвкупност, в който случай размерът на извадката може да бъде коригиран:

Където П" -размер на извадката за малка популация, П -размер на статистическата извадка, н- размер на общата популация.

Изчисляване на статистическа извадка с нормализирано отклонение T= 2 и приемлива грешка от 5% (виж таблица 4.2) показва, че за големи популации размерът на извадката може да бъде определен по всякакъв начин, тъй като използваните практически техники са склонни да надценяват размера на изследваната популация.

Таблица 4.2 Зависимост на размера на извадката от размера на популацията*

Размер на населението
Размер на извадката

* с нормализирано отклонение T= 2 и допустима грешка 5%.

От масата 4.2 е ясно, че когато размерът на популацията е повече от 5000, неговата стойност не влияе на размера на извадката, така че формулата може да приеме следната форма (стойността 1/ нможе да се пренебрегне):

(4.6)

Например, от предишни проучвания е известно, че разпределението на отговорите на въпроса, който представлява интерес за изследователя (например за статуса на потребителя), е 60% и 40% (60% от респондентите са отговорили утвърдително на въпроса за използване на продукта и 40% са отговорили отрицателно). Делът на целевите респонденти от общия брой респонденти е 70%. За още подробен анализтрябва да получите 100 положителни отговора. За да получите този резултат, трябва да анкетирате 238 души:

Така при липса на точна информация за размера и характеристиките на съвкупността (при положение, че е поне 5000), е достатъчно в извадката да се включат 400 нейни представители. Все пак трябва да се отбележи, че ако ще контролираме структурата на извадката по няколко параметъра, тогава размерът на извадката ще бъде много по-голям. Г. А. Чърчил в своя труд „Маркетингови изследвания” дава правило в това отношение: „Размерът на извадката трябва да осигурява най-малко 100 наблюдения за всеки първичен и най-малко 20-50 наблюдения за всеки вторичен класификационен компонент”; Трябва също така да се вземе предвид възможността отделните респонденти, включени в извадката, да са недостъпни или да откажат да участват в проучването.1

Броят на респондентите, които трябва да бъдат интервюирани, за да се получи необходимия брой положителни отговори на интересуващия ни въпрос, може да се изчисли по формулата:

Където П -броя на положителните отговори, необходими за анализ; Pj - дял на положителните отговори; Р 2 - дял целеви групи, изчислен като произведение на всички дялове на респондентите, които отговарят на установените изисквания (възраст, пол, потребителски статус и др.).

Използване на номограми за изчисляване на размера на извадката

Желанието да се опрости процедурата за изчисляване на размера на извадката води до създаването на таблици, скали или програми, които са насочени към осигуряване на статистическа надеждност на информацията, но не натоварват потребителя със знания за специални формули от областта на статистиката. Например, има калкулатор за вземане на проби (www. shortway. to/few/calculator, htm), на уебсайта на Gallup (www. gallup. ru) можете да намерите таблица, свързваща показателите за размера на извадката, разпределението на отговорите със стандартната грешка (Таблица 4.3).

Таблица 4.3 Връзка между показателите за размера на извадката и разпределението на отговорите и стандартна грешка

Разпределение на отговорите,			Размер на извадката
Разпределение на отговорите,

Номограмата е графичен начин за определяне на размера на извадката. Номограмата включва три скали (фиг. 4.4). На скалата отляво се задава маркировката на индикатора за стандартно отклонение или разпределението на дела на характеристиката. В дясната скала точността на измерване е отбелязана под формата на приемлива грешка (половината от интервала) при дадена доверителна вероятност от 95 или 99%. Маркировките се правят на средната скала, съответстваща на необходимия размер на пробата. Маркировките се правят на дясната и лявата скала на нивото на желаните стойности на индикатора (делът на характеристиката и допустимата грешка). Тези две маркировки са свързани с линийка; в пресечната точка на линийката със средната скала се прави маркировка, съответстваща на обема на пробата, който отговаря на желанията на изследователя.

Ориз. 4.4. Номограма за определяне на размера на извадката (95% ниво на сигурност)"

4.5. Определяне на размера на извадката

Процедурата на плана за вземане на проби включвапоследователно решаване на следните три задачи:

Дефиниране на обекта на изследване;

Определяне на структурата на извадката;

Определяне на размера на извадката.

обикновено, обект на маркетингови изследванияе набор от обекти на наблюдение, които могат да бъдат потребители, служители на фирма, посредници и др. Ако тази популация е толкова малка, че изследователският екип разполага с необходимите трудови, финансови и времеви ресурси, за да установи контакт с всеки от нейните елементи, тогава е напълно възможно да се проведе непрекъснато изследване на цялата популация. В този случай, след като сте определили обекта на изследване, можете да преминете към следващата процедура (избор на метод за събиране на данни, изследователски инструмент и метод за комуникация с аудиторията).

На практика обаче често не е възможно или препоръчително да се проведе цялостно изследване на цялата популация. Може да има следните причини за това:

Неспособност за установяване на контакт с някои елементи на съвкупността;

Неоправдано високи разходи за провеждане на непрекъснато изследване или наличие на финансови ограничения, които не позволяват провеждането на пълно проучване;

Кратката времева рамка, отделена за изследване, се дължи на загуба на релевантност на информацията с течение на времето или други причини и не позволява събирането, систематизирането и анализирането на обширни данни за цялото население.

Следователно големи и разпръснати популации често се изследват с помощта на извадка, която, както е известно, се разбира като част от популацията, предназначена да представлява популацията като цяло.

Точността, с която извадката отразява съвкупността като цяло, зависи от структура и размер на извадката.

Има два подхода за проектиране на извадката- вероятностни и детерминирани.

Вероятностен подход към дизайна на извадкатапредполага, че всеки елемент от популацията може да бъде избран с определена (различна от нула) вероятност. Съществуват различни видовепроби, базирани на теория на вероятностите (типични, вложени и т.н.). Най-простият и най-разпространеният в практиката е простата случайна извадка, при която всеки елемент от популацията има еднаква вероятност да бъде избран за изследване.

Вероятностното вземане на проби е по-точно и позволява на изследователя да оцени степента на надеждност на данните, които е събрал, въпреки че е по-сложно и по-скъпо от детерминистичното вземане на проби.

Детерминистичен подход към рамката за вземане на пробипредполага, че подборът на елементите на популацията се извършва чрез методи, основани или на съображения за удобство, или на решение на изследователя, или на контингентни групи.

от съображения за удобство, се състои в подбор на всякакви елементи от населението въз основа на лекотата на установяване на контакт с тях. Несъвършенството на този метод вероятно се дължи на ниската представителност на получената извадка, т.к елементи от популацията, които са удобни за изследователя, може да не са достатъчно представителни представители на популацията поради техния неслучаен и необоснован подбор.

Но от друга страна, простотата, икономичността и ефективността на изследванията, проведени по този метод, му спечелиха доста широко приложение в практиката и най-вече по време на предварителни изследвания, насочени към изясняване на основните проблеми.

Базиран метод на вземане на проби по решение на изследователя, се състои в подбор на елементи от населението, които според него са негови характерни представители. Този метод е по-напреднал от предишния, тъй като се основава на ориентация към характерни представители на изследваната популация, макар и избрани въз основа на субективните представи на изследователите за нея.

Метод на вземане на проби, базиран на контингентни стандарти, се състои в подбор на характерни елементи на популацията в съответствие с предварително получените характеристики на популацията като цяло. Тези характеристики могат да бъдат получени чрез провеждане на предварителни изследвания и, за разлика от предишния метод, не са субективни. Следователно този метод е по-усъвършенстван; той позволява получаването на извадкови популации, не по-малко представителни от вероятностните извадки при значително по-ниски разходи за провеждане на изследването.

След като избере структурата на извадката (подхода за нейното формиране, вида на вероятностната или детерминирана извадка), изследователят ще трябва да определи обема, т.е. брой елементи в извадката от популацията.

Размер на извадката определя достоверността на информациятаполучени в резултат на изследването й, както и разходите, необходими за извършване на изследването. Размерът на извадката зависина нивото на хомогенност или разнообразие на изследваните обекти.

Колкото по-голям е размерът на извадката, толкова по-висока е нейната точност и по-високи са разходите за провеждане на проучването. При вероятностен подход към структурата на извадката нейният обем може да се определи с помощта на добре известни статистически формули, базирани на определени изисквания за нейната точност.

На практика се използват няколко подхода за определяне на размера на извадката:

1. Свободен подход въз основа на прилагането на "правилото на палеца". Например, без доказателства се приема, че за да се получат точни резултати, извадката трябва да е 5% от популацията. Този подход е прост и лесен за прилагане, но не е възможно да се определи точността на получените резултати. При достатъчно голямо население може да бъде и доста скъпо.

Размерът на извадката може да бъде определен въз основа на определени предварително договорени условия. Например, клиентът на маркетингово проучване знае, че когато се изучава общественото мнение, извадката обикновено е 1000-1200 души, така че той препоръчва на изследователя да се придържа към тази цифра. Ако се провежда годишно проучване на определен пазар, тогава всяка година се използва извадка от същия размер. За разлика от първия подход, тук при определяне на размера на извадката се използва добре позната логика, която обаче е много уязвима.

Например, когато се провеждат определени изследвания, може да се изисква по-малка точност, отколкото при изучаване на общественото мнение, а размерът на популацията може да бъде многократно по-малък, отколкото при изучаване на общественото мнение. Следователно този подход не взема предвид текущите обстоятелства и може да бъде доста скъп.

В някои случаи разходите за провеждане на проучване се използват като основен аргумент при определяне на размера на извадката. По този начин бюджетът за маркетингови проучвания предвижда разходите за провеждане на определени проучвания, които не могат да бъдат надвишени. Очевидно стойността на получената информация не се взема предвид. В някои случаи обаче малка извадка може да даде доста точни резултати.

Изглежда разумно разходите да се разглеждат не в абсолютни стойности, а във връзка с полезността на информацията, получена от проведените проучвания. Клиентът и изследователят трябва да вземат предвид различни размери на извадката и методи за събиране на данни, разходи и други фактори

2. Размер на извадката от нивото на доверителния интервал на допустимата грешка, което както вече беше посочено се обуславя от целесъобразната точност на крайните обобщения: от увеличени към показателни. Това обаче се отнася до така наречените случайни грешки, свързани с естеството на всякакви статистически грешки. Те се изчисляват като грешки в представителността на вероятностните извадки.

V. I. Paniotto предоставя следните изчисления за представителна извадка с допускане на грешка от 5 процента (Таблица 4.2).

Таблица 4.2

Примерна таблица за изчисление

За популация над 100 000, размерът на извадката е 400 единици. Ако имаме предвид генерални съвкупности от 5 хиляди или повече, тогава, според изчисленията на същия автор, можем да посочим големината на действителната извадкова грешка в зависимост от нейния обем, което е много важно за нас, като се има предвид, че големината на допустимата грешка зависи от целта на изследването и не трябва да бъде близо до нивото от 5 процента.

Таблица 4.3

Таблица за изчисление

Наред със случайните грешки са възможни и систематични грешки. Те зависят от организацията на извадковото изследване. Това са различни отклонения на извадката към един от полюсите на параметъра на извадката.

3. Размер на извадката въз основа на статистически анализ . Този подход се основава на определяне на минималния размер на извадката въз основа на определени изисквания за надеждност и валидност на получените резултати. Използва се и при анализиране на получените резултати за отделни подгрупи, формирани в извадката по пол, възраст, степен на образование и др. Изискванията за надеждност и точност на резултатите за отделните подгрупи диктуват определени изисквания към размера на извадката като цяло.

Най-теоретично обоснованият и правилен подход за определяне на размера на извадката се основава на изчисляване на достоверни интервали. Концепцията за вариация характеризира степента на несходство (сходство) на отговорите на респондентите на определен въпрос. В по-строг смисъл, вариацията в стойностите на дадена характеристика в съвкупността е разликата в нейните стойности между различни единици от дадена популация в същия период или момент от време. Резултатите от отговорите на проучването обикновено се представят под формата на крива на разпределение (Фигура 4.1). Когато сходството на отговорите е високо, говорим за ниска вариация (тясна крива на разпределение), а когато сходството на отговорите е ниско, говорим за висока вариация (широка крива на разпределение).

Като мярка за вариация обикновено се приема стандартното отклонение, което характеризира средното разстояние от средната оценка на отговорите на всеки респондент на конкретен въпрос.

Малка вариация

Висока вариация

Ориз. 4.1. Вариационни и разпределителни криви

Тъй като всички маркетингови решения се вземат в условия на несигурност, препоръчително е това обстоятелство да се вземе предвид при определяне на размера на извадката. Тъй като определянето на изследваните стойности за популация по тесен начин се извършва въз основа на извадкови статистики, е необходимо да се установи обхватът (доверителен интервал), в който се очаква оценките за популацията като цяло падане и грешката в тяхното определяне.

Доверителният интервал е диапазон, чиито крайни точки съответстват на определен процент от определени отговори на въпрос. Доверителният интервал е тясно свързан със стандартното отклонение на характеристиката, която се изследва в популацията: колкото по-голямо е то, толкова по-широк трябва да бъде доверителният интервал, за да включи определен процент от отговорите.

Доверителният интервал от 95% или 99% е стандартен при провеждане на пазарни проучвания. Никоя компания не провежда маркетингови проучвания, използвайки множество проби. И математическа статистикадава възможност да се получи известна информация за разпределението на извадката, като има само данни за вариацията на една извадка.

Индикатор за степента, в която оценката, вярна за популацията като цяло, се различава от оценката, очаквана за типична извадка, е средната квадратична грешка. Освен това, колкото по-голям е размерът на извадката, толкова по-малка е грешката. Високата стойност на вариация причинява висока стойност на грешката и обратно.

Когато има само два възможни отговора на даден въпрос, изразени в проценти (използва се процентна мярка), размерът на извадката се определя по следната формула:

където n е размерът на извадката; z – нормализирано отклонение, определено въз основа на избраното ниво на доверителност; p – намерена вариация за извадката; g – (100-r); e – допустима грешка.

При определяне на индекса на вариация за определена популация е препоръчително преди всичко да се извърши предварителен качествен анализ на изследваната популация, на първо място, за да се установи сходството на единиците на популацията в демографски, социални и други аспекти, представляващи интерес за изследовател. Възможно е да се проведе пилотно проучване, като се използват резултатите от подобни проучвания, проведени в миналото. При използване на процентната мярка за променливост се взема предвид, че максималната променливост се постига при p = 50%, което е най-лошият случай. Освен това този показател не влияе радикално на размера на извадката. Мнението на клиента на проучването относно размера на извадката също се взема предвид.

Възможно е да се определи размерът на извадката, като се използват средни стойности, а не проценти.

където s е стандартното отклонение.

На практика, ако извадката е новоформирана и не са провеждани подобни изследвания, тогава s е неизвестно. В този случай е препоръчително да зададете грешката e в части от стандартното отклонение. Формулата за изчисление се трансформира и приема следния вид:

Където .

По-горе се говори за агрегати с много големи размери. В някои случаи обаче агрегатите не са големи. Обикновено, ако извадката е по-малко от пет процента от популацията, тогава популацията се счита за голяма и изчисленията се извършват съгласно горните правила. Ако размерът на извадката надвишава 5% от популацията, тогава последната се счита за малка и в горните формули се въвежда корекционен коефициент.

Размерът на извадката в този случай се определя, както следва:

Определяне на размера на вероятностната извадка

Сила на звукавероятностната извадка се определя с помощта на специални формули, в зависимост от даденото надеждност, точностизследвания и вариацииобщо население.

Теоретичната основа за възможността за използване на извадково изследване за оценка на характеристикитенаселението е централна гранична теорема.

Централна гранична теоремасъстояния: за прости произволни проби том n, изолирани от общата популация с истинска средна стойност μИ дисперсия σ2, За голямо n разпределение на извадковите средни стойностисе доближава до нормалното с център, равен на истинската средна стойност и дисперсия, равна на съотношението на дисперсията на съвкупността към размера на извадката, тоест:

Теоремата е вярна за всяко честотно разпределение в популацията, но колкото по-близко е разпределението в популацията до нормалното, толкова по-малък е размерът на извадката, необходим за постигане на еквивалентна надеждност и точност на изследването.

На практика изследователят формира само една извадка от популацията и трябва да знае какъв трябва да бъде размерът на извадката, за да поддържа зададените параметри на надеждност и точност. Формула за определяне на размера на извадката при оценка на средната стойностможе да се изведе въз основа на разпоредбите на централната гранична теорема и има формата:

н- необходим размер на извадката;

z- броя на интервалите, характеризиращи изискването за достоверност на изследването;

з- изисквана стойност на точността на изследването;

σ2- дисперсия на генералната съвкупност.

Нека разгледаме по-подробно параметрите от дясната страна на уравнението.

Достоверностхарактеризира вероятността конкретна произволна извадка да отразява адекватно характеристиките на популацията.

Доверие от 99% означава, че в 99 проби от 100 средната популация ще бъде в рамките на интервала на средната стойност, получена в резултат на изследването на извадката.

Пример . Например бяха проведени три независими извадкови изследвания на нивото на доходите на населението в даден регион. Бяха получени следните данни за нивото на средния доход: 300 10 UAH, 310 10 UAH, 305 10 UAH, истинската средна стойност е 302 UAH.

Както виждаме, истинската средна стойност е включена и в трите интервала.

С надеждност от 99% и определена точност от 10 UAH. в 99 проби от сто, средната проба ще бъде в диапазона от 292 до 312 UAH. В един случай от сто ще получим резултат под 292 UAH или повече от 312 UAH. Резултатите от такова проучване ще бъдат ненадеждни, т.к средната стойност на генералната съвкупност няма да бъде включена в коридора на средната стойност, получена в резултат на извадковото изследване.

В представената формула надеждността се характеризира със стойността z, която се определя от таблицата на z-разпределението в зависимост от зададената надеждност в проценти.

Представяме съответствието само за някои типични вероятности: 68,26% (z=1), 95,45% (z=2), 99,73% (z=3).

z-разпределение – Стандартно нормално (Z) разпределение

z стойността е броят на стандартните грешки, с които една точка се отстранява от средната стойност.

Вместо таблица за изчисляване на вероятността за попадение случайна величинав маркирания (защрихован) диапазон

Можете да използвате следната формула на EXCEL:

2*NORMSDIST(z)-1

заместване на необходимата z стойност в него. Например:

точностопределени от изследователя въз основа на конкретната поставена задача.

Ако изследваната стойност е абсолютна, тогава точността трябва да бъде представена като абсолютна, а не като относителна стойност.При определяне на проценти (дялове) точността се определя като процент.

Когато определя точността, изследователят трябва да вземе предвид възможни изследваниядинамика на показателя.

Пример . Например, ако с точност до 10 UAH. Резултатите от проучването миналата година определиха средния доход от 300 UAH, а тази година той е 305 UAH.Неправилно е да се правят изводи за увеличение на доходите, т.к. величината на промяната е в рамките на определения интервал на точност (по-малко от 10 UAH).

Най-трудното нещо при изчисляването на размера на извадката е определянето вариации . При оценката на средната стойност възникват два основни случая:

1) дисперсията на популацията е известна въз основа на предишни проучвания;

2) дисперсията на популацията е неизвестна.

Възможност за ползване дисперсия, получена от предишни проучвания, се основава на факта, че този параметър на населението е по-инерционен от средния. С други думи, той се променя по-бавно и следователно, ако, например, изучавате нивото на доходите на населението всяка година, можете да използвате количеството дисперсия, получено в миналогодишните проучвания.

Пример за изчисляване на размера на извадката.

Първо, размерът на извадката се влияе от ниво на увереност α, който се използва за определяне с помощта на специална таблица нормализирано отклонение z. Например, за случая на α = 99%, от таблицата намираме z = 2,58.

Второ, влияе ниво (коефициент) на вариация . Да вземем, например, коефициентът на вариация = 50%.

Трето, размерът на извадката се влияе от изискваното точност (допустима грешка)

Ако Не знаете нищо за общото ниво, тогава за оценка на нивото на дисперсия, което е възможно да се използва три сигма правила . При нормално разпределение 99% от параметрите на характеристиките трябва да бъдат в интервала плюс или минус три сигмаот истинската средна стойност. Когато провеждате изследвания, трябва оценка типична горна ( b) и по-ниско (а ) нива на параметри, интервалът между които е шест сигма. Сигма стойността ще бъде разликата в нивата на параметрите, разделена на 6.

дисперсияили вариация променлива:

Където б, а– съответно горната и долната стойност на параметъра.

Сигмае средното квадратично отклонение (стандартно отклонение):

Пример . Например при изследване ниво на доходитедолната стойност на параметъра се приема на ниво 0 UAH, а горната стойност, да предположим, на ниво 6000 UAH. В този случай стойността средно квадратично (стандартно) отклонениеще бъде: (6000-0)/6=1000.

Трябва да се отбележи, че ако изследователят наистина е готов да проведе изследване, тогава определянето на типичните по-ниски и горен лимитпараметрите не са особено трудни.

Когато работите с маркетингови скали, приетото количество вариация зависи от броя точки на скалата и вида на честотното разпределение.

Разглежда се най-лошият случай в маркетинговото проучване (съответстващ на максималната дисперсия). равномерно разпределениеотговори между точките на скалата. Най-доброто е нормално с максимална честота на отговорите в средата на скалата.

Таблица 5.1. Типични диапазони на дисперсия в зависимост от броя точки на скалата

По-ниските нива на диапазона съответстват на нормална дистрибуциячестоти, горните – равномерни.

Прилага се формулата за определяне на размера на извадката, разгледана по-горе при изчисляване на средни стойности.

Ако изследователят работи с проценти или дялове, тогава формулата се трансформира в следния вид:

където p е делът на хората, които отговарят на въпроса положително или отрицателно.

Когато работите с проценти, заменете 100 вместо едно във формулата.

Очевидно максималната стойност на множителя (1-р)р възниква при равен дял на положителни и отрицателни отговори и е 0,25 при работа с дялове и 2500 при работа с проценти, но резултатът при работа с дялове или проценти ще са еквивалентни, тъй като числената стойност на квадрата на точността в знаменателя също ще се различава с коефициент 10 000.

Освен когато се прилага коефициент за окончателна популация. Това може да изглежда невероятно, но ако се замислите, това твърдение има смисъл. Например, ако изследваните характеристики на всички елементи на популацията са идентични, тогава извадка, състояща се от един елемент, е напълно достатъчна за изчисляване на средната стойност. Това е вярно и ако популацията се състои от 50, 500, 5000 или 50 000 елемента.

В същото време променливостта в характеристиките на популацията пряко влияе върху размера на извадката. Тази променливост се взема предвид при изчисляване на размера на извадката, като се използва дисперсията на популацията σ2 или дисперсията на извадката s2.

Пример (N.B. Safronova, I.E. Korneeva). Нека изчислим извадката за маркетингово проучване за информираността на потребителите за марката. Стойност на вероятността P = 0,954, максималната допустима грешка на това изследване не трябва да надвишава 5%. Колко респонденти ще трябва да бъдат анкетирани, за да се реши този проблем чрез повторна случайна извадка, като се има предвид, че няма данни за разпределението на характеристиките?

Решение . Тъй като делът на атрибута е неизвестен, нека приемем, че 50% от потребителите знаят търговска марка, а 50% - не. Използваме формулата за изчисляване на извадката, като вземем предвид дела на характеристиката:

= = 400 души

Необходими са по-сложни методи за изчисляване на размера на извадката, когато в процеса на анализ се използва двойна или тройна таблица. Това се дължи на факта, че надеждността и точността, постигнати с изчисления размер на извадката за извадката като цяло, не се постигат за отделните й части, на които извадката се разделя в процеса на табулиране.

Пример . Например, когато се определя средното ниво на доходите на населението, определен размер на извадката може да е достатъчен, но не е достатъчен, за да се определи средното ниво на доходите на мъжете и жените (с дадена точност и надеждност). Това е лесно разбираемо, тъй като броят на мъжете и жените, участвали поотделно в проучването, е по-малък от броя на всички респонденти. Познавайки обаче съотношението мъже и жени, лесно е да се определи с каква точност се изчислява нивото на средния доход за всяка от разглежданите групи.

Определяне на размера на извадката: среден

Методът, използван за създаване на доверителния интервал, може да бъде модифициран, за да се определи размерът на извадката въз основа на желания доверителен интервал. Да предположим, че искате да оцените по-точно месечните разходи на едно домакинство за универсалния магазин, така че резултатът да е в рамките на ±$5,00 от истинската средна стойност на населението. Какъв трябва да бъде размерът на извадката? В табл 12.2 предоставя необходимия списък от действия, които трябва да извършите.

1. Определете степента на точност. Това е максимално допустимата разлика (Д)между средната стойност на извадката и средната стойност на популацията. В нашия пример D=±$5,00.

2. Посочете нивото на достоверност. Да приемем, че желаното ниво на доверие е 95%.

3. Определете стойността на r, свързана с дадено ниво на достоверност, като използвате таблицата. 2 в Приложение "Статистически таблици". При ниво на достоверност от 95% вероятността средната популация да попадне извън едностранния интервал е 0,025 (0,05/2). Съответстващата стойност на r е 1,96.

4. Определете стандартното отклонение на средната стойност на съвкупността. Тя може да бъде получена от вторични източници или изчислена чрез провеждане на пилотно проучване. Освен това стандартното отклонение може да бъде зададено въз основа на мнението на изследователя. Например обхватът на променлива с нормално разпределение е приблизително шест стандартни отклонения(три вляво и вдясно от средното). По този начин стандартното отклонение може да бъде изчислено чрез разделяне на стойността на целия диапазон на 6. Изследователят често може да определи размера на диапазона въз основа на собственото си разбиране на анализираните явления.

5. Определете размера на извадката, като използвате стандартната грешка на формулата за средна стойност:

В нашия пример

(закръглено до най-близкото цяло число).

стандартното отклонение на проба 5 е 50,00. Тогава коригираният доверителен интервал ще бъде

Имайте предвид, че полученият доверителен интервал е по-тесен от очаквания. Това е така, защото стандартното отклонение на популацията е завишено въз основа на характеристиките на извадката.

8. Понякога точността се определя в относителни, а не в абсолютни термини. С други думи, може да се знае, че резултатът от изчислението трябва да бъде плюс или минус R%от средно. Означава, че D = rm.

В този случай размерът на извадката може да се определи като

Размер на населението нне влияе пряко на размера на извадката, освен ако не се приложи коефициент за окончателна популация. Това може да изглежда невероятно, но ако се замислите, това твърдение има смисъл. Например, ако изследваните характеристики на всички елементи на популацията са идентични, тогава извадка, състояща се от един елемент, е напълно достатъчна за изчисляване на средната стойност. Това е вярно и ако популацията се състои от 50,500,5000 или 50 000 елемента. В същото време променливостта в характеристиките на популацията пряко влияе върху размера на извадката. Тази променливост се взема предвид при изчисляване на размера на извадката, като се използва дисперсията на популацията s2 или дисперсията на извадката s2.

Общият брой обекти на наблюдение (хора, домакинства, предприятия, населени места и др.) с определен набор от характеристики (пол, възраст, доход, брой, оборот и др.), ограничен в пространството и времето. Примери за популации

Всички жители на Москва (10,6 милиона души според преброяването от 2002 г.)
Мъже московчани (4,9 милиона души според преброяването от 2002 г.)
Юридически лица на Русия (2,2 милиона в началото на 2005 г.)
Търговски обекти за продажба на хранителни стоки (20 хил. в началото на 2008 г.) и др.

Извадка (извадкова популация)

Част от популация, избрана за изследване, за да се направят заключения за цялата популация. За да може заключението, получено чрез изследване на извадката, да се разшири върху цялата популация, извадката трябва да притежава свойството на представителност.

Представителност на извадката

Свойството на извадката да отразява правилно съвкупността. Една и съща извадка може да бъде представителна и непредставителна за различни популации.
Пример:

Извадка, състояща се изцяло от московчани, които притежават кола, не представлява цялото население на Москва.
Извадка от руски предприятия с до 100 служители не представлява всички предприятия в Русия.
Извадка от московчани, пазаруващи на пазара, не представя покупателното поведение на всички московчани.

В същото време тези проби (при други условия) могат перфектно да представят московчани, които са собственици на малки и средни автомобили. руски предприятияи съответно купувачи, пазаруващи на пазари.
Важно е да се разбере, че представителността на извадката и грешката на извадката са различни явления. Представителността, за разлика от грешката, не зависи по никакъв начин от размера на извадката.
Пример:
Колкото и да увеличим броя на анкетираните московчани, които са собственици на автомобили, няма да можем да представим всички московчани с тази извадка.

Грешка на извадката (доверителен интервал)

Отклонението на резултатите, получени чрез извадково наблюдение от истинските данни на генералната съвкупност.
Има два вида грешки на извадката - статистическа и систематична. Статистическата грешка зависи от размера на извадката. Колкото по-голям е размерът на извадката, толкова по-малък е той.
Пример:
За проста произволна извадка от 400 единици максималната статистическа грешка (с 95% ниво на доверие) е 5%, за извадка от 600 единици - 4%, за извадка от 1100 единици - 3% Обикновено, когато говорят за извадка грешка, те означават статистическа грешка.
Систематичната грешка зависи от различни фактори, които постоянно влияят върху изследването и отклоняват резултатите от изследването в определена посока.
Пример:

Използването на всякакви вероятностни проби ще подцени дела на хората с високи доходи, които водят активен начин на живот. Това се дължи на факта, че е много по-трудно да се намерят такива хора на всяко конкретно място (например у дома).
Проблемът с респондентите, които отказват да отговорят на въпроси (делът на „отказниците“ в Москва за различни проучвания варира от 50% до 80%)

В някои случаи, когато са известни истинските разпределения, систематичната грешка може да бъде изравнена чрез въвеждане на квоти или претегляне на данните, но в повечето реални проучвания може да бъде доста проблематично дори да се оцени.

Примерни типове

Пробите са разделени на два вида:

вероятностен
невероятностни

1. Вероятностни проби
1.1 Случайна извадка (обикновена произволна извадка)
Такава извадка предполага хомогенност на съвкупността, еднаква вероятност за наличност на всички елементи и наличие на пълен списък на всички елементи. При избора на елементи по правило се използва таблица с произволни числа.
1.2 Механично (систематично) вземане на проби
Вид произволна извадка, подредена по някакъв признак (азбучен ред, телефонен номер, дата на раждане и др.). Първият елемент се избира произволно, след което със стъпка 'n' се избира всеки 'k'-ти елемент. Размерът на популацията, в този случай – N=n*k
1.3 Стратифицирани (зонирани)
Използва се в случай на разнородност на популацията. Генералната съвкупност е разделена на групи (страти). Във всяка страта селекцията се извършва на случаен принцип или механично.
1.4 Серийно (клъстер или клъстер) вземане на проби
При серийно вземане на проби единиците за подбор не са самите обекти, а групи (клъстери или гнезда). Групите се избират на случаен принцип. Обектите в групите се изследват групово.

2. Невероятностни проби
Подборът в такава извадка се извършва не по принципите на случайността, а по субективни критерии - наличие, типичност, равно представителство и др.
2.1. Квотна извадка
Първоначално се идентифицират редица групи обекти (например мъже на възраст 20-30 години, 31-45 години и 46-60 години; лица с доход до 30 хиляди рубли, с доход от 30 до 60 хиляди рубли и с доход над 60 хиляди рубли ) За всяка група е посочен броят на обектите, които трябва да бъдат изследвани. Броят на обектите, които трябва да попаднат във всяка от групите, най-често се задава или пропорционално на предварително известния дял на групата в генералната съвкупност, или еднакъв за всяка група. В рамките на групите обектите се избират на случаен принцип. Квотната извадка се използва доста често.
2.2. Метод на снежна топка
Пробата е конструирана по следния начин. От всеки респондент, като се започне от първия, се иска информация за контакт на неговите приятели, колеги, познати, които отговарят на условията за подбор и биха могли да участват в проучването. Така, с изключение на първата стъпка, извадката се формира с участието на самите обекти на изследване. Методът често се използва, когато е необходимо да се намерят и интервюират труднодостъпни групи от респонденти (например респонденти с високи доходи, респонденти, принадлежащи към същата професионална група, респонденти със сходни хобита/интереси и др.)
2.3 Спонтанно вземане на проби
Анкетират се най-достъпните респонденти. Типични примериспонтанни извадки – във вестници/списания, давани на респондентите за самостоятелно попълване, повечето онлайн анкети. Размерът и съставът на спонтанните извадки не е предварително известен и се определя само от един параметър - активността на респондентите.
2.4 Примерни типични случаи
Избират се единици от генералната съвкупност, които имат средна (типична) стойност на признака. Това повдига проблема с избора на характеристика и определянето на нейната типична стойност.