Расширенная выборка. Тема семинара: выборка в социологическом исследовании Ключевые понятия. Практические примеры расчета

05.03.2020

Понятие «репрезентативность» применительно к социологическим опросам - опросам общественного мнения - обладает почти магическим действием на людей. Сам термин «репрезентация» имеет кроме научного еще и явно политическое значение.

В чем причина? Все дело в том, что предполагается, что выборка (группа людей, отобранная для опроса) может репрезентировать (представлять) всю генеральную совокупность. Генеральной совокупностью в случае общероссийских опросов является все население страны. Теперь представим, что речь идет о политическом решении - поддержке законопроекта или голосовании на выборах. С помощью выборочного опроса мы получаем отличный механизм политической репрезентации - механизм, при котором небольшая группа людей может представлять мнение или позицию всего населения страны. Поэтому репрезентативности исследования отводится такое важное место.

Понятие репрезентативности используется, разумеется, не только в политических исследованиях. Термин применяется практически всегда, когда речь идет о больших исследованиях, будь то в сфере маркетинга, экономического поведения или образования.

Методология репрезентативных опросов

Как, опросив 1500 человек, можно делать выводы обо всех россиянах, которых более 140 миллионов (и даже избирателей более 110 миллионов)? Технология, которая стоит за репрезентативными опросами, основана на статистических законах. Ближайшим основанием служит закон больших чисел, или теорема Бернулли.

Упрощенно его смысл можно передать так. Предположим, у нас имеется некоторый признак, например количество осадков за день в Екатеринбурге в течение ХХ века. Если мы выпишем все его значения вместе с их частотой (это называется распределением), а затем случайно возьмем достаточно большое число случаев (то есть не все дни в ХХ веке, но достаточно много), то мы увидим, что распределение в нашей выборке будет очень похожим на распределение за весь ХХ век. Таким образом, если мы отбираем из совокупности некоторые единицы, они действительно могут представлять всю совокупность, и на самом деле нет необходимости собирать данные по всем случаям.

Однако имеется ключевое условие: это верно, только если производить отбор строго случайным образом. Единственной проблемой здесь может быть отклонение от случайности. Так, если мы возьмем только данные по осадкам за последние годы (например, потому что эти данные проще найти) или опросим 1500 своих знакомых (потому что с ними проще связаться), а не случайных людей, то выборка, конечно, не будет репрезентативной.

Представьте, что из 143,5 миллионов россиян вы случайным образом отбираете необходимые вам 1500 человек. Тогда, например, доля менеджеров среднего звена среди них будет приблизительно равна доле менеджеров среднего звена в генеральной совокупности, что и показывает, что ваша выборка может представлять всю совокупность. Может ли так получиться, что эти два показателя будут сильно различаться? Например, среди россиян он составляет 14%, а в выборке он составит только 1%? Теоретически это возможно, однако вероятность этого настолько мала, что ею можно пренебречь (примерно как встретить дракона на улице).

Более того, самое приятное в этой вероятности даже не то, что она мала, а то, что для случайных процессов эту вероятность можно вычислить. Мы можем сказать, с какой вероятностью наше выборочное значение отклонится от значения в генеральной совокупности на 13% (как в примере выше), а с какой, скажем, на 2,5%. Обычно, впрочем, делают наоборот: сначала определяют вероятность, с которой мы хотим, чтобы наше значение не отклонялось от значения в генеральной совокупности (чаще всего его фиксируют на уровне 95%), а потом уже смотрят, какова величина отклонения при том или ином размере выборки. Это отклонение называется доверительным интервалом, иногда его называют ошибкой выборки или статистической погрешностью - его часто приводят рядом с результатами опроса.

Итак, вероятность отклонения, величина отклонения (доверительный интервал) и размер выборки связаны между собой. Исходя из этого, формула для расчета размера выборки выглядит следующим образом:

где n - размер выборки, Δ - доверительный интервал, z - значение функции нормального распределения для данной вероятности отклонения (для вероятности 5% это значение составляет 1,96).

Это упрощенная формула, в реальных опросах используются несколько более сложные формулы. Эта формула также может давать сбой, если значение показателя сильно отличается от 50% (поэтому, например, эта формула не подойдет для того, чтобы оценить долю больных редким заболеванием в стране).

Вот что будет, если подставить в эту формулу некоторые значения:

Иными словами, если мы взяли случайную выборку россиян размером в 1600 человек и оценили какой-то показатель, например готовность голосовать за определенного политика, то с вероятностью 95% наша оценка не будет отличаться от готовности проголосовать за него среди всех россиян более чем на 2,45%.

Размер выборки

Итак, чем больше размер выборки, тем больше вероятность того, что мы будем ближе к доле в генеральной совокупности. Казалось бы, это значит, что нам нужно стараться приблизить выборку к 143,5 млн. На самом деле, как можно видеть из таблицы, природа случайных процессов такова, что с определенного момента вероятность попасть в интервал начинает повышаться очень медленно (и этот момент наступает довольно быстро). После того как мы отбираем 1500 единиц, как бы мы сильно ни увеличивали объем выборки, вероятность, что наше значение по выборке попадет в значение по генеральной совокупности, будет возрастать очень и очень медленно.

Фактически разницы между 1500 и 10 000 опрошенных почти нет. Где-то к 1500 мы уже можем говорить о том, что наши оценки будут отличаться от доли в генеральной совокупности на 2–3%. Если мы увеличиваем выборку дальше, то эта возможная ошибка будет уменьшаться, но очень незначительно. Иными словами, выборка в 100 000 лучше, чем выборка в 2500, но разница настолько мала, что не имеет смысла, а в случае социальных обследований и экономически не обоснована. Обычно увеличение выборки стоит дорого, и поэтому ее не имеет смысла раздувать ради того, чтобы выиграть один процентный пункт в величине доверительного интервала.

Важно, что в формуле вообще не фигурирует размер генеральной совокупности. Дело в том, что, когда генеральная совокупность велика (более 20 000), он практически не влияет на размер выборки. Таким образом, нам не нужно знать, сколько людей живет в России, чтобы построить репрезентативную выборку. Понятно, что выбирать 1500 из 2000, скорее всего, не имеет смысла - проще обследовать 2000 и получить точную оценку. Но, делая в случае необходимости выборку, мы получаем возможность обобщать ее результаты для генеральной совокупности. И по этой же причине размер выборки не будет отличаться для больших и маленьких стран.

Репрезентативность и точность

Чтобы понять смысл понятия «репрезентативность», давайте рассмотрим выборку в 15 человек. Как ни странно, если вы сделали ее случайно, она тоже репрезентативна. Более того, вы можете сделать выборку в одну единицу. Представьте ящик с шарами, откуда вы случайным образом берете один шар. Если это случайно выбранный шар, то он тоже будет репрезентировать все шары, что есть в этом ящике. Просто он будет репрезентировать их неточно . Почему? Потому что есть очень большая вероятность ошибиться. В следующий раз мы можем вытащить другой шар и получить другое представление о шарах в ящике. Репрезентировать неточно означает иметь большой разброс оценок.

Точно так же и 15 человек репрезентируют любую генеральную совокупность, но они репрезентируют ее неточно, потому что погрешность, доверительный интервал очень велики. Нам придется добавлять по +/- 33%, чтобы получить 95% вероятности того, что мы попадем в интервал. Если мы готовы это допустить, то берем 15 человек, выясняем, что 7 из них - это менеджеры среднего звена, а далее получаем оценку, что 7/15 от совокупности, то есть 47% +/- 33%, - это и есть оценка доли менеджеров в генеральной совокупности, и это абсолютно корректный вывод. Просто он не имеет никакой ценности. Это мы могли сказать и без обследования. Поэтому, планируя выборку, имеет смысл достигать такого объема, который будет целесообразным с точки зрения соотношения затрат и эффективности.

Все сказанное призвано донести одну простую мысль, которую очень часто не осознают: объем выборки не связан с ее репрезентативностью .

Маленькая выборка неточна, но она все равно может быть репрезентативной. Объемы выборок, которые используются сегодня в массовых опросах в России, почти всегда обладают достаточно высокой точностью.

Угрожает же репрезентативности выборки не ее объем, а смещение, то есть отклонение от принципа случайности.

Нарушение принципа случайности

Если мы начинаем выбирать единицы неслучайным образом, выборка становится нерепрезентативной. Например, если что-нибудь мешает нам отбирать их случайно. Представим себе, что мы хотим отобрать шары из нашего ящика случайным образом, но тут оказывается, что часть шаров кусается. Механизм, при котором мы будем брать только те шарики, которые даются нам в руки, - это механизм, нарушающий случайность и поэтому нарушающий репрезентативность. В этом случае, сколько бы мы шариков ни взяли из ящика (даже если мы возьмем все шарики, которые не кусаются), у нас будет нерепрезентативная выборка, потому что мы не учтем ни одного из тех, что кусаются, - они просто минуют нашу выборку.

Самая большая проблема с кусающимися шарами состоит в том, что они могут отличаться от тех, которые идут к нам в руки, и отличаться как раз по тому признаку, который нас интересует. Такая ситуация называется систематической ошибкой выборки.

Нужно отличать ситуацию неточной репрезентации, которую мы описали выше, от ситуации нерепрезентативности. Это разные проблемы, и у них разные способы решения. Нельзя решить одну из них путем решения другой. Если выборке не хватает репрезентативности, бесполезно ее увеличивать. Более того, большие выборки в социальных обследованиях имеют свойство накапливать ошибки, поэтому с помощью сильного увеличения выборки проблему репрезентации можно только усугубить.

Почему репрезентативность невозможна

В примечаниях к таблицам с результатами опросов часто можно увидеть, что «объем выборки составляет 1600 человек, выборка репрезентативна по полу и возрасту». Из сказанного выше очевидно, что это два разных параметра: указание на репрезентативность не связано с объемом выборки. На самом деле здесь имеется в виду то, что выполнялись определенные процедуры, для того чтобы обеспечить соответствие между выборкой и генеральной совокупностью. Например, чтобы обеспечить репрезентативность по полу, в выборку набирают мужчин и женщин в таких же соотношениях, какие существуют среди россиян по данным переписи. Но репрезентативность по полу не означает репрезентативности, например, по политическим взглядам.

Почему приходится выравнивать выборку по полу и другим социально-демографическим категориям? Потому что подлинную репрезентативность может обеспечить только случайная выборка, а реализовать ее на практике невозможно по массе причин. Как только вы попытаетесь это сделать, вы столкнетесь с множеством проблем - неважно, каким методом вы захотите воспользоваться. Часть респондентов вообще окажется недоступной для вашего метода (скажем, для личных интервью большой проблемой являются дома с домофонами и охраной), еще часть будет отсутствовать, не отвечать или предпочтет заниматься своими делами. Есть люди, у которых есть языковые проблемы, и они не могут с нами говорить. Есть люди, которые не понимают, зачем это нужно, и они не хотят с нами говорить. Все это - серьезные нарушения случайности, которые делают ее реализацию невозможной.

Те, кто сводит проблему репрезентации в массовых опросах к статистике, забывают о том, что люди - это очень специфические шарики. Есть шарики, которые убегают и прячутся. Есть шарики, которые кусаются. Они не пассивные объекты, они дают сдачи. Они говорят: «Я не хочу участвовать в твоем опросе», тем самым нарушают случайность. Поэтому в строгом смысле слова репрезентативность в массовых опросах, конечно, невозможна ни в каком виде.

Выработан механизм, с помощью которого обычно обеспечивается видимость репрезентативности: мы выравниваем выборку по некоторым категориям и делаем вид, что по всем остальным возможным категориям она тоже выровнена. На самом деле у нас нет никаких оснований это утверждать. Но проблема в том, что нет и никакой возможности это проверить - опять же в силу того, что некоторые шарики кусаются. Для того чтобы проверить наличие систематической ошибки, проверяющему пришлось бы сходить к тем, кого мы не опросили, и опросить их. Но они, как мы помним, совсем не хотят, чтобы их опрашивали. Опросить тех, кто категорически не отвечает, невозможно. Поэтому все работают на предположении, что, если мы выровняли выборку по двум-трем параметрам, она репрезентирует всю совокупность, хотя у этого предположения и нет никаких серьезных оснований.

Репрезентативная выборка - технология, заимствованная социологами из статистики. Поэтому она неизбежно несет в себе элементы математико-статистической картины мира. Пожалуй, самое сильное допущение состоит в том, что сам по себе выборочный опрос политически и социологически нейтрален: участие и неучастие в опросе не несет в себе политического смысла и не связано с другими социологически важными параметрами. Но сегодня опросы стали одним из главных политических институтов и превратились в ключевого посредника между крупными корпорациями и потребителями. В этих условиях верить в их политическую стерильность уже невозможно. Однако мы по-прежнему мало знаем о том, как опросы понимаются в современных обществах и что они в действительности репрезентируют.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

Эмпирические считаются одним из основных средств изучения общественных отношений и процессов. Они обеспечивают получение надежной, полной и репрезентативной информации.

Специфика приемов

Эмпирические обеспечивают получение фактофиксирующего знания. Они способствуют установлению и обобщению обстоятельств за счет опосредованной или прямой регистрации событий, свойственных изучаемым отношениям, объектам, явлениям. Эмпирические приемы отличаются от теоретических тем, что предметом анализа выступают:

Поведение индивидов и их групп.
Продукты деятельности человека.
Вербальные действия индивидов, их суждения, взгляды, мнения.

Выборочные исследования

Эмпирическое изучение всегда ориентировано на получение объективных и точных сведений, количественных данных. В этой связи при его выполнении необходимо обеспечить репрезентативность информации. Соответственно, особое значение имеет правильная выборочная совокупность. Это значит, что отбор необходимо осуществлять так, чтобы полученные данные узкой группы отражали тенденции, имеющие место в общей массе респондентов. Например, при опросе 200-300 человек полученные данные можно экстраполировать на все городское население. Показатели выборочной совокупности позволяют по-другому подойти к изучению общественно-экономических процессов в регионе, в стране в целом.

Терминология

Для лучшего понимания вопросов, касающихся выборочных исследований, необходимо разъяснить некоторые определения. Единицей наблюдения называют непосредственный источник информации. Им может являться отдельный индивид, группа, документ, организация и так далее. Генеральная совокупность - это комплекс единиц наблюдения. Они все должны иметь отношение к проблеме, которая изучается. Непосредственному анализу подлежит . Изучение осуществляется в соответствии с разработанными приемами сбора сведений. Для определения этой доли всего массива респондентов используют понятие "выборочная совокупность". Ее свойство отражать ключевые параметры общей массы людей именуется репрезентативностью. В ряде случаев совпадения отсутствуют. Тогда говорят об ошибке репрезентативности.

Обеспечение репрезентативности

Подробно вопросы, связанные с ним, рассматриваются в рамках статистики. Проблемы отличаются сложностью, так как, с одной стороны, речь ведется об обеспечении количественной репрезентации, которую дает генеральная совокупность. Это означает, в частности, что группы опрошенных должны быть представлены в оптимальном числе. Количество должно быть достаточным для нормального представительства. С другой стороны, имеется в виду и качественная репрезентация. Она предполагает определенный субъектный состав, которым формируется выборочная совокупность. Это значит, что, например, о репрезентативности не может идти речь, если опрашиваются исключительно мужчины либо только женщины, люди пожилого возраста либо молодежь. Изучение должно осуществляться в рамках всех представленных групп.

Характеристика выборки

Этот термин рассматривается в двух аспектах. В первую очередь она определяется как комплекс элементов от общего массива людей, мнение которых изучается, - это выборочная совокупность. Это также процесс создания определенной категории респондентов при требуемом обеспечении репрезентативности. На практике выделяется несколько типов и видов отбора. Рассмотрим их.

Типы

Их существует три:

Стихийная выборочная совокупность. Это набор респондентов, отобранных по принципу добровольности. Вместе с этим обеспечивается доступность вхождения единиц от общей массы людей в конкретную группу изучения. Стихийный отбор на практике применяется достаточно часто. Например, при опросах в прессе, на почте. Однако этот прием имеет существенный недостаток. В нем невозможно качественно представить весь объем генеральной выборки. Этот прием применяется с учетом экономичности. В некоторых опросах этот вариант является единственно возможным.
Стихийная выборочная совокупность. Это один из основных приемов, применяемых при изучении. В качестве ключевого принципа такого отбора выступает обеспечение возможности для каждой единицы наблюдения попасть из общей массы индивидов в узкую группу. Для этого используются разные приемы. Например, это может быть лотерейный, механический отбор, таблица случайных чисел.
Стратифицированная (квотная) выборка. В ее основе лежит формирование качественной модели общей массы респондентов. После этого осуществляется отбор единиц в выборочную совокупность. К примеру, он выполняется по возрастному или половому признаку, по слоям населения и так далее.

Виды

Существуют следующие выборки:

Дополнительно

Выборки могут быть также зависимыми и независимыми. В первом случае процедура эксперимента и результаты, которые будут в ходе него получены для одной группы респондентов, оказывают определенное влияние на другую. Соответственно, независимые выборки не предполагают наличие такого воздействия. Здесь, однако, следует обратить внимание на один важный момент. Одна группа испытуемых, в отношении которой психологическое обследование проводилось дважды (даже если оно было направлено на изучение различных качеств, особенностей, признаков), по умолчанию будет считаться зависимой.

Вероятностные отборы

Рассмотрим некоторые типы выборок:

Случайная. Она предполагает однородность общей совокупности, одну вероятность доступности всех компонентов, а также наличие полного перечня элементов. Как правило, в процессе отбора используется таблица со случайными числами.
Механическая. Эта разновидность случайной выборки предполагает упорядочение по определенному признаку. К примеру, по номеру телефона, в алфавитном порядке, по дате рождения и так далее. Первый компонент выбирается в случайном порядке. Далее осуществляется отбор каждого k элемента с шагом n. Величина общей совокупности будет N=k*n.
Стратифицированная. Эта выборка используется при неоднородности общей совокупности. Последняя разбивается на страты (группы). В каждой из них отбор проводится механическим либо случайным способом.
Серийная. Отбор групп осуществляется случайно. Внутри них объекты изучаются сплошняком.

Невероятностные отборы

Они предполагают выборку не по принципу случайности, а по субъективным признакам: типичности, доступности, равного представительства и так далее. К этой категории относят отборы:

Нюанс

Для обеспечения репрезентативности необходим точный и полный перечень единиц совокупности. Объектами наблюдения, как правило, выступает один человек. Отбор из перечня лучше осуществлять, нумеруя единицы и применяя таблицу со случайными числами. Но достаточно часто используется и квазислучайный метод. Он предполагает отбор из перечня каждого n элемента.

Влияющие факторы

Объемом совокупности называют количество ее единиц. По мнению специалистов, он не обязательно должен быть большим. Несомненно, чем больше число респондентов, тем точнее результат. Однако вместе с этим большой объем не всегда гарантирует успех. Например, это случается, когда общий массив респондентов неоднороден. Однородной будет считаться такая совокупность, где контролируемый параметр, к примеру, уровень грамотности, распределяется равномерно, то есть, пустоты или сгущения отсутствуют. В таком случае будет достаточно опросить несколько человек. По результатам обследования можно будет сделать вывод, что большая часть людей имеет нормальный уровень грамотности. Из этого следует, что на репрезентативность информации влияние оказывают не количественные признаки, а качественные характеристики совокупности - уровень ее однородности, в частности.

Ошибки

Они представляют собой отклонение средних параметров выборочной совокупности от значений общей массы респондентов. На практике ошибки определяются с помощью сопоставления. При обследовании взрослых людей обычно применяются сведения переписей, статистического учета, а также результаты прошлых опросов. Контрольными параметрами обычно выступают Сопоставление средних значений совокупностей (общей и выборочной), определение в соответствии с этим ошибки и уменьшение этого отклонения именуется контролированием репрезентативности.

Выводы

Выборочное исследование - способ сбора данных об установках и поведении людей через опрос специально подобранных групп респондентов. Этот прием считается надежным и экономичным, хотя и требует определенной техники. В качестве основы выступает выборочная совокупность. Она выступает как определенная доля общей массы людей. Отбор производится с использованием специальных приемов и направлен на получение информации обо всей совокупности. Последняя, в свою очередь, представлена всеми возможными общественными объектами или той их группой, которая будет изучаться. Зачастую генеральная совокупность настолько крупная, что проведение опроса каждого ее представителя будет достаточно дорогостоящим и обременительным процессом. Поэтому используется уменьшенная ее модель. В выборочную совокупность включаются все те, кто получает анкеты, кто именуется респондентами, кто, собственно, выступает в качестве объекта изучения. Проще говоря, ее составляет множество людей, которых опрашивают.

Заключение

Цели обследования определяются по конкретным категориям, входящим в генеральную совокупность. Что касается конкретной доли от общей массы людей, то ее составляют субъекты, включенные в группы с помощью математических расчетов. Для отбора единиц необходимо описание объекта исходной совокупности. После определения количества испытуемых определяется прием или способ формирования групп. Результаты обследования позволят описать изучаемый признак относительно всех представителей общей массы людей. Как показывает практика, в основном проводятся выборочные, а не сплошные исследования.

Исследование обычно начинается с некоторого предположения, требую-щего проверки с привлечением фактов. Это предположение — гипотеза — формулируется в отношении связи явлений или свойств в некоторой сово-купности объектов.

Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить тревож-ность у всех женщин и мужчин, как невозможно измерить агрессивность у всех подростков. Поэтому при проведении исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.

Генеральная совокупность — это все множество объектов, в отношении ко-торого формулируется исследовательская гипотеза.

Например, все мужчины; или все женщины; или все жители какого-либо города. Генеральные совокупности, в отно-шении которых исследователь собирается сделать выводы по результатам ис-следования, могут быть по численности и более скромными, например, все первоклассники данной школы.

Таким образом, генеральная совокупность — это хотя и не бесконечное по численности, но, как правило, недоступное для сплошного исследования мно-жество потенциальных испытуемых.

Выборка или выборочная совокупность — это ограниченная по численности группа объектов (в психоло-гии — испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств. Соответственно, изучение на выбор-ке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

Таким образом, после того, как сформулирована гипотеза и определены соответствующие генеральные совокупности, перед исследователем возни-кает проблема организации выборки. Выборка должна быть такой, чтобы была обоснована генерализация выводов выборочного исследования — обобщение, распространение их на генеральную совокупность. Основные критерии обо-снованности выводов исследования — это репрезентативность выборки и ста-тистическая достоверность (эмпирических) результатов.

Репрезентативность выборки — иными словами, ее представительность — это способность выборки представлять изучаемые явления достаточно пол-но — с точки зрения их изменчивости в генеральной совокупности.

Конечно, полное представление об изучаемом явлении, во всем его диапа-зоне и нюансах изменчивости, может дать только генеральная совокупность. Поэтому репрезентативность всегда ограничена в той мере, в какой ограни-чена выборка. И именно репрезентативность выборки является основным кри-терием при определении границ генерализации выводов исследования. Тем не менее, существуют приемы, позволяющие получить достаточную для ис-следователя репрезентативность выборки (Эти приемы изучаются в курсе «Экспериментальная психология»).

Первый и основной прием — это простой случайный (рандомизированный) отбор. Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку. Слу-чайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности. При этом принимаются специ-альные меры, исключающие появление какой-либо закономерности при отборе. И это позволяет надеяться на то, что в конечном итоге в выборке изу-чаемое свойство будет представлено если и не во всем, то в максимально воз-можном его многообразии.

Второй способ обеспечения репрезентативности — это стратифицирован-ный случайный отбор, или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут вли-ять на изменчивость изучаемого свойства (это может быть пол, уровень дохо-да или образования и т. д.). Затем определяется процентное соотношение чис-ленности различающихся по этих качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соот-ветствующих групп в выборке. Далее в каждую подгруппу выборки испытуе-мые подбираются по принципу простого случайного отбора.

Статистическая достоверность , или статистическая значимость, результа-тов исследования определяется при помощи методов статистического выво-да.

Застрахованы ли мы от принятия ошибок при принятии решений, при тех или иных выводах из результатов исследования? Конечно, нет. Ведь наши решения опираются на результаты исследования выборочной совокупности, а также на уровень наших психологических знаний. Полностью мы не застрахованы от ошибок. В статистике такие ошибки считаются допустимыми, если они имеют место не чаще чем в одном случае из 1000 (вероятность ошибки α=0,001 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,999); в одном случае из 100 (вероятность ошибки α=0,01 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,99) или в пяти случаях из 100 (вероятность ошибки α=0,05 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,95). Именно на двух последних уровнях и принято принимать решения в психологии.

Иногда, говоря о статистической достоверности, используют понятие «уровень значимости» (обозначается как α). Численные значения р и α дополняют друг друга до 1,000 — полный набор событий: либо мы сделали правильный вывод, либо мы ошиблись. Эти уровни не рассчитываются, они заданы. Уровень значимости можно понимать как некую «красную» линию», пересечение которой позволит говорить о данном событии как о неслучайном. В каждом грамотном научном отчете или публикации сделанные выводы должны сопровождаться указанием значений р или α, при которых сделаны выводы.

Методы статистического вывода подробно рассматриваются в курсе «Математической статистики». Сейчас лишь отметим, что они предъявляют определенные требования к численности, или объему выборки.

К сожалению, строгих рекомендаций по предварительному определению требуемого объема выборки не существует. Более того, ответ на вопрос о не-обходимой и достаточной ее численности исследователь обычно получает слишком поздно — только после анализа данных уже обследованной выбор-ки. Тем не менее, можно сформулировать наиболее общие рекомендации:

1. Наибольший объем выборки необходим при разработке диагностичес-кой методики — от 200 до 1000-2500 человек.

2. Если необходимо сравнивать 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.

3. Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.

4. Чем больше изменчивость изучаемого свойства , тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т. д. При этом, естественно, уменьшаются возможности генерализации выводов.

Зависимые и независимые выборки. Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различ-ных соотношениях — в зависимости от процедуры их организации. Независи-мые выборки характеризуются тем, что вероятность отбора любого испытуе-мого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

В общем случае зависимые выборки предполагают попарный подбор ис-пытуемых в сравниваемые выборки, а независимые выборки — независимый отбор испытуемых.

Следует отметить, что случаи «частично зависимых» (или «частично неза-висимых») выборок недопустимы: это непредсказуемым образом нарушает их репрезентативность.

В заключение отметим, что можно выделить две парадигмы психологи-ческого исследования.

Так называемая R-методология предполагает изучение изменчивости некоторого свойства (психологического) под влиянием неко-торого воздействия, фактора либо другого свойства. Выборкой является мно-жество испытуемых.

Другой подход, Q-методология, предполагает исследо-вание изменчивости субъекта (единичного) под влиянием различных стимулов (условий, ситуаций и т. д.). Ей соответствует ситуация, когда выборкой явля-ется множество стимулов.

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
Юридические лица России (2,2 млн. на начало 2005 года)
Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

вероятностные
невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .