Дисклеймер! Это не научная статья, а заметка для широкого круга читателей. Вы можете изучить вопрос более содержательно в любом учебнике по применению статистических методов в социологии.
Насколько точны результаты социологических исследований? Заказчики и все неравнодушные привыкли к тому, что допустимая ошибка выборки опроса не превышает 5 процентов.
К сожалению, социологи вам врут, и никакой «ошибки в 2-3-5%» не существует. Ни одна компания статистически не рассчитывает размер выборки исходя из нужных заказчику параметров точности. Количество опрошенных зависит лишь от бюджета заказчиков и сроков на проведение исследования. Еще могут «на глаз» прикинуть необходимое количество опрошенных от степени детализации результатов (до уровня региона, города). Почему так происходит? Это связано не с тем, что социологи жулики. Заказчикам и людям просто боятся сказать правду, которая заключается в том, что:
Ошибка выборки в хорошо проведенном замере равна нулю!
Вы знаете, что в прикладных социологических замерах политических предпочтений используют квотную выборку. Это тип неслучайной выборки. Квоты по полу, возрасту, месту проживания, а иногда даже по уровню образования берут из статистических сборников. За генеральную совокупность принимают всех людей, которые живут на этой территории, согласно Росстату. При этом всегда выносят за скобки:
1. Какие социально-демографические параметры избирателей, включенных в реестр для голосования? Этих данных нет в открытом доступе. В данные Росстата включены в числе прочих мигранты из других регионов. Фильтрующий вопрос интервьюера о наличии регистрации отсекает приезжих, но ничего не говорит о нужных нам квотах.
2. Как осуществляется отбор респондентов при уличном опросе? Все ли люди имеют равные шансы попасть под опрос на улице? Кто соглашается на участие в опросе?
3. Врут ли респонденты? Это не очень содержательная тема для дискуссии, так как вопрос вранья относится к социологии в равной степени, как к психологии, медицине и другим наукам, использующим опросные методы.
Сейчас нас интересует именно ошибка выборки.
Если квоты будут до процента совпадать с распределениями Росстата, то можно честно заявить: «Ошибка в нашей квотной выборке отсутствует!» Надо понять социологов, у них нет никаких других данных для построения квот.
В далёкие 90-е, когда люди еще открывали квартиры интервьюерам, а социологи читали книжки Паниотто, использовали многоступенчатые выборки, когда квотная выборка чуть приближалась к случайной на каком-то из этапов. Или, например, использовали гнездовой метод – случайно выбирали домохозяйства (дома, квартиры) и опрашивали поголовно всех людей, кто там проживет.
Зачем вообще брать квоты по полу и возрасту, когда мы изучаем политические предпочтения? Да ни за чем, просто других доступных данных нет. Если бы у нас жили люди разных рас, то российские социологи с удовольствием бы брали квоты людей по цвету кожи. Были бы данные по цвету глаз – строили бы квотные выборки по ним.
Социологи могут вам рассказывать на переговорах, что для оценки погрешности в квотных выборках они используют статистический критерий Стьюдента (t-критерий). Но это не так, по факту никто ничего не считает. Кроме того, встают неразрешимые вопросы со шкалами измерений, так как они в социологии чаще всего номинативные (например, многоальтернативные вопросы по фамилиям кандидатов) и иногда порядковые.
А телефонные опросы? Там же говорят, что «номер телефона случайно генерирует компьютер»! Это достоверно? Смею вас заверить, что это тоже враньё. Как это происходило лет пять назад в современной России? Любая компания типа ВЦИОМа, ИНСОМАРа и подобных обращалась в условный омский колл-центр. Там приходила задача опросить жителей, допустим, Красноярского края. Операторы сначала искали телефоны на форумах газет бесплатных объявлений, Авто.ру, Авито, а потом прозванивали их. Это были опросы пользователей Авито, но заказчик этого не знал. После таких поисков с годами сформировались базы данных. Утекали базы данных магазинов, Яндекса и прочих, сливались в сеть какие-то выборочные стеки телефонов от операторов связи. С годами у колл-центров выросли свои, кривые, но объемные базы данных.
Поймите простую вещь: если бы социологи имели полную базу данных телефонов избирателей региона, то им бы не было нужды использовать квоты! Используя квоты, вы красиво причесываете вашу стихийную выборку!
Глобально в стихийных и квотных выборках ничего плохого нет – они дают достаточно точные результаты. Если вы когда-либо видели результаты экзитполов, то они дают впечатляюще точные результаты! Если бы социология «не попадала», то никто бы её не покупал. Просто в таких квотных стихийных выборках невозможно посчитать ту самую ошибку выборки. Ошибка выборки в устах честного социолога должна звучать так: «Мы опросили по кривым квотам и не добрали 3,4% мужчин по полу и 4,8% молодежи от данных Росстата». Можно и не произносить этого и просто выправить полученные данные уже на компьютере («перевзвесить»).
Но разве не существует такой точной науки, как математическая статистика? Конечно, такая наука есть, и ошибку выборки можно рассчитать! Рассчитать для случайных (равновероятностных) выборок.
А какие это выборки? Это те выборки, где вы знаете абсолютно все элементы генеральной совокупности, то есть такие, где есть список! Если у вас есть пронумерованный список, то вы можете использовать генератор случайных чисел и сделать выборку с нужной доверительной вероятностью в определенном доверительном интервале. До компьютерного генератора случайных чисел социологи использовали выборку с шагом, когда опрашивали каждого шестисотого, например.
Доверительный интервал – это, если очень упрощая, насколько сильно врут данные. А доверительная вероятность говорит о том, насколько часто это происходит.
И пора настоящих случайных выборок пришла! Это очень маленькие выборки, которые работают с базами данных избирателей, где мы делаем вывод не об обществе в целом, а именно о самой базе данных (например, о базе данных сторонников партии). Сгенерировав случайную выборку, мы не должны будем опрашивать людей определенного пола и возраста – их соотношение уже будет самим результатом измерения, которое будет точно совпадать с распределениями в генеральной совокупности.
Автор: АГ
Прислано на почту ответом на пост про социологические исследования в США.
Насколько точны результаты социологических исследований? Заказчики и все неравнодушные привыкли к тому, что допустимая ошибка выборки опроса не превышает 5 процентов.
К сожалению, социологи вам врут, и никакой «ошибки в 2-3-5%» не существует. Ни одна компания статистически не рассчитывает размер выборки исходя из нужных заказчику параметров точности. Количество опрошенных зависит лишь от бюджета заказчиков и сроков на проведение исследования. Еще могут «на глаз» прикинуть необходимое количество опрошенных от степени детализации результатов (до уровня региона, города). Почему так происходит? Это связано не с тем, что социологи жулики. Заказчикам и людям просто боятся сказать правду, которая заключается в том, что:
Ошибка выборки в хорошо проведенном замере равна нулю!
Вы знаете, что в прикладных социологических замерах политических предпочтений используют квотную выборку. Это тип неслучайной выборки. Квоты по полу, возрасту, месту проживания, а иногда даже по уровню образования берут из статистических сборников. За генеральную совокупность принимают всех людей, которые живут на этой территории, согласно Росстату. При этом всегда выносят за скобки:
1. Какие социально-демографические параметры избирателей, включенных в реестр для голосования? Этих данных нет в открытом доступе. В данные Росстата включены в числе прочих мигранты из других регионов. Фильтрующий вопрос интервьюера о наличии регистрации отсекает приезжих, но ничего не говорит о нужных нам квотах.
2. Как осуществляется отбор респондентов при уличном опросе? Все ли люди имеют равные шансы попасть под опрос на улице? Кто соглашается на участие в опросе?
3. Врут ли респонденты? Это не очень содержательная тема для дискуссии, так как вопрос вранья относится к социологии в равной степени, как к психологии, медицине и другим наукам, использующим опросные методы.
Сейчас нас интересует именно ошибка выборки.
Если квоты будут до процента совпадать с распределениями Росстата, то можно честно заявить: «Ошибка в нашей квотной выборке отсутствует!» Надо понять социологов, у них нет никаких других данных для построения квот.
В далёкие 90-е, когда люди еще открывали квартиры интервьюерам, а социологи читали книжки Паниотто, использовали многоступенчатые выборки, когда квотная выборка чуть приближалась к случайной на каком-то из этапов. Или, например, использовали гнездовой метод – случайно выбирали домохозяйства (дома, квартиры) и опрашивали поголовно всех людей, кто там проживет.
Зачем вообще брать квоты по полу и возрасту, когда мы изучаем политические предпочтения? Да ни за чем, просто других доступных данных нет. Если бы у нас жили люди разных рас, то российские социологи с удовольствием бы брали квоты людей по цвету кожи. Были бы данные по цвету глаз – строили бы квотные выборки по ним.
Социологи могут вам рассказывать на переговорах, что для оценки погрешности в квотных выборках они используют статистический критерий Стьюдента (t-критерий). Но это не так, по факту никто ничего не считает. Кроме того, встают неразрешимые вопросы со шкалами измерений, так как они в социологии чаще всего номинативные (например, многоальтернативные вопросы по фамилиям кандидатов) и иногда порядковые.
А телефонные опросы? Там же говорят, что «номер телефона случайно генерирует компьютер»! Это достоверно? Смею вас заверить, что это тоже враньё. Как это происходило лет пять назад в современной России? Любая компания типа ВЦИОМа, ИНСОМАРа и подобных обращалась в условный омский колл-центр. Там приходила задача опросить жителей, допустим, Красноярского края. Операторы сначала искали телефоны на форумах газет бесплатных объявлений, Авто.ру, Авито, а потом прозванивали их. Это были опросы пользователей Авито, но заказчик этого не знал. После таких поисков с годами сформировались базы данных. Утекали базы данных магазинов, Яндекса и прочих, сливались в сеть какие-то выборочные стеки телефонов от операторов связи. С годами у колл-центров выросли свои, кривые, но объемные базы данных.
Поймите простую вещь: если бы социологи имели полную базу данных телефонов избирателей региона, то им бы не было нужды использовать квоты! Используя квоты, вы красиво причесываете вашу стихийную выборку!
Глобально в стихийных и квотных выборках ничего плохого нет – они дают достаточно точные результаты. Если вы когда-либо видели результаты экзитполов, то они дают впечатляюще точные результаты! Если бы социология «не попадала», то никто бы её не покупал. Просто в таких квотных стихийных выборках невозможно посчитать ту самую ошибку выборки. Ошибка выборки в устах честного социолога должна звучать так: «Мы опросили по кривым квотам и не добрали 3,4% мужчин по полу и 4,8% молодежи от данных Росстата». Можно и не произносить этого и просто выправить полученные данные уже на компьютере («перевзвесить»).
Но разве не существует такой точной науки, как математическая статистика? Конечно, такая наука есть, и ошибку выборки можно рассчитать! Рассчитать для случайных (равновероятностных) выборок.
А какие это выборки? Это те выборки, где вы знаете абсолютно все элементы генеральной совокупности, то есть такие, где есть список! Если у вас есть пронумерованный список, то вы можете использовать генератор случайных чисел и сделать выборку с нужной доверительной вероятностью в определенном доверительном интервале. До компьютерного генератора случайных чисел социологи использовали выборку с шагом, когда опрашивали каждого шестисотого, например.
Доверительный интервал – это, если очень упрощая, насколько сильно врут данные. А доверительная вероятность говорит о том, насколько часто это происходит.
И пора настоящих случайных выборок пришла! Это очень маленькие выборки, которые работают с базами данных избирателей, где мы делаем вывод не об обществе в целом, а именно о самой базе данных (например, о базе данных сторонников партии). Сгенерировав случайную выборку, мы не должны будем опрашивать людей определенного пола и возраста – их соотношение уже будет самим результатом измерения, которое будет точно совпадать с распределениями в генеральной совокупности.
Автор: АГ
Прислано на почту ответом на пост про социологические исследования в США.