Jaka powinna być próba?

W 1936 roku „Literary Digest”, popularny magazyn informacyjny przeprowadził w USA sondaż przedwyborczy. Do ludzi wybranych z książek telefonicznych i list rejestracyjnych samochodów wysłano dziesięć milionów kart pocztowych, pytając, na kogo zamierzają oddać głos w wyborach prezydenckich – na republikanina Alfa Landona czy demokratę Franklina Roosevelta? Odpowiedziało ponad dwa miliony ludzi, wskazując że nowym prezydentem wybrany zostanie Alf Landon (57%), a nie Franklin Roosevelt (43%).

Mogłoby się wydawać, że przebadanie tylu osób jest dużo bardziej wiarygodne i miarodajne niż przeprowadzenie badania na niewielkim wycinku populacji. Nic bardziej mylnego. Realne wybory dość drastycznie zweryfikowały wnioski z tego badania – nowym prezydentem został Franklin Roosevelt, mając największą przewagę głosów w historii – otrzymał 61%.

W tym samym czasie przedwyborczy sondaż, przeprowadził również George Gallup, który trafnie przewidział wyniki wyborów. W swoim badaniu posłużył się on jednak nie próbą dwumilionową, a dużo mniejszą próbą reprezentatywną.

Na czym więc polegał problem badania na dwóch milionach respondentów? Polegał on na całkowitym braku kontroli nad badaną próbą i jej reprezentatywnością. Z jednej strony był on związany z 22% poziomem zwrotów kart (tzw. response rate) – jak się okazało karty w większości odsyłali republikanie. Z drugiej z operatem losowania – badani zostali wybrani do badania na podstawie spisu abonentów telefonicznych i właścicieli samochodów, a taka konstrukcja próby daje nadreprezentację zamożnych wyborców, czyli pominięcie ludzi biednych, którzy w większości głosowali na „New deal” Roosevelta.

Metoda „reprezentatywna”, czyli jaka?

Metodologia badań sondażowych wyróżnia dwa podstawowe rodzaje prób: próby reprezentatywne i próby niereprezentatywne:

Wyniki z prób reprezentatywnych można uogólnić na całą populację, z której zostały pobrane. Na przykład łyżka zupy pobrana z dobrze wymieszanego garnka będzie reprezentatywna pod względem słoności dla całej zupy. W praktyce sondażowej zdecydowana większość prób dobieranych do badań prowadzonych przez ośrodki badawcze jest reprezentatywna.

Inaczej jest w przypadku prób niereprezentatywnych. Przykładem prób niereprezentatywnych są w szczególności sondy internetowe, sondy uliczne, czy głosowania w trakcie trwania programów telewizyjnych. W ich przypadku oczywiste jest, że wyniki nie odzwierciedlają poglądów żadnej dobrze określonej populacji, lecz najwyżej użytkowników pewnej strony, osób spacerujących daną ulicą lub widzów pewnego programu – choć i do tego można mieć sporo wątpliwości, bo np. nie wszyscy widzowie programu telewizyjnego biorą udział w prowadzonej w jego trakcie sondzie.

Dodatkowo wyróżnia się dwa rodzaje prób reprezentatywnych:

Próba reprezentatywna przedmiotowo (kwotowa) to taka której skład odpowiada składowi populacji ze względu na wybrane przez badacza zmienne (lub inaczej mówiąc cechy respondentów). Przykładem niech będzie próba opisana w poprzedniej części. Aby w sposób reprezentatywny określić jaki odsetek Polaków wie jak prowadzi się badania sondażowe, do próby należało dobrać 60% mieszkańców miast i 40% mieszkańców wsi, gdyż w populacji, z której została ona pobrana, było 60% mieszkańców miast i 40% mieszkańców wsi. Próby spełniające postulat reprezentatywności przedmiotowej zwykło się nazywać próbami kwotowymi. Właśnie tym pojęciem posługują się autorzy artykułów i pracownicy agencji badawczych.

Niestety, reprezentatywność przedmiotowa zakłada, że poza zmiennymi na podstawie których badacz dobierał respondentów do badania, nie ma żadnych innych istotnych zmiennych mogących wpływać na wyniki uzyskane w próbie. Wracając do naszego przykładu. Badacz stwierdza, że wiedza na temat prowadzenia badań sondażowych zależy od miejsca zamieszkania respondenta. W związku z tym dobiera do próby 60% mieszkańców miast i 40% mieszkańców wsi. Jeśli zdarzy się jednak, że badacz pominie jakąś ważną zmienną, która może wpływać na wiedzę o prowadzeniu badań sondażowych – np. wykształcenie, to wyniki w próbie reprezentatywnej tylko ze względu na miejsce zamieszkania mogą się okazać odmienne od rzeczywistych preferencji partyjnych Polaków.

W praktyce próby kwotowe najczęściej dobiera się w taki sposób, aby liczebności w próbie odpowiadały strukturze badanej zbiorowości pod względem płci, wykształcenia i wielkości miejscowości zamieszkania. Często brany pod uwagę jest również wiek respondenta i województwo. Warto zwrócić uwagę, że nawet jeżeli posługujemy się pięcioma zmiennymi (czy dowolną większą liczbą zmiennych) nie uzyskujemy przez to gwarancji, że rozkład odpowiedzi na interesujące nas pytania uzyskany w próbie będzie zbliżony do populacyjnego. Należy bowiem sądzić, że np. o wiedzy na temat prowadzenia badań sondażowych decyduje nie tylko płeć, wiek, wielkość miejscowości zamieszkania, wykształcenie i województwo, ale bardzo wiele innych czynników, takich jak osobiste doświadczenia, wykonywany zawód itd. A skoro nic nie gwarantuje, że w próbie kwotowej te ostatnie zmienne będą posiadały rozkład zbliżony do populacyjnego, to również odsetek osób wiedzących jak prowadzone są sondaże uzyskany w badaniu kwotowym przeprowadzonym nawet bardzo starannie może dalece odbiegać od populacyjnego.

Inny rodzaj reprezentatywności zapewniają próby spełniające postulat reprezentatywności proceduralnej, czyli próby losowe. Są one trudne w realizacji ze względu na konieczność posiadania pełnej listy jednostek należących do badanej populacji i często wysokie koszty dotarcia do jednostek znajdujących się w rozmaitych częściach kraju. Jednak korzyści ze stosowania prób reprezentatywnych proceduralnie (lub inaczej losowych) są ogromne. Przede wszystkim, jak dowodzi rachunek prawdopodobieństwa, próba reprezentatywna proceduralnie ma skład zbliżony do składu populacji ze względu na dowolne cechy (a nie tylko kilka cech wybranych przez badacza). Ponadto, jeżeli próba jest losowa, to możliwe jest oszacowanie rozmiaru błędu statystycznego (czyli na ile dokładnie dzięki próbie, możemy określić wynik w całej populacji).

Błąd statystyczny – jak dokładne są wyniki sondaży?

Błąd statystyczny z próby jest nieodłącznym elementem badań sondażowych. Występuje on, ponieważ badanie sondażowe jest typem badania indukcyjnego, w którym na podstawie próby wnioskuje się o całej populacji. Wnioskowanie takie jest ze swej natury narażone na błąd.

Błąd ten może być wyeliminowany jedynie przez prowadzenie badań pełnych, w których dane są zbierane od wszystkich jednostek z populacji (lub zjedzenie całej zupy by przekonać się, że nie była za słona). Wadą badań pełnych, jest jednak to, że zwykle są one kosztowne i czasochłonne, a poza wyeliminowaniem błędu statystycznego, są w podobnym stopniu podatne na inne błędy, co badania prowadzone na podstawie próby.

W przypadku badań sondażowych na dużej próbie losowej (reprezentatywnej proceduralnie), istnieje możliwość wyznaczenia wielkości błędu statystycznego (połowy długości przedziału ufności) przy założonym poziomie ufności. Jest to możliwe ze względu na centralne twierdzenie graniczne, mówiące o tym, że wraz ze zwiększaniem liczebności prostej niezależnej próby losowej rozkład estymatora zbiega do rozkładu normalnego.

W mniej statystycznej terminologii można zatem powiedzieć, że z określonym wysokim prawdopodobieństwem (poziom ufności badania) odsetek z próby nie będzie się różnił od odsetka w populacji o więcej niż błąd statystyczny.

Wróćmy do naszego badania. Załóżmy, że zbadano 1000 osobową prostą próbę losową Polaków i stwierdzono, że na 30% wie jak powstają badania sondażowe, a 70% respondentów tego nie wie. Obliczając błąd statystyczny dla tego badania, staramy się określić z wybranym wysokim prawdopodobieństwem, jaki odsetek osób w populacji (a nie respondentów w próbie) wie jak prowadzone są badania sondażowe.

Błąd statystyczny wylicza się mnożąc funkcję odwrotną dystrybuanty rozkładu normalnego standaryzowanego dla wybranego wysokiego poziomu ufności (dla poziomu ufności 0,95 wynosi ona 1,96) i nieobciążony estymator odchylenia standardowego w próbie, a następnie wynik dzieli się przez pierwiastek z liczebności próby:

$\displaystyle d = \lambda_\gamma \frac{\hat{s}}{\sqrt n}$

Gdzie:

$d$ – błąd statystyczny,
$\lambda_\gamma$ – funkcja odwrotna dystrybuanty rozkładu normalnego standaryzowanego dla prawdopodobieństwa $\left(1-\frac{1-\gamma}{1}\right)$ , gdzie $\gamma$ jest założonym poziomem ufności estymacji,
$\hat{s}$ – nieobciążony estymator odchylenia standardowego w próbie,
$n$ liczebność próby.

W powyższym przykładzie (dla poziomu ufności 0,95) błąd statystyczny wynosi:

$\displaystyle d = 1,96 \times \frac{0,49}{31,62} = 0,03 = 3\%$

Zatem na podstawie średniej w naszej próbie wyznaczamy, że przedział ufności zawiera się między 57%, a 63%. Prawdopodobieństwo, że wyznaczony w taki sposób przedział będzie pokrywał rzeczywisty odsetek osób w populacji popierających partię A, wynosi 95% (procedura taka gwarantuje, że w około 95 próbach na 100 przedział ufności będzie pokrywał rzeczywistą wartość w populacji).

Nie tylko błąd statystyczny

Należy jednak pamiętać, że w badaniach sondażowych poza błędem statystycznym, mogą wystąpić również inne błędy. W reprezentatywnych badaniach sondażowych wyróżnia się dwa rodzaje błędów: błędy losowe i błędy systematyczne. Główną różnicę miedzy błędami losowymi i błędami systematycznymi stanowi fakt, że pierwsze, choć powodują że wyniki poszczególnych badań dotyczących tego samego zjawiska mogą się różnić między sobą, to jednak wszystkie oscylują wokół wartości cechującej całą populację.

Fachowo, mówi się, że błędy losowe nie powodują obciążenia, co znaczy, że średnia tych błędów w wielu badaniach jest równa zeru. Inaczej jest z błędami systematycznymi. Są to błędy, które powodują skrzywienie wyników w pewnym kierunku. Dlatego wysokie obciążenie badania błędami systematycznymi jest dużo groźniejsze, niż nawet wysoki błąd statystyczny i może poważnie zniekształcić wyniki.

Poznany już błąd statystyczny jest przykładem błędu losowego. Pojawia się on dlatego, że o całej populacji w badaniu sondażowym wnioskuje się na podstawie danych z próby. Warto jednak pamiętać, że w badaniu mogą wystąpić jeszcze przynajmniej trzy rodzaje błędów systematycznych często omawianych w literaturze sondażowej: błędy pokrycia, błędy pomiaru i braki danych.

Błędy pokrycia polegają na tym, że populacja na temat której badacz przedstawia wnioski, nie pokrywa się z populacją z której wylosowano próbę. Można wyróżnić dwie przyczyny takiej sytuacji – czasem badaczom (lub dziennikarzom opisującym wyniki badań) wydaje się, że skoro wylosowano do badania np. osoby w wieku 65-75 lat, to może uogólnić wyniki z takiej próby na wszystkie osoby powyżej 65 roku życia, co oczywiście nie jest zgodne z regułami wnioskowania statystycznego. Bardziej subtelny problem występuje, gdy badacz nie ma możliwości skorzystania z odpowiedniego operatu (spisu jednostek z interesującej go populacji), gdyż jest on niepełny. Przykładem badania, w którym ten błąd zostałby popełniony może być badanie wynagrodzeń Polaków za pomocą operatu PESEL. Badanie takie będzie obciążone błędem, gdyż korzystając z niego nie będziemy mogli przeprowadzić badania z osobami bezdomnymi nawet, gdy zostaną wylosowane, gdyż w operacie nie ma rzetelnej informacji o miejscu ich pobytu. W badaniach telefonicznych błąd ten może przybierać nieoczekiwaną postać – niektóre jednostki mogę być zbyt łatwo dostępne, bo posiadają np. więcej niż jeden numer telefonu. Taka sytuacja powoduje, że zakładane prawdopodobieństwo wylosowania tej jednostki do próby będzie zawyżone.

Błędy pomiaru w badaniach sondażowych są szeroką klasą błędów. Określają one sytuację, w której badacz uzyskuje wyniki niezgodne z rzeczywistością. Przykładami błędów pomiaru mogą być nieprawdziwe odpowiedzi respondentów na pytania. Uzyskanie odpowiedzi niezgodnej z rzeczywistością może być świadomym działaniem respondenta (np. gdy chce się zaprezentować w lepszym świetle) lub wynikać z jego pomyłki (np. spowodowanej słabą pamięcią).

Innym przykładem błędu pomiaru może być źle usłyszana lub zakodowana odpowiedź na pytanie sondażowe przez ankietera, co jednak zdarza sie rzadko.

Jeszcze innym problemem może być źle sformułowane pytanie, które nie mierzy tego, co chcieliśmy zmierzyć. Najbardziej typowym przykładem w badaniach społecznych tego problemu jest pomiar kapitału społecznego. Trudno jest zadać respondentom takie pytania, by jednoznacznie można było stwierdzić, że to co zostało zmierzone, jest właśnie kapitałem społecznym.

Oszacowanie, jak duży jest błąd spowodowany przez niedoskonałości pomiaru jest wyjątkowo trudne, gdyż zwykle niełatwo jest ocenić czy odpowiedź respondenta na pytanie jest prawdziwa, czy nie. Podobnie problemem jest dokładne określenie czy pytania, które zostały zadane w kwestionariuszu mierzą właśnie to, co badacz chciał zbadać.

Braki danych (non-response) są jednym z najpoważniejszych błędów towarzyszących badaniom sondażowym. Wyróżnia się dwa typy braków danych: braki udziału (unit non-response) i braki odpowiedzi (item non-response).

Braki udziału powstają, gdy w trakcie badania nie uda się uzyskać odpowiedzi na żadne z pytań kwestionariusza od jednostki wylosowanej do próby. Najczęstszymi przyczynami występowania braków udziału jest brak możliwości skontaktowania się z wylosowaną do próby jednostką, odmowa wzięcia udziału w badaniu lub niedyspozycja respondenta. Problem braków udziału jest szeroko opisywany w literaturze socjologicznej.

Częstość występowania braków udziału wyraża się stosunkiem liczby braków udziału do liczby jednostek wylosowanych do próby. Częstość występowania braków udziału w badaniach od początku lat 90. wzrasta, mimo podejmowanych prób jej ograniczenia. Obecnie 30% braków udziału w stosunku do wylosowanej próby jest dla badaczy powodem do dumy. Bardzo rzadko udaje się ten poziom zmniejszyć. W wielu badaniach nie jest osiągany poziom nawet 50%. Szczególnie wysoki odsetek braków udziału występuje w sondażach telefonicznych, w których zdarza się, że przekraczany jest nawet poziom 90% braków udziału. Z teoretycznego punktu widzenia wnioskowanie statystyczne z próby o takim procencie braków udziału jest bezpodstawne.

Braki odpowiedzi powstają, gdy jednostka wylosowana do próby nie odpowie na jedno lub kilka pytań z kwestionariusza lub udzieli na nie odpowiedzi beztreściowych. W odróżnieniu od braków udziału, które charakteryzują całe badanie, braki odpowiedzi są cechą poszczególnych pytań. Możliwe jest, że niektóre zmienne wykorzystane w badaniu nie mają braków odpowiedzi, a w innych odsetek braków odpowiedzi jest bardzo wysoki. Wyjątkowo duży odsetek braków odpowiedzi występuje w pytaniach dotyczących przemocy domowej, sfery seksualnej, ale też wysokość dochodów respondentów.