Dobór próby – sens czy nonsens

Jak to jest możliwe, że badacze społeczni wybierają do zbadania niewielką liczbę osób i na tej podstawie dokonują odkryć i wniosków odnoszących się do setek milionów ludzi, których badaniami nie objęli? Czy dobór próby do badania ma w ogóle jakiś sens? W jakim stopniu badania przeprowadzone na tysięcznej próbie reprezentują poglądy wszystkich Polaków? Może gdyby zbadać większą zbiorowość, a nie tysiącosobową próbę to wyniki byłyby bardziej trafne, a sondaże bardziej godne zaufania?

W 1936 roku „Literary Digest”, popularny magazyn informacyjny przeprowadził w USA sondaż przedwyborczy. Do ludzi wybranych z książek telefonicznych i list rejestracyjnych samochodów wysłano dziesięć milionów kart pocztowych, pytając, na kogo zamierzają oddać głos w wyborach prezydenckich – na republikanina Alfa Landona czy demokratę Franklina Roosevelta? Odpowiedziało ponad dwa miliony ludzi, wskazując że nowym prezydentem wybrany zostanie Alf Landon (57%), a nie Franklin Roosevelt (43%). Mogłoby się wydawać, że przebadanie tylu osób jest dużo bardziej wiarygodne i miarodajne niż przeprowadzenie badania na niewielkim wycinku populacji. Nic bardziej mylnego. Realne wybory dość drastycznie zweryfikowały wnioski z tych badań – nowym prezydentem został Franklin Roosevelt, mając największą przewagę głosów w historii – otrzymał 61%.

Dla porównania w tym samym czasie przedwyborczy sondaż, przeprowadził również George Gallup, który trafnie przewidział wyniki wyborów. W swoim badaniu posłużył się on jednak nie próbą dwumilionową, a dużo mniejszą próbą kwotową (czyli opartą na znajomości określonych cech populacji, np. płeć, dochód, wiek, miejsce zamieszkania itp.).[1]

Na czym więc polegał problem? Polegał on na całkowitym braku kontroli nad badaną próbą i jej reprezntatywnością. Z jednej strony był on związany z 22% poziomem zwrotów kart (tzw. response rate) – jak się okazało karty w większości odsyłali republikanie, a z drugiej z tzw. operatem do losowania – badani zostali wybrani do badania na podstawie spisu abonentów telefonicznych i właścicieli samochodów, a taka konstrukcja próby daje nadreprezentację zamożnych wyborców, czyli pominięcie ludzi biednych, którzy w większości głosowali na „New deal” Roosevelta.

Jaki wniosek? Taki, że jeżeli przeczytamy gdzieś w prasie, że „Radni i sympatycy SLD od jesieni zbierają wśród mieszkańców gmin w całej Polsce opinie na temat samorządów. Zebrali 250 tys. ankiet. Z badania wynika, że…”[2] to do tego co po „że” trzeba mieć duży dystans, ponieważ nie wiadomo, na ile próba jest reprezentatywna (sam fakt przeprowadzenia 250 tys. ankiet naprawdę o niczym nie świadczy!), nie mówiąc już o kwestii wpływu ankieterskiego (jak bowiem respondenci mogą odpowiadać na pytania ankieterowi, który jest radnym lub sympatykiem SLD? Każdy czułby presję odpowiadając na pytanie niezgodnie z ideologią lewicową).

W świetle przedstawionych argumentów okazuje się, że zbadanie większej próby nie musi być wcale bardziej trafne, a może być także mylące. Najlepszym rozwiązaniem jest więc zadbanie o taki dobór próby, który będzie reprezentatywny, wylosowany z operatu odpowiadającego charakterystyce populacji (więc nie użytkownicy telefonów w latach 30. czy np. smart fonów dziś) i możliwie w dużej części zrealizowany. Wyższy response rate w większym stopniu niweluje błąd przewidywania niż wzrost liczebności próby. Dlatego więc niezwykle ważna jest dobra znajomość tego zagadnienia i umiejętne dokonywanie wyborów przez badaczy, bo ono może wpłynąć na zaufanie do całego środowiska badawczego.

[1] za: Earl Babbie, „Podstawy badań społecznych”, rozdział 7 „Logika dobory próby”, PWN, Warszawa 2009.

[2] Eliza Olczyk, „SLD walczy o samorząd” [w:] „Rzeczpospolita”, 3.01.2013