Schemat doboru próby

Każde badania częściowe populacji (przeprowadzone na próbie) wymaga stworzenia procedury, która określi, w jaki sposób dobierani mają być respondenci. Procedurę tą nazywamy schematem doboru próby. W zależności od definicji reprezentatywności [1], schemat może zakładać dobór losowy lub kwotowy. Musi on również zawierać informację o sposobie zbierania danych [2] oraz odpowiednio dostosowanym do niego operacie losowania [3].

Niezależnie jednak od rodzaju badania, każdy schemat doboru próby musi określać:

liczebność próby;
warstwowanie próby;
alokację próby między warstwy;

oraz w przypadku prób losowych dodatkowo:

liczbę poziomów losowania i związaną z tym liczbę oraz rodzaj jednostek losowania;
sposób losowania respondentów.

Schemat doboru próby składa się z wielu elementów i w związku z tym łatwo się domyślić, że prawie do każdego badania respondenci mogą być dobierani na różne sposoby. Dla uproszczenia zajmiemy się przykładem jednego fikcyjnego badania, które pozwoli nam zrozumieć ideę omawianego zagadnienia.

Wyobraźmy sobie, że pewien zleceniodawca chce się dowiedzieć, jaki odsetek mieszkańców Polski w wieku 18 i więcej lat przeczytał, w ciągu miesiąca poprzedzającego badanie, przynajmniej jeden cały artykuł z papierowej wersji miesięcznika XYZ.

Jeżeli decydujemy się na wykorzystanie do naszego badania próby losowej (niektórzy mogą uważać, że znacznie lepsza w takim przypadku jest próba kwotowa, głównie z powodu niższych kosztów, ale my, z powodów dydaktycznych, pozostaniemy przy próbie losowej) to musimy określić, jak zbierane będą dane oraz jaki operat losowania wykorzystamy. W naszym przykładzie badanie zostanie przeprowadzone metodą CAPI [4], zaś operatem losowania będzie rejestr TERYT, który zawiera wszystkie adresy mieszkań w Polsce.

Prosty schemat dobory próby

Przyjmijmy, iż biorąc pod uwagę dostępne środki finansowe oraz cel jakim jest minimalizacja błędu statystycznego [5], możemy przeprowadzić 1000 wywiadów. Dobór losowy zakłada, że każdy mieszkaniec Polski ma szansę dostania się do próby ze z góry określonym prawdopodobieństwem. Najprostszym rozwiązaniem w tym przypadku byłaby próba prosta bezzwrotna, czyli taka dla której wszyscy respondenci są dobierani z identycznymi prawdopodobieństwami z obszaru całej Polski i jednocześnie żaden z nich nie może zostać wybrany więcej niż raz (inaczej niż w próbie prostej zwrotnej). Takie podejście zapewnia reprezentatywność wyników, ponieważ nie „dyskryminuje” żadnej grupy mieszkańców Polski – wszyscy są dobierani według takich samych zasad. Ma ono jednak pewne wady. Przede wszystkim istnieje duża szansa, że taka próba 1000 osób będzie bardzo rozproszona w przestrzeni. Respondenci mogą zostać „rozrzuceni” po całym kraju, co znacząco podniesie koszty związane z realizacją badani, takie jak koszty dojazdu ankieterów. Innym problemem może być to, że do próby nie zostaną dobrani reprezentanci grup na których nam szczególnie zależy. Choć próba będzie reprezentatywna dla całego kraju to może się okazać, że nie wejdą w jej skład np. mieszkańcy Krakowa, o których poziomie czytelnictwa również chcielibyśmy się czegoś dowiedzieć. Właśnie z wyżej wymienionych powodów w praktyce nie stosuje się prób prostych. Mimo, iż pozwalają one w nieskomplikowany sposób dobrać respondentów i wnioskować o badanym zjawisku przy użyciu bardzo prostych narzędzi statystycznych to są one silnie narażone na skrzywienie wylosowanej próby. Aby uniknąć problemów jakie generują próby proste zamiast nich w badaniach społecznych stosuje się najczęściej próby warstwowe.

Warstwowy schemat doboru próby

Warstwami nazywamy subpopulacje lub inaczej podgrupy populacji generalnej. Wyznacza się je tak, aby były rozłączne (nie „nachodziły” na siebie) i jednocześnie razem obejmowały całą badaną zbiorowość. Dla naszego przykładu wyznaczymy warstwy dzieląc mieszkańców każdego województwa na 3 kategorie: mieszkańców wsi, mieszkańców miast niewojewódzkich oraz mieszkańców miast wojewódzkich. W efekcie powstanie 16×3=48 warstw [6].

Jeżeli chcemy otrzymać próbę reprezentatywną dla populacji podzielonej na warstwy, to respondenci muszą zostać wylosowani ze wszystkich warstw. Tylko w ten sposób możliwe stanie się potencjalne dobranie do próby każdego mieszkańca Polski (jest to warunek reprezentacyjności). Oznacza to, że próba musi zostać rozdzielona między wszystkie warstwy i ostatecznie będzie się składała z 48 niezależnych niedużych podprób.

Sposób rozdzielenia próby między warstwy nazywamy alokacją. Istnieje kilka podejść do tego zagadnienia. Pierwsze z nich koncentruje się na celu badania jakim, w naszym przypadku, jest dokładne oszacowanie odetka czytelników miesięcznika XYZ. Biorąc pod uwagą, że ostateczny wynik dla całej populacji będzie zależał od wyników uzyskanych z poszczególnych warstw, musimy alokować próbę w taki sposób, aby wyniki z subpopulacji były jak najbardziej precyzyjne. Błąd oszacowania każdej podpróby będzie zależał od tego, jak zróżnicowana jest subpopulacja z której wylosowano respondentów. Im większe zróżnicowanie w zbiorowości badanych tym większa szansa, że nasze oszacowanie dla warstwy będzie chybione. Wiemy jednak, że błąd losowy można ograniczyć zwiększając liczebność próby [7]. Jeżeli więc alokujemy próbę w ten sposób, że z warstw charakteryzujących się większym zróżnicowaniem wylosujemy proporcjonalnie więcej respondentów, niż z warstw mniej zróżnicowanych, to w konsekwencji uda nam się zmniejszyć ogólny błąd statystyczny dla całej próby. Tego rodzaju alokację nazywa się optymalną.

Niestety zazwyczaj w praktyce nie dysponujemy informacją o zróżnicowaniu zmiennej w poszczególnych subpopulacjach. W konsekwencji nie możemy przeprowadzić alokacji optymalnej. Najprostszym wyjściem w takiej sytuacji jest losowanie z każdej warstwy liczby respondentów proporcjonalnej do wielkości warstwy, rozumianej jako liczebność subpopulacji. Takie podejście, choć nie gwarantuje zmniejszenia błędu losowego to ułatwia późniejsze wnioskowanie o populacji generalnej. Dzieje się tak ponieważ jeżeli odtworzymy w próbie proporcje występujące w populacji, a więc udziały poszczególnych podprób w całej próbie będą dokładnie takie same, jak udziały odpowiadających im subpopulacji w badanej zbiorowości, to oszacowanie interesującego nas parametru (odsetka czytelników) dla całej populacji będzie średnią ważoną (wagami odpowiednich warstw) oszacowań uzyskanych z poszczególnych warstw.

Istnieją jednak powody, dla których nie wykorzystuje się tego typu alokacji. Przede wszystkim bardzo trudno jest zachować ścisłą proporcjonalność. Po za tym, może się na przykład okazać, że z jakichś powodów zleceniodawca badania chce wiedzieć, nie tylko jaki jest odsetek czytelników pisma XYZ w całej populacji mieszkańców Polski, ale także dokładnie, jaki jest ten odsetek wśród mieszkańców Krakowa. Aby to osiągnąć się z każdej warstw dobiera się inna liczbę respondentów niż wynikałoby z jej udziału w populacji.

Jak pamiętamy nasza próba liczy 1000 respondentów. Mieszkańcy Krakowa w wieku 18 lub więcej lat, stanowią jedną z 48 warstw i jednocześnie około 2% naszej populacji generalnej (Polacy 18+)[8]. W przypadku alokacji proporcjonalnej należałoby wylosować z tej warstwy dokładnie 20 respondentów. Możemy jednak dojść do wniosku, że dane o mieszkańcach Krakowa są dla nas szczególnie ważne i zależy nam na dużej precyzji oszacowania dla tej subpopulacji. W związku z tym zwiększamy liczbę respondentów w tej warstwie do 40. W ten sposób zachwiane zostaną proporcje między subpopulacjami w całej próbie. Nie znaczy to jednak, że nie będzie ona reprezentatywna. Aby otrzymać prawidłowe oszacowania odsetka czytelników czasopisma XYZ dla całej populacji wystarczy wyniki otrzymane z warstw przemnożyć przez odpowiednie wagi. Jeżeli odsetek czytelników czasopisma XYZ w Krakowie wyniesie 15% [9], to wynik ten należy przemnożyć przez 0,02 (udział populacji mieszkańców Krakowa 18+ w całej populacji) i dodać (15%*0,02=0,3%) do wyników uzyskanych z pozostałych podprób. Mówiąc ogólniej, aby uzyskać prawidłowe oszacowanie odsetka należy policzyć średnią wyników uzyskanych w poszczególnych podpróbach przeważoną udziałem odpowiednich warstw w populacji.

Dobór wielostopniowy

Zwróćmy uwagę na fakt, że wykorzystywany operat – TERYT – dostarcza informacji o adresach mieszkań, a nie o mieszkańcach. Z tego powodu najpierw musimy wylosować adresy, a dopiero później respondentów. Poza tym, aby próba była bardziej skoncentrowana przestrzennie, zazwyczaj w obrębie warstwy nie losuje się adresów w sposób prosty, lecz losuje się grupy (np. 10) adresów. Losowanie będzie miało zatem charakter wielostopniowy – oznacza, to że nie będziemy od razu losować respondentów, lecz w pierwszych krokach wylosujemy jednostki losowania obejmujące wielu respondentów a dopiero z nich wylosujemy respondentów.

Jako przykład ponownie wykorzystamy procedurę dla warstwy mieszkańców Krakowa, z której musimy dobrać 40 respondentów. W pierwszej kolejności przeprowadzimy losowanie adresów, które będzie się składało z dwóch etapów. Pozwoli to skoncentrować próbę na mniejszym obszarze. Na nasze potrzeby zdefiniujemy dwa następujące rodzaje jednostek losowania (wszystkie występują w operacie TERYT):

i. jednostki pierwszego stopnia (JPS) – obwody spisowe (pojedyncze ulice lub grupy ulic obejmujących łączenie około 70 adresów, I stopień losowania)

ii. jednostki drugiego stopnia (JDS) – adresy (II stopień losowania)

Sama procedura doboru adresów będzie miała następujący przebieg. Najpierw wylosujemy dokładnie 4 JPS z prawdopodobieństwami proporcjonalnymi do liczby zawartych w nich adresów. Następnie z każdego obwodu spisowego wylosujemy dokładnie 10 adresów (JDS) w sposób prosty, bez zwracania.

JPS (prawdo. proporcjonalne) -> 10 x JDS (jednakowe prawdo.)

Wyjaśnijmy dokładnie dlaczego losowanie ma taki a nie inny przebieg. Z całej warstwy należy dobrać 40 respondentów. Najkorzystniejszym rozwiązaniem byłoby wylosowanie adresów w sposób prosty [10]. Niestety oznaczałoby to bardzo kosztowne, z naszej perspektywy, rozproszenie próby. W związku z tym stosujemy technikę losowania, która pozwala skoncentrować adresy na niedużej przestrzeni, a jednocześnie zapewnia rezultat podobny, jak w przypadku próby prostej.

Zacznijmy od tego, że obwody spisowe (JDS) w operacie TERYT są wyznaczone w ten sposób, aby skupiały adresy leżące blisko siebie. Jeżeli będziemy losować po kilka adresów z jednego obwodu, to możemy mieć pewność, że wszystkie będą w niedużych odległościach od siebie. Najprościej byłoby więc wybrać jeden obwód spisowy i wylosować z niego całą próbę. Nie możemy jednak tak zrobić, ponieważ nie uzyskalibyśmy w ten sposób próby pozwalającej nam prawidłowo wnioskować o subpopulacji.

Kluczowe dla dokładności otrzymanego wyniku z warstwy jest zróżnicowanie badanej zmiennej w obrębie obwodów spisowych (JPS). Jeżeli jest tak, że na każdej ulicy w Krakowie co najmniej jeden artykuł z miesięcznika XYZ przeczytało dokładnie 15% mieszkańców (i tyle wynosi też odsetek dla całego miasta) to rzeczywiście możemy wybrać dowolną ulice (JPS) i przeprowadzić tam 40 wywiadów. Szansa, że otrzymamy dokładne oszacować odsetka czytelników w całym mieście będzie wysoka. Może być jednak też tak, że odsetek czytelników na poszczególnych ulicach jest różny. Żeby oszacować, jakie różnice występują między mieszkańcami poszczególnych ulic wylosujemy więc kilka JDS. Mając 4 obwody spisowe, po 10 adresów w każdym, będziemy mogli oszacować przeciętny odsetek czytelników wśród mieszkańców krakowskich ulic oraz przeciętne zróżnicowanie między ulicami. Pozwoli nam to wyznaczyć oszacowania dla populacji całego miasta. Kilka obwodów spisowych losujemy więc po to żeby się przekonać, jak bardzo poszczególne obwody różnią się między sobą. Uwzględniając tą różnicę i znając wyniki z JPS możemy przygotować oszacowania dla całego miasta.

Na koniec trzeba jeszcze wyjaśnić dlaczego JPS losujemy inaczej niż JDS, dlaczego z każdego obwodu spisowego losujemy dokładnie tyle samo adresów (dokładnie 10) oraz jak z próby adresów otrzymać próbę respondentów.

Próba automatycznie wyważona

Losowanie JPS z prawdopodobieństwami proporcjonalnymi do ich wielkości (liczby zawartych w nich adresów) i losowanie takiej samej liczby adresów z każdego obwodu (np. 10) w sposób prosty bez zwracania pozwala otrzymać próbę automatycznie wyważoną (self-weighting design). Oznacza to, że w ramach warstwy, wszystkie adresy mają takie samo prawdopodobieństwo dostania się do próby. Aby to wyjaśnić użyjemy przykładu. Ulica Floriańska w Krakowie, na której znajduje się 200 adresów (dane nierzeczywiste) będzie miała większe szanse dostania się do badania niż ulica Bracka z 100 adresami (dane nierzeczywiste). Okazuje się jednak, że jeżeli w obu przypadkach dobierzemy po 10 JDS to każdy adres z ulicy Brackiej będzie miał większą szansę wylosowania niż adres z ulicy Floriańskiej (bo 10/100 to więcej niż 10/200). Inny sposób losowania JPS i JDS powoduje, że ich szanse się „wyrównują” i ostatecznie każdy adres w podpróbie ma takie samo prawdopodobieństwo wylosowania.

Bardzo istotną zaletą podpróby automatycznie wyważonej, jest to, że niezależnie od tego jak bardzo skomplikowany był sposób jej doboru, wnioskowanie o subpopulacji możemy przeprowadzić przy użyciu narzędzi statystycznych opracowanych dla prób prostych[11] (dla których wszyscy respondenci mają takie samo prawdopodobieństwo dostania się do próby)! Okazuje się więc, że pomimo zastosowania skomplikowanego schematu losowania możemy łatwo wnioskować o warstwach i całej populacji.

Operat losowania a badana populacja

Ostatnią kwestią jest dobór respondentów. Chodzi o to, że operat TERYT tak naprawdę nie jest listą mieszkańców Polski, których chcemy zbadać, lecz mieszkań. Dlatego przed realizacją badania należy jeszcze z każdego wylosowanego mieszkania wylosować respondenta. Naturalnie, gdyby w badaniu wykorzystać inny operat, np. PESEL, który jest spisem osób, nie zaś mieszkań, wtedy krok ten nie byłby konieczny.

Aby przejść od próby adresów do próby respondentów, z każdego dobranego mieszkania wylosujemy dokładnie jednego pełnoletniego respondenta. Należy przy tym zachować ostrożność. W każdym mieszkaniu może znajdować się inna liczba potencjalnych respondentów. Jeżeli wybierzemy jedną osobę spod adresu, w którym mieszka 6 osób, to ma ona mniejsze szanse dostania się do próby niż osoba spod adresu, w którym mieszkają 2 osoby. Aby zniwelować te rozbieżności, przy wnioskowaniu o subpopulacji, należy zastosować dla każdej obserwacji wagę będące odwrotnością prawdopodobieństwa wylosowania respondenta z jego mieszkania (w naszym przypadku wagi te wynosiłyby odpowiednio 6 oraz 2).

Ostatecznie, znając schemat doboru próby i wyniki podprób ze wszystkich 48 warstw możemy stosunkowo łatwo, przy użyciu odpowiednich wag, wyznaczyć oszacowanie odsetka pełnoletnich mieszkańców Polski, którzy w ciągu miesiąca poprzedzającego badanie, przeczytali przynajmniej jeden cały artykuł w papierowej wersji miesięcznika XYZ.

[1] http://nastrazysondazy.uw.edu.pl/metodologia/reprezentatywnosc-proby/

[2] http://nastrazysondazy.uw.edu.pl/metodologia/metody-zbierania-danych/

[3] http://nastrazysondazy.uw.edu.pl/metodologia/populacja-operat-losowania-i-podstawa-procentowania/

[4] http://nastrazysondazy.uw.edu.pl/metodologia/metody-zbierania-danych/

[5] http://nastrazysondazy.uw.edu.pl/metodologia/blad-statystyczny/

[6] Badania tego typu, na bardzo dużą skalę, prowadzi Główny Urząd Statystyczny. patrz:

Metodologia Badania Budżetów Gospodarstw Domowych, GUS, Warszawa 2011 [http://www.stat.gov.pl/cps/rde/xbcr/gus/WZ_meto_badania_bud__gospod__dom.pdf [07.08.2013]).

[7] http://nastrazysondazy.uw.edu.pl/metodologia/blad-statystyczny/

[8] Baza Demografia, GUS, stan na 31 XII 2010 roku (na podstawie NSP 2011): Polska 18+ = 31286627 osób, Kraków 18+ = 640725 osób

[9] Wszelkie podobieństwo do prawdziwych danych statystycznych jest przypadkowe.

[10] http://nastrazysondazy.uw.edu.pl/metodologia/blad-statystyczny/

[11] Jest tak odnośnie punktowego oszacowania średniej. Jeżeli chodzi o wyznaczanie przedziału ufności, to sprawa jest nieco bardziej złożona.