Polski Generalny Sondaż Społeczny – uwagi o doborze próby

Polski Generalny Sondaż Społeczny był realizowany przez Instytutu Studiów Społecznych Uniwersytetu Warszawskiego i finansowany ze środków przyznanych przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Badanie to było prowadzonym cyklicznie, początkowo w odstępach jednego roku, a później trzech lat. Łącznie zrealizowano 9 edycji, z których kolejne odbywały się w latach 1992, 1993, 1994, 1995, 1997, 1999, 2002, 2005, 2008 oraz 2010. Celem PGSS było systematyczne gromadzenia informacji o rozkładach różnego rodzaju zmiennych w populacji, które miały służyć do opisania bieżącej sytuacji społecznej w kraju. Dane do analizy zbierano przy użyciu badania ankietowego prowadzonego wśród respondentów wybranych do próby w sposób losowy. Starano się, aby próba była reprezentatywna dla populacji mieszkańców Polski.

Ważnym aspektem badania była jego cykliczność. W połączeniu z reprezentatywnością próby, dawała ona możliwość obserwacji zmian rozkładów poszczególnych zmiennych na przestrzeni kolejnych lat. Dzięki systematycznemu zbieraniu informacji na temat tych samych zmiennych, za pośrednictwem niezmienionego kwestionariusz, w następujących po sobie edycjach, możliwe było prowadzenie analizy zmian społecznych zachodzących w Polsce po transformacji systemowej roku 1989.

Warto podkreślić, że w PGSS spektrum badanych problemów było bardzo szerokie. Zbierano informacje na temat sytuacji ekonomicznej, postaw, opinii dotyczących problemów społecznych, preferencji politycznych, sposobu spędzania czasu, wykonywanej pracy oraz wykształcenia. Liczba oraz rodzaj badanych zagadnień społecznych na przestrzeni lat była bardzo różna. W ciągu wszystkich edycji analizowano wartości blisko 1640 zmiennych, przy czym około 500 z nich powtarzało się w kolejnych latach.

Należy również dodać, że w ramach PGSS prowadzono jednocześnie, z wykorzystaniem tej samej próby respondentów, badanie International Social Survey Programme, w którym uczestniczyło około 45 państw. Oprócz tego, ankiety wypełniane przez respondentów zawierały bloki pytań opracowanych we współpracy z National Opinion Research Center, University of Chicago oraz Zentrum fur Umfragen, Methoden und Analysen, Mannheim. W ten sposób starano się zapewnić porównywalność problemów badawczych poruszanych w PGSS, oraz w amerykańskim badaniu General Social Survey (GSS) i niemieckim Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS).

Omawiając schemat losowania próby do Polskiego Generalnego Sondażu Społecznego należy podkreślić, że na przestrzeni lat uległ on poważnym modyfikacjom. Dotyczyły one wykorzystywanego operatu losowania, sposobu podziału populacji na warstwy oraz procedury losowania jednostek obserwacji. Ze względu na konstrukcję schematu doboru próby, możemy podzielić edycje badania PGSS na dwie grupy. Pierwsza z nich obejmuje badania przeprowadzone między rokiem 1992 a 2002, w których wykorzystano spis mieszkań jako operat losowania. Drugą grupę stanowią badania przeprowadzone w latach 2005 i 2008, na potrzeby których operatem losowania była baza PESEL. Warto podkreślić, że modyfikacja badania, polegająca na zmianie schematu losowania, nie prowadzi do utraty porównywalności poszczególnych edycji.

Reprezentatywność badania polega przede wszystkim na dostarczaniu informacji o rozkładach analizowanych zmiennych w badanej populacji. Istotny dla porównywalności wyników jest więc rodzaj badanych zmiennych. Zaistniała zmiana w stosowanym operacie losowania, choć musi być uwzględniana w trakcie prowadzenia wszelkiego rodzaju badań porównawczych, to jednak nie uniemożliwia robienia analiz międzyokresowych.

Schemat losowania próby do Polskiego Generalnego Sondażu Społecznego przeszedł poważną ewolucję na przestrzeni lat. Tak jak wspomniano, zasadnicza zmiana wynikała z zastosowania innego operatu losowania w edycjach przeprowadzonych w roku 2002 i wcześniej, oraz w ostatnich edycjach. Choć potencjalnie baza PESEL wydaje się lepiej spełniać wymagania stawiane operatom losowania, to w praktyce miała ona kilka istotnych wad. Głównym problemem było występowanie rozbieżności między adresem zameldowania, a faktycznym miejscem zamieszkania osób wylosowanych do próby. Błędy tego rodzaju skutkowały zwiększeniem liczby obserwacji niedostępnych w próbie. Niestety, ustalenie faktycznego miejsca zamieszkania osoby wylosowanej do próby nie zawsze było możliwe, ale zawsze wiązało się ze zwiększonymi kosztami badania. Co więcej, w niektórych przypadkach mogło dochodzić do sytuacji, gdy osoba wylosowana w ramach jednej subpopulacji w rzeczywistości należała do zupełnie innej (mieszka w innym miejscu niż wynikałoby to z jej adresu zameldowania). Takie przypadki mogły burzyć założenia dotyczące alokacji próby ponieważ liczba obserwacji otrzymanych w niektórych warstw mogła być mniejsza, a w innych większa od zakładanej.

Dodatkową wątpliwość może wzbudzać sposób wyznaczania prawdopodobieństw losowania jednostek LPS (losowania pierwszego stopnia) w ostatnich edycjach badania. Wykorzystywany wówczas operat losowania, choć pozwalał dotrzeć do bardzo dokładnych danych na temat populacji, nie dostarczał informacji o wielkości jednostek LPS. Jeżeli dla oszacowania wielkości prawdopodobieństw zamiast liczby osób należących do populacji wykorzystano liczbę wszystkich mieszkańców jednostek LPS, to w konsekwencji doprowadzono do niekorzystnego zwiększenie złożoności procesu wnioskowania o populacji generalnej.

Niewątpliwą zaletą bazy PESEL było to, że zawierała ona dużą liczbę zmiennych. Potencjalnie mogło to umożliwiać wyznaczanie warstw populacji w taki sposób, aby obniżyć wariancję poszukiwanych estymatorów. Niestety w praktyce nic takiego nie miało miejsca. Podział populacji na warstwy w ostatnich badaniach PGSS został zaplanowany w sposób uwzględniający podział administracyjny kraju i logistykę całego przedsięwzięcia. Można więc powiedzieć, że potencjał bazy PESEL w znacznym stopniu nie został wykorzystany.

Rejestr mieszkań również nie był wolny od pewnych wad. Przede wszystkim, w kolejnych edycjach, w losowanych z niego próbach rosnący udział miały adresy nieistniejące. Problem ten można było oczywiście rozwiązać losując dodatkowe mieszkania, ale oznaczało to podniesienie kosztów badania. Niewątpliwą zaletą rejestru adresów było to, że dostarczał on szczegółowych informacji na temat jednostek losowania. Dzięki temu stosunkowo łatwo można było uzyskanie próby automatycznie wyważone. Trzeba przy tym pamiętać, że jednostkami losowania w tym przypadku były mieszkania, a nie osoby należące do badanej zbiorowości. Z tego powodu przed przystąpieniem do wnioskowania o populacji generalnej konieczne było przeważenie obserwacji przez odwrotność prawdopodobieństwa wylosowania ich z gospodarstw domowych.

Bardzo istotnym problemem w badaniu PGSS był poziom realizacji badania. O ile w pierwszych kilku edycjach był on bardzo wysoki, o tyle z czasem systematycznie się obniżał, aż w roku 2008 udało się zrealizować jedynie połowę wszystkich wylosowanych wywiadów. Dramatyczny spadek poziomu realizacji badania pokazuje, jak poważnym problemem były odmowy uczestniczenia w badaniu. Konsekwencją tego było znaczące obniżenie wiarygodność wyników z ostatnich kilku edycji PGSS.

Podsumowaniem powinno być stwierdzenie, że badanie PGSS było zarówno przykładem niezwykle skutecznego, jak i nieskutecznego wykorzystania zastosowanych schematów losowania próby. W przypadku pierwszych 7. edycji otrzymywane próby, choć losowane w stosunkowo złożony sposób, w założeniu pozwalały znacząco uprościć wnioskowanie o populacji generalnej. Poważnym problemem dla kilku ostatnich edycji badania okazał się spadający poziom realizacja badania. W konsekwencji dokładność otrzymywanych wyników mogła być znacząco niższa od zamierzonej. Dodatkowych trudności mógł dostarczać schemat doboru próby zastosowany w ostatnich edycjach badania PGSS. Był on zdecydowanie mniej złożony niż schematy stosowane w poprzednich latach jednak wnioskowanie na podstawie otrzymanych za jego pomocą prób mogło być bardziej skomplikowane na skutek jego niedoskonałości i niewystarczającej informacji o jednostkach losowania.

Główny problem dotyczący badania PGSS polega jednak na tym, że w publicznie dostępnych zbiorach danych nie są udostępniane informacje dotyczące przynależności obserwacji do poszczególnych warstw oraz jednostek losowania. Nie ma także danych o zastosowanych prawdopodobieństwach wylosowania poszczególnych jednostek LPS (losowania pierwszego stopnia) oraz LDS (losowania drugiego stopnia). Wyjątkiem jest próba dobrana dla PGSS 2008 dla której, w drodze dedukcji, na podstawie informacji zgromadzonych w zbiorze danych możliwe jest częściowe odtworzenie przynależność obserwacji do poszczególnych warstw.

Niestety dla żadnej edycji badania nie są dostępne wszystkie dane niezbędne do tego, aby możliwe stało się wykorzystanie własności omawianych schematów losowania prób. Nie jest więc możliwe proste wyznaczenie nieobciążonych estymatorów poszukiwanych parametrów rozkładów zmiennych w populacji oraz estymatorów ich wariancji. Cały proces wnioskowania znacząco się przez to komplikuje, co oznacza, że wysiłek włożony w proces losowania próby został poniekąd zmarnowany.