Europejski Sondaż Społeczny – uwagi o doborze próby

Prowadzony w Polsce Europejski Sondaż Społeczny stanowił część międzynarodowego cyklu badań o nazwie European Social Survey, obejmującego w każdej edycji kilkadziesiąt państw europejskich. Program ESS był dotychczas finansowany ze środków Europejskiej Fundacji Nauki (European Science Foundation), Komisji Europejskiej, a także instytucji naukowych krajów uczestniczących. W Polsce badanie było prowadzone przez Instytutu Filozofii i Socjologii Polskiej Akademii Nauk. Badaną populacją byli mieszkańcy krajów uczestniczących w ESS. Założenia dotyczące zasięgu badania sprawiały, że program nie obejmował wyłącznie obywateli, lecz wszystkie osoby zamieszkałe w Polsce, a więc również cudzoziemców.

Celem programu ESS była analiza rozkładów zmiennych reprezentujących postawy i zachowania mieszkańców poszczególnych państw. Zastosowanie metody reprezentatywnej oraz powtarzalność badania miały na celu zapewnić możliwość analizowania zmian w rozkładach badanych zmiennych na przestrzeni kolejnych lat. Co ważne, w każdej edycji pewna część zagadnień była identyczna. Powtarzającymi się blokami tematycznymi były: media i zaufanie społeczne, polityka, ocena samopoczucia, wykluczenie społeczne, religia oraz tożsamość narodowa i etniczna oraz charakterystyka społeczno-demograficzna. Oprócz wyżej wymienionych zagadnień istniał również blok pytań, które w każdej edycji dotyczyły innego problemu. Na przestrzeni lat zadawano respondentom pytania dotyczące min.: pracy, rodziny, zaufania do wymiaru sprawiedliwości i stosunku do demokracji, a także opieki społecznej.

Cele badania ESS niewątpliwe były bardzo interesujące. Powtarzalność, ale także stosowanie identycznych pytań w każdej edycji, pozwalają w przypadku prawidłowo prowadzonego badania prowadzić międzyokresowe analizy. Dodatkowy blok pytań zmienianych, w każdym kolejnym kwestionariuszy umożliwiał analizę nowych zagadnienia, uznanych za ważne w danym okresie.

Warunkiem podstawowym dla wykorzystania zalet sondażu takiego jak ESS jest oczywiście prawidłowo dobrana próba reprezentatywna. Niewątpliwą zaletą schematu doboru próby zastosowanego w Europejskim Sondażu Społecznego była jego stosunkowo niewielka złożoność. Sposób wyznaczania warstw oraz losowania obserwacji pozwalał uzyskać próbę, dla której estymatory parametrów rozkładów analizowanych zmiennych mogły mieć nieskomplikowaną postać. Warto również dodać, że w kolejnych edycjach badania schematy losowania próby różniły się między sobą w niewielkim stopniu. Jedyna zmiana dotyczyła sposobu definiowania warstw, jednak zabieg ten nie mógł mieć wpływu na porównywalność wyników między kolejnymi edycjami. Wpływ na dokładność i trafność otrzymanych wyników oraz sposób wnioskowania o populacji miała za to niewątpliwie liczebność oraz skład otrzymanej próby, które znacząco odbiegały od założeń. Niezbędne jest więc podsumowanie zalet i wad prezentowanego schematu losowania próby.

Choć w ESS podział populacji generalnej na warstwy została przeprowadzony pod kątem uproszczenia logistyki badania, co nie mogło się w większym stopniu przyczynić do zmniejszenia wariancji estymatorów, to potencjalnie umożliwiał on wykorzystanie niezwykle prostych estymatorów wartości globalnej oraz średniej zmiennych w populacji. Dotyczyło to przede wszystkim warstw utworzonych z mieszkańców dużych miast, gdzie zastosowanie schematu losowania warstwowego, z alokacją proporcjonalną, pozwalałoby otrzymać próbę automatycznie wyważoną. Podział na warstwy mógł również uprościć wnioskowanie o subpopulacjach mieszkańców pozostałych klas miejscowości, co należy uznać za zaletę omawianej procedury losowania.

Niezwykle istotne znaczenie z punktu widzenia estymacji miał zastosowany schemat alokacji próby. Nie był on proporcjonalny do liczby obserwacji w warstwach. Alokacja próby między subpopulacje została przeprowadzona z uwzględnieniem przewidywanego poziomu realizacji próby. Odejście od alokacji proporcjonalnej miało szereg konsekwencji. Przede wszystkim próba wylosowana spośród mieszkańców dużych miast nie była próbą automatycznie wyważoną, co należy uznać za niekorzystne zjawisko ponieważ komplikuje ono cały procesu estymacji. Alokację przeprowadzono w ten sposób, aby zrekompensować niski poziom realizacji próby i występowanie obserwacji niedostępnych. Zabieg ten okazał się nieskuteczny ponieważ rozkłady analizowanych zmiennych wśród obserwacji dostępnych i niedostępnych różniły się. Jak wiadomo zwiększenie liczebności próby jednostek dostępnych nie pozwala w takiej sytuacji odtworzyć brakujących informacji, a w związku z tym, nie poprawia trafności wnioskowania o całej populacji. Konsekwencją niepełnej realizacji próby była więc utrata możliwości trafnego wnioskowania. Zwiększenie liczebności próby mogło się przyczynić do zmniejszenia wariancji estymatorów parametrów zmiennych w populacji jednostek dostępnych.

Bez informacji o tym jak kształtują się rozkłady zmiennych wśród jednostek niedostępnych nie jest możliwe uogólnianie wyników z próby na całą populację. Nie musi to jednak całkowicie przekreślać możliwości wnioskowania o populacji. Jeżeli różnice między rozkładami wśród jednostek dostępnych i niedostępnych są nieduże, to można się również spodziewać, że błąd wynikający z wnioskowania o badanej zbiorowości wyłącznie na podstawie danych o jednostkach dostępnych będzie niewielki. Warto więc przeanalizować proces wnioskowania wyłącznie o części badanej zbiorowości składającej się z obserwacji dostępnych. Postępowanie w takiej sytuacji musiałoby przypominać rozwiązania stosowane w przypadku doboru próby z operatu losowania zawierającego jednostki, z których jedynie pewna, nierozróżnialna przed wylosowaniem, część stanowiłaby badaną zbiorowość. Trafne wnioskowanie o takiej populacji byłoby możliwe przy wykorzystaniu próby wylosowanej za pomocą schematu stosowanego w ESS. Do uproszczenia procedury mogłoby się przyczynić wyznaczenie dla każdej warstwy iloczynu przewidywanego poziomu realizacji próby w warstwie oraz udziału warstwy zdefiniowanej dla badania ESS w populacji. W ten sposób wyznaczony zostałby przewidywany udział poszczególnych subpopulacji w całej zbiorowości jednostek dostępnych. Dzięki temu możliwe stałoby się przeprowadzenie alokacji próby jednostek dostępnych między warstwy w sposób proporcjonalny do wielkości warstw. Dodatkowe zastosowanie podobnej procedury wobec prawdopodobieństw wylosowania jednostek LPS (losowanie pierwszego stopnia) w warstwach mieszkańców miast i wsi pozwoliłaby otrzymać z poszczególnych subpopulacji automatycznie wyważone próby jednostek dostępnych. Wnioskowanie o dostępnej części populacji byłoby więc znacząco uproszczone. Wnioskowanie o całej populacji wymagałoby natomiast zdobycia informacji o różnicach między dostępnymi i niedostępnymi jednostkami. W tym celu można posłużyć się wynikami uzyskanymi z badania małej, losowej próby jednostek niedostępnych lub wcześniej prowadzonych badań reprezentatywnych. Zaproponowany sposób doboru próby, przy zastosowaniu odpowiednich metod estymacji, mógłby się przyczynić do redukcji błędów niedostępności i uzyskania lepszych rezultatów niż w przypadku dotychczas stosowanych procedur.

Oddzielnym problemem jest wykorzystywany w ESS operat losowania. Rozbieżności między adresem zameldowania i adresem zamieszkania wylosowanych respondentów przyczyniły się do niezrealizowania dużej części badań. W kolejnych edycjach badania rosło również znacznie nieistniejących adresów jako przyczyny nieprzeprowadzania wywiadów. Uzasadnione wydaje się więc twierdzenie, że jakość wykorzystywanego operatu losowania obniżała się w kolejnych latach. Warto w tym miejscu przypomnieć, że baza PESEL była również wykorzystywana w ostatnich edycjach badania PGSS przeprowadzonych w podobnym okresie, jak badanie ESS. W tym przypadku również rosnącym problemem były błędne adresy. Co ciekawe, w PGSS poziom realizacji badania był niższy niż w Europejskim Sondażu Społecznym. Oznaczałoby to, że w badaniu ESS włożono większy wysiłek w dotarcie do respondentów.

Nie należy zapominać o najpoważniejszej przyczynie niskiego poziomu realizacji próby, jaką są odmowy uczestnictwa. Jak w każdym badaniu reprezentatywnym, były one odpowiedzialne za znaczną część niedostępnych obserwacji. Wydaje się, że w przypadku badania ESS odmowy uczestnictwa choć stanowiły poważny, to jednak nie rosnący problem. Innymi słowy, odsetek odmów uczestnictwa był na kontrolowanym poziomie.

Generalnie, na tle innych wcześniej prezentowanych badań, poziom realizacji próby w Europejskim Sondażu Społecznym był stosunkowo wysoki. W kolejnych edycjach badania zauważalny był niestety wzrost odsetka obserwacji niedostępnych. W konsekwencji mógł się on przełożyć na obciążenie estymatorów, a więc obniżenie trafności wyników.

Warto jeszcze wrócić do schematu losowania próby z warstw mieszkańców małych miast oraz wsi. Jego konstrukcja potencjalnie pozwalała uzyskania dla poszczególnych subpopulacji próby automatycznie wyważone. Biorąc jednak pod uwagę, że jednostki LPS były dobierane z prawdopodobieństwami proporcjonalnymi do liczby wszystkich mieszkańców, a nie tylko tych należących do badanej populacji, to własność ta mogła zostać utracona. Choć, jak udało się wykazać, rozbieżności między rozkładami częstości adresów oraz osób należących do populacji generalnej nie były duże na poziomie województw, to dla jednostek mniejszej skali mogły być istotne. Z tego powodu traktowanie otrzymanych prób jako automatycznie wyważonych może prowadzić do błędnych wniosków o rozkładach zmiennych w populacji. Rozwiązaniem bezpiecznym w tej sytuacji jest estymacja bez wykorzystania tej własności.

Podsumowując, mimo pewnych niedoskonałości, wykorzystany w Europejskim Sondażu Społecznym schematu doboru obserwacji należy ocenić jako zaprojektowany w sposób potencjalnie pozwalający w sposób trafny, dokładny, a przede wszystkim prosty wnioskować o rozkładach analizowanych zmiennych w populacji. W ten sposób spełnia on podstawowe wymagania wobec schematu doboru próby.