PISA – uwagi o doborze próby | Na Straży Sondaży

Badanie PISA w Polsce ma charakter cykliczny i stanowi część międzynarodowego programu, prowadzonego przez Organizację Współpracy Gospodarczej i Rozwoju – OECD, którego celem jest badanie kompetencji i umiejętności uczniów w wieku 15 lat. Dzięki zastosowaniu standardowych kwestionariuszy możliwe jest porównywanie wyników badania zarówno dla różnych regionów kraju, na przestrzeni kolejnych lat, jak i w odniesieniu do rezultatów otrzymanych w innych państwach. Dotychczas przeprowadzono badanie 6 razy w latach 2000, 2003, 2006, 2009, 2012 i 2015. Polska brała udział we wszystkich edycjach.

PISA jest badaniem specyficznym, nie tylko dlatego, że w odróżnieniu od wielu innych badań reprezentatywnych, kwestionariusz w tym przypadku ma charakter zestawu zadań, w którym respondenci mogą udzielić prawidłowych bądź błędnych odpowiedzi, ale także dlatego, że przedmiotem oszacowań są nieobserwowalne kompetencje. Celem programu jest zidentyfikowanie grup uczniów o określonych kompetencjach, oszacowanie odsetka uczniów w każdej z nich oraz oszacowanie przeciętnej liczby punktów uzyskanych na skali PISA w podgrupach uczniów.

Program Międzynarodowej Oceny Umiejętności Uczniów (PISA) jest szczególnym rodzajem badania reprezentatywnego, również ze względu na to, że w odróżnieniu od innych przedsięwzięć tego typu, obejmuje ono niewielki wycinek populacji mieszkańców Polski. Dodatkowo przedmiotem zainteresowania są wyłącznie osoby niepełnoletnie w wieku 15. lat. Definicja populacji generalnej jest w wypadku PISA bardzo ścisła i zawęża zbiorowość badanych osób do stosunkowo niewielkiej grupy. Należy również zwrócić uwagę na fakt, że dobierane próby były wykorzystywana do oszacowania parametrów dosyć specyficznej zmiennej, jaką jest nieobserwowalne bezpośrednio umiejętności uczniów. Istotny jest również fakt, że program PISA jest prowadzony od ponad dziesięciu lat w wielu państwach jednocześnie. Z tego powodu schemat losowania próby w Polsce musiał odpowiadać założeniom przygotowanym przez międzynarodowych koordynatorów badania. Szczególny cel PISA oraz wysokie wymagania wobec reprezentatywności próby sprawiły, że procedura doboru obserwacji do próby różniła się od zazwyczaj stosowanych w przypadku badania uczniów.

Interesujące jest przede wszystkim odejście od definiowania warstw, i w związku z tym subpopulacji, w oparciu o podział administracyjny kraju. Rzeczywiście w przypadku badania PISA większe znaczenie dla rozkładu analizowanych zmiennych mógł mieć rodzaj placówki edukacyjnej do której uczęszczają uczniowie niż położenie w kraju. Dodatkowo wyróżnienie warstw ze względu na typ placówek pozwolił alokować próbę w ten sposób, aby możliwe stało się w przypadku niektórych edycji badania wnioskowanie o rozkładach analizowanej zmiennej w danej subpopulacji. Jednocześnie warto zwrócić uwagę na problem niedoskonałego operatu losowania szkół, który powodował, że do próby dostawały się placówki bez piętnastoletnich uczniów. W rezultacie pewna liczba wylosowanych szkół w każdej edycji PISA w ogóle nie brała udziału w badaniu. Nie oznacza to jednak, że próby dobrane za pomocą takiego operatu losowania były niereprezentatywne. Trzeba pamiętać, że zastosowany schemat losowania próby pozwalał dobrać wszystkie jednostki obserwacji znajdujące się w zbiorowości generalnej. Głównym problemem w takiej sytuacji było potencjalne zmniejszenie liczebności próby w stosunku do założonej wielkości. Jak wiadomo mniejsza liczba obserwacji skutkuje większym błędem oszacowania, co oczywiście jest niepożądanym zjawiskiem.

Kolejną kwestią wymagającą omówienia są warstwy implicite. Mają one duże znaczenie w kontekście stosowanego w badaniu PISA systematycznego doboru próby. Schemat ten w pewnych okolicznościach może być wyjątkowo nieefektywny. Innymi słowy, istnieją takie populacje dla których losowanie systematyczne daje próby na podstawie, których wnioskowanie o parametrach rozkładów analizowanych zmiennych może być obarczone dużym błędem. Przyczyn takiej sytuacji może być bardzo wiele. W przypadku badania PISA zastosowano szereg procedur porządkujących szkoły w operacie losowania, których celem było przeciwdziałanie potencjalnie niekorzystnym zjawiskom występującym w populacji. Wydaje się, że stosowane we wszystkich edycjach procedury mogły być pod tym względem skuteczne. Co więcej, w sprzyjających okolicznościach użyty schemat systematycznego doboru próby może okazać się bardziej efektywny od innych metod doboru jednostek obserwacji. Trudno jednoznacznie odpowiedzieć na pytanie, czy rzeczywiście zastosowana procedura losowania jednostek obserwacji dawała lepsze rezultaty niż inne dostępne procedury. Niemniej jednak, wydaje się, że schemat losowania systematycznego w przypadku badania PISA nie wiązał się z negatywnymi konsekwencjami dla dokładności oszacowań.

Warto jeszcze zwrócić uwagę na jeden szczegół dotyczący doboru jednostek obserwacji w prezentowanym badaniu. Chodzi mianowicie o dobór uczniów z poszczególnych szkół. Zgodnie z tym, co zostało powiedziane wcześniej, część obserwacji jest dobierana według schematu zespołowego, gdzie zespoły są różnoliczne (dotyczy to losowania w szkołach małych), a części jest dobierana w drodze losowania prostego zależnego (dotyczy do szkół dużych). W drugim przypadku liczba uczniów dobierana z każdej placówki jest taka sama. Różnice w schemacie losowania jednostek obserwacji w poszczególnych warstwach powinny być uwzględnione w procesie estymacji. Różnice miedzy wyróżnionymi schematami doboru jednostek wynikają oczywiście z konstrukcji operatu losowania. Nie oznacza to jednak, że należy je zaniedbywać. W związku z tym oszacowania dla poszczególnych warstw powinny być konstruowana z uwzględnieniem ich specyfiki.

Warto w tym miejscu przypomnieć, że we wszystkich edycjach badania PISA wykorzystywano próbę rezerwową. Jednostki rezerwowe LPS (na pierwszym poziomie losowania) są dobierane w ten sposób, że niewiele różnią się od pierwotnie wybieranych szkół. Niestety wydaje się, że tego typu działania nie gwarantują odtworzenia utraconej z powodu niedostępności jednostek LPS informacji. Co więcej, należy zaznaczyć, że zastępowanie dotyczy całych szkół, a nie pojedynczych uczniów. Problem polega niestety na tym, że dwie podobne do siebie szkoły mogą się bardzo różnić pod względem rozkładu umiejętności uczniów. Dodatkowo pojawił się problem zjawiska pozytywnej selekcji, które utrudnia rekompensowanie straconej informacji. Zastosowanie prób rezerwowych w badaniu PISA wydaje się wiec nieskuteczne z punktu widzenia poprawy dokładności oszacowań. Należy jednak zaznaczyć, że dzięki wykorzystaniu danych dotyczących wyników uczniów w ogólnopolskich egzaminach państwowych, potencjalny błąd spowodowany przez zjawisko pozytywnej selekcji mógł zostać skorygowany w procesie estymacji. Niestety było to możliwe wyłącznie na ograniczoną skalę, gdyż tego typu informacje były dostępne wyłączenie dla poszczególnych uczniów, a nie dla niedostępnych szkół. Co więcej, źródło dodatkowej informacji w postaci egzaminów państwowych było dostępne dopiero od edycji badania przeprowadzonego w roku 2006.

Ogromną zaletą badania PISA jest poziom realizacji próby. Oczywiście należy uwzględnić fakt, że część obserwacji pochodziła z szkół rezerwowych. Niemniej jednak poziom realizacji badania PISA na przestrzeni kolejnych lat był bardzo wysoki, choć oczywiście wciąż nie idealny, a więc nie bliski 100%. Stosunkowo niewielka liczba odmów pozwala więc twierdzić, że na podstawie prób dobieranych dla badania PISA oszacowania, choć obarczone błędem, mogą być wystarczająco dokładne, aby uogólnienia na temat całej populacji były uzasadnione.

Konstrukcja schematu doboru próby dla kolejnych edycji Programu Międzynarodowej Oceny Umiejętności Uczniów w Polsce pozwalała uzyskać zbiór obserwacji na podstawie których wnioskowanie o rozkładach analizowanych zmiennych w populacji byłoby pozbawione większych wad. Niestety niedostępność części obserwacji sprawiła, że uogólnienia mogą być obarczone błędem większym niż pierwotnie przewidywano. Nie zmienia to jednak faktu, że populacja próba do badania PISA została dobrana według stosunkowo efektywnego schematu, co jest niewątpliwą zaletą wszystkich edycji programu w Polsce. Na koniec warto dodać, że schematy losowania zastosowane dla kolejnych prób pozwalają porównywać między sobą wyniki z różnych lat.