Błędy nielosowe

W reprezentatywnych badaniach sondażowych wyróżnić można dwa rodzaje błędów: błędy losowe (przede wszystkim błąd statystyczny) i błędy systematyczne. Przykładem błędu losowego jest błąd statystyczny. Pojawia się on dlatego, że w badaniu sondażowym na podstawie danych zebranych przy badaniu próby wnioskuje się o populacji. Trzema rodzajami błędów systematycznych często omawianych w literaturze sondażowej są błędy pokrycia, błędy pomiaru i braki danych.

Główną różnicę miedzy błędami losowymi i błędami systematycznymi stanowi fakt, że pierwsze, choć oczywiście powodują że wyniki poszczególnych badań dotyczących tego samego zjawiska mogą się różnić między sobą, to jednak wszystkie oscylują z pewną dokładnością wokół wartości cechującej całą populację. Fachowo, mówi się, że błędy losowe są nieobciążone, co znaczy, że ich średnia w wielu badaniach jest równa zeru. Inaczej jest z błędami systematycznymi. Są to błędy, które powodują skrzywienie wyników w pewnym kierunku. Dlatego wysokie obciążenie badania błędami systematycznymi jest dużo groźniejsze, niż nawet wysoki błąd statystyczny i może silnie zniekształcić jego wyniki.

Błędy pokrycia (błędy operatu) polegają na tym, że populacja na temat której badacz chce zdobyć informacje nie pokrywa się ze spisem jednostek, jakim dysponuje badacz przy losowaniu próby. Wyróżnia się kilka typów takich błędów (przed dalszą lekturą warto zapoznać się z pojęciem operat losowania):

Błąd pominięcia polega na wykorzystaniu operatu, z którego nie ma możliwości wylosowania do próby przynajmniej jednej z jednostek faktycznie należących do populacji badania. Przykładem badania w którym popełniony zostałby ten błąd może być badanie wysokości dochodów mieszkańców Polski za pomocą operatu PESEL. Próba wybrana za pomocą tego operatu nie będzie zawierała informacji o emigrantach, którzy nie mają zarejestrowanego pobytu, a którzy mieszczą się w założonej populacji badania.

Błąd włączenia polega na wykorzystaniu operatu, z którego jest możliwość wylosowania do próby jednostki nie należącej do populacji badania. Przykładem badania, w którym popełniony zostałby ten błąd może być badanie wysokości dochodów Polaków za pomocą operatu TERYT. Próba wybrana za pomocą tego operatu może zawierać także mieszkania obcokrajowców, którzy nie mieszczą się w założonej populacji badania.

Błąd powtórzenia polega na wykorzystaniu do wylosowania próby operatu, w którym kilkukrotnie jest zamieszczona informacja o tej samej jednostce. Przykładem badania, w którym ten błąd zostałby popełniony, może być telefoniczne badanie wysokości dochodów Polaków za pomocą operatu uzyskanego od przedstawicieli sieci komórkowych. Badanie takie będzie obciążone błędem powtórzenia, gdyż w operacie pod różnymi numerami telefonów może znajdować się ta sama osoba.

Błąd możliwości wykorzystania polega na wykorzystaniu do wylosowania próby operatu, w którym zamieszczone informacje o jednostkach nie pozwalają na przeprowadzenie z nimi badania. Przykładem badania, w którym ten błąd zostałby popełniony może być badanie Polaków za pomocą operatu PESEL. Badanie takie będzie obciążone błędem możliwości wykorzystania, gdyż korzystając z PESEL nie będziemy mogli przeprowadzić badania z osobami bezdomnymi nawet, gdy zostaną wylosowane, gdyż w operacie nie ma rzetelnej informacji o miejscu ich pobytu.

Błędy operatu często przyjmują postać błędów systematycznych, gdyż pomijają jednostki o specyficznych cechach. Najlepszym tego przykładem jest praktyczny brak możliwości dotarcia do osób bezdomnych w przypadku badania wysokości dochodów. Oczywiste wydaje się, że włączenie tych osób do badania zdecydowanie obniżyłoby średnią wysokość dochodów przewidywaną dla populacji.

Błędy pomiaru w badaniach sondażowych są szeroką klasą błędów. Określają one sytuację, w której badacz uzyskuje wyniki niezgodne z rzeczywistością. Przykładami błędów pomiaru mogą być nieprawdziwe odpowiedzi respondentów na pytania. Uzyskanie odpowiedzi niezgodnej z rzeczywistością może być wynikiem kłamstwa respondenta lub wynikać z jego pomyłki, spowodowanej np. słabą pamięcią. Innym przykładem błędu pomiaru może być źle usłyszana lub zakodowana odpowiedź na pytanie sondażowe przez ankietera. Jeszcze innym problemem może być źle sformułowane pytanie, które nie mierzy tego, co chcieliśmy zmierzyć. Najbardziej typowym przykładem w badaniach społecznych tego problemu jest pomiar kapitału społecznego. Trudno jest zadać respondentom takie pytania, by jednoznacznie można było stwierdzić, że to co zostało zmierzone, jest właśnie kapitałem społecznym.

Trudno jest oszacować, jak duży jest błąd spowodowany przez niedoskonałości pomiaru, gdyż zwykle niełatwo jest ocenić czy odpowiedź respondenta na pytanie jest prawdziwa, czy nie. Podobnie problemem jest dokładne określenie czy pytania, które zostały zadane w kwestionariuszu mierzą właśnie to, co badacz chciał zbadać.

Braki danych (non-response) są jednym z najpoważniejszych błędów towarzyszących badaniom sondażowym. Wyróżnia się dwa typy braków danych: braki udziału (unit non-response) i braki odpowiedzi (item non-response).

Braki udziału powstają, gdy w trakcie badania nie uda się uzyskać odpowiedzi na żadne z pytań kwestionariusza od jednostki wylosowanej do próby. Najczęstszymi przyczynami występowania braków udziału jest brak możliwości skontaktowania się z wylosowaną do próby jednostką, odmowa wzięcia udziału w badaniu lub niedyspozycja respondenta. Problem braków udziału jest szeroko opisywany w literaturze socjologicznej.

Częstość występowania braków udziału wyraża się stosunkiem liczby braków udziału do liczby jednostek wylosowanych do próby. Częstość występowania braków udziału w badaniach od początku lat 90. wzrasta, mimo podejmowanych prób jej ograniczenia. Obecnie 30% braków udziału w stosunku do wylosowanej próby jest dla badaczy powodem do dumy. Bardzo rzadko udaje się ten poziom zmniejszyć. W wielu badaniach nie jest osiągany poziom nawet 50%. Szczególnie wysoki odsetek braków udziału występuje w sondażach telefonicznych, w których zdarza się, że przekraczany jest nawet poziom 90% braków udziału. Z teoretycznego punktu widzenia wnioskowanie statystyczne z próby o takim procencie braków udziału jest właściwie bezsensowne.

Badania wskazują, że skłonność do udziału w badaniach jest skorelowana z wieloma zmiennymi takimi jak np. płeć, wiek i wielkość miejscowości zamieszkania. Oznacza to, że w przypadku gdy do próby trafi tylko część wylosowanych respondentów, to nie będzie ona dobrze reprezentowała populacji, gdyż trafi do niej prawdopodobnie więcej kobiet, więcej osób starszych i więcej mieszkańców mniejszych miejscowości, gdyż jak pokazują badania, to właśnie te osoby są bardziej skłonne do brania udziału w sondażach.

Braki odpowiedzi powstają, gdy jednostka wylosowana do próby nie odpowie na jedno lub kilka pytań z kwestionariusza lub udzieli na nie odpowiedzi beztreściowych. W odróżnieniu od braków udziału, które charakteryzują całe badanie, braki odpowiedzi są cechą poszczególnych pytań. Możliwe jest, że niektóre zmienne wykorzystane w badaniu nie mają braków odpowiedzi, a w innych odsetek braków odpowiedzi jest bardzo wysoki. Wyjątkowo duży odsetek braków odpowiedzi jest zwykle cechą zmiennych opisujących wysokość dochodów respondentów.

Braki danych są specyficznym typem błędu systematycznego, gdyż maksymalną szerokość pseudo-przedziału ufności (błąd statystyczny przy uwzględnieniu występowania braków danych) spowodowaną jego występowaniem daje się oszacować metodami statystycznymi. Sposób wyliczenia długości pseudo-przedziału ufności przedstawił prof. Lissowski w 1971 roku.