Pseudo-przedział ufności

Często informacja o błędzie statystycznym badania nie jest wystarczająca do oceny jego jakości, gdyż nie uwzględnia niedokładności spowodowanej błędami empirycznymi, których występowanie wydaje się nieuniknione w praktyce badawczej. Dla wielu błędów empirycznych trudno jest określić, jak dużą niedokładność oszacowania mogą powodować, jednak w przypadku braków danych jest to możliwe. Sposób wyznaczania wielkości błędu z uwzględnieniem braków danych (pseudo-przedziału ufności) przedstawił Grzegorz Lissowski (Lissowski:1971).

Dla porządku wyjaśnijmy: brak danych to każda sytuacja, w której nie wiemy jak na pytanie odpowiedział by dany respondent, mimo tego, że został on wylosowany do próby. Sytuacje takie wynikają przede wszystkich, z tego że wielu respondentów odmawia udziału w badaniu, ale i z innych przyczyn. Mogło też być tak, że ankieter w czasie wywiadu przez przeoczenie nie zadał pytania, nie mógł zlokalizować posesji na którą miał się udać lub w ogóle nie podjął próby dotarcia do respondenta. W praktyce w większości badań odsetek osób wylosowanych do próby, dla których występuje brak danych waha się od 20% do nawet 95% (zobacz techniki zbierania danych). Niestety, powszechną praktyką jest, iż fakt ten się ignoruje i nie bierze pod uwagę przy ocenie dokładności z jaką wyniki w próbie odzwierciedlają cechy całej populacji. Niski poziom realizacji próby ma jednak decydujący wpływ na jakość badania i ignorowanie tego faktu prowadzić może do pomyłek.

Wyliczając pseudo-przedział bierze się również pod uwagę, że wśród respondentów, którzy wzięli udział w badaniu, występuje zwykły błąd statystyczny. Natomiast o jednostkach wylosowanych do badania, które jednak nie wzięły w nim udziału, nie wiadomo nic. W związku z tym przy szacowaniu pseudo-przedziału ufności do błędu statystycznego dodaje się błąd związany z tym, że o części jednostek nie dowiedzieliśmy się niczego.

W pewnym uproszczeniu można powiedzieć, że szerokość pseudo-przedziału ufności dla frakcji (odsetka) szacuje się poprzez zsumowanie iloczynu odsetka jednostek dostępnych w próbie i błędu statystycznego wśród jednostek dostępnych oraz iloczynu odsetka jednostek niedostępnych i maksymalnej niedokładności jaka może wystąpić dla frakcji (czyli 50%, bo o tyle można się pomylić szacując, że odsetek w warstwie jednostek niedostępnych wynosi 50%). Zaprezentowany sposób jest pewnym uproszczeniem – formalnie o szacowaniu pseudo-przedziału ufności można przeczytać w dodatku matematycznym do tej pracy – jednak daje on bardzo przybliżone wyniki do formalnej procedury.

Poniższa tabela przedstawia szerokość pseudo-przedziału ufności w zależności od wielkości próby i odsetka jednostek zbadanych przy założonym maksymalnym odchyleniu standardowym równym 0,5:

Dokładność oszacowania w zależności od oszacowanej częstości jednostek dostępnych i założonej liczebności próby
Odsetek jednostek dostępnych	Liczebność próby
Odsetek jednostek dostępnych	500	1000	2000	4000	8000
100%	4,39%	3,10%	2,19%	1,55%	1,10%
90%	9,15%	7,94%	7,08%	6,47%	6,04%
80%	13,92%	12,77%	11,96%	11,39%	10,98%
70%	18,66%	17,59%	16,83%	16,30%	15,92%
60%	23,39%	22,40%	21,70%	21,20%	20,85%
50%	28,10%	27,19%	26,55%	26,10%	25,77%

Widać zatem, w jak znaczący sposób poziom realizacji próby (odsetek jednostek dostępnych) wpływa na szerokość pseudo-przedziału ufności. Aby uzyskać dokładniejsze oszacowanie, w każdym przypadku opłaca się dwukrotnie zmniejszyć liczebność próby przy jednoczesnym podniesieniu poziomu realizacji o 10%. Okazuje się, że poziom zrealizowania próby może być równie ważny, jak liczebność próby, a nawet ważniejszych. Dlatego apelujemy, aby prasowe relacje z badań sondażowych zawierały informacje o poziomie zrealizowania próby. Z jednej strony, da to lepszą wiedzę na temat dokładności jaką cieszą się realizowane badania, a z drugiej daje nadzieje, że badania pod wpływem krytyki prasy i opinii publicznej będą rzadziej wykorzystywać techniki cechujące się niskim poziomem realizacji.

Dodatek matematyczny:

W procedurze wyznaczania szerokości pseudo-przedziału ufności zakłada się, że populację o liczebności $N$ , z której losowano próbę można podzielić na dwie warstwy: jednostek dostępnych $N_1$ , które odpowiedziałyby na pytanie w sondażu oraz jednostek niedostępnych $N_2$ , które nie udzieliłyby odpowiedzi na to pytanie. Frakcja jednostek dostępnych w całej populacji wynosi zatem:

$\displaystyle W_1 = \frac{N_1}{N}$

a frakcja jednostek niedostępnych:

$\displaystyle W_2 = \frac{N_2}{N}$

Zakładam w uproszczeniu, że liczebności $N_1$ warstwy dostępnej i $N_2$ dla warstwy niedostępnej są stałe, a w związku z tym frakcje jednostek dostępnych $W_1$ i niedostępnych $W_2$ w populacji są stałe.

Próbę pobieraną z powyższej populacji o liczebności $n$ można podzielić na próbę zrealizowaną oraz próbę niezrealizowaną. W wyniku badania uzyskujemy informację jedynie o $n_1$ jednostkach pobranych z warstwy jednostek dostępnych o liczebności $N_1$ . Nie uzyskujemy natomiast informacji o $n_2$ obiektach pobranych z warstwy jednostek niedostępnych o liczebności $N_2$ . Frakcja jednostek dostępnych w próbie jest równa:

$\displaystyle w_1=\frac{n_1}{n}$ ,

a frakcją jednostek niedostępnych w próbie jest równa:

$\displaystyle w_2=\frac{n_2}{n}$ .

Warto podkreślić, że liczebności próby zrealizowanej $n1$ i niezrealizowanej $n2$ są zmiennymi losowymi i dla każdego badania mogą przyjmować różne wartości. W związku z tym również frakcja jednostek dostępnych w próbie $w1$ i niedostępnych $w2$ są zmiennymi losowymi.

Błąd estymacji parametrów populacji w sytuacji niepełnej realizacji próby (gdy $n_2>0$ ) jest średnią ważoną błędów estymacji parametrów obu części populacji:

$\displaystyle d=W_1 d_1+W_2 d_2$

Gdzie:

$W_1$ – frakcja jednostek dostępnych w populacji,

$d_1$ – niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji,

$W_2$ – frakcja jednostek niedostępnych w populacji,

$d_2$ -niedokładność estymacji średniej w warstwie jednostek niedostępnych w populacji.

Nieobciążonym estymatorem frakcji jednostek dostępnych w populacji $W_1$ jest frakcja jednostek dostępnych w próbie $w_1$ . Podobnie nieobciążonym estymatorem frakcji jednostek niedostępnych w populacji $W_2$ jest frakcja jednostek niedostępnych w próbie $w_2$ .

Niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji $d_1$ wyznacza się ze wzoru (Lissowski:1971):

$\displaystyle d_1 = \lambda_\gamma s_{x1} E \left( \frac {1}{ \sqrt n_1} \right)$

Gdzie:

$\lambda_\gamma$ – funkcja odwrotna dystrybuanty rozkładu normalnego dla prawdopodobieństwa $\textstyle \left (1-\frac{1-\gamma}{2}\right)$ , gdzie $\gamma$ jest założonym poziomem wiarygodności estymacji,

$\lambda_\gamma$ – odchylenie standardowe w próbie zrealizowanej,

$E \left( \frac {1}{ \sqrt n_1} \right)$ – wartość oczekiwana odwrotności pierwiastka z liczebności próby zrealizowanej.

Wartość oczekiwana odwrotności liczebności próby zrealizowanej $E \left( \frac {1}{ \sqrt n_1} \right)$ jest szacowana na podstawie próby w nieintuicyjny sposób (Stephan:1945):

$\displaystyle E \left( \frac {1}{ \sqrt n_1} \right) \approx \frac {1}{(n+1) w_1}$ ,

Gdzie:

$w_1$ – nieobciążony estymator frakcji jednostek dostępnych w populacji,

$n$ – liczebność próby.

Wydawać by się mogło, że wartość oczekiwaną odwrotności pierwiastka z liczebności próby zrealizowanej $E \left( \frac {1}{ \sqrt n_1} \right)$ należy estymować za pomocą odwrotności pierwiastka liczebności zrealizowanej próby $\frac{1}{\sqrt n_1}$ . Nie jest to jednak procedura poprawna, gdyż zmienna $n_1$ może przyjmować wartości tylko z dodatniego rozkładu Bernoulliego, a nie z pełnego rozkładu Bernoulliego – liczebność próby zrealizowanej $n_1$ nie może być równa zero[1] .

Podstawiając oszacowanie wartości oczekiwanej odwrotności pierwiastka z liczebności próby zrealizowanej do wzoru na niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji $\text{[math]}$ otrzymujemy:

$\displaystyle d_1 \approx \lambda_\gamma \frac{s_{x1}}{\sqrt (n+1)w_1}$

Informacje z próby zrealizowanej nie są pomocne przy szacowaniu maksymalnej niedokładności estymacji średniej w warstwie jednostek niedostępnych w populacji, gdyż do próby zrealizowanej trafiły jedynie jednostki z warstwy jednostek dostępnych w populacji. Badanie nie zawiera żadnych informacji o wysokości dochodów jednostek w populacji niedostępnych, które mogą się zupełnie różnić od dochodów w populacji jednostek dostępnych. Gdy nie posiadamy informacji o niedokładności estymacji średniej w warstwie jednostek niedostępnych, to musimy założyć, jaką wartość minimalną i maksymalną może teoretycznie osiągać wartość średnia zmiennej w tej warstwie. W przypadku niektórych zmiennych wartości skrajne średniej wyznacza teoria statystyczna (np. średnia zmiennej binarnej nie może być niższa niż 0, ani wyższa niż 1), w przypadku innych zmiennych trzeba skorzystać z poza statystycznych założeń. Gdy jakieś założenia zostaną przyjęte, maksymalną niedokładność estymacji średniej w warstwie jednostek niedostępnych w populacji $d_2$ wyznacza się za pomocą wzoru:

$\displaystyle d_2 = \frac {E_{max} (X_2) - E_{min}(X_2)}{2}$ ,

Gdzie:

$E_{max}(X_2)$ – maksymalna teoretycznie dopuszczalna wartość średnia w warstwie jednostek niedostępnych w populacji,

$E_{min}(X_2)$ – minimalna teoretycznie dopuszczalna wartość średnia w warstwie jednostek niedostępnych w populacji.

Podstawiając oszacowania do wzoru na maksymalną niedokładność estymacji w przypadku występowania jednostek niedostępnych otrzymujemy:

$\displaystyle d \approx w_1 \lambda_\gamma \frac{s_{x1}}{\sqrt (n+1)w_1} + w_2 \frac{E_{max} (X_2) - E_{min}(X_2)}{2}$

[1] „The expected value of the reciprocal of a Bernoullian variate appears in certain problems of random sampling wherein both practical considerations and mathematical necessity make zero an inadmissible value of the variate. This special condition excluding zero is necessary from a practical standpoint because statistics can not be calculated from an empty class. It is a necessary condition, in the mathematical sense, for the expected value, and variances involving it, to be finite. When subject to this condition the Bernoullian variate will be designated the positive Bernoullian variate.”( Stephan:1945, op. cit., s. 50)