Pseudo-przedział ufności

Często informacja o błędzie statystycznym badania nie jest wystarczająca do oceny jego jakości, gdyż nie uwzględnia niedokładności spowodowanej błędami empirycznymi, których występowanie wydaje się nieuniknione w praktyce badawczej. Dla wielu błędów empirycznych trudno jest określić, jak dużą niedokładność oszacowania mogą powodować, jednak w przypadku braków danych jest to możliwe. Sposób wyznaczania wielkości błędu z uwzględnieniem braków danych (pseudo-przedziału ufności) przedstawił Grzegorz Lissowski (Lissowski:1971).

Dla porządku wyjaśnijmy: brak danych to każda sytuacja, w której nie wiemy jak na pytanie odpowiedział by dany respondent,  mimo tego, że został on wylosowany do próby. Sytuacje takie wynikają przede wszystkich, z tego że wielu respondentów odmawia udziału w badaniu, ale i z innych przyczyn. Mogło też być tak, że ankieter w czasie wywiadu przez przeoczenie nie zadał pytania, nie mógł zlokalizować posesji na którą miał się udać lub w ogóle nie podjął próby dotarcia do respondenta. W praktyce w większości badań odsetek osób wylosowanych do próby, dla których występuje brak danych waha się od 20% do nawet 95% (zobacz techniki zbierania danych). Niestety, powszechną praktyką jest, iż fakt ten się ignoruje i nie bierze pod uwagę przy ocenie dokładności z jaką wyniki w próbie odzwierciedlają cechy całej populacji. Niski poziom realizacji próby ma jednak decydujący wpływ na jakość badania i ignorowanie tego faktu prowadzić może do pomyłek.

 Wyliczając pseudo-przedział bierze się również pod uwagę, że wśród respondentów, którzy wzięli udział w badaniu, występuje zwykły błąd statystyczny. Natomiast o jednostkach wylosowanych do badania, które jednak nie wzięły w nim udziału, nie wiadomo nic. W związku z tym przy szacowaniu pseudo-przedziału ufności do błędu statystycznego dodaje się błąd związany z tym, że o części jednostek nie dowiedzieliśmy się niczego.

W pewnym uproszczeniu można powiedzieć, że szerokość pseudo-przedziału ufności dla frakcji (odsetka) szacuje się poprzez zsumowanie iloczynu odsetka jednostek dostępnych w próbie i błędu statystycznego wśród jednostek dostępnych oraz iloczynu odsetka jednostek niedostępnych i maksymalnej niedokładności jaka może wystąpić dla frakcji (czyli 50%, bo o tyle można się pomylić szacując, że odsetek w warstwie jednostek niedostępnych wynosi 50%). Zaprezentowany sposób jest pewnym uproszczeniem – formalnie o szacowaniu pseudo-przedziału ufności można przeczytać w dodatku matematycznym do tej pracy – jednak daje on bardzo przybliżone wyniki do formalnej procedury.

Poniższa tabela przedstawia szerokość pseudo-przedziału ufności w zależności od wielkości próby i odsetka jednostek zbadanych przy założonym maksymalnym odchyleniu standardowym równym 0,5:

Dokładność oszacowania w zależności od oszacowanej częstości jednostek dostępnych i założonej liczebności próby
Odsetek jednostek
dostępnych
Liczebność próby
500
1000
2000
4000
8000
100%
4,39%
3,10%
2,19%
1,55%
1,10%
90%
9,15%
7,94%
7,08%
6,47%
6,04%
80%
13,92%
12,77%
11,96%
11,39%
10,98%
70%
18,66%
17,59%
16,83%
16,30%
15,92%
60%
23,39%
22,40%
21,70%
21,20%
20,85%
50%
28,10%
27,19%
26,55%
26,10%
25,77%

Widać zatem, w jak znaczący sposób poziom realizacji próby (odsetek jednostek dostępnych) wpływa na szerokość pseudo-przedziału ufności. Aby uzyskać dokładniejsze oszacowanie, w każdym przypadku opłaca się dwukrotnie zmniejszyć liczebność próby przy jednoczesnym podniesieniu poziomu realizacji o 10%. Okazuje się, że poziom zrealizowania próby może być równie ważny, jak liczebność próby, a nawet ważniejszych. Dlatego apelujemy, aby prasowe relacje z badań sondażowych zawierały informacje o poziomie zrealizowania próby. Z jednej strony, da to lepszą wiedzę na temat dokładności jaką cieszą się realizowane badania, a z drugiej daje nadzieje, że badania pod wpływem krytyki prasy i opinii publicznej będą rzadziej wykorzystywać techniki cechujące się niskim poziomem realizacji.

Dodatek matematyczny:

W procedurze wyznaczania szerokości pseudo-przedziału ufności zakłada się, że populację o liczebności N, z której losowano próbę można podzielić na dwie warstwy: jednostek dostępnych N_1, które odpowiedziałyby na pytanie w sondażu oraz jednostek niedostępnych N_2, które nie udzieliłyby odpowiedzi na to pytanie. Frakcja jednostek dostępnych w całej populacji wynosi zatem:

 \displaystyle W_1 = \frac{N_1}{N}

a frakcja jednostek niedostępnych:

\displaystyle W_2 = \frac{N_2}{N}

Zakładam w uproszczeniu, że liczebnościN_1 warstwy dostępnej i N_2 dla warstwy niedostępnej są stałe, a w związku z tym frakcje jednostek dostępnychW_1 i niedostępnych W_2 w populacji są stałe.

Próbę pobieraną z powyższej populacji o liczebności n można podzielić na próbę zrealizowaną oraz próbę niezrealizowaną. W wyniku badania uzyskujemy informację jedynie o n_1 jednostkach pobranych z warstwy jednostek dostępnych o liczebności N_1. Nie uzyskujemy natomiast informacji o n_2 obiektach pobranych z warstwy jednostek niedostępnych o liczebności N_2 . Frakcja jednostek dostępnych w próbie jest równa:

\displaystyle w_1=\frac{n_1}{n},

a frakcją jednostek niedostępnych w próbie jest równa:

\displaystyle w_2=\frac{n_2}{n}.

Warto podkreślić, że liczebności próby zrealizowanej n1 i niezrealizowanejn2 są zmiennymi losowymi i dla każdego badania mogą przyjmować różne wartości. W związku z tym również frakcja jednostek dostępnych w próbie w1 i niedostępnych w2 są zmiennymi losowymi.

Błąd estymacji parametrów populacji w sytuacji niepełnej realizacji próby (gdy n_2>0) jest średnią ważoną błędów estymacji parametrów obu części populacji:

\displaystyle d=W_1 d_1+W_2 d_2

Gdzie:

W_1 – frakcja jednostek dostępnych w populacji,

d_1 – niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji,

W_2 – frakcja jednostek niedostępnych w populacji,

d_2 -niedokładność estymacji średniej w warstwie jednostek niedostępnych w populacji.

Nieobciążonym estymatorem frakcji jednostek dostępnych w populacji W_1 jest frakcja jednostek dostępnych w próbie w_1. Podobnie nieobciążonym estymatorem frakcji jednostek niedostępnych w populacji W_2 jest frakcja jednostek niedostępnych w próbie w_2.

Niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji d_1 wyznacza się ze wzoru (Lissowski:1971):

\displaystyle d_1 = \lambda_\gamma s_{x1} E \left( \frac {1}{ \sqrt n_1} \right)

Gdzie:

\lambda_\gamma – funkcja odwrotna dystrybuanty rozkładu normalnego dla prawdopodobieństwa \textstyle \left (1-\frac{1-\gamma}{2}\right), gdzie \gamma jest założonym poziomem wiarygodności estymacji,

\lambda_\gamma – odchylenie standardowe w próbie zrealizowanej,

 E \left( \frac {1}{ \sqrt n_1} \right) – wartość oczekiwana odwrotności pierwiastka z liczebności próby zrealizowanej.

Wartość oczekiwana odwrotności liczebności próby zrealizowanej  E \left( \frac {1}{ \sqrt n_1} \right) jest szacowana na podstawie próby w nieintuicyjny sposób (Stephan:1945):

 \displaystyle E \left( \frac {1}{ \sqrt n_1} \right) \approx \frac {1}{(n+1) w_1},

Gdzie:

 w_1 – nieobciążony estymator frakcji jednostek dostępnych w populacji,

 n – liczebność próby.

Wydawać by się mogło, że wartość oczekiwaną odwrotności pierwiastka z liczebności próby zrealizowanej  E \left( \frac {1}{ \sqrt n_1} \right) należy estymować za pomocą odwrotności pierwiastka liczebności zrealizowanej próby  \frac{1}{\sqrt n_1}. Nie jest to jednak procedura poprawna, gdyż zmienna n_1 może przyjmować wartości tylko z dodatniego rozkładu Bernoulliego, a nie z pełnego rozkładu Bernoulliego – liczebność próby zrealizowanej n_1  nie może być równa zero[1] .

Podstawiając oszacowanie wartości oczekiwanej odwrotności pierwiastka z liczebności próby zrealizowanej do wzoru na niedokładność estymacji średniej w warstwie jednostek dostępnych w populacji  otrzymujemy:

\displaystyle d_1 \approx \lambda_\gamma \frac{s_{x1}}{\sqrt (n+1)w_1}

Informacje z próby zrealizowanej nie są pomocne przy szacowaniu maksymalnej niedokładności estymacji średniej w warstwie jednostek niedostępnych w populacji, gdyż do próby zrealizowanej trafiły jedynie jednostki z warstwy jednostek dostępnych w populacji. Badanie nie zawiera żadnych informacji o wysokości dochodów jednostek w populacji niedostępnych, które mogą się zupełnie różnić od dochodów w populacji jednostek dostępnych. Gdy nie posiadamy informacji o niedokładności estymacji średniej w warstwie jednostek niedostępnych, to musimy założyć, jaką wartość minimalną i maksymalną może teoretycznie osiągać wartość średnia zmiennej w tej warstwie. W przypadku niektórych zmiennych wartości skrajne średniej wyznacza teoria statystyczna (np. średnia zmiennej binarnej nie może być niższa niż 0, ani wyższa niż 1), w przypadku innych zmiennych trzeba skorzystać z poza statystycznych założeń. Gdy jakieś założenia zostaną przyjęte, maksymalną niedokładność estymacji średniej w warstwie jednostek niedostępnych w populacjid_2 wyznacza się za pomocą wzoru:

 \displaystyle d_2 = \frac {E_{max} (X_2) - E_{min}(X_2)}{2} ,

Gdzie:

E_{max}(X_2) – maksymalna teoretycznie dopuszczalna wartość średnia w warstwie jednostek niedostępnych w populacji,

E_{min}(X_2) – minimalna teoretycznie dopuszczalna wartość średnia w warstwie jednostek niedostępnych w populacji.

Podstawiając oszacowania do wzoru na maksymalną niedokładność estymacji w przypadku występowania jednostek niedostępnych otrzymujemy:

 \displaystyle d \approx w_1 \lambda_\gamma \frac{s_{x1}}{\sqrt (n+1)w_1} + w_2 \frac{E_{max} (X_2) - E_{min}(X_2)}{2}


[1] „The expected value of the reciprocal of a Bernoullian variate appears in certain problems of random sampling wherein both practical considerations and mathematical necessity make zero an inadmissible value of the variate. This special condition excluding zero is necessary from a practical standpoint because statistics can not be calculated from an empty class. It is a necessary condition, in the mathematical sense, for the expected value, and variances involving it, to be finite. When subject to this condition the Bernoullian variate will be designated the positive Bernoullian variate.”( Stephan:1945, op. cit., s. 50)

 

Artykuły
6
Aktualności
8
Skontaktuj się






captcha