Błąd statystyczny i przedział ufności

Błąd statystyczny z próby jest nieodłącznym elementem badań sondażowych. Występuje on, ponieważ badanie sondażowe jest typem badania indukcyjnego, w którym na podstawie próby (części populacji) wnioskuje się o całej populacji. Wnioskowanie takie jest ze swej natury narażone na błąd.

Błąd ten może być wyeliminowany jedynie poprzez prowadzenie badań pełnych, w których dane są zbierane od wszystkich jednostek z populacji. Wadą badań pełnych, jest jednak to, że zwykle są one kosztowne i czasochłonne, a poza wyeliminowaniem błędu statystycznego, są w podobnym stopniu podatne na inne błędy, co badania prowadzone na podstawie próby.

W przypadku badań sondażowych na dużej próbie losowej (reprezentatywnej proceduralnie), istnieje możliwość wyznaczenia wielkości błędu statystycznego (połowy długości przedziału ufności) przy założonym poziomie ufności. Jest to możliwe ze względu na centralne twierdzenie graniczne, mówiące o tym, że wraz ze zwiększaniem liczebności prostej niezależnej próby losowej rozkład estymatora zbiega do rozkładu normalnego.

Można zatem powiedzieć, że z określonym wysokim prawdopodobieństwem (poziom ufności badania) odsetek z próby nie będzie się różnił od odsetka w populacji o więcej niż błąd statystyczny.

Przykładem może być badanie poparcia dla partii politycznych w systemie dwupartyjnym. Załóżmy, że zbadano 1000 osobową prostą próbę losową niezależną osób uprawnionych do głosowania w wyborach i stwierdzono, że na partię A chce głosować 60% respondentów, a na partię B 40% respondentów. Obliczając błąd statystyczny dla tego badania, staramy się określić z wybranym wysokim prawdopodobieństwem, jaki odsetek wyborców w populacji (a nie respondentów w próbie) zagłosuje na partie A i B.

Błąd statystyczny wylicza się mnożąc funkcję odwrotną dystrybuanty rozkładu normalnego standaryzowanego dla wybranego wysokiego poziomu ufności (dla poziomu ufności 0,95 wynosi ona 1,96) i nieobciążony estymator odchylenia standardowego w próbie oraz dzieląc je przez pierwiastek z liczebności próby:

 \displaystyle d = \lambda_\gamma \frac{\hat{s}}{\sqrt n}

Gdzie:

d – błąd statystyczny,
\lambda_\gamma – funkcja odwrotna dystrybuanty rozkładu normalnego standaryzowanego dla prawdopodobieństwa \left(1-\frac{1-\gamma}{1}\right), gdzie \gamma jest założonym poziomem ufności estymacji,
\hat{s} – nieobciążony estymator odchylenia standardowego w próbie,
n liczebność próby.

 

W powyższym przykładzie (dla poziomu ufności 0,95) błąd statystyczny wynosi:

 \displaystyle d = 1,96 \times \frac{0,49}{31,62} = 0,03 = 3\%

Zatem na podstawie średniej w naszej próbie wyznaczamy, że przedział ufności zawiera się między 57%, a 63%. Prawdopodobieństwo, że wyznaczony w taki sposób przedział będzie pokrywał rzeczywisty odsetek osób w populacji popierających partię A, wynosi 95% (procedura taka gwarantuje, że w około 95 próbach na 100 przedział ufności będzie pokrywał rzeczywistą wartość w populacji).

Artykuły
6
Aktualności
8
Skontaktuj się






captcha