Chi-kwadrat (χ2) Definicja statystyki
Co to jest statystyka chi-kwadrat?
Statystyka chi-kwadrat ( χ 2 ) to test, który mierzy porównanie modelu z faktycznie zaobserwowanymi danymi. Dane wykorzystywane do obliczania statystyki chi-kwadrat muszą być losowe, surowe, wykluczające się wzajemnie, pobierane ze zmiennych niezależnych i pobierane z wystarczająco dużej próby. Na przykład wyniki rzutu uczciwą monetą spełniają te kryteria.
Testy chi-kwadrat są często używane do testowania hipotez. Statystyka chi-kwadrat porównuje wielkość wszelkich rozbieżności między oczekiwanymi wynikami a rzeczywistymi wynikami, biorąc pod uwagę wielkość próby i liczbę zmiennych w zależności. W przypadku tych testów stopnie swobody są wykorzystywane do określenia, czy dana hipoteza zerowa może zostać odrzucona na podstawie całkowitej liczby zmiennych i próbek w ramach eksperymentu. Jak w przypadku każdej statystyki, im większy rozmiar próbki, tym bardziej wiarygodne wyniki.
Kluczowe wnioski
- Statystyka chi-kwadrat ( χ 2 ) jest miarą różnicy między obserwowanymi a oczekiwanymi częstościami wyników zbioru zdarzeń lub zmiennych.
- χ 2 zależy od wielkości różnicy między wartościami rzeczywistymi i obserwowanymi, stopni swobody i wielkości próbek.
- χ 2 można wykorzystać do sprawdzenia, czy dwie zmienne są ze sobą powiązane lub niezależne, lub do sprawdzenia zgodności między obserwowanym rozkładem a teoretycznym rozkładem częstości.
Wzór na chi-kwadrat to
Co mówią statystyki chi-kwadrat?
Istnieją dwa główne rodzaje testów chi-kwadrat: test niezależności, który zadaje pytanie o związek, takie jak: „Czy istnieje związek między płcią ucznia a wyborem kursu?”; oraz test dopasowania, który pyta coś w stylu: „Jak dobrze moneta w mojej ręce pasuje do teoretycznie uczciwej monety?”.
Niezależność
Rozważając płeć ucznia i wybór kursu, można zastosować test χ 2 na niezależność. Aby wykonać ten test, badacz zbierał dane dotyczące dwóch wybranych zmiennych (wybrana płeć i kursy), a następnie porównywał częstotliwości, z którymi uczniowie i uczniowie wybierają spośród oferowanych zajęć, korzystając z podanego powyżej wzoru i tabeli statystycznej χ 2.
Jeśli nie ma związku między płcią a wyborem kursu (to znaczy, jeśli są niezależni), należy oczekiwać, że rzeczywiste częstotliwości, z którymi studenci płci męskiej i żeńskiej wybierają każdy z oferowanych kursów, będą w przybliżeniu równe lub odwrotnie, odsetek mężczyzn i kobiet uczennice na dowolnym wybranym kursie powinny w przybliżeniu odpowiadać proporcji studentów płci męskiej i żeńskiej w próbie. Test χ 2 na niezależność może nam powiedzieć, jak prawdopodobne jest, że przypadkowa szansa może wyjaśnić każdą zaobserwowaną różnicę między rzeczywistymi częstościami w danych a tymi teoretycznymi oczekiwaniami.
Dobroć dopasowania
χ 2 zapewnia sposób sprawdzenia, jak dobrze próbka danych pasuje do (znanych lub zakładanych) cech większej populacji, którą próbka ma reprezentować. Jeśli dane próbki nie pasują do oczekiwanych właściwości populacji, która nas interesuje, nie chcielibyśmy używać tej próbki do wyciągania wniosków na temat większej populacji.
Weźmy na przykład wyimaginowaną monetę, która ma dokładnie 50/50 szans na wylądowanie orła lub reszki i prawdziwą monetę, którą rzucasz 100 razy. Jeśli ta prawdziwa moneta ma sprawiedliwą wartość, to będzie miała również równe prawdopodobieństwo wylądowania po obu stronach, a oczekiwanym wynikiem 100-krotnego rzutu monetą jest to, że orzeł wyskoczy 50 razy, a reszka 50 razy. W tym przypadku χ 2 może nam powiedzieć, jak dobrze rzeczywiste wyniki 100 rzutów monetą porównują się z teoretycznym modelem, że uczciwa moneta daje wyniki 50/50. Rzeczywisty rzut może wynieść 50/50, 60/40 lub nawet 90/10. Im dalej rzeczywiste wyniki 100 rzutów są od 50/50, tym mniej dobre dopasowanie tego zestawu rzutów do teoretycznych oczekiwań 50/50 i tym bardziej prawdopodobne jest, że możemy dojść do wniosku, że ta moneta nie jest w rzeczywistości uczciwa. moneta.