Hipoteza zerowa
Co to jest hipoteza zerowa?
Hipoteza zerowa to rodzaj hipotezy stosowanej w statystykach, która zakłada, że nie ma różnicy między pewnymi cechami populacji (lub procesem generowania danych).
Na przykład hazardzista może być zainteresowany tym, czy gra losowa jest uczciwa. Jeśli jest to sprawiedliwe, to spodziewane zarobki na grę wynoszą 0 dla obu graczy. Jeśli gra nie jest uczciwa, to oczekiwane zarobki są dodatnie dla jednego gracza i ujemne dla drugiego. Aby sprawdzić, czy gra jest uczciwa, gracz zbiera dane o zarobkach z wielu powtórzeń gry, oblicza średnie zarobki z tych danych, a następnie testuje hipotezę zerową, że oczekiwane zarobki nie różnią się od zera.
Jeśli średnie zarobki z przykładowych danych są wystarczająco dalekie od zera, wówczas gracz odrzuci hipotezę zerową i wyciągnie hipotezę alternatywną, a mianowicie, że oczekiwane zarobki na grę są różne od zera. Jeśli średnie zarobki z przykładowych danych są bliskie zeru, gracz nie odrzuci hipotezy zerowej, stwierdzając zamiast tego, że różnicę między średnią z danych a 0 można wyjaśnić wyłącznie przypadkiem.
Kluczowe wnioski
- Hipoteza zerowa to rodzaj przypuszczenia używanego w statystykach, który zakłada, że nie ma różnicy między pewnymi cechami populacji lub procesem generowania danych.
- Hipoteza alternatywna zakłada, że istnieje różnica.
- Testowanie hipotez zapewnia metodę odrzucania hipotezy zerowej na określonym poziomie ufności. (Jednak hipotez zerowych nie można udowodnić).
Jak działa hipoteza zerowa
Hipoteza zerowa, znana również jako przypuszczenie, zakłada, że jakakolwiek różnica między wybranymi cechami, które widzisz w zbiorze danych, jest wynikiem przypadku. Na przykład, jeśli oczekiwane zarobki w grze hazardowej są naprawdę równe 0, to różnica między średnimi zarobkami w danych a 0 jest przypadkowa.
Hipotezy statystyczne są testowane w czterostopniowym procesie. Pierwszym krokiem analityka jest sformułowanie dwóch hipotez, tak aby tylko jedna była słuszna. Następnym krokiem jest sformułowanie planu analizy, który określa, w jaki sposób dane będą oceniane. Trzecim krokiem jest wykonanie planu i fizyczna analiza przykładowych danych. Czwartym i ostatnim krokiem jest analiza wyników i albo odrzucenie hipotezy zerowej, albo stwierdzenie, że zaobserwowane różnice można wyjaśnić tylko przez przypadek.
Analitycy starają się odrzucić hipotezę zerową, ponieważ jest to mocny wniosek. Wymaga to mocnych dowodów w postaci zaobserwowanej różnicy, która jest zbyt duża, aby można ją było wyjaśnić wyłącznie przypadkiem. Nieodrzucenie hipotezy zerowej – że wyniki można wyjaśnić wyłącznie przez przypadek – jest słabym wnioskiem, ponieważ pozwala, aby czynniki inne niż przypadek mogły działać, ale mogą nie być wystarczająco silne, aby można je było wykryć za pomocą zastosowanego testu statystycznego.
Ważny
Analitycy starają się odrzucić hipotezę zerową, aby wykluczyć sam przypadek jako wyjaśnienie interesującego zjawiska.
Przykłady hipotezy zerowej
Oto prosty przykład. Dyrektor szkoły twierdzi, że uczniowie jej szkoły uzyskują średnio 7 punktów na 10 z egzaminów. Hipoteza zerowa jest to, że populacja średnia wynosi 7,0. Aby przetestować tę hipotezę zerową, rejestrujemy oceny powiedzmy 30 uczniów (próba) z całej populacji uczniów szkoły (powiedzmy 300) i obliczamy średnią z tej próby.
Następnie możemy porównać (obliczoną) średnią z próby z (hipotetyczną) średnią populacji równą 7,0 i spróbować odrzucić hipotezę zerową. (Hipoteza zerowa w tym przypadku – że średnia populacji wynosi 7,0 – nie może zostać udowodniona na podstawie przykładowych danych; można ją jedynie odrzucić).
Weźmy inny przykład: roczny zwrot określonego funduszu wspólnego inwestowania szacuje się na 8%. Załóżmy, że fundusz inwestycyjny istnieje od 20 lat. Hipoteza zerowa zakłada, że średni zwrot dla funduszu wspólnego inwestowania wynosi 8%. Bierzemy losową próbę rocznych zwrotów funduszu wspólnego inwestowania za, powiedzmy, pięć lat (próba) i obliczamy średnią z próby. Następnie porównujemy (obliczoną) średnią z próby z (deklarowaną) średnią populacji (8%), aby przetestować hipotezę zerową.
W powyższych przykładach hipotezy zerowe to:
- Przykład A: Uczniowie w szkole uzyskują średnio 7 punktów na 10 z egzaminów.
- Przykład B: Średni roczny zwrot funduszu wspólnego inwestowania wynosi 8% rocznie.
W celu ustalenia, czy odrzucić hipotezę zerową, przyjmuje się, że hipoteza zerowa (w skrócie H 0 ) jest prawdziwa. Następnie przy tym założeniu ustala się prawdopodobny zakres możliwych wartości obliczonej statystyki (np. Średni wynik z testów 30 uczniów) (np. Zakres wiarygodnych średnich może wynosić od 6,2 do 7,8, jeśli średnia populacji wynosi 7,0). Następnie, jeśli średnia próbki jest poza tym zakresem, hipoteza zerowa jest odrzucana. W przeciwnym razie mówi się, że różnica jest „możliwa do wyjaśnienia wyłącznie przez przypadek”, ponieważ mieści się w zakresie określonym przez przypadek.
Ważną kwestią, na którą należy zwrócić uwagę, jest to, że testujemy hipotezę zerową, ponieważ istnieje element wątpliwości co do jej ważności. Wszelkie informacje, które są sprzeczne z podaną hipotezą zerową, są ujmowane w hipotezie alternatywnej (H 1 ). W przypadku powyższych przykładów hipoteza alternatywna brzmiałaby:
- Studenci uzyskują średnią, która nie jest równa 7.
- Średni roczny zwrot funduszu inwestycyjnego nie jest równy 8% rocznie.
Innymi słowy, hipoteza alternatywna jest bezpośrednią zaprzeczeniem hipotezy zerowej.
Testowanie hipotez dla inwestycji
Jako przykład odnoszący się do rynków finansowych, załóżmy, że Alice widzi, że jej strategia inwestycyjna przynosi wyższe średnie zwroty niż zwykłe kupowanie i trzymanie akcji. Hipoteza zerowa stwierdza, że nie ma różnicy między dwoma średnimi zwrotami i Alicja jest skłonna w to wierzyć, dopóki nie wyciągnie sprzecznych wyników.
Obalenie hipotezy zerowej wymagałoby wykazania istotności statystycznej, którą można znaleźć za pomocą różnych testów. Alternatywna hipoteza zakładałaby, że strategia inwestycyjna ma wyższy średni zwrot niż tradycyjna strategia kup i trzymaj.
Jednym z narzędzi, które można wykorzystać do określenia istotności statystycznej wyników, jest wartość p. Wartość p przedstawia prawdopodobieństwo, że różnica tak duża lub większa niż obserwowana różnica między dwoma średnimi zwrotami może wystąpić wyłącznie przez przypadek.
Wartość p, która jest mniejsza lub równa 0,05, jest często używana do wskazania, czy istnieją dowody przeciwko hipotezie zerowej. Jeśli Alicja przeprowadzi jeden z tych testów, na przykład test z wykorzystaniem normalnego modelu, co spowoduje znaczną różnicę między jej zwrotami a zwrotami z kupna i trzymania (wartość p jest mniejsza lub równa 0,05), może wtedy odrzucić hipotezę zerową i zakończyć hipotezę alternatywną.