5 maja 2021 0:16

Statystyki nieparametryczne

Co to są statystyki nieparametryczne?

Statystyka nieparametryczna odnosi się do metody statystycznej, w której zakłada się, że dane nie pochodzą z zalecanych modeli, które są określane przez niewielką liczbę parametrów; przykłady takich modeli obejmują model rozkładu normalnego i model regresji liniowej. Statystyki nieparametryczne czasami używają danych porządkowych, co oznacza, że ​​nie opierają się na liczbach, ale raczej na rankingu lub kolejności sortowania. Na przykład ankieta przedstawiająca preferencje konsumentów, od lubienia do niechęci, zostanie uznana za dane porządkowe.

Statystyki nieparametryczne obejmują nieparametryczne statystyki opisowe, modele statystyczne, wnioskowanie i testy statystyczne. Struktura modelu modeli nieparametrycznych nie jest określona a priori, ale zamiast tego jest określana na podstawie danych. Termin nieparametryczny nie ma oznaczać, że takie modele są całkowicie pozbawione parametrów, ale raczej, że liczba i charakter parametrów są elastyczne i nie są z góry ustalone. Histogram jest przykładem nieparametrycznego oszacowania rozkładu prawdopodobieństwa.

Kluczowe wnioski

  • Statystyki nieparametryczne są łatwe w użyciu, ale nie zapewniają precyzyjnej dokładności innych modeli statystycznych.
  • Ten rodzaj analizy często najlepiej sprawdza się przy rozważaniu kolejności, gdzie nawet jeśli dane liczbowe ulegną zmianie, wyniki prawdopodobnie pozostaną takie same.

Zrozumienie statystyki nieparametrycznej

W statystyce statystyka parametryczna obejmuje takie parametry, jak średnia, odchylenie standardowe, korelacja Pearsona, wariancja itp. Ta forma statystyki wykorzystuje obserwowane dane do oszacowania parametrów rozkładu. W statystykach parametrycznych często zakłada się, że dane pochodzą z rozkładu normalnego o nieznanych parametrach μ (średnia populacji) i σ2 (wariancja populacji), które są następnie szacowane przy użyciu średniej próby i wariancji próby.



Statystyki nieparametryczne nie zakładają wielkości próby ani tego, czy obserwowane dane są ilościowe.

Statystyki nieparametryczne nie zakładają, że dane pochodzą z rozkładu normalnego. Zamiast tego kształt rozkładu szacuje się w ramach tej formy pomiaru statystycznego. Chociaż istnieje wiele sytuacji, w których można założyć rozkład normalny, istnieją również scenariusze, w których prawdziwy proces generowania danych jest daleki od rozkładu normalnego.

Przykłady statystyk nieparametrycznych

W pierwszym przykładzie rozważmy analityka finansowego, który chce oszacować wartość zagrożoną (VaR) inwestycji. Analityk zbiera dane o zarobkach z setek podobnych inwestycji w podobnym horyzoncie czasowym. Zamiast zakładać, że zarobki są zgodne z rozkładem normalnym, używa histogramu do nieparametrycznego oszacowania rozkładu. Piąty percentyl tego histogramu dostarcza następnie analitykowi nieparametrycznej oceny VaR.

Jako drugi przykład rozważmy innego badacza, który chce wiedzieć, czy średnia liczba godzin snu jest powiązana z częstotliwością zachorowań. Ponieważ wiele osób choruje rzadko, jeśli w ogóle, a czasami inni chorują znacznie częściej niż większość innych, rozkład częstości zachorowań jest wyraźnie nienormalny, skośny w prawo i odstający. Dlatego zamiast stosować metodę, która zakłada normalny rozkład częstości zachorowań, jak ma to miejsce na przykład w klasycznej analizie regresji, badacz decyduje się na zastosowanie metody nieparametrycznej, takiej jak analiza regresji kwantylowej.

Uwagi specjalne

Statystyki nieparametryczne zyskały uznanie dzięki łatwości użycia. W miarę zmniejszania się zapotrzebowania na parametry dane stają się bardziej przydatne w przypadku większej różnorodności testów. Tego typu statystyki można stosować bez średniej, wielkości próby, odchylenia standardowego lub oszacowania jakichkolwiek innych powiązanych parametrów, gdy żadna z tych informacji nie jest dostępna.

Ponieważ statystyka nieparametryczna przyjmuje mniej założeń dotyczących przykładowych danych, jej zastosowanie ma szerszy zakres niż statystyka parametryczna. W przypadkach, w których bardziej odpowiednie jest testowanie parametryczne, metody nieparametryczne będą mniej wydajne. Dzieje się tak, ponieważ statystyki nieparametryczne odrzucają niektóre informacje dostępne w danych, w przeciwieństwie do statystyk parametrycznych.