5 maja 2021 0:18

Tabela rozkładu normalnego

Co to jest rozkład normalny?

Wzór na rozkład normalny opiera się na dwóch prostych parametrach – średniej i odchyleniu standardowym – które określają ilościowo cechy danego zbioru danych. Podczas gdy średnia wskazuje „centralną” lub średnią wartość całego zbioru danych, odchylenie standardowe wskazuje na „rozrzut” lub zmienność punktów danych wokół tej średniej wartości.

Przykład

Rozważ następujące 2 zbiory danych:

  1. Zbiór danych 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
  2. Zestaw danych 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}

Dla zestawu danych1 średnia = 10 i odchylenie standardowe (odchylenie standardowe) = 0

Dla zestawu danych 2 średnia = 10 i odchylenie standardowe (odchylenie standardowe) = 2,83

Wykreślmy te wartości dla DataSet1:

Podobnie dla DataSet2:

Czerwona pozioma linia na obu powyższych wykresach wskazuje „średnią” lub średnią wartość każdego zbioru danych (10 w obu przypadkach). Różowe strzałki na drugim wykresie wskazują rozrzut lub zmianę wartości danych od wartości średniej. Jest to reprezentowane przez wartość odchylenia standardowego 2,83 w przypadku DataSet2. Ponieważ DataSet1 ma wszystkie wartości takie same (co 10 każda) i nie ma żadnych zmian, wartość stddev wynosi zero, a zatem nie można zastosować różowych strzałek.

Wartość stddev ma kilka istotnych i użytecznych cech, które są niezwykle pomocne w analizie danych. W przypadku rozkładu normalnego wartości danych są rozmieszczone symetrycznie po obu stronach średniej. Dla każdego zestawu danych o normalnym rozkładzie, wykreślanie wykresu z odchyleniem standardowym na osi poziomej i nie. wartości danych na osi pionowej, otrzymujemy następujący wykres.

Właściwości rozkładu normalnego

  1. Krzywa normalna jest symetryczna względem średniej;
  2. Średnia znajduje się pośrodku i dzieli obszar na dwie połowy;
  3. Całkowity obszar pod krzywą jest równy 1 dla średniej = 0 i odchylenia standardowego = 1;
  4. Dystrybucja jest całkowicie opisana przez jej średnią i stddev

Jak widać na powyższym wykresie, stddev reprezentuje:

  • 68,3%  wartości danych mieści się w zakresie 1 odchylenia standardowego średniej (od -1 do +1)
  • 95,4%  wartości danych mieści się w zakresie  2 odchyleń standardowych  średniej (od -2 do +2)
  • 99,7%  wartości danych mieści się w zakresie  3 odchyleń standardowych  średniej (od -3 do +3)

Powierzchnia pod krzywą w kształcie dzwonu podczas pomiaru wskazuje pożądane prawdopodobieństwo danego zakresu:

  • mniejsze niż X: – np. prawdopodobieństwo, że wartości danych będą mniejsze niż 70
  • większe niż X – np. prawdopodobieństwo, że wartości danych będą większe niż 95
  • między X 1 a X 2  – np. prawdopodobieństwo wartości danych między 65 a 85

gdzie X jest wartością zainteresowania (przykłady poniżej).

Wykreślanie i obliczanie obszaru nie zawsze jest wygodne, ponieważ różne zestawy danych będą miały różne wartości średnie i odchylenie standardowe. Aby ułatwić ujednolicenie standardowej metody łatwych obliczeń i stosowalności do rzeczywistych problemów, wprowadzono standardową konwersję na wartości Z, które stanowią część tabeli rozkładu normalnego.

Z = (X – średnia) / stddev, gdzie X jest zmienną losową.

Zasadniczo ta konwersja wymusza standaryzację średniej i odchylenie standardowe odpowiednio do 0 i 1, co umożliwia użycie standardowego zestawu wartości Z (z tabeli rozkładu normalnego ) do łatwych obliczeń. Widok standardowej tabeli wartości z zawierającej wartości prawdopodobieństwa jest następujący:

Aby znaleźć prawdopodobieństwo związane z wartością z 0,239865, najpierw zaokrąglij je do 2 miejsc po przecinku (tj. 0,24). Następnie sprawdź pierwsze 2 cyfry znaczące (0,2) w wierszach i najmniej znaczącą cyfrę (pozostałe 0,04) w kolumnie. Doprowadzi to do wartości 0,09483.

Pełną tabelę rozkładu normalnego z dokładnością do 5 miejsc po przecinku dla wartości prawdopodobieństwa (w tym dla wartości ujemnych) można znaleźć tutaj.

Zobaczmy kilka przykładów z życia. Wzrost osobników w dużej grupie jest zgodny z rozkładem normalnym. Załóżmy, że mamy zbiór 100 osobników, których wzrost jest rejestrowany, a średnia i odchylenie standardowe są obliczane odpowiednio na 66 i 6 cali.

Oto kilka przykładowych pytań, na które można łatwo odpowiedzieć, korzystając z tabeli wartości z:

  • Jakie jest prawdopodobieństwo, że osoba w grupie ma 70 cali lub mniej?

Pytanie brzmi, aby znaleźć łączną wartość P (X <= 70), tj. W całym zbiorze danych 100, ile wartości będzie między 0 a 70.

Najpierw przekonwertujmy wartość X równą 70 na równoważną wartość Z.

Z = (X – średnia) / odchylenie standardowe = (70-66) / 6 = 4/6 = 0,66667 = 0,67 (zaokrąglić do 2 miejsc po przecinku)

Teraz musimy znaleźć P (Z <= 0,67) = 0, 24857 (z powyższej tabeli z)

tj. istnieje prawdopodobieństwo 24,857%, że osoba w grupie będzie miała 70 cali lub mniej niż 70 cm wzrostu.

Ale poczekaj – powyższe jest niekompletne. Pamiętaj, że szukamy prawdopodobieństwa wszystkich możliwych wysokości do 70, czyli od 0 do 70. Powyższe podaje tylko część od średniej do pożądanej (tj. 66 do 70). Musimy uwzględnić drugą połowę – od 0 do 66 – aby uzyskać poprawną odpowiedź.

Ponieważ 0 do 66 reprezentuje połowę części (tj. Jedną średnią skrajną do średniej), jej prawdopodobieństwo wynosi po prostu 0,5.

Stąd prawidłowe prawdopodobieństwo, że osoba będzie miała 70 cali lub mniej = 0,24857 + 0,5 = 0,74857 = 74,857%

Graficznie (poprzez obliczenie powierzchni) są to dwa zsumowane regiony reprezentujące rozwiązanie:

  • Jakie jest prawdopodobieństwo, że dana osoba ma 75 cali lub więcej?

tj. Znajdź komplementarne skumulowane  P (X> = 75).

Z = (X – średnia) / odchylenie standardowe = (75-66) / 6 = 9/6 = 1,5

P (Z> = 1,5) = 1- P (Z <= 1,5) = 1 – (0,5 + 0,43319) = 0,06681 = 6,681%

  • Jakie jest prawdopodobieństwo, że dana osoba będzie miała od 52 do 67 cali?

Znajdź P (52 <= X <= 67).

P (52 <= X <= 67) = P [(52-66) / 6 <= Z <= (67-66) / 6] = P (-2,33 <= Z <= 0,17)

= P (Z <= 0,17) –P (Z <= -0,233) = (0,5 + 0,56749) – (0,40905) =

Ta tabela rozkładu normalnego (i wartości z) często znajduje zastosowanie do wszelkich obliczeń prawdopodobieństwa oczekiwanych ruchów cen akcji i indeksów na giełdzie. Są używane w handlu opartym na przedziałach, identyfikowaniu trendów wzrostowych lub spadkowych, poziomów wskaźników technicznych opartych na normalnych koncepcjach dystrybucji średniej i odchylenia standardowego.