5 maja 2021 2:32

Dystrybucja próbek

Co to jest dystrybucja próbek?

Rozkład próbkowania to rozkład prawdopodobieństwa statystyki uzyskanej z większej liczby próbek pobranych z określonej populacji. Rozkład próbkowania danej populacji to rozkład częstości szeregu różnych wyników, które mogą ewentualnie wystąpić dla statystyki populacji.

statystyce populacja to cała pula, z której pobierana  jest próbka statystyczna . Populacja może odnosić się do całej grupy ludzi, obiektów, wydarzeń, wizyt w szpitalu lub pomiarów. Można zatem powiedzieć, że populacja jest zbiorczą obserwacją podmiotów zgrupowanych razem według wspólnej cechy.



  • Rozkład próbkowania to statystyka uzyskiwana w wyniku wielokrotnego pobierania próbek z większej populacji.
  • Opisuje szereg możliwych wyników statystycznych, takich jak średnia lub tryb jakiejś zmiennej, ponieważ rzeczywiście istnieje populacja.
  • Większość danych analizowanych przez badaczy pochodzi w rzeczywistości z próbek, a nie z populacji.

Zrozumienie dystrybucji próbkowania

Wiele danych sporządzonych i wykorzystywanych przez akademików, statystyków, badaczy, sprzedawców, analityków itp. To w rzeczywistości próbki, a nie populacje. Próbka to podzbiór populacji. Na przykład badacz medyczny, który chciałby porównać średnią wagę wszystkich dzieci urodzonych w Ameryce Północnej w latach 1995-2005 z urodzonymi w Ameryce Południowej w tym samym okresie, nie może w rozsądnym czasie zebrać danych dla całej populacji ponad milion porodów, które miały miejsce w ciągu dziesięciu lat. Zamiast tego użyje wagi, powiedzmy, 100 dzieci na każdym kontynencie, aby wyciągnąć wnioski. Masa użytych 200 dzieci jest próbką, a obliczona średnia waga jest średnią próbki.

Teraz przypuśćmy, że zamiast pobierać tylko jedną próbkę o masie 100 noworodków z każdego kontynentu, badacz medyczny pobiera powtarzające się losowe próbki z populacji ogólnej i oblicza średnią z każdej grupy próbek. Tak więc dla Ameryki Północnej zbiera dane dla 100 noworodków zarejestrowanych w USA, Kanadzie i Meksyku w następujący sposób: cztery 100 próbek z wybranych szpitali w USA, pięć 70 próbek z Kanady i trzy 150 rekordów z Meksyku, w sumie 1200 wag noworodków zgrupowanych w 12 zestawach. Gromadzi również przykładowe dane dotyczące 100 urodzeń z każdego z 12 krajów Ameryki Południowej.



Każda próbka ma swoją własną średnią z próby, a rozkład średnich z próby jest znany jako rozkład próbki.

Średnia waga obliczona dla każdego zestawu próbek jest rozkładem średniej próby. Nie tylko średnią można obliczyć z próbki. Inne statystyki, takie jak odchylenie standardowe, wariancja, proporcja i zakres, można obliczyć z danych próbki. Odchylenie standardowe i wariancja mierzą zmienność rozkładu próbkowania.

Liczba obserwacji w populacji, liczba obserwacji w próbie oraz procedura zastosowana do losowania zbiorów prób determinują zmienność rozkładu próby. Odchylenie standardowe rozkładu próbkowania nazywane jest błędem standardowym. Podczas gdy średnia rozkładu próby jest równa średniej z populacji, błąd standardowy zależy od odchylenia standardowego populacji, liczebności populacji i wielkości próby.

Wiedza o tym, jak rozłożone są od siebie średnie z każdego zestawu próbek od siebie i od średniej z populacji, da wskazówkę, jak blisko średnia z próby jest do średniej populacji. Błąd standardowy rozkładu próbkowania zmniejsza się wraz ze wzrostem wielkości próby.

Uwagi specjalne

Populacja lub jeden przykładowy zbiór liczb będzie miał rozkład normalny. Jednakże, ponieważ rozkład próbkowania obejmuje wiele zestawów obserwacji, niekoniecznie będzie miał kształt dzwonowy.

Idąc za naszym przykładem, średnia masa ciała dzieci w Ameryce Północnej i Ameryce Południowej ma rozkład normalny, ponieważ niektóre dzieci będą miały niedowagę (poniżej średniej) lub nadwagę (powyżej średniej), a większość dzieci będzie znajdować się pomiędzy (w pobliżu średniej) ). Jeśli średnia waga noworodków w Ameryce Północnej wynosi siedem funtów, średnia waga próbki w każdym z 12 zestawów obserwacji próbek zarejestrowanych dla Ameryki Północnej również będzie bliska siedmiu funtom.

Jeśli jednak wykreślisz każdą ze średnich obliczonych w każdej z 1200 grup próbek, wynikowy kształt może skutkować jednolitym rozkładem, ale trudno jest przewidzieć z pewnością, jaki będzie rzeczywisty kształt. Im więcej próbek użyje badacz z populacji o masie ponad miliona, tym bardziej wykres zacznie tworzyć rozkład normalny.