5 maja 2021 3:24

Fałszywa korelacja

Co to jest fałszywa korelacja

W statystyce fałszywa korelacja lub fałszywość odnosi się do związku między dwiema zmiennymi, który wydaje się być przyczynowy, ale nim nie jest. Fałszywe relacje często sprawiają wrażenie, że jedna zmienna wpływa na inną. Ta fałszywa korelacja jest często powodowana przez trzeci czynnik, który nie jest widoczny w czasie badania, nazywany czasem czynnikiem zakłócającym.

Kluczowe wnioski

  • Fałszywa korelacja lub fałszywość ma miejsce, gdy dwa czynniki wydają się przypadkowo powiązane, ale nie są.
  • Pojawienie się związku przyczynowego jest często spowodowane podobnym ruchem na wykresie, który okazuje się być przypadkowy lub spowodowany trzecim „zakłócającym” czynnikiem.
  • Fałszywa korelacja może być często spowodowana małą liczebnością próby lub arbitralnymi punktami końcowymi.

Jak działa fałszywa korelacja

Kiedy dwie zmienne losowe ściśle śledzą się nawzajem na wykresie, łatwo jest podejrzewać korelację lub związek między dwoma czynnikami, gdy zmiana wpływa na drugi. Pomijając „przyczynowość”, inny temat, ta obserwacja może doprowadzić czytelnika wykresu do przekonania, że ​​ruch zmiennej A jest powiązany z ruchem zmiennej B lub odwrotnie. ale czasami, po dokładniejszym zbadaniu statystycznym, wyrównane ruchy są przypadkowe lub spowodowane przez trzeci czynnik, który wpływa na pierwsze dwa. To jest fałszywa korelacja. Badania przeprowadzone na małych próbkach lub arbitralnych punktach końcowych są szczególnie podatne na fałszywe wyniki.

Przykład fałszywych korelacji

Odkrycie interesujących korelacji nie jest zbyt trudne. Jednak wiele z nich okaże się fałszywych. W przypadku gatunku męskiego z Wall Street dwie popularne fałszywe korelacje dotyczą kobiet i sportu. Powstała w latach dwudziestych XX wieku teoria długości spódnic, zgodnie z którą długość spódnicy i kierunek rynku akcji są skorelowane. Jeśli spódnice są długie, oznacza to, że giełda spada; jeśli są krótkie, rynek rośnie. Pod koniec stycznia mówi się o tak zwanym wskaźniku Super Bowl, który sugeruje, że wygrana zespołu AFC prawdopodobnie oznacza, że ​​giełda w nadchodzącym roku spadnie, a zwycięstwo zespołu NFC zapowiada wzrost rynek. Od 1966 roku wskaźnik ma wskaźnik dokładności 80%. To zabawna rozmowa, ale prawdopodobnie nie jest to coś, co poważny doradca finansowy poleciłby jako strategia inwestycyjna dla klientów.

Oto kilka przykładów częstych fałszywych korelacji:

  • Wraz ze wzrostem sprzedaży lodów rośnie liczba utonięć. Może się wydawać, że zwiększona sprzedaż lodów powoduje większe utonięcia, ale w rzeczywistości rosnący upał może sprawić, że więcej osób będzie pływać, a także kupować więcej lodów.
  • Wskaźnik morderstw w USA w latach 2006-2011 spadł w tym samym tempie, co użycie przeglądarki Microsoft Internet Explorer.
  • Kierownicy, którzy częściej mówią „proszę” i „dziękuję”, cieszą się lepszą wydajnością udostępniania.
  • Osoby noszące sprzęt drużyny Oakland Raiders są bardziej narażone na popełnienie przestępstw.

Jak rozpoznać fałszywe korelacje

Statystycy i inni naukowcy, którzy analizują dane, muszą cały czas szukać fałszywych zależności. Istnieje wiele metod, których używają, w tym:

  • Zapewnienie odpowiedniej reprezentatywnej próbki.
  • Uzyskanie odpowiedniej wielkości próby.
  • Uważaj na arbitralne punkty końcowe.
  • Kontrolowanie jak największej liczby zmiennych zewnętrznych.
  • Korzystanie z hipotezy zerowej i sprawdzanie silnej wartości p.