Przebudowanie
Co to jest overfitting?
Nadmierne dopasowanie to błąd modelowania w statystykach, który występuje, gdy funkcja jest zbyt ściśle dopasowana do ograniczonego zestawu punktów danych. W rezultacie model jest użyteczny tylko w odniesieniu do swojego początkowego zestawu danych, a nie do jakichkolwiek innych zestawów danych.
Nadmierne dopasowanie modelu przybiera zazwyczaj formę tworzenia zbyt złożonego modelu w celu wyjaśnienia idiosynkrazji w badanych danych. W rzeczywistości często badane dane zawierają pewien stopień błędu lub losowego szumu. W związku z tym próba dostosowania modelu zbyt blisko do nieznacznie niedokładnych danych może zainfekować model znacznymi błędami i zmniejszyć jego moc predykcyjną.
Kluczowe wnioski
- Nadmierne dopasowanie to błąd występujący w modelowaniu danych w wyniku zbyt bliskiego wyrównania określonej funkcji z minimalnym zestawem punktów danych.
- Specjaliści finansowi są narażeni na ryzyko nadmiernego dopasowania modelu opartego na ograniczonych danych i uzyskania błędnych wyników.
- Jeśli model został naruszony przez nadmierne dopasowanie, model może stracić swoją wartość jako narzędzia prognostycznego do inwestowania.
Zrozumienie nadmiernego dopasowania
Na przykład częstym problemem jest wykorzystywanie algorytmów komputerowych do przeszukiwania obszernych baz danych historycznych danych rynkowych w celu znalezienia wzorców. Mając wystarczające badania, często można opracować skomplikowane twierdzenia, które wydają się przewidywać takie rzeczy, jak zwroty na giełdzie z dużą dokładnością.
Jednak w przypadku zastosowania do danych spoza próby, twierdzenia takie mogą prawdopodobnie okazać się po prostu nadmiernym dopasowaniem modelu do tego, co w rzeczywistości było tylko przypadkowymi zdarzeniami. We wszystkich przypadkach ważne jest, aby przetestować model pod kątem danych spoza próby użytej do jego opracowania.
Jak zapobiegać nadmiernemu dopasowaniu
Sposoby zapobiegania nadmiernemu dopasowaniu obejmują walidację krzyżową, w której dane używane do uczenia modelu są dzielone na fałdy lub partycje, a model jest uruchamiany dla każdego zawinięcia. Następnie ogólne oszacowanie błędu jest uśredniane. Inne metody obejmują zestawianie, w którym prognozy są łączone z co najmniej dwóch oddzielnych modeli, rozszerzanie danych, w którym dostępny zestaw danych ma wygląd zróżnicowany, oraz uproszczenie danych, w którym model jest usprawniony, aby uniknąć nadmiernego dopasowania.
Finansiści muszą zawsze być świadomi niebezpieczeństw wynikających z nadmiernego dopasowania modelu opartego na ograniczonych danych.
Przykład nadmiernego dopasowania
Nadmierne dopasowanie jest również czynnikiem w uczeniu maszynowym. Może się pojawić, gdy maszyna została nauczona skanowania w poszukiwaniu określonych danych w jedną stronę, ale gdy ten sam proces zostanie zastosowany do nowego zestawu danych, wyniki są niepoprawne. Na przykład uniwersytet, w którym wskaźnik porzucania studiów jest wyższy niż oczekiwany, decyduje, że chce stworzyć model przewidujący prawdopodobieństwo, że kandydat przejdzie przez całą drogę do ukończenia studiów. W tym celu uczelnia szkoli model na podstawie zbioru danych 5000 kandydatów i ich wyników. Następnie uruchamia model na oryginalnym zbiorze danych – grupie 5000 kandydatów – a model przewiduje wynik z dokładnością 98%. Aby jednak sprawdzić jego dokładność, uruchomili model również na drugim zestawie danych – o 5000 kandydatów więcej. Jednak tym razem model jest dokładny tylko w 50%, ponieważ model był zbyt ściśle dopasowany do wąskiego podzbioru danych, w tym przypadku pierwszych 5000 aplikacji.