Homoskedastic
Co to jest Homoskedastic?
Homoskedastyczny (zapisywany również jako „homoscedastyczny”) odnosi się do stanu, w którym wariancja składnika resztowego lub błędu w modelu regresji jest stała. Oznacza to, że składnik błędu nie zmienia się zbytnio, gdy zmienia się wartość zmiennej predykcyjnej. Innym sposobem wyrażenia tego jest to, że wariancja punktów danych jest z grubsza taka sama dla wszystkich punktów danych. Sugeruje to poziom spójności i ułatwia modelowanie danych i pracę z nimi za pomocą regresji. Jednak brak homoskedastyczności może sugerować, że model regresji może wymagać uwzględnienia dodatkowych zmiennych predykcyjnych, aby wyjaśnić działanie zmiennej zależnej.
Kluczowe wnioski
- Homoskedastyczność występuje, gdy wariancja składnika błędu w modelu regresji jest stała.
- Jeśli wariancja składnika błędu jest homoskedastyczna, model był dobrze zdefiniowany. Jeśli jest zbyt dużo wariancji, model może nie zostać dobrze zdefiniowany.
- Dodanie dodatkowych zmiennych predykcyjnych może pomóc w wyjaśnieniu wydajności zmiennej zależnej.
- Z drugiej strony heteroskedastyczność występuje, gdy wariancja składnika błędu nie jest stała.
Jak działa homoskedastyczność
Homoskedastyczność jest jednym z założeń modelowania regresji liniowej, a dane tego typu dobrze sprawdzają się w przypadku metody najmniejszych kwadratów. Jeśli wariancja błędów wokół linii regresji jest bardzo zróżnicowana, model regresji może być słabo zdefiniowany. Przeciwieństwem homoskedastyczności jest heteroskedastyczność, tak jak przeciwieństwem „homogeniczności” jest „heterogeniczność”. Heteroskedastyczność (zapisywana również jako „heteroskedastyczność”) odnosi się do stanu, w którym wariancja składnika błędu w równaniu regresji nie jest stała.
Biorąc pod uwagę, że wariancja jest zmierzoną różnicą między przewidywanym wynikiem a rzeczywistym wynikiem danej sytuacji, określenie homoskedastyczności może pomóc w określeniu, które czynniki należy skorygować pod kątem dokładności.
Uwagi specjalne
Prosty model regresji lub równanie składa się z czterech członów. Po lewej stronie jest zmienna zależna. Reprezentuje zjawisko, które model stara się „wyjaśnić”. Po prawej stronie znajduje się stała, zmienna predykcyjna i człon resztkowy lub błąd. Składnik błędu pokazuje wielkość zmienności zmiennej zależnej, której nie wyjaśnia zmienna predykcyjna.
Przykład Homoskedastic
Na przykład załóżmy, że chcesz wyjaśnić wyniki testów uczniów, wykorzystując ilość czasu, jaki każdy uczeń spędził na nauce. W tym przypadku wyniki testu byłyby zmienną zależną, a czas poświęcony na naukę byłby zmienną predykcyjną.
Składnik błędu pokazywałby wielkość wariancji w wynikach testów, której nie wyjaśniono ilością czasu poświęconego na naukę. Jeśli ta wariancja jest jednolita lub homoskedastyczna, to sugerowałoby to, że model może być odpowiednim wyjaśnieniem dla wykonania testu – wyjaśniając go w kategoriach czasu spędzonego na nauce.
Ale wariancja może być heteroskedastyczna. Wykres danych dotyczących składnika błędu może pokazywać, że duża ilość czasu poświęcona na naukę bardzo ściśle odpowiadała wysokim wynikom testów, ale te niskie wyniki testów czasu nauki były bardzo zróżnicowane, a nawet obejmowały kilka bardzo wysokich wyników. Zatem wariancja wyników nie byłaby dobrze wyjaśniona po prostu przez jedną zmienną predykcyjną – ilość czasu na naukę. W tym przypadku prawdopodobnie działa jakiś inny czynnik i model może wymagać ulepszenia, aby go zidentyfikować.
Dalsze badanie może wykazać, że niektórzy uczniowie widzieli odpowiedzi z testu wcześniej lub że wcześniej przystąpili do podobnego testu i dlatego nie musieli przygotowywać się do tego testu. Zresztą może się po prostu okazać, że studenci mieli różne poziomy umiejętności zdawania testów, niezależnie od czasu nauki i wyników na poprzednich testach, niezależnie od przedmiotu.
Aby ulepszyć model regresji, badacz musiałby wypróbować inne zmienne objaśniające, które mogłyby zapewnić dokładniejsze dopasowanie do danych. Gdyby na przykład niektórzy uczniowie widzieli odpowiedzi z wyprzedzeniem, model regresji miałby wtedy dwie zmienne objaśniające: czas studiowania i to, czy uczeń miał wcześniejszą wiedzę na temat odpowiedzi. Dzięki tym dwóm zmiennym wyjaśniono by więcej wariancji wyników testu, a wariancja składnika błędu mogłaby być wtedy homoskedastyczna, co sugeruje, że model był dobrze zdefiniowany.