4 maja 2021 20:39

Tworzenie modelu regresji liniowej w programie Excel

Co to jest regresja liniowa?

Regresja liniowa to wykres danych, który przedstawia liniową zależność  między zmienną niezależną i zależną. Zwykle służy do wizualnego pokazania siły związku i rozproszenia wyników – wszystko w celu wyjaśnienia zachowania zmiennej zależnej.

Powiedzmy, że chcieliśmy sprawdzić siłę związku między ilością zjedzonych lodów a otyłością. Wzięlibyśmy zmienną niezależną, ilość lodów i odnieśliśmy ją do zmiennej zależnej, otyłości, aby zobaczyć, czy istnieje związek. Biorąc pod uwagę, że regresja jest graficznym przedstawieniem tej zależności, im mniejsza zmienność danych, tym silniejsza zależność i ściślejsze dopasowanie do linii regresji.

Kluczowe wnioski

  • Regresja liniowa modeluje związek między zmienną (-ami) zależną i niezależną (-ymi).
  • Analizę regresji można przeprowadzić, jeśli zmienne są niezależne, nie ma heteroskedastyczności, a składniki błędów zmiennych nie są skorelowane.
  • Modelowanie regresji liniowej w programie Excel jest łatwiejsze dzięki pakietowi narzędzi do analizy danych.

Ważne uwagi

Istnieje kilka krytycznych założeń dotyczących zbioru danych, które muszą być prawdziwe, aby można było przeprowadzić analizę regresji :

  1. Zmienne muszą być naprawdę niezależne (przy użyciu testu Chi-kwadrat ).
  2. Dane nie mogą mieć różnych wariancji błędów (nazywa się to heteroskedastycznością (również ortoskedastycznością ortograficzną)).
  3. Składniki błędów każdej zmiennej nie mogą być skorelowane. Jeśli nie, oznacza to, że zmienne są  szeregowo skorelowane.

Jeśli te trzy rzeczy wydają się skomplikowane, to takie są. Ale skutkiem niewiarygodności jednego z tych rozważań jest nieobiektywne oszacowanie. Zasadniczo zniekształciłbyś mierzoną relację.

Wyprowadzanie regresji w programie Excel

Pierwszym krokiem do uruchomienia analizy regresji w programie Excel jest dwukrotne sprawdzenie, czy zainstalowana jest bezpłatna wtyczka programu Excel Data Analysis ToolPak. Ta wtyczka bardzo ułatwia obliczanie szeregu statystyk. To jest nie  wymagane do wykresu liniowego linii regresji, ale to sprawia, że tworzenie statystyk tabele prostsze. Aby sprawdzić, czy jest zainstalowany, wybierz z paska narzędzi opcję „Dane”. Jeśli opcja „Analiza danych” jest dostępna, funkcja jest zainstalowana i gotowa do użycia. Jeśli nie jest zainstalowany, możesz zażądać tej opcji, klikając przycisk Office i wybierając „Opcje programu Excel”.

Korzystając z Data Analysis ToolPak, utworzenie danych wyjściowych regresji zajmuje tylko kilka kliknięć.



Zmienna niezależna mieści się w zakresie X.

Biorąc pod uwagę zwroty z indeksu S&P 500 , powiedzmy, że chcemy wiedzieć, czy możemy oszacować siłę i związek zwrotów z akcji Visa (

  1. Wybierz „Dane” z paska narzędzi. Zostanie wyświetlone menu „Dane”.
  2. Wybierz „Analiza danych”. Zostanie wyświetlone okno dialogowe Analiza danych – narzędzia analityczne.
  3. Z menu wybierz „Regresja” i kliknij „OK”.
  4. W oknie dialogowym Regresja kliknij pole „Zakres wejściowy Y” i wybierz dane zmiennej zależnej (zwroty akcji Visa (V)).
  5. Kliknij pole „Input X Range” i wybierz dane zmiennej niezależnej (zwroty S&P 500).
  6. Kliknij „OK”, aby uruchomić wyniki.

[Uwaga: jeśli tabela wydaje się mała, kliknij obraz prawym przyciskiem myszy i otwórz w nowej karcie w wyższej rozdzielczości.]

Zinterpretuj wyniki

Korzystając z tych danych (tych samych z naszego artykułu R-kwadrat ), otrzymujemy następującą tabelę:

Wartość R 2, znana również jako współczynnik determinacji, mierzy proporcję zmienności zmiennej zależnej wyjaśnioną przez zmienną niezależną lub stopień dopasowania modelu regresji do danych. R 2 wartość w zakresie od 0 do 1, a wyższa wartość wskazuje na lepsze dopasowanie. Wartość p, czyli wartość prawdopodobieństwa, również mieści się w zakresie od 0 do 1 i wskazuje, czy test jest istotny. W przeciwieństwie do R 2 wartości mniejsza wartość p jest korzystna, ponieważ wskazuje na korelację pomiędzy zmiennych niezależnych i zależnych.

Tworzenie wykresów regresji w programie Excel

Możemy sporządzić wykres regresji w programie Excel, podświetlając dane i przedstawiając je jako wykres punktowy. Aby dodać linię regresji, wybierz „Układ” z menu „Narzędzia wykresów”. W oknie dialogowym wybierz „Linia trendu”, a następnie „Liniowa linia trendu”. Aby dodać wartość R 2, wybierz „Więcej opcji linii trendu” z menu „Linia trendu”. Na koniec wybierz „Wyświetl wartość R-kwadrat na wykresie”. Wizualny wynik podsumowuje siłę relacji, aczkolwiek kosztem braku podania tyle szczegółów, co w powyższej tabeli.