5 maja 2021 3:46

Suma kwadratów

Jaka jest suma kwadratów?

Suma kwadratów to technika statystyczna stosowana w analizie regresji do określania rozproszenia punktów danych. W analizie regresji, celem jest, aby ustalić, jak również seria danych może być wyposażony w funkcję, która może pomóc wyjaśnić, jak serie danych została wygenerowana. Suma kwadratów służy jako matematyczny sposób znajdowania funkcji, która najlepiej pasuje (różni się najmniej) z danych.

Wzór na sumę kwadratów wynosi

Suma kwadratów jest również nazywana zmiennością.

Co mówi suma kwadratów?

Suma kwadratów jest miarą odchylenia od średniej. W statystyce średnia jest średnią zbioru liczb i jest najczęściej używaną miarą tendencji centralnej. Średnia arytmetyczna jest po prostu obliczana poprzez zsumowanie wartości w zestawie danych i podzielenie przez liczbę wartości.

Powiedzmy, że ceny zamknięcia Microsoft (MSFT) w ciągu ostatnich pięciu dni wyniosły 74,01, 74,77, 73,94, 73,61 i 73,40 w dolarach amerykańskich. Suma wszystkich cen wynosi 369,73 USD, a średnia lub średnia cena podręcznika wyniosłaby zatem 369,73 USD / 5 = 73,95 USD.

Jednak znajomość średniej z zestawu pomiarowego nie zawsze jest wystarczająca. Czasami warto wiedzieć, jakie jest zróżnicowanie zestawu pomiarów. To, jak bardzo poszczególne wartości są oddalone od średniej, może dać pewien wgląd w dopasowanie obserwacji lub wartości do tworzonego modelu regresji.

Na przykład, jeśli analityk chciał wiedzieć, czy cena akcji MSFT zmienia się w tandemie z ceną Apple (AAPL), może przedstawić zestaw obserwacji dla procesu obu akcji dla określonego okresu, powiedzmy 1, 2 lub 10 lat i utwórz model liniowy z zapisanymi każdą obserwacją lub pomiarem. Jeżeli zależność między obiema zmiennymi (tj. Ceną AAPL i ceną MSFT) nie jest linią prostą, to istnieją różnice w zbiorze danych, które wymagają analizy.

W statystyce mówi się, że jeśli linia w utworzonym modelu liniowym nie przechodzi przez wszystkie pomiary wartości, to część zmienności, jaką zaobserwowano w cenach akcji, jest niewyjaśniona. Suma kwadratów służy do obliczania, czy istnieje liniowa zależność między dwiema zmiennymi, a wszelka niewyjaśniona zmienność jest określana jako rezydualna suma kwadratów.

Suma kwadratów jest sumą kwadratu zmienności, gdzie zmienność jest definiowana jako rozrzut między każdą indywidualną wartością a średnią. Aby określić sumę kwadratów, odległość między każdym punktem danych a linią najlepszego dopasowania jest podnoszona do kwadratu, a następnie sumowana. Linia najlepszego dopasowania zminimalizuje tę wartość.

Jak obliczyć sumę kwadratów

Teraz możesz zobaczyć, dlaczego pomiar nazywa się sumą kwadratów odchyleń lub w skrócie sumą kwadratów. Korzystając z powyższego przykładu MSFT, sumę kwadratów można obliczyć jako:

  • SS = (74,01 – 73,95) 2 + (74,77 – 73,95) 2 + (73,94 – 73,95) 2 + (73,61 – 73,95) 2 + (73,40 – 73,95) 2
  • SS = (0,06) 2 + (0,82) 2 + (-0,01) 2 + (-0,34) 2 + (-0,55) 2
  • SS = 1,0942

Dodanie samej sumy odchyleń bez podniesienia do kwadratu da w wyniku liczbę równą lub bliską zeru, ponieważ odchylenia ujemne prawie doskonale zrównoważy odchylenia dodatnie. Aby uzyskać bardziej realistyczną liczbę, sumę odchyleń należy podnieść do kwadratu. Suma kwadratów zawsze będzie liczbą dodatnią, ponieważ kwadrat dowolnej liczby, dodatniej lub ujemnej, jest zawsze dodatni.

Przykład użycia sumy kwadratów

Opierając się na wynikach obliczeń MSFT, wysoka suma kwadratów wskazuje, że większość wartości jest dalej od średniej, a zatem istnieje duża zmienność danych. Niska suma kwadratów oznacza małą zmienność zbioru obserwacji.

W powyższym przykładzie 1.0942 pokazuje, że zmienność cen akcji MSFT w ciągu ostatnich pięciu dni jest bardzo niska, a inwestorzy chcący inwestować w akcje charakteryzujące się stabilnością cen i niską zmiennością mogą zdecydować się na MSFT.

Kluczowe wnioski

  • Suma kwadratów mierzy odchylenie punktów danych od średniej wartości.
  • Wyższy wynik sumy kwadratów wskazuje na duży stopień zmienności w zestawie danych, podczas gdy niższy wynik wskazuje, że dane nie różnią się znacznie od wartości średniej.

Ograniczenia stosowania sumy kwadratów

Podjęcie decyzji inwestycyjnej o zakupie zapasów wymaga znacznie więcej obserwacji niż wymienione tutaj. Analityk może być zmuszony do pracy z danymi przez lata, aby dowiedzieć się z większą pewnością, jak wysoka lub niska jest zmienność aktywów. Im więcej punktów danych jest dodawanych do zestawu, tym suma kwadratów staje się większa, ponieważ wartości będą bardziej rozłożone.

Najpowszechniej stosowanymi pomiarami zmienności są odchylenie standardowe i wariancja. Jednak aby obliczyć jedną z dwóch metryk, należy najpierw obliczyć sumę kwadratów. Wariancja to średnia sumy kwadratów (tj. Suma kwadratów podzielona przez liczbę obserwacji). Odchylenie standardowe to pierwiastek kwadratowy z wariancji.

Istnieją dwie metody analizy regresji, które wykorzystują sumę kwadratów: liniowa metoda najmniejszych kwadratów i nieliniowa metoda najmniejszych kwadratów. Metoda najmniejszych kwadratów odnosi się do faktu, że funkcja regresji minimalizuje sumę kwadratów wariancji z rzeczywistych punktów danych. W ten sposób można narysować funkcję, która statystycznie zapewnia najlepsze dopasowanie do danych. Zauważ, że funkcja regresji może być liniowa (linia prosta) lub nieliniowa (linia zakrzywiona).