Hva er summen av firkanter?
Summen av kvadrater er en statistisk teknikk brukt i regresjonsanalyse for å bestemme spredning av datapunkter. I en regresjonsanalyse er målet å bestemme hvor godt en dataserie kan tilpasses en funksjon som kan bidra til å forklare hvordan dataserien ble generert. Summen av kvadrater brukes som en matematisk måte å finne den funksjonen som passer best (varierer minst) fra dataene.
Formelen for sum av kvadrater er
For et sett X med n elementer: Summen av kvadrater = i = 0∑n (Xi −X) 2 hvor: Xi = Det ith elementet i settetX = Gjennomsnittet av alle elementene i settet (Xi −X) = Avviket for hvert element fra gjennomsnittet
Summen av firkanter er også kjent som variasjon.
Hva forteller summen av firkanter deg?
Summen av kvadrater er et mål på avvik fra gjennomsnittet. I statistikk er gjennomsnittet gjennomsnittet av et sett med tall og er det mest brukte målet for sentral tendens. Det aritmetiske gjennomsnitt beregnes ganske enkelt ved å oppsummere verdiene i datasettet og dele med antall verdier.
La oss si at sluttkursene til Microsoft (MSFT) de siste fem dagene var 74, 01, 74, 77, 73, 94, 73, 61 og 73, 40 i amerikanske dollar. Summen av de totale prisene er $ 369, 73 og gjennomsnittlig eller gjennomsnittspris for læreboka vil dermed være $ 369, 73 / 5 = $ 73, 95.
Men å kjenne middelet til et målesett er ikke alltid nok. Noen ganger er det nyttig å vite hvor mye variasjon det er i et sett med målinger. Hvor langt fra hverandre de enkelte verdiene er fra middelet, kan gi en viss innsikt i hvor passende observasjonene eller verdiene er til regresjonsmodellen som opprettes.
For eksempel, hvis en analytiker ville vite om aksjekursen på MSFT beveger seg i takt med prisen på Apple (AAPL), kan han liste opp settet med observasjoner for prosessen med begge aksjene i en viss periode, si 1, 2, eller 10 år og lag en lineær modell med hver av observasjonene eller målingene som er registrert. Hvis forholdet mellom begge variablene (dvs. prisen på AAPL og prisen på MSFT) ikke er en rett linje, er det variasjoner i datasettet som må granskes.
I statistikken snakker, hvis linjen i den lineære modellen som ble opprettet ikke passerer gjennom alle målingene av verdi, er noe av variasjonen som er observert i aksjekursene uforklarlig. Summen av kvadrater brukes til å beregne om det eksisterer et lineært forhold mellom to variabler, og eventuell uforklarlig variabilitet blir referert til som restsummen av kvadrater.
Summen av kvadrater er summen av kvadratet av variasjon, der variasjon er definert som spredningen mellom hver individuelle verdi og middelverdien. For å bestemme summen av kvadratene, blir avstanden mellom hvert datapunkt og linjen med best passning kvadratert og deretter oppsummert. Linjen med best passform vil minimere denne verdien.
Hvordan beregne summen av kvadrater
Nå kan du se hvorfor målingen kalles summen av kvadrateavvik, eller summen av kvadrater for kort. Ved å bruke vårt MSFT-eksempel ovenfor, kan summen av kvadrater beregnes som:
- SS = (74, 01 - 73, 95) 2 + (74, 77 - 73, 95) 2 + (73, 94 - 73, 95) 2 + (73, 61 - 73, 95) 2 + (73, 40 - 73, 95) 2 SS = (0, 06) 2 + (0, 82) 2 + (- 0, 01) 2 + (-0, 34) 2 + (-0, 55) 2 SS = 1, 0942
Å legge til summen av avvikene alene uten kvadrat, vil resultere i et tall som er lik eller nær null, siden de negative avvikene nesten perfekt vil oppveie de positive avvikene. For å få et mer realistisk tall, må summen av avvik være kvadrat. Summen av kvadrater vil alltid være et positivt tall fordi kvadratet til et hvilket som helst antall, enten det er positivt eller negativt, alltid er positivt.
Eksempel på hvordan du bruker summen av kvadrater
Basert på resultatene fra MSFT-beregningen indikerer en høy sum av kvadrater at de fleste av verdiene er lenger borte fra gjennomsnittet, og det er derfor stor variasjon i dataene. En lav sum av kvadrater refererer til lav variasjon i settet med observasjoner.
I eksemplet over viser 1.0942 at variasjonen i aksjekursen til MSFT de siste fem dagene er veldig lav, og investorer som ønsker å investere i aksjer preget av prisstabilitet og lav volatilitet, kan velge MSFT.
Viktige takeaways
- Summen av kvadrater måler avviket til datapunkter vekk fra middelverdien. Et høyere sum av kvadraters resultat indikerer en stor grad av variabilitet i datasettet, mens et lavere resultat indikerer at dataene varierer betydelig fra middelverdien.
Begrensninger i bruk av summen av firkanter
Å ta en investeringsbeslutning om hva aksjen skal kjøpes krever mange flere observasjoner enn de som er oppført her. En analytiker kan være nødt til å jobbe med mange års data for å vite med større sikkerhet hvor høy eller lav variabiliteten til en eiendel er. Når flere datapunkter legges til settet, blir summen av kvadrater større etter hvert som verdiene blir mer spredt.
De mest brukte variasjonsmålingene er standardavviket og variansen. For å beregne en av de to beregningene må summen av kvadrater imidlertid først beregnes. Variansen er gjennomsnittet av summen av kvadrater (dvs. summen av kvadratene dividert med antall observasjoner). Standardavviket er kvadratroten til variansen.
Det er to metoder for regresjonsanalyse som bruker summen av kvadrater: den lineære minste kvadrater metoden og den ikke-lineære minste kvadrater metoden. Metoden med minste kvadrat refererer til det faktum at regresjonsfunksjonen minimerer summen av rutene for variansen fra de faktiske datapunktene. På denne måten er det mulig å tegne en funksjon som statistisk gir best passform for dataene. Merk at en regresjonsfunksjon kan enten være lineær (en rett linje) eller ikke-lineær (en buet linje).
