Hva er homoskedastisk?
Homoskedastic (også stavet "homoscedastic") refererer til en tilstand der variansen av den resterende eller feilbetegnelsen i en regresjonsmodell er konstant. Det vil si at feiluttrykket ikke varierer mye ettersom verdien av prediktorvariabelen endres. Mangelen på homoskedastisitet kan imidlertid antyde at regresjonsmodellen kan trenge å inkludere ytterligere prediktorvariabler for å forklare ytelsen til den avhengige variabelen.
Viktige takeaways
- Homoskedasticitet oppstår når variansen av feilbegrepet i en regresjonsmodell er konstant. Hvis variansen av feiluttrykket er homoskedastisk, var modellen godt definert. Hvis det er for mye varians, kan det hende at modellen ikke defineres godt. Å legge til flere prediktorvariabler kan bidra til å forklare ytelsen til den avhengige variabelen. Heltoskedastisitet oppstår for øvrig når variansen til feiluttrykket ikke er konstant.
Hvordan Homoskedastic fungerer
Homoskedasticitet er en antagelse om lineær regresjonsmodellering. Hvis variansen til feilene rundt regresjonslinjen varierer mye, kan regresjonsmodellen være dårlig definert. Det motsatte av homoskedastisitet er heteroskedastisitet, akkurat som det motsatte av "homogen" er "heterogen". Heteroskedastisitet (også stavet “heteroscedasticity”) refererer til en tilstand der variansen av feiluttrykket i en regresjonsligning ikke er konstant.
Når man vurderer at varians er den målte forskjellen mellom det forutsagte utfallet og det faktiske utfallet av en gitt situasjon, kan bestemmelse av homoskedastisitet bidra til å bestemme hvilke faktorer som må justeres for nøyaktighet.
Spesielle hensyn
En enkel regresjonsmodell, eller ligning, består av fire begreper. På venstre side er den avhengige variabelen. Det representerer fenomenet modellen søker å "forklare." På høyre side er en konstant, en prediktorvariabel, og en resterende eller feil term. Feilbegrepet viser mengden variabilitet i den avhengige variabelen som ikke er forklart av prediktorvariabelen.
Eksempel på Homoskedastic
Anta for eksempel at du ønsket å forklare elevtestpoengene med den tiden hver student brukte på å studere. I dette tilfellet vil testresultatene være den avhengige variabelen, og tiden brukt på å studere vil være prediktoren.
Feilbegrepet ville vise mengden av varians i testresultatene som ikke ble forklart med mengden studietid. Hvis denne variansen er ensartet, eller homoskedastisk, kan det antyde at modellen kan være en tilstrekkelig forklaring på testprestasjoner — forklare den med tanke på tidsbruk.
Men variansen kan være heteroskedastisk. Et diagram over feiltidsdataene kan vise at en stor mengde studietid samsvarte veldig tett med høye testresultater, men at testresultatene med lav studietid varierte mye og til og med inkluderte noen veldig høye score. Så variansen av score ville ikke bli godt forklart bare med en prediktorvariabel - hvor mye tid man studerer. I dette tilfellet er sannsynligvis en annen faktor på jobb, og det kan hende at modellen må forbedres for å identifisere den eller dem. Ytterligere undersøkelser kan avsløre at noen studenter hadde sett svarene på testen på forhånd, eller at de tidligere hadde tatt en lignende test, og derfor ikke trengte å studere for akkurat denne testen.
For å forbedre regresjonsmodellen vil forskeren derfor legge til en annen forklaringsvariabel som indikerer om en student hadde sett svarene før testen. Regresjonsmodellen ville da ha to forklarende variabler - studietid og om studenten hadde forkunnskaper om svarene. Med disse to variablene vil mer av variansen til testresultatene bli forklart, og variansen av feiluttrykket kan da være homoskedastisk, noe som tyder på at modellen var godt definert.
