Hva er multippel lineær regresjon - MLR?
Multiple lineær regresjon (MLR), også kjent ganske enkelt som multiple regresjon, er en statistisk teknikk som bruker flere forklaringsvariabler for å forutsi utfallet av en responsvariabel. Målet med multiple lineær regresjon (MLR) er å modellere det lineære forholdet mellom de forklarende (uavhengige) variablene og respons (avhengig) variabel.
I hovedsak er multiple regresjon utvidelsen av vanlig minste-kvadrater (OLS) -regresjon som involverer mer enn en forklaringsvariabel.
Formelen for multippel lineær regresjon er
Yi = β0 + β1 xi1 + β2 xi2 +… + βp xip + ϵ hvor, for i = n observasjoner: yi = avhengig variabelxi = ekspanderende variabler β0 = y-avskjæring (konstant term) pp = skråningskoeffisienter for hver forklaringsvariabelϵ = modellens feilbegrep (også kjent som restene)
Forklaring av flere lineære regresjoner
En enkel lineær regresjon er en funksjon som lar en analytiker eller statistiker komme med prediksjoner om en variabel basert på informasjonen som er kjent om en annen variabel. Lineær regresjon kan bare brukes når man har to kontinuerlige variabler - en uavhengig variabel og en avhengig variabel. Den uavhengige variabelen er parameteren som brukes til å beregne den avhengige variabelen eller utfallet. En multiple regresjonsmodell strekker seg til flere forklaringsvariabler.
Multiple regresjonsmodellen er basert på følgende forutsetninger:
- Det er en lineær sammenheng mellom de avhengige variablene og de uavhengige variablene. De uavhengige variablene er ikke for sterkt korrelert med hverandre.y i observasjoner er valgt uavhengig og tilfeldig fra befolkningen.Resten skal normalt fordeles med et gjennomsnitt på 0 og varians σ.
Bestemmelseskoeffisienten (R-kvadrat) er en statistisk metrikk som brukes til å måle hvor mye av variasjonen i utfallet som kan forklares med variasjonen i de uavhengige variablene. R 2 øker alltid etter hvert som flere prediktorer legges til MLR-modellen, selv om prediktorene kanskje ikke er relatert til utfallsvariabelen.
R 2 i seg selv kan dermed ikke brukes til å identifisere hvilke prediktorer som skal inkluderes i en modell og hvilke som bør utelukkes. R2 kan bare være mellom 0 og 1, der 0 indikerer at utfallet ikke kan forutsies av noen av de uavhengige variablene og 1 indikerer at utfallet kan forutsies uten feil fra de uavhengige variablene.
Når du tolker resultatene av en multippel regresjon, er betakoeffisienter gyldige mens du holder alle andre variabler konstant ("alt annet lik"). Utgangen fra en multippel regresjon kan vises horisontalt som en ligning, eller vertikalt i tabellform.
Eksempel ved bruk av flere lineære regresjoner
For eksempel kan det være en analytiker som vil vite hvordan bevegelsen i markedet påvirker prisen på Exxon Mobil (XOM). I dette tilfellet vil hans lineære ligning ha verdien av S&P 500-indeksen som den uavhengige variabelen, eller prediktoren, og prisen på XOM som den avhengige variabelen.
I virkeligheten er det flere faktorer som forutsier utfallet av en hendelse. Prisbevegelsen til Exxon Mobil, for eksempel, avhenger mer enn bare ytelsen til det totale markedet. Andre prediktorer som oljepris, renter og prisbevegelse på oljefutures kan påvirke prisen på XOM og aksjekursene i andre oljeselskaper. For å forstå et forhold der mer enn to variabler er til stede, brukes en multippel lineær regresjon.
Multiple lineær regresjon (MLR) brukes for å bestemme et matematisk forhold mellom et antall tilfeldige variabler. Med andre termer undersøker MLR hvordan flere uavhengige variabler er relatert til en avhengig variabel. Når hver av de uavhengige faktorene er bestemt for å forutsi den avhengige variabelen, kan informasjonen om de flere variablene brukes til å lage en nøyaktig prediksjon på nivået av effekten de har på utfallsvariabelen. Modellen skaper et forhold i form av en rett linje (lineær) som best tilnærmer seg alle de individuelle datapunktene.
Med henvisning til MLR-ligningen ovenfor, i vårt eksempel:
- y i = avhengig variabel: pris på XOMx i1 = renter x i2 = oljepris x i3 = verdi av S&P 500 indexx i4 = pris på oljefuturesB 0 = y-avskjæring på tidspunktet nullB 1 = regresjonskoeffisient som måler en enhetsendring i den avhengige variabel når x i1 endres - endringen i XOM-pris når rentene endresB 2 = koeffisientverdi som måler en enhetsendring i den avhengige variabelen når x i2 endres - endringen i XOM-pris når oljeprisene endres
De minste kvadratestimatene, B 0, B 1, B 2… B p, beregnes vanligvis av statistisk programvare. Så mange variabler kan inkluderes i regresjonsmodellen der hver uavhengige variabel er differensiert med et tall — 1, 2, 3, 4… s. Multiregresjonsmodellen lar en analytiker forutsi et utfall basert på informasjon gitt om flere forklaringsvariabler.
Likevel er modellen ikke alltid helt nøyaktig, ettersom hvert datapunkt kan avvike noe fra resultatet som modellen er forutsagt. Restverdien, E, som er forskjellen mellom det faktiske utfallet og det forutsagte utfallet, er inkludert i modellen for å redegjøre for så små variasjoner.
Forutsatt at vi kjører vår XOM-prisregresjonsmodell gjennom en statistikkberegningsprogramvare, som returnerer denne utdata:
En analytiker vil tolke denne produksjonen til å bety at hvis andre variabler holdes konstant, vil prisen på XOM øke med 7, 8% hvis prisen på olje i markedene øker med 1%. Modellen viser også at prisen på XOM vil synke med 1, 5% etter en renteøkning på 1%. R2 indikerer at 86, 5% av variasjonene i aksjekursen til Exxon Mobil kan forklares med endringer i rente, oljepris, oljefutures og S&P 500-indeksen.
Viktige takeaways
- Multiple lineær regresjon (MLR), også kjent ganske enkelt som multiple regresjon, er en statistisk teknikk som bruker flere forklaringsvariabler for å forutsi utfallet av en responsvariabel. Flere regresjoner er en utvidelse av lineær (OLS) regresjon som bare bruker en forklaringsvariabel. MLR brukes mye i økonometrikk og økonomisk inferens.
Forskjellen mellom lineær og multippel regresjon
Lineær (OLS) regresjon sammenligner responsen til en avhengig variabel gitt en endring i noen forklaringsvariabel. Imidlertid er det sjelden at en avhengig variabel blir forklart med bare en variabel. I dette tilfellet bruker en analytiker flere regresjoner, som prøver å forklare en avhengig variabel ved å bruke mer enn en uavhengig variabel. Flere regresjoner kan være lineære og ikke-lineære.
Flere regresjoner er basert på antagelsen om at det er en lineær sammenheng mellom både de avhengige og uavhengige variablene. Det forutsetter heller ingen større sammenheng mellom de uavhengige variablene.
