Hva er det Winsorized mener?
Winsorized mean er en metode for gjennomsnittsverdi som i utgangspunktet erstatter de minste og største verdiene med observasjonene nærmest dem. Dette gjøres for å begrense effekten av unormale ekstreme verdier, eller outliers, på beregningen. Etter å ha byttet ut verdiene, brukes deretter aritmetisk middelformel for å beregne det winsoriserte gjennomsnittet.
Formelen for det winsoriserte middelvervet er
Winsorized Mean = Nxn… xn + 1 + xn + 2… xn hvor: n = Antallet største og minste datapunkter som skal erstattes av observasjonen
Winsoriserte midler uttrykkes på to måter. Et "k n " winsorisert middel refererer til erstatningen av 'k' minste og største observasjoner, der 'k' er et helt tall. Et "X%" winsorisert middel innebærer å erstatte en gitt prosentandel av verdier fra begge ender av dataene.
Hvordan beregne det Winsorized gjennomsnittet
Det winsoriserte gjennomsnittet beregnes ved å erstatte de minste og største datapunktene, deretter summere alle datapunktene og dele summen med det totale antall datapunkter.
Hva forteller Winsorized deg?
Det winsoriserte gjennomsnittet er mindre følsomt for utskyttere fordi det kan erstatte dem med mindre ekstreme verdier. Det vil si at det er mindre utsatt for konturer kontra middelverdien. Imidlertid, hvis en fordeling har fete haler, vil effekten av å fjerne de høyeste og laveste verdiene i fordelingen ha liten innflytelse på grunn av det høye antallet variasjoner i distribusjonstallene.
Viktige takeaways
- En gjennomsnittsmetode som inkluderer å erstatte de minste og største verdiene med observasjonene som ligger nærmest dem. Mindre følsomme for outliers fordi den kan erstatte dem med mindre ekstreme verdier. Det er i motsetning til det trimmede gjennomsnittet, som innebærer å fjerne datapunkter - selv om resultatet av de to har en tendens til å være nær.
Eksempel på bruk av Winsorized Mean
Man kan beregne det winsoriserte gjennomsnittet for følgende datasett: 1, 5, 7, 8, 9, 10, 14. I dette eksemplet antar vi at det winsoriserte gjennomsnittet er i første rekkefølge, vi erstatter de minste og største verdiene med deres nærmeste observasjoner.
Datasettet vises nå som følger: 5, 5, 7, 8, 9, 10, 10. Å ta et aritmetisk gjennomsnitt av det nye settet gir et winsorisert gjennomsnitt på 7, 7, eller (5 + 5 + 7 + 8 + 9 + 10 + 10) delt på 7.
Eller vurder et 20% winsorisert middel som tar topp 10% og nederste 10% og erstatter dem med sin nærmeste verdi. Vi vil øke størrelsen på følgende datasett: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. De to de minste og største datapunktene, eller 10%, vil bli erstattet med deres nærmeste verdi. Dermed er det nye datasettet: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. The winsorized gjennomsnitt er 33, 9, eller summen av dataene (678) delt på det totale antall datapunkter (20).
Forskjellen mellom Winsorized Mean og Trimmed Mean
Det winsoriserte gjennomsnittet inkluderer endring av datapunkter, mens det trimmede gjennomsnittet innebærer å fjerne datapunkter. Det er vanlig at det vinnede middelverdien og trimmet middelverdi er nær.
Begrensninger ved bruk av Winsorized Mean
En viktig ulempe for winsoriserte midler er at de introduserer skjevheter i datasettet. Gitt, datasettet er ideelt sett mindre partisk etter modifiseringen enn om outliers var igjen i.
Lær mer om Winsorized Mean
For relatert innsikt, om forskjellene mellom viktige middelberegninger.
