Hva er en kvartil?
En kvartil er et statistisk begrep som beskriver en inndeling av observasjoner i fire definerte intervaller basert på dataene og hvordan de sammenligner med hele settet av observasjoner.
Forstå kvartiler
For å forstå kvartilen er det viktig å forstå medianen som et mål på sentral tendens. Median i statistikk er middelverdien til et sett med tall. Det er punktet der nøyaktig halvparten av dataene ligger under og over den sentrale verdien.
Så gitt et sett med 13 tall, vil medianen være det syvende tallet. De seks tallene som går foran denne verdien er de laveste tallene i dataene, og de seks tallene etter medianen er de høyeste tallene i datasettet som er gitt. Fordi medianen ikke blir påvirket av ekstreme verdier eller utliggere i fordelingen, er det noen ganger å foretrekke fremfor middelet.
Medianen er en robust estimator for beliggenhet, men sier ingenting om hvordan dataene på hver side av verdien blir spredt eller spredt. Det er her kvartilen trer inn. Kvartilen måler spredningen av verdier over og under gjennomsnittet ved å dele fordelingen i fire grupper.
Viktige takeaways
- Kvartilet måler spredningen av verdier over og under gjennomsnittet ved å dele fordelingen i fire grupper. Et kvartil deler data inn i tre punkter - en nedre kvartil, median og øvre kvartil - for å danne fire grupper av datasettet. Kvartiler brukes å beregne interkvartilområdet, som er et mål på variabilitet rundt medianen.
Slik fungerer kvartiler
Akkurat som median deler opp dataene i halvparten slik at 50% av målingen ligger under medianen og 50% ligger over den, deler kvartilen dataene opp i kvartaler slik at 25% av målingen er mindre enn den nedre kvartilen, 50 % er mindre enn gjennomsnittet, og 75% er mindre enn den øvre kvartilen.
En kvartil deler data inn i tre punkter - en nedre kvartil, median og øvre kvartil - for å danne fire grupper av datasettet. Den nedre kvartilen eller den første kvartilen er betegnet som Q1 og er det midtre tallet som faller mellom den minste verdien av datasettet og medianen. Den andre kvartilen, Q2, er også median. Den øvre eller tredje kvartil, betegnet som Q3, er det sentrale punktet som ligger mellom medianen og det høyeste antallet av fordelingen.
Nå kan vi kartlegge de fire gruppene som er dannet fra kvartilene. Den første gruppen av verdier inneholder det minste antallet opp til Q1; den andre gruppen inkluderer Q1 til median; det tredje settet er median til Q3; den fjerde kategorien omfatter Q3 til det høyeste datapunktet for hele settet.
Hver kvartil inneholder 25% av de totale observasjonene. Generelt er dataene ordnet fra minste til største:
- Første kvartil: det laveste 25% av tallene Andre kvartil: mellom 25, 1% og 50% (opp til median) Tredje kvartil: 51% til 75% (over median) Fjerde kvartil: det høyeste 25% av tallene
Kvartileksempel
La oss jobbe med et eksempel. Anta at fordelingen av mattepoeng i en klasse på 19 elever i stigende rekkefølge er:
59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Først markerer du median Q2, som i dette tilfellet er den tiende verdien: 75.
Q1 er det sentrale punktet mellom den minste poengsummen og medianen. I dette tilfellet faller Q1 mellom første og femte poengsum: 68..
Q3 er mellomverdien mellom Q2 og den høyeste poengsummen: 84.
Nå som vi har kvartilene våre, la oss tolke antallet. En score på 68 (Q1) representerer den første kvartilen og er den 25. persentilen. 68 er median for den nedre halvparten av poengsummen som er satt i tilgjengelige data, dvs. median for score fra 59 til 75.
Q1 forteller oss at 25% av score er mindre enn 68 og 75% av klassescore er større. Q2 (medianen) er den 50. persentilen og viser at 50% av poengene er mindre enn 75, og 50% av resultatene er over 75. Til slutt avslører Q3, den 75. prosentilen, at 25% av resultatene er større og 75% er mindre enn 84.
Spesielle hensyn
Hvis datapunktet for Q1 er lenger borte fra median enn Q3 er fra median, kan vi si at det er en større spredning blant de mindre verdiene i datasettet enn blant de større verdiene. Den samme logikken gjelder hvis Q3 er lenger borte fra Q2 enn Q1 er fra median.
Alternativt, hvis det er et jevnt antall datapunkter, vil median være gjennomsnittet av de to midterste tallene. I vårt eksempel ovenfor, hvis vi hadde 20 elever i stedet for 19, vil medianen av resultatene deres være det aritmetiske gjennomsnittet av det tiende og det ellevte tallet.
Kvartiler brukes til å beregne interkvartilområdet, som er et mål på variabilitet rundt medianen. Interkvartilområdet beregnes ganske enkelt som forskjellen mellom første og tredje kvartil: Q3 - Q1. I virkeligheten er det området for den midtre halvdelen av dataene som viser hvor spredt dataene er.
For store datasett har Microsoft Excel en QUARTILE-funksjon for å beregne kvartiler.
