Hva er ikke-parametrisk statistikk?
Ikke-parametrisk statistikk refererer til en statistisk metode der dataene ikke er påkrevd for å passe til en normal fordeling. Ikke-parametrisk statistikk bruker data som ofte er ordinære, noe som betyr at den ikke er avhengig av tall, men snarere på en rangering eller rekkefølge. For eksempel vil en undersøkelse som formidler forbrukerpreferanser som spenner fra like til mislike, bli ansett som ordinære data.
Ikke-parametrisk statistikk inkluderer ikke-parametrisk beskrivende statistikk, statistiske modeller, inferanse og statistiske tester. Modellstrukturen til ikke-parametriske modeller er ikke spesifisert priori, men bestemmes i stedet ut fra data. Begrepet ikke-parametrisk er ikke ment å innebære at slike modeller helt mangler parametere, men heller at antallet og arten av parametrene er fleksible og ikke er faste på forhånd. Et histogram er et eksempel på et ikke-parametrisk estimat av en sannsynlighetsfordeling.
Forståelse av ikke-parametrisk statistikk
I statistikk inkluderer parametrisk statistikk parametere som middelverdi, median, standardavvik, varians, etc. Denne formen for statistikk bruker de observerte dataene for å estimere parameterne for fordelingen. Under parametrisk statistikk antas data å passe til en normalfordeling med ukjente parametere μ (populasjonsmiddel) og σ 2 (populasjonsvarians), som deretter estimeres ved bruk av eksempelmidlet og prøvevariansen.
Ikke-parametrisk statistikk antar ingen antagelse om utvalgsstørrelse eller om de observerte dataene er kvantitative.
Ikke-parametrisk statistikk forutsetter ikke at data er hentet fra en normal fordeling. I stedet er formen på fordelingen estimert under denne formen for statistisk måling. Selv om det er mange situasjoner der en normal distribusjon kan antas, er det også noen scenarier der det ikke vil være mulig å bestemme om dataene vil bli distribuert normalt.
Eksempler på ikke-parametrisk statistikk
I det første eksemplet kan du vurdere en forsker som ønsker et estimat av antall babyer i Nord-Amerika født med brune øyne, kan bestemme seg for å ta et utvalg på 150 000 babyer og kjøre en analyse av datasettet. Målingen de stammer fra, vil bli brukt som et estimat for hele befolkningen av babyer med brune øyne født året etter.
For et annet eksempel, vurder en annen forsker som ønsker å vite om å legge seg tidlig eller sent er knyttet til hvor ofte man blir syk. Forutsatt at prøven er valgt tilfeldig fra populasjonen, kan antakelsen av utvalgsstørrelsen på sykdomsfrekvens antas å være normal. Imidlertid kan et eksperiment som måler motstanden til menneskekroppen mot en bakteriestamme ikke antas å ha en normal fordeling.
Dette er fordi en tilfeldig valgt prøvedata kan være motstand mot belastningen. På den annen side, hvis forskeren vurderer faktorer som genetisk sammensetning og etnisitet, kan han oppleve at en prøvestørrelse valgt ved bruk av disse egenskapene kanskje ikke er motstandsdyktig mot belastningen. Derfor kan man ikke anta en normalfordeling.
Denne metoden er nyttig når dataene ikke har noen klar numerisk tolkning og er best å bruke med data som har en rangering av sortering. For eksempel kan en personlighetsvurderingsprøve ha en rangering av dens beregninger som sterkt uenige, uenige, likegyldige, enige og sterkt enige. I dette tilfellet bør ikke-parametriske metoder brukes.
Spesielle hensyn
Ikke-parametrisk statistikk har fått takknemlighet på grunn av deres brukervennlighet. Etter hvert som behovet for parametere lettes, blir dataene mer anvendelige for et større utvalg av tester. Denne typen statistikk kan brukes uten gjennomsnitt, utvalgstørrelse, standardavvik eller estimering av andre relaterte parametere når ingen av den informasjonen er tilgjengelig.
Siden ikke-parametrisk statistikk gjør færre antagelser om eksempeldataene, er anvendelsen av dem bredere enn parametrisk statistikk. I tilfeller der parametrisk testing er mer passende, vil ikke-parametriske metoder være mindre effektive. Dette fordi resultatene oppnådd fra ikke-parametrisk statistikk har en lavere grad av tillit enn om resultatene ble oppnådd ved bruk av parametrisk statistikk.
Viktige takeaways
- Ikke-parametrisk statistikk er enkel å bruke, men gir ikke nøyaktigheten til andre statistiske modeller. Denne typen analyse er best egnet når man vurderer rekkefølgen på noe, hvor selv om de numeriske dataene endres, vil resultatene trolig forbli de samme.
