Hva er en Chi-Square-statistikk?
Et chi-kvadrat ( χ 2) statistikk er en test som måler hvordan forventningene sammenligner med faktiske observerte data (eller modellresultater). Dataene som brukes ved beregning av en chi-kvadrat-statistikk, må være tilfeldige, rå, gjensidig eksklusive, hentet fra uavhengige variabler og tegnet fra et stort nok utvalg. For eksempel oppfyller resultatene av å kaste en mynt 100 ganger disse kriteriene.
Chi-kvadrat-tester blir ofte brukt i hypotetesting.
Formelen for Chi-Square Is
χc2 = ∑ (Oi − Ei) 2Hver ikke: c = frihetsgraderO = observert verdi (er) E = forventet verdi (er) begynn {justert} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {hvor:} \ & c = \ tekst {grader av frihet} \ & O = \ tekst {observert verdi (er)} \ & E = \ tekst {forventet verdi (er)) } \ \ end {alignet} χc2 = ∑Ei (Oi −Ei) 2 hvor: c = frihetsgraderO = observert verdi (er) E = forventet verdi (er)
Hva forteller en Chi-Square-statistikk?
Det er to hovedtyper av chi-square-tester: uavhengighetstesten, som stiller et spørsmål om forhold, for eksempel: "Er det et forhold mellom kjønn og SAT-poengsummer?"; og testen om godhet, som spør noe som "Hvis en mynt blir kastet 100 ganger, vil den komme oppover 50 ganger og haler 50 ganger?"
For disse testene benyttes frihetsgrader for å bestemme om en viss nullhypotese kan avvises basert på det totale antall variabler og prøver i eksperimentet.
Når du for eksempel vurderer studenter og emnevalg, er en prøvestørrelse på 30 eller 40 studenter sannsynligvis ikke stor nok til å generere betydelige data. Å få de samme eller lignende resultatene fra en studie med en prøvestørrelse på 400 eller 500 studenter er mer gyldig.
I et annet eksempel kan du vurdere å kaste en mynt 100 ganger. Det forventede resultatet av å kaste en rettferdig mynt 100 ganger er at hodene vil komme opp 50 ganger og halene vil komme opp 50 ganger. Det faktiske resultatet kan være at hodene kommer opp 45 ganger og halene kommer opp 55 ganger. Chi-square-statistikken viser eventuelle avvik mellom forventede resultater og faktiske resultater.
Eksempel på en Chi-Squared Test
Se for deg at en tilfeldig meningsmåling ble tatt over 2000 forskjellige velgere, både mannlige og kvinnelige. Menneskene som svarte ble klassifisert etter kjønn og om de var republikanske, demokratiske eller uavhengige. Se for deg et rutenett med kolonnene merket republikansk, demokrat og uavhengig, og to rader merket mann og kvinne. Anta at dataene fra de 2000 respondentene er som følger:
Det første trinnet for å beregne chi-kvadratstatistikken er å finne de forventede frekvensene. Disse beregnes for hver "celle" i rutenettet. Siden det er to kategorier av kjønn og tre kategorier av politisk syn, er det seks forventede frekvenser. Formelen for forventet frekvens er:
E (r, c) = n (r) × c (r) nwhere: r = rad i spørsmålc = kolonne i spørsmåln = tilsvarende total \ begynne {justert} & E (r, c) = \ frac {n (r) ganger c (r)} {n} \ & \ textbf {hvor:} \ & r = \ text {rad i spørsmålet} \ & c = \ text {spalte i spørsmålet} \ & n = \ text {tilsvarende total} \ \ end {alignet} E (r, c) = nn (r) × c (r) hvor: r = rad i spørsmålc = kolonne i spørsmåln = tilsvarende total
I dette eksemplet er de forventede frekvensene:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1200) / 2000 = 540E (2, 2) = (900 x 1200) / 2000 = 540E (2, 3) = (200 x 1200) / 2000 = 120
Deretter brukes disse verdiene for å beregne chi-kvadratstatistikken ved å bruke følgende formel:
Chi-kvadrat = ∑2E (r, c) hvor: O (r, c) = observerte data for den gitte raden og kolonnen \ begynne {justert} & \ tekst {Chi-kvadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {hvor:} \ & O (r, c) = \ tekst {observerte data for den gitte raden og kolonnen} \ \ end {alger} Chi-squared = ∑E (r, c) 2 hvor: O (r, c) = observerte data for gitt rad og kolonne
I dette eksemplet er uttrykket for hver observerte verdi:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 (2, 2) = (600 - 540) 2/540 = 6, 67O (2, 3) = (100 - 120) 2/120 = 3, 33
Chi-kvadratstatistikken tilsvarer da summen av disse verdien, eller 32, 41. Vi kan deretter se på et chi-kvadratisk statistikkbord for å se, gitt graden av frihet i oppsettet vårt, om resultatet er statistisk signifikant eller ikke.
