Goodness-of-fit

Goodness-of-fit er den mest simple af de almindenlige $$\chi^2$$-test. Vi introducere den gennem et eksempel. Vi vil afgøre om en terning er fair (der er lige stor sandsynlighed for alle udfald), eller om det er en snydeterningen.

Når man laver $$\chi^2$$-test starter man ud med at fastlægge signifikasniveauet. Vi lærte også om signifikansniveauer da vi lærte om konfidensintervaller, men her betyder det noget lidt andet. Vi vil vælger $$\alpha=5\%$$ som vores signifikansniveau. Betydningen af dette kommer vi ind på senere.

Observerede og forventede hyppigheder

For at undersøge om terningen er fair, er vi nødt til at afprøve den, så vi kaster den 120 gange. Vi forventer at få lige mange af hvert antal øjne. Det vi forventer kalder vi for nulhypotesen og vi betegner det $$H_0$$. Her har vi altså:

$$H_0$$: Der er lige stor sandsynlighed for alle udfald. Dvs. terningen er fair.

Det modsatte af $$H_0$$ kalder vi den alternative hypotese og betegner med $$H_1$$

$$H_1$$: Der er ikke lige stor sandsynlighed for alle udfald. Dvs. terningen er en snydeterning/skæv.

Med 120 kast og 6 muligheder forventer vi altså at få 20 af hvert antal øjne:

Antal øjne Forventet hyppighed
1 20
2 20
3 20
4 20
5 20
6 20

Vi kaster nu terningen og får følgende resultat:

Antal øjne Observeret Hyppighed
1 30
2 15
3 17
4 23
5 19
6 16

Oh noes det svarede ikke helt til det vi forventede. Det store spørgsmål er så bare om det betyder der er noget galt med terningen? Vi bemærker først, at det selvfølgelig altid vil være umuligt at fastslå at en terningen er fair. Selv hvis vi fik lige mange af hvert antal øjne, ville det jo stadig ikke fastslå at terningen var fair - var terning kun en anelse skæv ville det jo ikke være usandsynligt at få lige mange af hver. Så det er aldrig muligt at konkludere at $$H_0$$ er sand i en $$\chi^2$$-test. Derimod kan vi muligvis argumenterer for at $$H_0$$ må være falsk (og $$H_1$$ dermed sand). For er forskellen mellem de forventede hyppigheder og de observerede hyppigheder meget stor, så må der være noget galt med vores forventning ($$H_0$$). Hvis det er tilfældet, siger vi at vi forkaster nulhypotesen $$H_0$$ og accepterer den alternative hypotese $$H_1$$.

Øvelse 1

📌

Vi kaster en mønt 200 gange og vil gerne finde ud af, om der er lige stor sandsynlighed for plat og krone.

  1. Bestem $$H_0$$ og $$H_1$$.

    $$H_0$$: Der er lige stor sandsynlighed for plat og krone. $$H_1$$: Der er ikke lige stor sandsynlighed for plat og krone.

  2. Bestem de forventede hyppigheder.

    Vi forventer 100 plat og 100 krone.

Udregning af $$\chi^2$$-teststørrelsen

Tilbage til terningen. For at afgøre om vi skal forkaste $$H_0$$, skal vi altså regne på om afvigelsen mellem de forventede hyppigheder og de observerede hyppigheder er usandsynlig stor.

Vi udregner derfor $$\chi^2$$-teststørrelsen som er et tal der udtrykker hvor stor afvigelsen er mellem det forventede og det observerede. Vi skal bruge følgende formel: $$$\frac{(\textrm{observeret hyppighed} - \textrm{forventet hyppighed})^2}{\textrm{forventet hyppighed}}$$$

Vi udregner:

Antal øjne $$\frac{(\textrm{observeret} - \textrm{forventet})^2}{\textrm{forventet}}$$
1 $$\frac{(30-20)^2}{20}=5$$
2 $$\frac{(15-20)^2}{20}=1{,}25$$
3 $$\frac{(17-20)^2}{20}=0{,}45$$
4 $$\frac{(23-20)^2}{20}=0{,}45$$
5 $$\frac{(19-20)^2}{20}=0{,}05$$
6 $$\frac{(16-20)^2}{20}=0{,}8$$

Teststørrelsen $$\chi^2$$ bestemmes ved at lægge de udregnede værdier sammen: $$$\chi^2=5+1{,}25+0{,}45+0{,}45+0{,}05+0{,}8=8.$$$

Øvelse 2

📌

Antag at vi får følgende resultat ved 200 kast med en mønten fra øvelse 1:

Plat/Krone Observerede hyppigheder
Plat 78
Krone 122
Beregn $$\chi^2$$-teststørrelse.

$$\chi^2=9{,}68$$.

Øvelse 3 (svær)

📌

En stor $$\chi^2$$-teststørrelse svarer til en stor forskel mellem observeret hyppighed og forventet hyppighed.

Forklar hvorfor det er rigtigt.

Vi ser på formlen: $$$\frac{(\textrm{observeret hyppighed} - \textrm{forventet hyppighd})^2}{\textrm{forventet hyppighed}}$$$ En brøk er stor når tælleren er stor og nævneren er lille. Vi kan se, at jo større forskel der er mellem observeret og forventet hyppighed, jo større bliver tælleren, mens nævneren slet ikke afhænger af det observeret hyppigehed. Altså bliver brøken stor, når der er stor forskel og dermed bliver $$\chi^2$$-teststørrelsen stor, da $$\chi^2$$-teststørrelsen jo er summen af brøkerne.

Fra øvelse 3 ved vi altså at en stor $$\chi^2$$-teststørrelse svarer til en stor afvigelse mellem forventet og observeret hyppighed. Spørgsmålet er så bare hvor stor $$\chi^2$$-teststørrelsen må være før vi ikke længere tror på nulhypotesen (fair terning)? Før vi kan svare på det, er vi nødt til at indroducere begrebet frihedsgrader.

Frihedsgrader og $$\chi^2$$-fordelingen

Vi kigger på skemaet igen, men denne gang uden antallet af 2'ere:

Antal øjne Observeret hyppigheder
1 30
2
3 17
4 23
5 19
6 16

Hvis vi ikke vidste hvor mange 2'ere vi havde slået kunne vi regne det ud ved at sige $$$\textrm{antal 2'ere}=120-30-17-19-23-16=15.$$$ Altså det er nok at vi kender 5 af de observerede hyppigheder før at vi kan regne den sidste ud. Derfor siger vi, at antallet af frihedsgrader er 5. Antallet af frihedsgrader er altså det antal af observerede hyppigheder man skal kende for at kunne fastlægge alle de observerede hyppigheder.

Øvelse 4

📌
Bestem antallet af frihedsgrader for møntkast-testen fra øvelse 1 og 2.

1

Vi er nu klar til at vurderer om vores $$\chi^2$$-teststørrelse på 8 er så høj at vi ikke længere tror på terningen er fair. Det er nemlig sådan, at for ethvert antal frihedsgrader er der en tilhørende $$\chi^2$$-fordeling. Vi finder den i sandsynlighedslommeregneren i Geogebra.

Screenshot

Der hvor der står "df" har vi indskrevet antallet af frihedsgrader. I lommeregneren kan vi se, at sandsynligheden for at få en $$\chi^2$$-teststørrelse på 8 eller derover er 15,62%. De 15,62% kaldes $$p$$-værdien (eller signifikanssandsynligheden) og vi har altså at sandsynligheden for at få en $$\chi^2$$-teststørrelse på mindst 8 er 15,62% når man kaster en terning 120 gange (og terningen er fair).

Øvelse 5

📌
Bestem $$p$$-værdien for møntkast-testen i øvelse 1 og 2.

$$p=0{,}19\%$$

Type 1 og type 2 fejl og signifikansniveauet

Vi har lige fundet ud af, at når vi kaster en fair terning 120 gang er det kun er i 15,62% af tilfældene at vi vil få en $$\chi^2$$-teststørrelse som er så høj (eller højere) som vi har fået. Derfor kan vi være fristet til at påstå, at der er noget galt med terningen, men vi kan ikke vide det. Påstår vi den er skæv og det viser sig den er fair kaldes det en fejl af type 1. Vi kunne også påstå at terningen var fair, og det viste sig at den rent faktisk var skæv. Det kaldes en fejl af type 2. Vi husker, at nulhypotesen $$H_0$$ var at terningen var fair. Vi har altså:

Det er nu vores signifikansniveau $$\alpha$$ kommer i spil. Vi husker at vi valgte et signifikansniveau på $$\alpha=5\%$$ og nu er vi klar til at forklare betydningen af dette. Signifikansniveauet markerer grænsen mellem hvor vi forkaster $$H_0.$$

Får vi en $$p$$-værdi der er mindre end eller lig med signifikansniveauet forkaster vi $$H_0$$ og accepterer $$H_1$$.

Da vi fik en $$p$$-værdi på 15,62% og $$15{,}62\%>5\%$$ forkaster vi ikke $$H_0$$. Altså vi har ikke grund til at tro at terningen er falsk.

Så vi bruger signifikansniveauet til at afgøre om vi skal forkaste $$H_0$$. Mere præcist:

Signifikansniveauet er risikoen for at begå en fejl af type 1.

Øvelse 6 (Den er for svær - spring den over)

📌
Forklar hvorfor signifikansniveauet er risikoen for at begå en fejl af type 1.

En fejl af type 1 betyder at vi forkaster en sand nulhypotese. Antag at nulhypotesen er sand og at signifikansniveauet er 5%. Får vi en $$p$$-værdi på f.eks. 3% betyder det, at afvigelserne mellem det forventede og observerede er så store at de kun vil forkomme i 3% af tilfældene. Vi forkaster hver gang $$p$$-værdien er under signifikansnivauet altså 5%. Dvs. vi forkaster hver gang de observerede værdier er mindre en 5% sandsynlige og det vil de selvfølgeligt være i 5% af tilfældene. Altså vil vil fejlagtigt forkaste nulhyposen i 5% af tilfældene. Dvs. signifikansniveauet er sandsynligheden for at begå en fejl af type 1.

Øvelse 7

📌

Vi vender tilbage til møntkast-testen i øvelse 1 og 2.

  1. Afgør om vi med et signifikansniveau på 1% skal forkaste $$H_0.$$

    Vi forkaster $$H_0$$ og accepterer $$H_1$$

  2. Er der lige stor sandsynlighed for plat og krone på denne mønt?

    Det er der ikke.

Sammenfatning

For at lave en goodnes-of-fit test skal vi altså gøre følgende:

  1. Opstille $$H_0$$, $$H_1$$ og fastlægge signifikansniveauet $$\alpha$$.
  2. Bestemme de forventede værdier.
  3. Udregne $$\chi^2$$-teststørrelse og bestemme $$p$$-værdien.
  4. Sammenligne $$p$$-værdien med $$\alpha$$ og vurdere om vi skal forkaste $$H_0$$.

Øvelse 8

📌

Vi kaster en terning 60 gange og får følgende resultater:

Antal øjne Observeret Hyppighed
1 2
2 7
3 11
4 9
5 13
6 18

Du skal nu undersøge om terningen er fair. Vi sætter $$\alpha$$ til 3%.

  1. Opstil $$H_0$$, $$H_1$$.

    $$H_0$$: Terningen er fair. $$H_1$$: terningen er falsk.

  2. Bestem de forventede hyppigheder.

    Vi forventer 10 af hvert antal øjne.

  3. Udregne $$\chi^2$$-teststørrelse og bestem $$p$$-værdien.

    $$\chi^2=14{,}8$$ og $$p=1{,}13\%$$

  4. Afgør om $$H_0$$ skal forkastes.

    Vi forkaster $$H_0$$ og accepterer $$H_1$$.

  5. Er terningen fair?

    Nope.

Øvelse 9

📌

Vi kaster en mønt 100 gange og får følgede resultat:

Plat/Krone Observerede hyppigheder
Plat 39
Krone 61

Vi vil gerne undersøge om der er lige stor sandsynlighed for plat og krone ved et enkelt kast med mønten. Vi sætter $$\alpha=5\%$$.

  1. Opstil $$H_0$$, $$H_1$$.

    $$H_0$$: Der er lige stor sandsynlighed for plat og krone. $$H_1$$: Der er ikke lige stor sandsynlighed for plat og krone.

  2. Bestem de forventede hyppigheder.

    Vi forventer 50 plat og 50 krone

  3. Udregne $$\chi^2$$-teststørrelse og bestem $$p$$-værdien.

    $$\chi^2=4{,}84$$. $$p=2{,}78\%$$

  4. Afgør om $$H_0$$ skal forkastes.

    Vi forkaster $$H_0$$ og accepterer $$H_1$$.

  5. Er der lige stor sandsynlighed for plat og krone?

    Nope.

  6. Hvad nu hvis $$\alpha$$ havde været 1%. Var testen så faldet anderledes ud?

    Ja, i så fald havde vi ikke forkastet $$H_0$$.

Eksempel 1

📌

Indtil videre har vi kun lavet $$\chi^2$$-test på observationer, hvor vi forventede en "ligefordeling" dvs. vi forventer lige mange af hver observation. Det behøver dog ikke at være sådan. Antag vi laver en undersøgelse, hvor vi spørger 200 personer om dit bedst kan lide "Produkt A", "Produkt B" eller "Produkt "C". Det kan være at vi ved fra en tidligere undersøgelse at 50% foretrækker "Produkt A" og kun 25% foretrækker "Produkt B" og "Produkt C". Vores nulhypotese vil så være, at stikprøven stemmer overens med den tidligere undersøgelse. Det giver os følgende forventninger til hyppighederne:

Produkt Forventet hyppighed
A 50% af 200 = 100
B 25% af 200 = 50
C 25% af 200 = 50

Resten af testen kan så gennemføres som i de andre eksempler.

Øvelse 10

📌

Antag at stikprøven fra eksempel 1 gav følgende resultat:

Produkt Observeret hyppighed
A 123
B 42
C 35
Gennefør en $$\chi^2$$-test, hvor du selv vælger et signifikansniveau og afgør om stikprøven er i overensstemmelse med forventningerne.

Stikprøven er ikke i overenstemmese med forventningerne. Selv med et signifikansniveau på 1% forkaster vi nulhypotesen.