Test for uafhængighed
En $$\chi^2$$-test for uafhængighed er en $$\chi^2$$-test, hvor man undersøger om der er sammenhæng mellem observationer i to kategorier. Som eksempel vil vi nu undersøge om der er forskel på mænd og kvinder når der skal spises kage! Eller sagt på en anden måde, om der er sammenhæng mellem køn og yndlingskage.
Den første kategori består af to muligheder "Mand" og "Kvinde" og den anden kategori vælger vi til at bestå af "Drømmekage", Chokoladekage" og "Anden kage".
Vi laver en undersøgelse og resultatet fremgår af følgende pivottabel:
Det første vi bemærker er, at der er lige lovligt få observationer. En tommelfingeregel siger at der skal være minimum 5 i hver celle når man har beregnet de forventede observationer, så den går lige.
Testen foregår på tilsvarende måde som en goodness-of-fit test. Dvs. vi har først brug for at fastlægge et signifikansniveau. Vi vælger 5%. Derefter opstiller vi vores hypoteser:
$$H_0$$: Der ingen sammenhæng mellem køn og yndlingskage.
$$H_1$$: Der er sammenhæng mellem køn og yndlingskage.
Derefter skal vi beregne de forventede værdier. Det gør vi ved at benytte følgende formel: $$$\frac{\textrm{rækkesum}\cdot \textrm{kolonnesum}}{\textrm{totalsum}}$$$
Så skal vi f.eks. beregne det forventede antal mænd som bedst kan lide chokoladekage gør vi følgende:
Altså: $$$\frac{25\cdot 33}{55}=15.$$$ Vi skriver alle de forventede værdier ind:
Vi skal så finde $$\chi^2$$-teststørrelsen. Vi bruger igen formlen: $$$\frac{(\textrm{observeret hyppigehed} - \textrm{forventet hyppigehed})^2}{\textrm{forventet hyppigehed.}}$$$
Vi får: \begin{align}\chi^2 & = \frac{(13-10{,}8)^2}{10{,}8}+\frac{(5-7{,}2)^2}{7{,}2}+\frac{(14-15)^2}{15}\\& + \frac{(11-10)^2}{10}+\frac{(6-7{,}2)^2}{7{,}2}+\frac{(6-4{,}8)^2}{4{,}8}=1{,}79\end{align}
Vi skal nu finde antallet af frihedsgrader. Vi husker, at antallet af frihedsgrader er det antal observerede hyppigheder vi skal kende for at regne resten af de observerede hyppigeheder ud. Når man har observationer i to kategorier bliver formlen: $$$(\textrm{antal rækker} -1)(\textrm{antal søjler -1}).$$$ I vores tilfælde bliver antallet af frihedsgrader altså $$(3-1)(2-1)=2$$. Nu har vi både antallet af frihedsgrader og $$\chi^2$$-teststørrelsen og derfor kan vi nu finde $$p$$-værdien. Den finder vi i Geogebra:
Altså har vi en $$p$$-værdi på 0.41=41%. Da vi har et signifikansniveau på 5%, vil vi hermed ikke forkaste nulhypotesen. Altså kan vi konkluderer at vi ikke kan påvise nogen sammenhæng mellem køn og yndlingskage. Dette betyder ikke, at der ikke er nogen sammenhæng, det betyder bare at vi ikke kan påvise nogen sammenhæng ud fra de data vi har indsamlet.
Øvelse 1
En gruppe elever i 2vw (2014) lavede en undersøgelse, hvor de spurgte til om man var til Carlsberg eller Turborg. Resultatet ses her:
I skal nu lave en $$\chi^2$$-test hvor I undersøger med et 5% signifikansniveau om der er sammenhæng mellem køn og yndlingsøl. Altså:
-
Opstil nulhypotesen og den alternative hypotese.
$$H_0$$: Der er ingen sammenhæng mellem køn og yndlingsøl.
$$H_1$$: Der er sammenhæng mellem køn og yndlingsøl. -
Beregn de forventede værdier.
-
Bestem $$\chi^2$$-teststørrelsen.
$$\chi^2=0{,}0322$$
-
Bestem antallet af frihedsgrader.
Der er 1 frihedsgrad.
-
Bestem $$p$$-værdien.
$$p=0{,}8575$$.
-
Afgør om vi skal forkaste nulhypotesen.
Vi forkaster ikke.
-
Afgør om der er sammenhæng mellem køn og yndlingsøl.
Vi kan ikke påvise nogen sammenhæng mellem køn og yndlingsøl
-
Når du kigger på de observerede hyppigheder er du så overrasket over testens resultat?
Det er ingen overraskelse. De observerede hyppigheder kunne ikke være mere lige fordelt!
Øvelse 2
Haha snydt igen... Der er ingen øvelse her.
Øvelse 3
På rideskolerne "De bedste heste" og "Ponyklubben" blev der lavet en undersøgelse, hvor medlemmerne blev spurgt til deres favoritdisciplin. Resultatet kan ses i her.
Test på et 10% signifikansniveau om der er sammenhæng mellem rideskole og favoritdisciplin.
Yes der er sammenhæng ($$p=9{,}02\%$$). På "De bedste heste" er de ikke så glade for dressur som i Ponyklubben.