Konfindensintevaller uden computer

Normalfordeling med kendt standardafvigelse

(Dette afsnit kan springes over, hvis man kæmper lidt med matematikken)

Man kan bestemme konfidensintervaller uden at bruge en computer. Vi vil starte med at se på en situation hvor vi kender standardafvigelsen. I nedenstående sætning finder vi en formel til formålet. Efter sætningen vil vi se nærmere på hvad de enkelte elementer i sætningen betyder.

Sætning 1

📌

Hvis standardafvigelsen er kendt, bestemmes et konfidensinterval $$I$$ for middelværdien i en normalfordeling ved formlen: $$$I=\left[\bar{x}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\bar{x}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]$$$

Her er:

$$n$$ Stikprøvens størrelse
$$\bar{x}$$ Gennemsnittet af stikprøven
$$\sigma$$ Standardafvigelsen
$$\alpha$$ Signifikansniveauet som decimaltal
$$z_{1-\frac{\alpha}{2}}$$ $$\left(1-\frac{\alpha}{2}\right)$$-fraktilen i standardnormalfordelingen. Forklaring følger!

I konfindensintervalsformlen indgår der fraktiler for standardnormalfordelingen. Vi skal til sidst i dette afsnit se på hvad det betyder, men til at starte med vil vi bare slå dem op i en tabel.

Tabel for fraktiler i standardnormalfordelingen

$$\alpha$$ $$z_{1-\frac{\alpha}{2}}$$
1% 2,58
5% 1,96
10% 1,64

Vi regner et eksempel:

Eksempel 1

📌

Vi vil bestemme et 95%-konfidensinterval for en stikprøve med kendt standardafvigelse. Stikprøven har en størrelse på 200, et gennemsnit på 1000 og en standardafvigelse på 30. Vi har altså:

$$n$$ 200
$$\bar{x}$$ 1000
$$\sigma$$ 30
$$\alpha$$ 0,05

Vi slår $$z_{1-\frac{\alpha}{2}}$$ op i tabellen og får den til 1,96.

Vi skal nu sætte ind i formlen

$$$I=\left[\bar{x}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\bar{x}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]$$$

så det gør vi og får

$$$I=\left[1000-1{,}96\cdot\frac{30}{\sqrt{200}};1000+1{,}96\cdot\frac{30}{\sqrt{200}}\right]$$$

Vi taster hele pivetøjet ind på en lommeregner og får:

$$$I=[996;1004]$$$

Øvelse 1

📌

Vi ser på en stikprøve fra en normalfordelt population. Vi har 500 observationer, et gennemsnit på 20 og en standardafvigelse på 5.

Bestem uden Geogebra et 90%-konfidensinterval for middelværdien.

$$[19{,}63;20{,}37]$$. Måske får du ikke præcis det. Hvis du får noget tæt på er det nok fordi det er afrundede værdier i tabellen.

Forklaring af fraktiler i standardnormalfordeling

Standardnormalfordelingen er bare et andet ord for den normalfordeling som har en middelværdi på 0 og en standardafvigelse på 1. Altså $$N(0,1)$$.

En $$p$$-fraktil er en værdi $$x$$ således at $$P(X\leq x)=p$$. Det er nemmest at forstå ved at se på et eksempel.

Eksempel 2

📌

Vi vil finde $$0{,}2$$-fraktilen i standardnormalfordelingen. Vi taster N(0,1) ind i Geogebra og vælger den venstre intervalknap (se markering på tegning). Vi skriver $$0{,}2$$ ind der hvor sandsynligheden står:

Screenshot

Vi ser at $$0{,}2$$-fraktilen er $$-0{,}8416$$.

Øvelse 2

📌

Denne øvelse går ud på at tjekke fraktilerne i tabelllen:

$$\alpha$$ $$z_{1-\frac{\alpha}{2}}$$
1% 2,58
5% 1,96
10% 1,64
  1. Bestem $$1-\frac{\alpha}{2}$$ for hver af de 3 $$\alpha$$-værdier.

    0,995, 0,975 og 0,95

  2. Bestem de tilhørende fraktiler.

    De giver det der står i skemaet sæføli.

Øvelse 3

📌
Bestem et 80% konfidensinterval for middelværdien i en normalfordeling, hvor stikprøvestørrelsen er 150, gennemsnittet er 50 og standardafvigelsen er 10.

[49;51]

Normalfordeling med ukendt standardafvigelse

Vi kan bestemme et konfindensinterval for middelværdien i en normalfordeling med ukendt standardafvigelse på næsten samme måde:

Sætning 2

📌

Hvis standardafvigelsen er ukendt, bestemmes et konfidensinterval $$I$$ ved formlen: $$$I=\left[\bar{x}-t_{1-\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}};\bar{x}+t_{1-\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}}\right]$$$

Her er:

$$n$$ Stikprøvens størrelse
$$\bar{x}$$ Gennemsnittet af stikprøven
$$s$$ Estimat af standardafvigelsen
$$\alpha$$ Signifikansniveauet som decimaltal
$$t_{1-\frac{\alpha}{2}}$$ $$\left(1-\frac{\alpha}{2}\right)$$-fraktilen i $$t$$-fordeling med $$n-1$$ frihedsgrader. Forklaring følger!

Vi kan se at den ligner sætning 1 meget. Den eneste forskel er at der står $$t_{1-\frac{\alpha}{2}}$$ i stedet for $$z_{1-\frac{\alpha}{2}}$$. Det betyder at det ikke længere er standardnormalfordelingen vi skal finde fraktilerne i men i stedet for skal vi have fat i en fordeling der hedder $$t$$-fordelingen... eller faktisk... vi skal have fat i en bestemt $$t$$-fordeling. Der findes nemlig uendelig mange $$t$$-fordelinger - en for hver frihedshedsgrad. Vi skal ikke komme nærmere ind på hvad frihedsgrader er, men det er et begreb vi også vil støde på senere. Indtil videre er det nok at vide at en frihedsgrad er et helt positivt tal (1,2,3,4...) og at der til enhver frihedsgrad er knyttet en $$t$$-fordeling.

I Geogebra finder vi $$t$$-fordelingen. Frihedsgraderne hedder "df" ("degrees of freedom" står det for vist nok):

Screenshot

Øvelse 4

📌

Vi kan se på screenshottet at $$t$$-fordelingen ligner normalfordelingen, men...

  1. Hvad ser anderledes ud i forhold til en normalfordeling?

    Den er mere spids i toppen og den er langsommere om at flade ud

  2. Prøv at skrive 100 som frihedsgrader. Kommer den tættere på normalfordelingen?

    Ja for fa'en. Man kan ikke se forskel. Vildt nok.

Øvelse 5

📌

Vi vil bestemme et 90%-konfidensinterval for middelværdien i en normalfordeling, hvor vi ikke kender standardafvigelsen. Stikprøvestørrelsen er 50, et estimat af standardafvigelsen er 800 og gennemsnittet er 5000.

  1. Bestem $$t_{1-\frac{\alpha}{2}}$$ i Geogebra

    1,6766

  2. Bestem konfidensintervallet ved at bruge resultatet fra 1, men ellers uden at bruge computeren.

    [4810;5190]

Det kan virke lidt fjollet at vi bruger Geogebra så meget i et afsnit som hedder "uden computer", men det er fordi der ikke lige er nogen nem måde at bestemme fraktilerne på. Da jeg gik i skole brugte vi tabeller, men det er der ingen læringsmæssig fordel ved, så derfor bruger vi Geogebra.

Øvelse 6

📌

Vi har set at når vi har høje frihedsgrader ligner t-fordelingen normalfordelingen på en prik. Brug dette til at argumentere for:

  1. Hvis stikprøven er meget stor kan vi bruge formlen for kendt standardafvigelse selvom vi ikke kender standardafvigelsen.

    Den eneste forskel i formlerne er fraktilerne og de vil være ens hvis fordelingerne er ens.

  2. At dette ikke er så overaskende.

    Det er ikke overraskende, da estimatet af standardafvigelsen vil komme tættere på den rigtige standardafvigelse, jo større stikprøven er.

Konfidensintervaller for sandsynlighedsparameteren i en binomialfordeling

Der er også en formel for konfidensintervaller for $$p$$ i en binomialfordeling:

Sætning 3

📌

Hvis $$n>30$$ og $$p$$ ikker er meget stor eller meget lille kan et konfidensinterval $$I$$ for sandsynlighedsparameteren $$p$$ i en binomialfordeling bestemmes ved formlen: $$$I=\left[\hat{p}-z_{1-\frac{\alpha}{2}}\cdot\sqrt\frac{\hat{p}(1-\hat{p})}{n};\hat{p}+z_{1-\frac{\alpha}{2}}\cdot\sqrt\frac{\hat{p}(1-\hat{p})}{n}\right]$$$

Her er :

$$n$$ Stikprøvens størrelse
$$\hat{p}$$ Estimat af sandsynlighedsparameteren $$p$$. Forklaring følger!
$$\alpha$$ Signifikansniveauet som decimaltal
$$z_{1-\frac{\alpha}{2}}$$ $$\left(1-\frac{\alpha}{2}\right)$$-fraktilen i standardnormalfordelingen.

I formlen indgår et estimat $$\hat{p}$$ af $$p$$. Det er nemt at bestemme sådan et. Er stikprøvestørrelsen $$n$$ får vi: $$$\hat{p}=\frac{\textrm{antal successer}}{n}.$$$

Eksempel 3

📌

Vi laver en grim terning i ler og vil gerne bestemme sandsynligheden for at den slår en 6'er. Vi slår 100 gange med terningen og i 21 tilfælde får vi en 6'er. Derfor er: $$$\hat{p}=\frac{\textrm{Antal successer}}{n}=\frac{21}{100}=0{,}21$$$

Man kan undre sig over hvad fraktiler for en normalfordeling laver i en formel for konfidensintervaller for en binomialfordeling. De dukker op fordi binomialfordelingen nærmer sig en normalfordeling under når $$n$$ er stor og $$p$$ ikker er meget stor eller meget lille. Måske har du lagt mærke til at binomialfordeling i visse tilfælde ligner en normalfordeling når du bruger sandsynlighedsregneren i Geogebra?

Øvelse 7

📌

Mor Jette læser eksempel 3 og synes det er så spændende at hun selv vil prøve. Men bare for at være anderledes laver hun en mønt ud af ler og kaster den 80 gange. Hun får 34 plat. Hun vil nu gerne bestemme et konfidensinterval

  1. Bestem $$\hat{p}$$.

    $$\hat{p}=0{,}=425$$.

  2. Bestem uden computer et 95%-konfidensinterval for $$p$$

    $$[0{,}32;0{,}53]$$

  3. Mor Jette mener at mønten er fair, men Jessica Priscilla tror ikke på hende. De bliver enige om at spørge dig. Hvad siger du til dem?

    Det er ikke til at vide, men da $$0{,}5\in[0{,}32;0{,}53]$$ kan vi ikke afvise at mønten er fair.

Udledning af konfidensinterval for middelværdien i en normalfordeling med kendt standardafvigelse

Vi slutter dette afsnit af med at vende tilbage til konfidensintervaller for middelværdien i en normalfordeling med kendt standardafvigelse. Denne gang vil vi udlede formlen. Altså:

$$$I=\left[\bar{x}-z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}};\bar{x}+z_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right]$$$

For at gøre det mere konkret kigger vi på den situation hvor $$\alpha$$ er 5% og vi har derfor at $$z_{1-\frac{\alpha}{2}}=1{,}96$$. Vi skal altså vise at:

$$$I=\left[\bar{x}-1{,}96\cdot\frac{\sigma}{\sqrt{n}};\bar{x}+1{,}96\cdot\frac{\sigma}{\sqrt{n}}\right]$$$

For at kunne udlede formlen har vi brug for nogle indledende betragtninger.

Forudsætning 0

Vi har lært at et konfidensinterval er et interval omkring stikprøvens gennemsnit der med 95%-sandsynlighed indeholder populationens middelværdi. For at kunne udlede en formel for sådan et interval er vi nødt til at præcisere hvad vi mener med det. Det kunne forståes som om der er 95% sandsynlighed for at populationens middelværdi ligger i et konkret konfidensinterval, men populations middelværdi er ikke en stokastisk variabel. Det er et fast tal så har man et konkret interval så vil sandsynligheden for at middelværdien ligger i intervallet enten 0% eller 100%.

...Såååå det vi mener er, at hver gang vi laver en stikprøve og et tilhørende konfidensinterval, så er der 95% sandsynlighed for at intervallet vil komme til at indeholde populationens middelværdi.

Forudsætning 1

Vi husker:

68-95-99,7-reglen

📌

For en normalfordelt stokastisk variabel $$X\sim N(\mu,\sigma)$$ gælder følgende:

Sandsynligheden for at $$X$$ ligger indenfor en afstand af $$1\sigma$$ fra $$\mu$$ er 68%.
Sandsynligheden for at $$X$$ ligger indenfor en afstand af $$2\sigma$$ fra $$\mu$$ er 95%.
Sandsynligheden for at $$X$$ ligger indenfor en afstand af $$3\sigma$$ fra $$\mu$$ er 99,7%.

Tallene i reglen er afrundede, så når der står at "Sandsynligheden for at $$X$$ ligger indenfor en afstand af $$2\sigma$$ fra $$\mu$$ er 95%" så er det rigtige tal faktisk 95,4%. Vil man have 95% mere præcist skal man gå 1,96 standardafvigelser ud. Altså er: $$$P(\mu-1{,}96\sigma\leq X\leq \mu+1{,}96\sigma)= 95\%$$$

Forudsætning 2

Hvis $$X\sim N(\mu,\sigma)$$ og vi laver en stikprøve så er stikprøvens gennemsnit selv en stokastisk variabel som er normalfordeling $$\bar{X}\sim N(\mu,\frac{\sigma}{\sqrt{n}})$$. Vi kan desværre ikke bevise dette da det kræver for meget. I stedet vil vi se på et eksempel for bedre at forstå hvad det betyder:

Eksempel 4

📌

Kigger vi på højden i cm af voksne mænd i Danmark er den ca. normalfordelt med $$X\sim N(180,7)$$ Hvis vi laver en stikprøve på 100 voksne mænd, vil vi få forskelligt gennemsnit, hver gang vi laver stikprøven. Det kan være at gennemsnitshøjden for de første 100 mænd vi spørger er 182, de næste 100 en gennemsnitshøjde på 179, næste 10 en gennemsnitshøjde på 181 osv. Altså er gennemsnitshøjden en stokastisk variabel $$\bar{X}$$. Denne stokastiske variable $$\bar{X}$$ er normalfordelt: $$$\bar{X}\sim N(180,\frac{7}{\sqrt{100}})$$$ altså $$$\bar{X}\sim N(180;{0{,}7})$$$

Vi konkluderer at gennemsnitshøjden i en stikprøve med 100 voksne mænd er normalfordelt med middelværdi 180 og standardafvigelse 0,7.

Vi ser af formlen $$\bar{X}\sim N(\mu,\frac{\sigma}{\sqrt{n}})$$ at jo større stikprøven er jo mindre bliver standardafvigelsen for stikprøvens gennemsnit. Det giver god mening fordi en stor stikprøve altid vil have et gennemsnit tæt på populationens gennemsnit.

Udledning

Fra forudsætning 1 ved vi at hvis vi har en normal fordelt stokastisk variabel $$X\sim N(\mu,\sigma)$$ så er $$$P(\mu-1{,}96\sigma\leq X\leq \mu+1{,}96\sigma)= 95\%$$$

Fra forudsætning 2 ved vi at gennemsnittet for en stikprøve $$\bar{X}$$ er normalfordelt $$\bar{X}\sim N(\mu,\frac{\sigma}{\sqrt{n}})$$, så bruger vi forudsætning 1 på $$\bar{X}$$ får vi: $$$P(\mu-1{,}96\frac{\sigma}{\sqrt{n}}\leq \bar{X}\leq \mu+1{,}96\frac{\sigma}{\sqrt{n}})= 95\%$$$

Vi omskriver nu uligheden. Vi starter med at trække $$\bar{X}$$ og $$\mu$$ fra: $$$P(-\bar{X}-1{,}96\frac{\sigma}{\sqrt{n}}\leq -\mu \leq -\bar{X}+1{,}96\frac{\sigma}{\sqrt{n}})= 95\%$$$ Nu ganger vi med $$-1$$ (og husker at vi så skal vende ulighedstegnenene) $$$P(\bar{X}+1{,}96\frac{\sigma}{\sqrt{n}}\geq \mu \geq \bar{X}-1{,}96\frac{\sigma}{\sqrt{n}})= 95\%$$$ Hvilket jo er det samme som: $$$P(\bar{X}-1{,}96\frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X}+1{,}96\frac{\sigma}{\sqrt{n}})= 95\%$$$ Vi træder et skridt tilbage og ser på hvad det betyder. Det betyder at hver gang vi laver en konkret stikprøve så er der 95% chance for at vi får en stikprøve hvis gennemsnit $$\bar{x}$$ opfylder: $$$\bar{x}-1{,}96\frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{x}+1{,}96\frac{\sigma}{\sqrt{n}}$$$ Hvilket er det samme som at sige at der er 95% chance for at vi får en stikprøve som opfylder at populationens middelværdi ligger i intervallet: $$$\left[\bar{x}-1{,}96\frac{\sigma}{\sqrt{n}};\bar{x}+1{,}96\frac{\sigma}{\sqrt{n}}\right]$$$ Hvilket gør det til et 95%-konfidensinterval jvf. forudsætning 0.