Deskriptorer for diskrete observationer
Som antydet i indledningen til kapitlet, er en deskriptor et tal der beskriver vores observationer. Den mest velkendte deskriptor er gennemsnittet, men måske har du også hørt om f.eks. typetallet eller medianen?
Deskriptorerne deles op i to typer. Der er positionsmål og spredningsmål.
Positionsmålene fortæller om hvor store observationerne er. Gennemsnittet er f.eks. et positionsmål. Har eleverne i en klasse et godt gennemsnit er det fordi klassen generelt har fået pæne karakterer.
Spredningsmålene fortæller os noget om hvor spredte observationerne er. Har eleverne et pænt gennemsnit, kan det være fordi de alle sammen har fået 7 eller 10, eller det kan være fordi der er masse der har fået 12 men også nogle der er dumpet. I det første tilfælde vil vi have lave spredningsmål, og i det andet vil vi have høje.
Vi vil nu fortsætte med det eksempel vi startede på i sidste afsnit. Altså karaktererne i skemaet:
Observation $$(x_i)\quad$$ | Hyppighed $$(h_i)\quad$$ | Frekvens $$(f_i)\quad$$ | Summeret frekvens $$(F_i)\quad$$ |
---|---|---|---|
$$0$$ | $$2$$ | $$0{,}143$$ | $$0{,}143$$ |
$$2$$ | $$2$$ | $$0{,}143$$ | $$0{,}286$$ |
$$4$$ | $$1$$ | $$0{,}071$$ | $$0{,}357$$ |
$$7$$ | $$6$$ | $$0{,}429$$ | $$0{,}786$$ |
$$10$$ | $$2$$ | $$0{,}143$$ | $$0{,}929$$ |
$$12$$ | $$1$$ | $$0{,}071$$ | $$0{,}1$$ |
Positionsmål
Gennemsnit
Gennemsnittet vil vi betegne med $$\bar{x}$$ og det fås ved at lægge observationerne sammen og dividere med antallet af observationer. Så for vores eksempel ser det således ud $$$\bar{x}=\frac{7+7+12+10+0+7+0+7+7+2+4+10+2+7}{14}=5{,}86$$$
Har vi hyppighederne for de forskellige observationer kan vi faktisk gøre det lidt nemmere: $$$\bar{x}=\frac{2\cdot0+2\cdot 2+1\cdot 4+6\cdot 7+2\cdot 10+1\cdot 12}{14}=5{,}86.$$$ Gennemsnittet kaldes også middeltallet eller middelværdien.
Øvelse 1 (svær)
Oven over er der vist to metoder til at finde gennemsnittet.
Forklar hvad der sker i den sidste metode, og hvorfor den giver det samme som den første.
Vi snakker om det i klassen.
Vi vil nu præsentere en sætning. I matematik betyder "sætning" en "rigtig påstand". De sætninger vi kigger på vil typisk indeholde en formel som kan bruges til at regne en størrelse vi har introduceret tidligere. Vi skal nu se på en sætning der kan bruges til at beregne gennemsnittet.
Sætning 1
Gennemsnittet $$\bar{x}$$ kan bestemmes ved følgende formel: $$$\bar{x}=x_1\cdot f_1+x_2\cdot f_2+\cdots+x_k\cdot f_k,$$$ hvor $$x_1,x_2,\ldots,x_k$$ er de forskellige observationer og $$f_1,f_2,\ldots,f_k$$ er de tilhørende frekvenser.
Eksempel 1
Lad os sige at vi har følgende data
Obs. $$(x_i)\quad$$ | Frekvens $$(f_i)$$ |
---|---|
$$0$$ | $$0{,}45$$ |
$$5$$ | $$0{,}55$$ |
Vi kan nu finde gennemsnittet ved at bruge sætning 1:
\begin{align} \bar{x} &= x_1\cdot f_1+x_2\cdot f_2 \\ &= 0\cdot 0{,}45 + 5 \cdot 0{,}55 \\ &= 2{,}75 \end{align}
Altså gennemsnittet er 2,75.
Øvelse 2
Betragt skemaet
Obs. $$(x_i)\quad$$ | Frekvens $$(f_i)$$ |
---|---|
$$4$$ | $$0{,}25$$ |
$$8$$ | $$0{,}5$$ |
$$20$$ | $$0{,}25$$ |
Beregn gennemsnittet
$$\bar{x}=10$$
Typetal
Typetallet er den observation der optræder flest gange. I vores tilfælde er det $$7$$ der er den mest hyppige karakter. Er der flere observationer der er lige hyppige, er der flere typetal.
Medianen
Median er desværre ikke noget helt entydigt begreb, hvilket betyder, at der findes forskellige metoder til at finde den, og at de ikke altid giver det samme. De giver dog nogenlunde det samme og har samme fortolkning, nemlig midten af observationssættet. Med "midten" mener vi det tal vi får hvis vi stiller observationerne op i rækkefølge og vægler det midterste.
På mathhx er medianen det samme som 50%-fraktilen og findes derfor ved at tage den første observation der har en summeret frekvens på mere end $$0{,}5$$. Medianen for vores eksempel er $$7$$ fordi det er den første karakter med en summeret frekvens på over $$0{,}5$$:
Øvelse 3 (svær)
Forklar hvorfor $$50\%$$-fraktilen kan fortolkes som midten af observationssættet.
Spørg mig!
Kvartilsættet
Kvartilsættet består af $$25\%$$-fraktilen, $$50\%$$-fraktilen og $$75\%$$-fraktilen. Man kalder $$25\%$$-fraktilen for den nedre kvartil (eller $$25\%$$-kvartilen), $$50\%$$-fraktilen hedder som nævnt også medianen og $$75\%$$-fraktilen kalder man for den øvre kvartil (eller $$75\%$$-kvartilen).
Øvelse 4
Bestem $$25\%$$-kvartilen og $$75\%$$-kvartilen for vores eksempel.
$$25\%$$-kvartilen er $$2$$ og $$75\%$$-kvartilen er $$7$$.
Man opskriver kvartilsættet på følgende måde: (nedre, median, øvre). For vores eksempel er kvartilsættet altså: $$$(2,7,7)$$$
Kvartilsættet kan fortolkes på følgende måde: Stiller man alle observationerne i rækkefølge og deler man dem i 4 lige store dele, vil kvartilsættet angive grænserne hvor opdelingen er. For vores observationer ser det således ud: 0,0,2,2,4,7,7,7,7,7,7,10,10,12. Som vi kan se markerer kvartilerne begyndelsen til den næste fjerdedel af observationerne.
Øvelse 5 (svær)
Forklar hvorfor overstående fortolkning af kvartilsættet er rigtig.
Spørg mig!
Spredningsmål
Variationsbredden
Spredningsmål er til for at beskrive hvor spredt observationerne ligger. Her er det umiddelbart oplagt at finde ud af hvor langt der er fra den laveste observation til den højeste. Dette kaldes variationsbredden. Man finder den altså ved at sige:$$$\textrm{Størsteværdi - Mindsteværdi}$$$ I vores eksempel er variationsbredden: $$$12-00=12.$$$ Der er altså $$12$$ imellem den laveste karater og den højeste.
Øvelse 6 (svær)
Diskuter fordele og ulemper ved at bruge variationsbredden som spredningsmål. Overvej hvorvidt den giver et godt billede af hvor spredte observationerne er.
Vi snakker om det i klassen.
Kvartilafstand
Kvartilafstanden bestemmes på følgende måde: $$$\textrm{øvre kvartil}-\textrm{nedre kvartil}$$$
I vores tilfælde er kvartilafstanden: $$$7-2=5.$$$
Øvelse 7 (svær)
Diskuter fordele og ulemper ved at bruge kvartilafstanden som spredningsmål. Overvej hvorvidt den giver et godt billede af hvor spredte observationerne er.
Spørg mig.
Varians
De spredningsmål vi har kigget på indtil videre har desværre visse begrænsninger. Hovedproblemet med variationsbredde og kvartilafstand er at de ikke afhænger af alle observationerne. Variationsbredden afhænger f.eks. kun af yderobservationerne og kvartilafstanden afhænger slet ikke af yderobservationerne. Vi skal nu se på et spredningsmål som tager højde for alle observationerne på en gang. Det er desværre også det mest besværlige at beregne og fortolke. Vi regner variansen på følgende måde: $$$s^2=(x_1-\bar{x})^2\cdot f_1+(x_2-\bar{x})^2\cdot f_2+(x_3-\bar{x})^2\cdot f_3+\cdots+(x_k-\bar{x})^2\cdot f_k.$$$ Her betegner $$s^2$$ variansen $$x_1,x_2,x_3\ldots x_k$$ alle de forskellige observationer og $$f_1,f_2,f_3\ldots f_k$$ betegner de tilhørende frekvenser. I vores eksempel bliver variansen:
\begin{align}&s^2=(0-5{,}8571)^2\cdot 0{,}1428+(2-5{,}8571)^2\cdot 0{,}1428+(4-5{,}8571)^2\cdot 0{,}0714\\&+(7-5{,}8571)^2\cdot 0{,}4286+(10-5{,}8571)^2\cdot 0{,}1428+(12-5{,}8571)^2\cdot 0{,}0714\\&=12{,}98\end{align}
Det er lidt teknisk at komme med en præcis fortolkning af variansen, så det vil vi undlade i første omgang. Men kigger man på selve regnestykket, er det klart for den kvikke elev at variansen bliver stor når observationernerne ligger langt fra gennemsnittet. Så et observationssæt med en stor spredning i observationerne vil have en høj varians. I praksis vil vi bruge variansen som en mellemregning til at finde standardafvigelsen som vi skal se på nu.
Standardafvigelse
Ligesom at gennemsnittet er det mest velkendte positionsmål er standardafvigelsen det mest almindelige spredningsmål. Standardafvigelsen kaldes også spredningen.
Man betegner standardafvigelsen med $$s$$ og finder den ved at tage kvadratroden af variansen. Altså: $$$s=\sqrt{s^2}.$$$ I vores eksempel får vi $$$s=\sqrt{12{,}9796}=3{,}60.$$$
Standardafvigelsen viser hvor langt observationerner sådan ca. ligger fra gennemsnittet. De observationer der ligger længst væk i vores eksempel er $$12$$. Afstanden fra $$12$$ til gennemsnittet er $$12-5{,}86=6{,}14$$. Omvendt er der også observationerne der ligger tæt på. Vi har f.eks. en masse $$7$$-taller der kun afviger fra gennemsnittet med $$7-5{,}86=1{,}14$$. Vi kan se at standardafvigelsen på $$3{,}60$$ ligger pænt imellem de to tal.
Man kan tænke på standardafvigelsen som den gennemsnitlige afvigelse fra gennemsnittet. Dette er dog ikke helt korrekt, men i de fleste praktiske situationer vil det være en fin måde at fortolke den på. Den helt korrekte (og temmelig svære) beskrivelse af standardafvigelsen er "kvadratroden af den gennemsnitlige kvadratiske afvigelse fra gennemsnittet".
Øvelse 8
Vi vender tilbage til klassen der fik karakterne: 00,4,7,7.
-
Bestem gennemsnit, median, kvartilsæt og typetal.
Gennemsnittet er $$\bar{x}=4{,}5$$, medianen er $$4$$, kvartilsættet er $$(0,4,7)$$ og typetallet er $$7$$.
-
Bestem variationsbredde, kvartilafstand, varians og standardafvigelse.
Variationsbredden er $$7$$, kvartilafstanden er $$7$$ og variansen er $$s^2=8{,}25$$ og standardafvigelsen er $$s=2{,}87$$.
Øvelse 9 (svær)
Vi kigger på et observationssæt som består af tallene $$1,2,3,4,5,6,7,8,9,10$$
-
Bestem gennemsnittet.
Gennemsnittet er $$5{,}5$$.
-
Med hvor meget afviger observationen 2 fra gennemsnittet?
$$3{,}5$$
-
Bestem alle afvigelserne fra gennemsnittet (ligesome du gjorde med 2 ovenover).
...
-
Bestem den gennemsnitlige afvigelse fra gennemsnittet.
$$2{,}5$$
-
Ud fra dine svar skal du komme med et bud på standardafvigelsen.
$$2{,}5$$, da vi jo tænker på standardafvigelsen som den gennemsnitlige afvigelse. Beregner man standardafvigelsen får ma $$2{,}9$$).
Øvelse 10 (svær)
Betragt observationssættet $$-100,-80,-50,-20,0,20,50,80,100$$.
Kom med et bud på standardafvigelsen - altså bare ved at kigge på tallene (ingen udregninger).
Tjooo den kunne se ud til at være omkring 50 (den er faktisk 65).