Introduktion til diskret statistik

Vi vil tage udgangspunkt i et praktisk eksempel. Vi kigger på karatererne for et MAT/B hold ved skriftlig eksamen 2014. Der blev givet følgende karakterer: $$$7,7,12,10,0,7,0,7,7,2,4,10,2,7.$$$ Disse karakterer vil blive brug som eksempel hele vejen igennem dette kapitel.

Indledende Begreber

Før vi går i gang med de egentlige deskriptorer, skal vi se på nogle indledende begreber.

Observationssæt

Et observationssæt er den samling data der er udgangspunkt for statistikken. I vores tifælde er består observationssættet af karaktererne $$$7,7,12,10,0,7,0,7,7,2,4,10,2,7.$$$ Hver karakter er en observation.

Hyppighed

Hyppigheden er hvor mange gange den enkelte observation optræder i observationssættet. Der er to $$00$$'ere, to $$2$$-taller, et $$4$$-tal, osv. Det kan vi skrive op i et skema:

Observation $$(x_i)\quad$$ Hyppighed $$(h_i)$$
$$0$$ $$2$$
$$2$$ $$2$$
$$4$$ $$1$$
$$7$$ se øvelse 1
$$10$$ $$2$$
$$12$$ $$1$$

Ud fra tabellen kan vi f.eks. se at $$2$$ elever har fået $$10$$. Observationerne betegnes med $$x_i$$ og hyppighederne med $$h_i$$. Det lille $$i$$ kaldes et indeks og bruges til at at indikere hvilken observation der er tale om. F.eks. er $$x_3$$ den tredje observation (4) og $$h_3$$ er den tilhørende hyppighed (1).

Øvelse 1

📌
  1. Hvor mange elever har fået $$7$$?

    Seks elever har fået $$7$$

  2. Hvad er $$x_5$$?

    $$x_5=10$$

  3. Hvad er $$h_1$$?

    $$h_1=2$$

  4. Hvor mange elever var der i alt på holdet?

    Der er i alt $$14$$ elever$$

Frekvens

Frekvensens kaldes også den relative hyppighed fordi den viser, hvor stor en del den enkelte hyppighed udgør ud af det samlede antal observationer. Den viser procentdelen som decimaltal. Man finder frekvensen ved at dividere hyppigheden med det samlede antal observationer. Formlen er: $$$f_i=\frac{h_i}{n}$$$ hvor $$f_i$$ er frekvensen og $$n$$ er antallet af observationer. I vores tilfælde har vi i alt $$14$$ observationer, så vi får:

Observation $$(x_i)\quad$$ Hyppighed $$(h_i)\quad$$ Frekvens $$(f_i)$$
$$0$$ $$2$$ $$\frac{2}{14}=0{,}143$$
$$2$$ $$2$$ $$\frac{2}{14}=0{,}143$$
$$4$$ $$1$$ $$\frac{1}{14}=0{,}071$$
$$7$$ $$6$$ se øvelse 2
$$10$$ $$2$$ $$\frac{2}{14}=0{,}143$$
$$12$$ $$1$$ $$\frac{1}{14}=0{,}071$$

Ud af skemaet kan vi f.eks. se at $$14{,}3\%$$ af eleverne er dumpet.

Øvelse 2

📌
  1. Hvilken frekvens hører til observationen $$7$$?

    Frekvensen er $$\frac{6}{14}=0{,}429$$.

  2. Hvad er $$f_3$$?

    $$f_3=0{,}071$$

  3. Hvor stor en procentdel har fået $$12$$?

    Der er $$7\%$$ der har fået $$12$$.

Øvelse 3

📌
  1. Læg alle frekvenserne sammen i ovenstående skema. Hvad får du?

    1

  2. Forklar, hvorfor dit resultat ikke er overaskende.

    Fordi frekvensen jo angiver hvor står en del af observationssættet den enkelte observation udgør. Så når man lægger alle frekvenserne sammen må man få hvor stor en del hele observationssættet udgør af observationssættet og det er selvfølgelig $$100\%=1$$.

Summeret frekvens

Summeret frekvens $$F_i$$ også kaldet kumuleret frekvens er frekvensen lagt sammen med summen af alle de foregående frekvenser. Den første summerede frekvens er det samme som den første frekvens. Resten finder man ved at lægge frekvensen sammen med den foregående summerede frekvens.:

Observation $$(x_i)\quad$$ Hyppighed $$(h_i)\quad$$ Frekvens $$(f_i)\quad$$ Summeret frekvens $$(F_i)\quad$$
$$0$$ $$2$$ $$0{,}143$$ $$0{,}143$$
$$2$$ $$2$$ $$0{,}143$$ $$0{,}143+0{,}143=0{,}286$$
$$4$$ $$1$$ $$0{,}071$$ $$0{,}286+0{,}071=0{,}357$$
$$7$$ $$6$$ $$0{,}429$$ $$0{,}357+0{,}429=0{,}786$$
$$10$$ $$2$$ $$0{,}143$$ Se øvelse 4
$$12$$ $$1$$ $$0{,}071$$ $$0{,}929+0{,}071=1$$

Ud fra skemaet kan vi f.eks. se at $$79\%$$ af eleverne har fået $$7$$ eller derunder.

Øvelse 4

📌
  1. Hvad er den summerede frekvens hørende til karakteren $$10$$?

    Den summerede frekvens er $$0{,}929$$.

  2. Hvor mange procent af eleverne har fået $$4$$ eller derunder?

    $$35{,}7\%$$ af eleverne har fået $$4$$ eller derunder.

  3. Hvor mange procent af elverne har fået $$10$$ eller derover?

    $$21{,}4\%$$ af eleverne har fået $$10$$ eller derover.

Øvelse 5 (svær)

📌

Den summerede frekvens er frekvensen lagt sammen med alle de forgående frekvenser. Men man kan også finde den summerede frekvens ved at tage frekvensen og lægge den sammen med den forgående summerede frekvens. Altså $$F_i=F_{i-1}+f_i$$.

Forklar hvorfor!

Spørg mig.

Største og mindsteværdi

Størsteværdien er den største observation i observationssættet, og mindsteværdien er den mindste observation. Ikke så overaskende vel? I vores eksempel er mindsteværdien $$0$$ og størsteværdien $$12$$.

Fraktiler

Fraktiler er bestemte tal vi kan aflæse i tabellen. De forklares bedst ved et eksempel.

Eksempel 1

📌

Vi finder $$40\%$$-fraktilen ved at finde den første observation som har en summeret frekvens på over $$0{,}40$$. Vi kan se, at $$4$$ har en summeret frekvens på $$0{,}357$$ (ikke over $$0{,}40$$) og $$7$$ har en summeret frekvens på $$0{,}786$$ (over $$0{,}40$$). Altså er $$40\%$$-fraktilen $$7$$.

At $$40\%$$-fraktilen er $$7$$ fortolkes således: "De $$40\%$$ dårligste del af eleverne fik $$7$$ eller derunder".

Øvelse 6

📌
  1. Bestem $$30$$%-fraktilen og forklar hvad den betyder.

    $$30\%$$-fraktilen er $$4$$ og det betyder at den $$30\%$$ dårligste del har fået $$4$$ eller derunder.

  2. Bestem $$90$$%-fraktilen og forklar hvad den betyder

    $$90\%$$-fraktilen er $$10$$ og det betyder at den $$90\%$$ dårligste del har fået $$10$$ eller derunder.

Øvelse 7

📌

Ved skriftlig eksamen 2014 fik et andet hold karaktererne: $$00,4,7,7$$ (ja det var et lille hold).

  1. Lav et skema, hvor du obskriver de forskellige karakterer og bestemmer hyppighed, frekvens og summeret frekvens for hver af observationerne.

    skema

  2. Bestem største og mindsteværdien.

    Størsteværdien er $$7$$, og mindsteværdien er $$0$$.

  3. Bestem $$30$$%-fraktilen og $$90$$%-fraktilen.

    $$30\%$$-fraktilen er $$4$$, og $$90\%$$-fraktilen er $$7$$.