Lineær regression

Lineær regression bruges til at beskrive udviklinger som er tilnærmelsesvist lineære. Lad os tage et eksempel. Vi kigger på udbredelsen af smartphones i USA i perioden Septemper 2011 - September 2012. Tabellen viser hvor stor en procentdel af dem som har et mobilabonement der ejer en smartphone.

Tabel

Tegner vi det ind i et koordinatsystem får vi følgende:

Diagram

Vi kan se at punkterne ligger tilnærmelsesvis på en linje. I dette afsnit skal vi lære hvordan man finder forskriften for linjen. Processen kaldes lineær regression.

Guide til lineær regression i Excel

Vi vil gerne finde forskriften for den funktion $$f$$ der beskriver andelen af smartphones som funktion af antallet af måneder efter oktober 2011

Vi har tabellen

Tabel

Vi laver månederne om til 0, 1, 2, 3 osv. Da vi er intersserede i antalet af måneder der er gået. Det giver os følgende tabel som vi skriver ind i Excel:

Tabel

Vi rammer nu alle tallene ind:

Tabel

og vælger "indsæt punktdiagram":

Tabel

Dette giver os diagrammet:

Tabel

Diagrammet kaldes et xy-plot. Vi højreklikker nu på et af punkterne og vælger "Tilføj tendenslinje":

Tabel

og vi vælger "lineær funktion" og sætter flueben i "Vis ligning i diagram" og "Vis R-kvadreret værdi i diagram":

Tabel

Hvilket giver os følgende:

Tabel

Vi kan se at forskriften er $$$f(x)=1{,}0839x+39{,}105.$$$ Vi kan også se at "$$R^2=0{,}9749$$". Vi skal nu se på hvad det betyder. Men først liiiiiiige et par øvelser:

Øvelse 1

📌
Hvad er et xy-plot? Du har sikkert glemt det, så gå op i teksten og find det sted hvor det står.

Det er et diagram som viser os vores data som punkter. Det kan f.eks. se sådan ud: Tabel

Øvelse 2

📌

Nu har du læst hvordan man laver lineær regression. Prøv selv at gennemfører eksemplet ovenover på din egen computer.
Tabel

Bestem en forskrift for den lineære funktion der bedst beskriver udviklingen:

$$f(x)=1{,}0839x+39{,}105$$

Determinationskoefficienten og korrelationskoefficienten

I eksemplet ovenover bestemte vi også $$R^2$$. Størrelsen $$R^2$$ kaldes determinationskoefficienten og angiver hvor tæt på linjen punkterne ligger. Er $$R^2=1$$ er der tale om en perfekt linje og jo længere væk fra 1 vi kommer, jo dårlige passer punkterne til linjen. Determinationskoefficienten kan aldrig bliver mindre end $$0$$.

Der er desværre ikke nogen fast grænse for hvor tæt på 1 $$R^2$$ skal være før man kan tale om at punkterne tilnærmelsesvist kan beskrives med en lineær funktion, men er $$R^2>0{,}95$$ er det bestemt rimeligt at sige at punkterne ligger tilnærmelsesvist på en linje. Er $$R^2<0{,}95$$ er det en god ide at kigge på grafen også. Det er i det hele taget vigtigt at kigge på grafen når man skal vurdere om en udvikling er tilnærmelsesvis lineær, for $$R^2$$ kan i visse tilfælde snyde...

Størrelsen $$r$$ kaldes korrelationskoefficienten og fås ikke så overraskende ved at tage kvadratroden af $$R^2$$. Man skal dog sætte et minus på, hvis udviklingen er aftagende.

Eksempel 1

📌

Udviklingen af udbredelsen af smartphones i USA i perioden Septemper 2011 - September 2012 er tilnærmelsesvis lineær, da $$R^2=0{,}97$$ er tæt på 1 og vi samtidig kan se at punkter ligger ca. på en linje.

Øvelse 3

📌

En aftagende udvikling har ved lineær regression en determinationskoefficient på $$R^2=0{,}98$$.

  1. Er der tale om en tilnærmelsesvis lineær udvikling?

    Det er der noget der tyder på. Men vi kan ikke være sikre uden at vi også kigger på grafen.

  2. Bestem korrelationskoefficienten.

    $$r=-0{,}99$$

Øvelse 4

📌

I filen vmfodboldtilskuere ses en oversigt over det totale antal tilskuere ved VM i fodbold gennem tiden.

  1. Lav et xy-plot der viser udviklingen i antallet af tilskuere som funktion af antallet af år efter 1930. Kan du layoute det så der er korrekte titler på akserne?

    Tabel

  2. Lav lineær regression på punkterne. Kan udviklingen tilnærmelsesvis beskrives ved en lineær funktion?

    Ja det kan den godt. Vi har $$R^2=0{,}91$$ og vi kan se at punkterne ligger pænt omkring linjen.

  3. Angiv en forskrift for den lineære funktion som bedst beskriver udviklingen.

    Forskriften er: $$$f(x)=40070x+79897$$$

Øvelse 5 (svær)

📌

Gå ind på https://en.wikipedia.org/wiki/Correlation_and_dependence#Correlation_and_linearity. Læs afsnittet "Correlation and linearity". Der står en masse i afsnittet som du ikke har forudsætninger for at forstå, men til højre er der en figur.

Find ud af hvad figuren viser, og brug dette til at argumentere for det er vigtigt også at kigge på grafen hvis man vil vurdere om en udvikling er lineær.

Vi snakker om det i klassen.

Øvelse 6 (meget svær)

📌

Gå ind på https://en.wikipedia.org/wiki/Coefficient_of_determination#Definitions og læs afsnittet "definitions".

Forklar ud fra afsnittet (specielt tegningen er god) hvad $$R^2$$ betyder helt præcist.

Vi snakker om det i klassen.