Kontakta författare

Om vi ​​undrar att känna skostorleken för en person med en viss höjd, kan vi uppenbarligen inte ge ett tydligt och unikt svar på denna fråga. Trots att länken mellan höjd och skostorlek inte är funktionell berättar vår intuition att det finns en koppling mellan dessa två variabler, och vår motiverade gissning skulle förmodligen inte vara för långt borta från det sanna.

Vid förhållande mellan blodtryck och ålder, till exempel; en analog regel värd: det större värdet på en variabel desto större värde på en annan, där föreningen kan beskrivas som linjär . Det är värt att nämna att blodtrycket bland personer i samma ålder kan förstås som en slumpmässig variabel med en viss sannolikhetsfördelning (observationer visar att det tenderar att normalfördelningen ).

Båda dessa exempel kan mycket väl representeras av en enkel linjär regressionsmodell med tanke på de nämnda egenskaperna hos förhållandena. Det finns många liknande system som kan modelleras på samma sätt. Regressionsanalysens huvuduppgift är att utveckla en modell som representerar frågan om en undersökning så bra som möjligt, och det första steget i denna process är att hitta en lämplig matematisk form för modellen. En av de mest använda ramarna är bara en enkel linjär regressionsmodell, vilket är rimligt val alltid när det finns ett linjärt förhållande mellan två variabler och en modellerad variabel antas normalt distribueras.

Fig. 1. Söker efter ett mönster. Linjär regression är baserad på den vanliga listkvadrattekniken, vilket är en möjlig strategi för den statistiska analysen.

Enkel linjär regression

Låt ( x 1, y 1 ), ( x 2, y 2 ), ..., ( x n, y n ) är en given datauppsättning, som representerar par av vissa variabler; där x betecknar oberoende ( förklarande ) variabel medan y är oberoende variabel - vilka värden vi vill uppskatta med en modell. Begreppsmässigt är den enklaste regressionsmodellen den som beskriver förhållandet mellan två variabla antagande av linjär associering. Med andra ord, håller sedan relation (1) - se figur 2, där Y är en uppskattning av beroende variabel y, x är oberoende variabel och a, liksom b, är koefficienter för den linjära funktionen. Naturligtvis bör värdena på a och b bestämmas på ett sådant sätt att den uppskattar Y så nära y som möjligt. Mer exakt betyder detta att summan av resterna (resterande är skillnaden mellan Y i och y i, i = 1, ..., n ) ska minimeras:

Detta tillvägagångssätt för att hitta en modell som bäst passar den verkliga datan kallas vanlig listkvadratsmetod (OLS). Från det föregående uttrycket följer det

vilket leder till systemet med 2 ekvationer med 2 okända

Slutligen, för att lösa detta system får vi nödvändiga uttryck för koefficienten b (analog för a, men det är mer praktiskt att bestämma det med hjälp av par av oberoende och beroende variabla medel)

Observera att i en sådan modell summan av rester om alltid 0. Dessutom passerar regressionslinjen genom provmedlet (vilket är uppenbart från uttrycket ovan).

När en regressionsfunktion har bestämts, är vi nyfiken på att veta hur tillförlitlig en modell är. Generellt bestämmer regressionsmodellen Y i (förstå som uppskattning av y i ) för en ingång x i . Således är det värt att relatera (2) - se figur 2, där ε är en rest (skillnaden mellan Y och Y ). Av detta följer att den första informationen om modellnoggrannhet bara är den återstående summan av kvadrater ( RSS ):

Men för att få en starkare inblick i en modells noggrannhet behöver vi någon relativ i stället för absolut mått. Att dela RSS med antalet observationer n leder till definitionen av regressions standardfel σ:

Den totala summan av kvadrater (betecknad TSS ) är summan av skillnader mellan värden på beroende variabel y och dess medelvärde:

Den totala summan av fyrkanter kan anatomiseras på två delar; det består av

  1. så kallad förklarad summa av kvadrater ( ESS ) - som presenterar avvikelsen för uppskattning Y från medelvärdet av observerade data, och

  2. återstående summa av rutor.

Om vi ​​översätter detta till algebraisk form får vi uttrycket

TSS = ESS + RSS

kallas ofta ekvationen av variansanalys . I ett idealfall kommer regressionsfunktionen att ge värden perfekt matchade med värden för oberoende variabel (funktionell relation), dvs i det fallet ESS = TSS . I alla andra fall behandlar vi vissa rester och ESS når inte värdet på TSS . Således skulle förhållandet mellan ESS och TSS vara en lämplig indikator för modellnoggrannhet. Denna andel kallas bestämningskoefficienten och den brukar betecknas med R2

R2 = ESS / TSS

Fig. 2. Basrelationer för linjär regression; där x betecknar oberoende (förklarande) variabel medan y är oberoende variabel.
xy
16538
17039
17542
18044, 5
18543
19045
19546
Tabell 1. Kvasiga verkliga data som presenterar pars av skonummer och höjd.

Fallstudie: mänsklig höjd och skonummer

För att illustrera föregående fråga, överväga uppgifterna i nästa tabell. (Låt oss föreställa oss att vi utvecklar en modell för skostorlek ( y ) beroende på mänsklig höjd ( x ).)

Först av allt, genom att plotta de observerade data ( x 1, y 1 ), ( x 2, y 2 ), , ( x 7, y 7 ) till en graf, kan vi övertyga oss själva om att den linjära funktionen är en bra kandidat för en regressionsfunktion.

Regression till medelvärdet

Termen regression anger att värdena slumpmässiga variabel regress till genomsnittet. Föreställ dig en klass elever som utför ett test i ett helt okänt ämne. Så fördelningen av studentpoäng kommer att bestämmas av en slump i stället för studentkunskapen, och klassens genomsnittliga poäng blir 50%. Om examen upprepas förväntas inte att studenten som presterar bättre i det första testet återigen kommer att vara lika framgångsrik men kommer att ”regressera” till genomsnittet 50%. I motsats till detta kommer den studerande som presterar dåligt att prestera bättre, det vill säga "regressera" till medelvärdet.

Fenomenet noterades först av Francis Galton, i sitt experiment med storleken på frön från på varandra följande generationer av söta ärter. Frön av växterna som odlats från de största frönna, var igen ganska stora men mindre stora än frön från sina föräldrar. I motsats härtill var frön från de växter som odlades från de minsta frön mindre små än fröna från deras föräldrar, dvs regresserar till medelvärdet av fröstorleken.

Genom att sätta värden från tabellen ovan i redan förklarade formler, erhöll vi a = -5.07 och b = 0.26, vilket leder till ekvationen för regressionsrät linje

Y = -5, 07 + 0, 26 x

Figuren nedan (fig. 3) visar originalvärden för båda variablerna x och y samt erhåller regressionslinje.

För värdet på bestämningskoefficienten erhöll vi R 2 = 0, 88 vilket innebär att 88% av en hel varians förklaras av en modell.

Enligt detta verkar regressionslinjen vara ganska bra anpassad till data.

För standardavvikelsen har den σ = 1, 14, vilket betyder att skostorlekar kan avvika från de uppskattade värdena ungefär upp till ett antal storlekar.

Fig. 3. Jämförelse av regressionslinjen och de ursprungliga värdena inom en ojämn linjär regressionsmodell.

Multivariat linjär regression

En naturlig generalisering av den enkla linjära regressionsmodellen är en situation inklusive inflytande av mer än en oberoende variabel till den beroende variabeln, återigen med en linjär relation (starkt, matematiskt sett är detta praktiskt taget samma modell). Således en regressionsmodell i en form (3) - se figur 2.

kallas den multipla linjära regressionsmodellen . Beroende variabel betecknas med y, x 1, x 2, , x n är oberoende variabler medan 0, 1, , n betecknar koefficienter. Även om den multipla regressionen är analog till regressionen mellan två slumpmässiga variabler, är i detta fall utvecklingen av en modell mer komplex. Först av allt, kanske vi inte lägger i modell alla tillgängliga oberoende variabler men bland m > n- kandidater kommer vi att välja n- variabler med största bidrag till modellnoggrannheten. I allmänhet syftar vi till att utveckla en enklare modell som möjligt; så en variabel med ett litet bidrag som vi vanligtvis inte inkluderar i en modell.

Fallstudie: studentens framgång

Återigen, som i den första delen av artikeln som ägnas åt den enkla regressionen, förberedde vi en fallstudie för att illustrera saken. Låt oss anta att en students framgång beror på IQ, level av emotionell intelligens och läsningstakten (vilket uttrycks av antalet ord i minut, låt oss säga). Låt oss ha data som presenteras i tabell 2 om disposition.

Det är nödvändigt att bestämma vilken av de tillgängliga variablerna som ska vara prediktiva, dvs. delta i modellen och sedan bestämma motsvarande koefficienter för att få tillhörande relation (3).

student framgångIQemot.intel.läsningshastighet
5312089129
4611851121
91134143131
491025992
6198133119
83130100119
45923184
639490119
90135142134
Tabell 2. Delar av studentens framgång

Korrelationsmatris

Det första steget i valet av prediktorvariabler (oberoende variabler) är beredningen av korrelationsmatrisen. Korrelationsmatrisen ger en bra bild av förhållandet mellan variablerna. För det första är det klart vilka variabler som är mest korrelerade med den beroende variabeln. Generellt är det intressant att se vilka två variabler som är mest korrelerade, variabeln som är mest korrelerad med alla andra och eventuellt att märka kluster av variabler som starkt korrelerar med varandra. I detta tredje fall kommer endast en av variablerna att väljas för den prediktiva variabeln.

När korrelationsmatrisen är beredd kan vi från början bilda instans av ekvation (3) med endast en oberoende variabel - den som bäst korrelerar med kriterievariabeln (oberoende variabel). Därefter läggs en annan variabel (med näst största värde på korrelationskoefficient) till uttrycket. Denna process fortsätter tills modelltillförlitligheten ökar eller när förbättringen blir försumbar.

student framgångIQemot. intel.läsningshastighet
student framgång1
IQ0, 731
emot.intel.0, 830, 551
läsningshastighet0, 700, 710, 791
Tabell 3. Korrelationsmatris
datamodell
5365, 05
4649, 98
9188, 56
4953, 36
6169, 36
8374, 70
4540, 42
6351, 74
9087, 79
Tabell 4. Jämförelse av originaldata och modellen.

Nästa tabell visar korrelationsmatrisen för det diskuterade exemplet. Av detta följer att studenternas framgång här mest beror på ”nivå” av emotionell intelligens ( r = 0, 83), sedan av IQ ( r = 0, 73) och slutligen på hastigheten för läsning ( r = 0, 70). Därför kommer detta att vara ordningen att lägga till variablerna i modellen. Slutligen, när alla tre variabler accepteras för modellen, erhöll vi nästa regressionsekvation

Y = 6, 15 + 0, 53 x 1 +0, 35 x 2 -0, 31 x 3 (4)

där Y anger uppskattning av studentens framgång, x 1 "nivå" av emotionell intelligens, x 2 IQ och x 3 läsningshastighet.

För regressionens standardfel erhöll vi σ = 9, 77 medan för bestämningskoefficienten är R = 0, 82. I nästa tabell visas jämförelse av de ursprungliga värdena på studentens framgång och den relaterade uppskattningen beräknat med erhållen modell (relation 4) Figur 4 visar att denna jämförelse är en grafisk form (läs färg för regressionsvärden, blå färg för originalvärden).

Fig. 4. Regressionsmodellen för en students framgång - fallstudie av den multivariata regressionen.

Regressionsanalys med programvara

Medan data i våra fallstudier kan analyseras manuellt för problem med lite mer data behöver vi en programvara. Figur 5 visar lösningen på vår första fallstudie i R-mjukvarumiljön. För det första matar vi in ​​vektorerna x och y och använder lm -kommandot för att beräkna koefficienterna a och b i ekvation (2). Därefter skrivs resultaten med kommandot summary . Koefficienterna a och b benämns Intercept respektive x .

R är ganska kraftfull programvara under General Public License, ofta används som ett statistiskt verktyg. Det finns många andra program som stöder regressionsanalys. Video nedan visar hur du utför en linjeregression med Excel.

Fig. 6 visar lösningen av den andra fallstudien med mjukvarumiljön R. Till skillnad från det föregående fallet där data matades in direkt presenterar vi här input från en fil. Filens innehåll ska vara exakt detsamma som innehållet i "tableStudSucc" -variabeln som syns på figuren.

Fig. 5. Lösning av den första fallstudien med R-mjukvarumiljön.
Fig. 6. Lösning av den andra fallstudien med R-mjukvarumiljön.

Vilken programvara använder du för regressionsanalys?

  • Excel
  • Statistica
  • R
  • Övrig
Se resultat