Exempel på icke kompositionella variabler
Hantering från prediktorer: kategoriska, kontinuerliga
Under datainsamling samt nära tillväxt från prediktionsmodeller skall man ständigt sträva efter för att nyttja kontinuerliga variabler. ett kontinuerlig variabel innehåller ständigt mer (oavsett modell) kunskap än ett kategorisk variabel samt detta existerar såsom regel felaktigt för att kategorisera enstaka kontinuerlig variabel, vare sig variabeln existerar utafllet (\(Y\)) alternativt enstaka prediktor (\(X\)). Trots detta kategoriseras ofta kontinuerliga variabler utan för att detta existerar motiverat.
Det finns dock scenarion då detta existerar berättigat för att kategorisera ett kontinuerlig variabel. Ponera för att oss undersöker hur kroppsvikt (kg) påverkar risken till för att förbättra diabetes. oss skapar då enstaka prediktionsmodell tillsammans kroppsvikt (kg) liksom prediktor samt diabetes (ja/nej) liksom påverkan. angående kroppsvikt existerar ett kontinuerlig variabel (kg) således kommer regressionskoefficienten visa hur många risken till diabetes ökar till varenda kg (kilogram) kroppsvikten ökar. Riskökningen vilket medförs från för att vikt ökar 1 kg förmå framstå såsom små samt möjligtvis mot samt tillsammans med sakna klinisk relevans. Då förmå detta existera berättigat för att kategorisera kroppsvikt inom kategorier (exempelvis inom kategorierna normalvikt, övervikt, fetma). då prediktionsmodellen istället använder denna kategoriserade prediktor kommer "effekten" (dvs regressionskoefficienten) existera kraftigare. inom detta fall kunna detta således artikel meningsfullt för att kategorisera prediktorn. detta tjänar dock endast en pedagogiskt syfte; modellen tillsammans den kategoriserade prediktorn kommer inom princip ständigt artikel sämre än modellen tillsammans med den kontinuerliga prediktorn.
Prospektiva studier bör samla in uppgifter vilket kontinuerliga variabler inom den mån detta existerar möjligt. Då finns chansen för att kategorisera variablerna inom en senare skede.
Antagandet angående linjäritet: relaxering tillsammans restricted cubic splines samt polynom
Linjära modeller, alternativt modeller nära besläktade tillsammans med den raka modellen, dominerar analyser såsom görs på grund av effektestimering samt prediktion. Den raka modellen bygger vid antagandet för att detta finns en linjärt samband mellan prediktorn \(X\) samt utfallet \(Y\) (se figur nedan). Detta antagande utgör enstaka bekvämlighet, eftersom raka samband existerar enkla för att hantera matematiskt. Faktum existerar dock för att naturen sällan existerar helt linjär samt detta förmå existera naivt för att utgå ifrån för att samband existerar raka. Förklaringen mot för att analytiker samt vetenskapsman ofta nöjer sig tillsammans raka funktioner existerar på grund av för att dem erbjuder enstaka acceptabel approximation från verkligheten. inom nedanstående figur ser oss ett regressionslinje (svart) såsom visar hur prediktorn \(X\) relaterar mot bensinkonsumtion (\(Y\)). från figuren framgår för att regressionslinjen existerar enstaka acceptabel approximation mot sambandet dock nära låga (<2) samt höga värden (>5) vid \(X\) existerar regressionslinjen längre ifrån datapunkterna (error existerar högre).
Låt oss utföra angående ovanstående modell samt låta prediktorn \(X\) anta en icke-linjärt samband tillsammans med \(Y\). Detta innebär för att sambandet mellan \(X\) samt \(Y\) tillåts variera (vara flexibelt) ovan \(X\) intervall. Resultatet blir likt följer:
Om graferna placeras vid varandra blir detta tydligare för att den icke-linjära modellen besitter högre precision:
Antagandet angående linjaritet bör liksom regel ifrågasättas. Antagandet är kapabel tillsammans med enkelhet undersökas likt inom exemplet ovan (se avsnitt Linjär regression). Den raka modellens validitet existerar högre angående prediktorerna existerar precis specificerade.
Om sambandet mellan \(X\) samt \(Y\) ej existerar linjärt således är kapabel detta leda mot felaktiga slutsatser. inom figuren nedan framträda en kraftigt icke-linjärt samband liksom leder mot den felaktiga slutsatsen för att detta ej finns något samband mellan \(X\) samt \(Y\), vilket regressionslinjen visar genom för att sträcka inom princip saknar lutning (β ≈ 0).
Det behövs enstaka mer anpassningsbar regressionslinje. Antagandet ifall linjaritet måste relaxeras till för att regressionslinjen skall följa (predicera) uppgifter förbättrad. för att omvandla prediktorn plats tidigare ett populär teknik. Låt oss logaritmera prediktorn \(X\) samt visualisera regressionslinjen igen:
Att omvandla prediktorn \(X\) leder inom ovanstående fall mot enstaka förbättrad modell, dock den existerar ej optimal (se intervallet \(X\) < 2) samt för tillfället blir dessutom koefficienten svårare för att tolka (föreställ dig för att oss logaritmerat kroppsvikt inom kg). detta förbättrad för att nyttja icke-linjära funktioner från \(X\), vilka ej förutsätter för att sambandet mellan \(X\) samt \(Y\) existerar linjärt. oss skapar prediktionsmodellen igen tillsammans enstaka icke-linjär funktion, utan för att logaritmera \(X\), vilket ger nästa resultat:
I ovanstående figur besitter \(X\) modellerats tillsammans en andragradspolynom, vilket innebär för att \(X\) multiplicerats tillsammans \(X\). Detta existerar detta enklaste sättet för att relaxera antagandet angående linjaritet samt detta innebär för att man använder en polynom (eng. polynomial), vilket existerar heltalspotenser från prediktorn \(X\). detta finns nästa polynom:
- Andragradspolynom: \(X^2\)
- Tredjegradspolynom: \(X^3\)
- Fjärdegradspolynom: \(X^4\)
Om man önskar omfatta polynom inom ett regression sålunda måste samtliga lägre grader från prediktorn även inkluderas. detta innebär för att ifall tredjegradspolynom (\(X^3\)) till ålder skall inkluderas inom modellen således skall även \(X^2\) samt \(X\) inkluderas likt enskilda prediktorer. enstaka ofta använd, samt lika ofta kritiserad, teknik till för att omfatta polynom inom modeller existerar för att testa polynomen samt behålla dem angående koefficienterna existerar statistiskt significkanta (P < 0.05), eftersom detta existerar bevis på grund av för att detta finns ett icke-linjär funktion inom information. Syntax till ett linjär modell tillsammans med en tredjegradspolynom till prediktorn existerar vilket följer:
Faktum existerar för att R ständigt inkluderar lägre grader från en polynom även ifall man ej specificera detta. detta innebär för att ovanstående modell existerar likvärdig tillsammans med följande:
Låt oss producera ett linjär regression tillsammans med en tredjegradspolynom inom information. oss använder paketet broom på grund av för att extrahera resulat ifrån modellen.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 24.8304756 | 2.1392664 | 11.607005 | 0.000000 |
| drvf | 4.4553554 | 0.5050549 | 8.821528 | 0.000000 |
| drvr | 4.1892200 | 0.6871610 | 6.096417 | 0.000000 |
| cyl | -0.6548109 | 0.3682590 | -1.778126 | 0.0767217 |
| poly(displ, 3)1 | -41.8215567 | 9.8728249 | -4.236027 | 0.000033 |
| poly(displ, 3)2 | 17.0200984 | 3.2063213 | 5.308295 | 0.000000 |
| poly(displ, 3)3 | 2.0802160 | 3.0357794 | 0.685233 | 0.493896 |
Som framgår ovan existerar tredjegradspolynomet ("poly(displ, 3)3") ej statistiskt signifikant (p=0.493896), dock däremot existerar andragradspolynomet statistiskt signifikant (p=0.000000), liksom den raka prediktorn (p=0.000033). Polynom äger dock flera brister likt är kapabel leda mot otillfredsställande prediktioner. Splines föredras ofta framför polynom.
Regression splines: raka splines, cubic splines, restricted cubic splines
En spår i maskindel existerar enstaka anpassningsbar funktion likt består från flera polynom. varenda polynom representerar en intervall från fördelningen till prediktorn \(X\) samt varenda polynom existerar sammankopplade inom ändarna.
Den enklaste spline-funktionen existerar den raka. enstaka lätt linjär spår i maskindel innebär helt enkelt för att prediktorn \(X\) äger delats in inom intervaller vilket leder mot för att \(X\) egentligen delas upp inom flera prediktorer. Även angående dem enskilda intervallerna existerar raka funktioner sålunda förmå dem tillsammans producera enstaka icke-linjär funktion. inom figuren nedan äger \(X\) delats in inom 3 intervaller tillsammans med hjälp från numeriskt värde knytpunkter (eng. knots). Antal samt placering från dessa knots förmå justeras.
En lätt linjär spår i maskindel möjliggör modellering från icke-linjära funktioner samt kräver endast för att sambandet mellan \(X\) samt \(Y\) skall artikel linjärt inom varenda intervall.
Ekvationen på grund av den ursprungliga modellen (utan spline) existerar vilket följer:
Y = β0 + β1X1
Om prediktorn X1 expanderas mot ett spår i maskindel tillsammans med 3 intervaller sålunda blir ekvationen:
Y = β0 + β1X1 + β2X2 + β3X3
Cubic splines (CS)
En linjär spår i maskindel existerar oftast för att föredra framför polynom, dock dessväre existerar raka splines ej flexibla just inom knytpunkterna samt därför blir modellering från böjda/krökta samband ej optimal. på grund av för att överkomma detta kunna man nyttja cubic splines, likt existerar detsamma såsom raka splines dock inom varenda intervall använder man polynom. Detta utför för att kopplingarna mellan intervallerna existerar mjuka samt cubic splines existerar förbättrad (än raka splines) vid för att definiera böjda/krökta samband. angående enstaka cubic spår i maskindel besitter 3 knypunkter (knots) därför måste totalt 6 regressionskoefficienter (β1 till β6) beräknas. Antal koefficienter likt måste beräknas existerar nämligen k+3, var k existerar antalet knots. detta innebär för att användning från cubic splines blir kostsamt eftersom fler parametrar behöver beräknas.
Restricted cubic splines (RCS, natural splines)
Den bästa samt maximalt nyttja spline-funktionen existerar restricted cubic spline. Dessa spline-funktioner existerar vilket cubic splines dock funktionen tvingas existera linjär inom svansarna (i start samt slutet från prediktorns distribution). Detta ger förbättrad noggrannhet inom modellen. Användning från restricted cubic splines bestraffar modellen tillsammans k+1 parametrar. detta innebär för att ifall 3 knots används således måste 4 koefficienter beräknas.
Behövs splines?
Om enstaka prediktorn \(X\) expanderas mot ett spline-funktion sålunda är kapabel man nyttja P-värdet på grund av för att att fatta beslut eller bestämma något angående spline-funktionen existerar essentiell. Nollhypotesen existerar för att koefficienterna (för dem enskilda spline-intervallerna) existerar lika tillsammans 0 samt angående P-värdet existerar < 0.05 således existerar detta osannolikt samt då behåller man dessa splines.
Hur flera knypunkter (knots) behövs?
Om man känner mot sambandet mellan prediktorn \(X\) samt utfallet \(Y\), samt vet fanns detta finns kurvaturer samt icke-linjäriteter sålunda är kapabel man egen specificera plats knytpunkterna skall placeras. Man måste ej existera vän tillsammans med plats icke-linjaritet existerar. detta går utmärkt för att nyttja splines utan förståelse angående detta, självklart för att knytpunkter placeras jämnt utspritt ovan \(X\) intervall.
I R specificerar ni antal knypunkter vilket önskas samt dessa placeras automatiskt ut vid korrekt intervaller. Man använder minimalt 3 knytpunkter (även ifall exemplen ovan illustrerats tillsammans numeriskt värde knytpunkter) samt detta existerar sällan nödvändigt för att nyttja fler än 6 knytpunkter. Ju fler observationer man äger desto fler knytpunkter kunna användas.
Restricted cubic splines är kapabel används på grund av linjär regression, logistisk regression, Poisson regression, Cox regressio, etc.
Man skall artikel frikostig tillsammans för att nyttja restricted cubic splines eftersom detta existerar naivt för att förutsätta för att samband existerar raka. Man bör dock pre-specificera sina splines innan modellen byggs. för att föregå detta genom för att visualisera samband mellan variabler (t ex tillsammans korrelationsdiagram) rekommenderas inte. Man skall existera särskilt frikostig tillsammans splines till prediktorer såsom existerar starkt relaterade mot utfallsmåttet. detta existerar oftast ej lönt för att investera frihetsgrader inom variabler tillsammans med svaga samband tillsammans med utfallsmåttet.
I nedanstående kod aktiverar oss paketen , samt , på grund av för att därefter ladda information. Paketet besitter funktioner på grund av restricted cubic splines (). till för att nyttja behöver oss informera till paketet vilka distributioner likt finns inom information. Därefter ställer oss in detta inom . Därefter bygger oss ett modell tillsammans med (detta existerar funktionen till linjär regression inom paketet ), var prediktorn modelleras tillsammans enstaka splinefunktion. Sambandet visualiseras sedan tillsammans med . Notera för att oss utför numeriskt värde grafer samt placerar dem ovanpå varandra tillsammans med .