Hvordan bruke lm()-funksjonen i R for å passe til lineære modeller?
I denne artikkelen vil vi lære hvordan du bruker lm()-funksjonen for å tilpasse lineære modeller i R-programmeringsspråket.
En lineær modell brukes til å forutsi verdien av en ukjent variabel basert på uavhengige variabler. Det brukes mest for å finne ut forholdet mellom variabler og prognoser. lm()-funksjonen brukes til å tilpasse lineære modeller til datarammer i R-språket. Den kan brukes til å utføre regresjon, enkeltstratumanalyse av varians og analyse av kovarians for å forutsi verdien som tilsvarer data som ikke er i datarammen. Disse er svært nyttige for å forutsi prisen på eiendom, værmelding osv.
For å tilpasse en lineær modell i R-språket ved å bruke lm() funksjon, Vi bruker først data.frame()-funksjonen for å lage en eksempeldataramme som inneholder verdier som må tilpasses en lineær modell ved bruk av regresjonsfunksjon. Deretter bruker vi lm()-funksjonen for å tilpasse en bestemt funksjon til en gitt dataramme.
Syntaks:
lm(tilpasningsformel, dataramme)
Parameter:
fitting_formula: bestemmer formelen for den lineære modellen. dataramme: bestemmer navnet på datarammen som inneholder dataene.
Deretter kan vi bruke summary()-funksjonen for å se sammendraget av den lineære modellen. summary()-funksjonen tolker de viktigste statistiske verdiene for analysen av den lineære modellen.
Syntaks:
sammendrag( lineær_modell )
Sammendraget inneholder følgende nøkkelinformasjon:
- Residual Standard Error: bestemmer standardavviket til feilen der kvadratroten av variansen trekker fra n minus 1 + # av variablene som er involvert i stedet for å dele med n-1. Multiple R-Squared: bestemmer hvor godt modellen din passer til dataene. Justert R-Squared: normaliserer Multiple R-Squared ved å ta hensyn til hvor mange prøver du har og hvor mange variabler du bruker. F-Statistic: er en global test som sjekker om minst én av koeffisientene dine ikke er null.
Eksempel: Eksempel for å vise bruken av lm()-funksjonen.
R
# sample data frame> df <-> data.frame> ( x=> c> (1,2,3,4,5),> > y=> c> (1,5,8,15,26))> > # fit linear model> linear_model <-> lm> (y ~ x^2, data=df)> > # view summary of linear model> summary> (linear_model)> |
Produksjon:
Anrop:
lm(formel = y ~ x^2, data = df)
Rester:
1 2 3 4 5
2.000e+00 5.329e-15 -3.000e+00 -2.000e+00 3.000e+00
Koeffisienter:
Estimat Std. Feil t verdi Pr(>|t|)
(avskjæring) -7,0000 3,0876 -2,267 0,10821
x 6,0000 0,9309 6,445 0,00757 **
—
Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1
Reststandardfeil: 2,944 ved 3 frihetsgrader
Multippel R-kvadrat: 0,9326, justert R-kvadrat: 0,9102
F-statistikk: 41,54 på 1 og 3 DF, p-verdi: 0,007575
Diagnostiske plott
De diagnostiske plottene hjelper oss å se sammenhengen mellom ulike statistiske verdier av modellen. Det hjelper oss med å analysere omfanget av uteliggere og effektiviteten til den monterte modellen. For å se diagnostiske plott av en lineær modell, bruker vi plot()-funksjonen i R Language.
Syntaks:
plot (lineær_modell)
Eksempel: Diagnostiske plott for ovennevnte lineære modell.
R
# sample data frame> df <-> data.frame> ( x=> c> (1,2,3,4,5),> > y=> c> (1,5,8,15,26))> > # fit linear model> linear_model <-> lm> (y ~ x^2, data=df)> > # view diagnostic plot> plot> (linear_model)> |
Produksjon:
Plotte Lineær modell
Vi kan plotte den ovenfor tilpassede lineære modellen for å visualisere den godt ved å bruke abline()-metoden. Vi plotter først et spredningsplott av datapunkter og overlegger det deretter med et ablineplott av den lineære modellen ved å bruke abline()-funksjonen.
Syntaks:
plot (df$x, df$y)
abline(Lineær_modell)
Eksempel: Plotter lineær modell
R
# sample data frame> df <-> data.frame> ( x=> c> (1,2,3,4,5),> > y=> c> (1,5,8,15,26))> > # fit linear model> linear_model <-> lm> (y ~ x^2, data=df)> > # Plot abline plot> plot> ( df$x, df$y )> abline> ( linear_model)> |
Produksjon:
Forutsi verdier for ukjente datapunkter ved å bruke den tilpassede modellen
For å forutsi verdier for nye innganger ved å bruke den ovenfor tilpassede lineære modellen, bruker vi funksjonen forutsig(). Predict()-funksjonen tar modellen og datarammen med ukjente datapunkter og forutsier verdien for hvert datapunkt i henhold til den tilpassede modellen.
Syntaks:
forutsi (modell, data)
Parameter:
modell: bestemmer den lineære modellen. data: bestemmer datarammen med ukjente datapunkter.
Eksempel: Forutsi nye innganger
R
# sample data frame> df <-> data.frame> ( x=> c> (1,2,3,4,5),> > y=> c> (1,5,8,15,26))> > # fit linear model> linear_model <-> lm> (y ~ x^2, data=df)> > # Predict values> predict> ( linear_model, newdata => data.frame> (x=> c> (15,16,17)) )> |
Produksjon:
1 2 3 83 89 95