본문 바로가기

R 통계

[R] 단순선형회귀

y = ax + b를 예측하는 모델

단순 선형회귀에서는 오차(Residuals)**가 정규분포를 따라야 합니다.

<정규성 분석>
qqnorm(residuals(model)) qqline(residuals(model))
: 잔차가 직선에 가까울수록 정규성을 만족.
shapiro.test(residuals(model))
: p-value가 0.05 이상이면 정규성을 만족한다고 볼 수 있음.
hist(residuals(model))
: 잔차의 분포를 시각적으로 확인.

 

  • 정규성을 크게 위반해도 예측에는 큰 영향을 미치지 않을 수 있습니다.
  • 하지만 가설 검정과 신뢰구간에 문제가 생길 수 있으므로, 다음과 같은 조치를 취할 수 있습니다:
    • 로그 변환, 루트 변환 등으로 종속 변수 또는 독립 변수를 변환.
    • 더 강건한 모델(예: 일반화 선형 모델 glm)을 사용.

 

 

res = lm(y~x, data = data)

summary(res)형태로 사용

 

summary(res)의 분석 예시

> summary(res)

Call:
lm(formula = dist ~ speed, data = c)

Residuals:
    Min      1Q  Median      3Q     Max 
-29.069  -9.525  -2.272   9.215  43.201 


Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -17.5791     6.7584  -2.601   0.0123 *  
speed         3.9324     0.4155   9.464 1.49e-12 ***


---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 48 degrees of freedom


Multiple R-squared:  0.6511,   

Adjusted R-squared:  0.6438 


F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

 

시각화

> plot(cars$speed, cars$dist)
> abline(model)

'R 통계' 카테고리의 다른 글

[R] 로지스틱회귀  (0) 2024.11.24
[R] 다중 선형회귀  (0) 2024.11.24
[R] 독립된 세 집단 이상의 모평균 비교  (1) 2024.10.19
[R] 독립된 두 집단의 모평균 비교  (0) 2024.10.19
[R] 표본과 추론  (0) 2024.10.19