y = ax + b를 예측하는 모델
단순 선형회귀에서는 오차(Residuals)**가 정규분포를 따라야 합니다.
<정규성 분석>
qqnorm(residuals(model)) qqline(residuals(model))
: 잔차가 직선에 가까울수록 정규성을 만족.
shapiro.test(residuals(model))
: p-value가 0.05 이상이면 정규성을 만족한다고 볼 수 있음.
hist(residuals(model))
: 잔차의 분포를 시각적으로 확인.
- 정규성을 크게 위반해도 예측에는 큰 영향을 미치지 않을 수 있습니다.
- 하지만 가설 검정과 신뢰구간에 문제가 생길 수 있으므로, 다음과 같은 조치를 취할 수 있습니다:
- 로그 변환, 루트 변환 등으로 종속 변수 또는 독립 변수를 변환.
- 더 강건한 모델(예: 일반화 선형 모델 glm)을 사용.
res = lm(y~x, data = data)
summary(res)형태로 사용
summary(res)의 분석 예시
> summary(res)
Call:
lm(formula = dist ~ speed, data = c)
Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared: 0.6511,
Adjusted R-squared: 0.6438
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
시각화
> plot(cars$speed, cars$dist)
> abline(model)
'R 통계' 카테고리의 다른 글
[R] 로지스틱회귀 (0) | 2024.11.24 |
---|---|
[R] 다중 선형회귀 (0) | 2024.11.24 |
[R] 독립된 세 집단 이상의 모평균 비교 (1) | 2024.10.19 |
[R] 독립된 두 집단의 모평균 비교 (0) | 2024.10.19 |
[R] 표본과 추론 (0) | 2024.10.19 |