본문 바로가기

R 통계

[R] 독립된 세 집단 이상의 모평균 비교

셋 이상의 집단 모평균 비교

전체 집단을 두개씩 짝지어 모평균의 차이를 비교하면 신뢰구간이 줄어드는 문제가 있음.

 - 각 비교에서 신뢰수준 1-a로 k 번 비교를 진행한다면 신뢰수준은 (1-a)^k가 되어 신뢰수준이 떨어지는 문제 발생

 

따라서 세 집단 이상의 모평균을 비교할 때는 ANOVA 사용

 


ANOVA

H0: mu1 = mu2 = mu3 = ... =mu n    

H1 : 적어도 하나의 mu i 는 나머지와 다름

 

  1. ANOVA 분석도 t-test와 마찬가지로 각 집단이 정규분포해야한다.
  2. ANOVA에서 기본 가정 중 하나는 집단 간의 모분산이 동일(등분산)하다는 것임 (등분산성 가정)
    등분산임을 확인하기 위해 bartlett.test() 시행
  3. 등분산임이 확인되었을 경우 anova 분석 실행 
    p-value <0.05   -> 각 집단의 모평균은 모두 동일하지 않다.
    p-value >0.05   -> 각 집단의 모평균은 모두 동일하다.

bartlett.test()

세개 이상의 집단이 주어졌을 때 각 집단의 분산이 같은지 판단하는 분석

 

<사용법>
bartlett.test(y~x, data)     ##x에 따른 y들의 분산분

aov()

 

세개 이상의 집단의 평균 분석

<사용법>
aov_model = aov(y~x, data)
summary(aov_model)

 



  • Df (Degrees of Freedom, 자유도):
    • 각 요인(factor) 또는 잔차(residual)의 자유도입니다.
    • 집단 간 자유도는 비교하려는 집단의 수에서 1을 뺀 값입니다.
    • 잔차 자유도는 전체 관측치에서 비교하려는 집단의 수를 뺀 값입니다.
  • Sum Sq (Sum of Squares, 제곱합):
    • 집단 간 차이와 잔차(오차)에 대한 제곱합입니다.
    • 집단 간 제곱합(Sum Sq between groups): 집단 평균들 간의 차이에 대한 총 변동.
    • 잔차 제곱합(Sum Sq within groups): 집단 내의 개별 데이터들 간의 차이로 인한 변동.
  • Mean Sq (Mean Square, 평균제곱):
    • 제곱합을 자유도로 나눈 값입니다.
    • 집단 간 평균제곱은 집단 간 제곱합을 집단 간 자유도로 나눈 값입니다.
    • 잔차 평균제곱은 잔차 제곱합을 잔차 자유도로 나눈 값입니다.
  • F value (F 통계량):
    • 집단 간 평균제곱잔차 평균제곱으로 나눈 값입니다. 이 값이 크면 집단 간 평균 차이가 크다는 의미입니다.
    • F 통계량을 사용하여 집단 간 차이가 통계적으로 유의미한지 여부를 판단합니다.
  • Pr(>F) (p-value):
    • F 통계량에 대응하는 p-값입니다. 이 값이 작을수록(일반적으로 0.05보다 작으면) 집단 간 평균 차이가 통계적으로 유의하다는 결론을 내릴 수 있습니다.

Plot(aov())

1. 잔차 vs. 적합값(Residuals vs Fitted):

  • 잔차와 적합값(예측값)의 관계를 보여줍니다.
  • 이 플롯은 등분산성(Homoscedasticity) 가정을 평가하는 데 사용됩니다.
  • 이상적인 경우, 잔차가 랜덤하게 퍼져 있는지 확인합니다. 만약 잔차가 특정 패턴을 보인다면(예: 팬 모양), 이는 **이분산성(heteroscedasticity)**을 나타냅니다.

2. 정규 Q-Q 플롯(Normal Q-Q):

  • 잔차가 정규분포를 따르는지 확인하는 플롯입니다.
  • 잔차가 정규분포를 따른다면, 플롯의 점들이 대각선에 가깝게 분포합니다.
  • 점들이 대각선에서 크게 벗어나 있으면, 정규성 가정이 위반되었을 가능성이 있습니다.

3. 잔차의 척도(location-scale) 플롯(Scale-Location):

  • 표준화된 잔차의 제곱근과 **적합값(예측값)**의 관계를 보여줍니다.
  • 이 플롯은 등분산성을 추가로 평가하는 데 사용됩니다.
  • 이상적인 경우, 플롯에서 점들이 수평한 직선을 따라 고르게 퍼져야 합니다. 점들이 수평하게 퍼지지 않고, 특정 패턴(예: 기울어진 선이나 곡선)이 보이면 이분산성의 징후입니다.

4. 쿡의 거리(Cook's Distance):

  • **쿡의 거리(Cook's Distance)**는 각각의 관측치가 모델에 얼마나 영향을 미치는지를 평가하는 지표입니다.
  • 이 플롯은 모델에 **영향력이 큰 관측치(이상치)**를 식별하는 데 사용됩니다.
  • 쿡의 거리가 큰 점들영향력이 큰 관측치로, 이들이 모델에 큰 영향을 미칠 수 있습니다.

TukeyHSD()

세 집단의 평균이 모두 동일하지는 않다는 결론이 나왔을 때 모두 다른 평균을 가진것인지 특정 두 집단만 다른 것인지는 분산분석만으로는 알 수 없다. 따라서 사후분석이 필요하다.

 

<사용법>
aov_model = aov(y~x, data)
TukeyHSD(aov_model)

 

 

이 데이터의 경우 trt1 - ctrl의 p-val이 0.05보다 크므로 두 집단은 동일한 평균을 가진다고 할 수 있다.

trt2 - ctrl의 경우도 동일.

그러나 trt2 - trt1의 p-val은 0.05보다 작으므로 H0를 기각한다. 다시말해 trt2와 trt1사이의 평균이 유의하게 다르기 때문에 H0가 기각되었다고 분석할 수 있다.

 

H1 : 적어도 하나의 평균이 다른 집단이 존재한다

'R 통계' 카테고리의 다른 글

[R] 다중 선형회귀  (0) 2024.11.24
[R] 단순선형회귀  (0) 2024.11.23
[R] 독립된 두 집단의 모평균 비교  (0) 2024.10.19
[R] 표본과 추론  (0) 2024.10.19
[R] 기본함수 - aggregate()  (0) 2024.10.15