본문 바로가기

R 통계

[R] 카이제곱검정

카이제곱 분석은 주로 다음 상황에서 사용됩니다:

  1. 두 범주형 변수 간의 관계를 평가 (독립성 검정).
  2. 데이터 분포가 예상 분포와 일치하는지 확인 (적합도 검정).
  3. 서로 다른 집단 간에 분포가 동일한지 평가 (동질성 검정).

 

귀무가설과 대립가설

  • 귀무가설 (H0H_0): 두 변수 m$vs와 m$gear는 독립적이다.
  • 대립가설 (H1H_1): 두 변수 m$vs와 m$gear는 독립적이지 않다

>m = mtcars

> chisq.test(m$vs, m$gear)

        Pearson's Chi-squared test

data:  m$vs and m$gear
X-squared = 12.224, df = 2, p-value = 0.002216

경고메시지(들):
chisq.test(m$vs, m$gear)에서:
  카이제곱 approximation은 정확하지 않을수도 있습니다

 

해석:

  • p-값이 0.002216으로 유의수준 0.05보다 작으므로, 귀무가설을 기각.
  • m$vs와 m$gear 간에는 통계적으로 유의미한 연관성이 있다고 결론.

 

####

 

  • 카이제곱 검정은 각 셀의 기대 빈도가 충분히 큰 경우에만 정확한 결과를 제공합니다.
  • 일반적으로 기대 빈도가 5 미만인 셀이 20% 이상이면, 카이제곱 검정이 부정확해질 수 있습니다.
    • 기대 빈도는 chisq.test 함수 내부에서 계산됩니다.