본문 바로가기

R 통계

(17)
[R] 비모수적 검정 Wilcoxon rank sum test(Mann-Whitney test) VS unpaired t-test / Kruscal-Wallis test 정규성을 따르는 데이터셋의 unpaired t-test과 대응되는 비모수적 검정 방법 > var.test(wt~sex, data = a2)         F test to compare two variances data:  wt by sex F = 1.1102, num df = 214, denom df = 200, p-value = 0.454 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:  0.844142 1.458331 sample estimates: ratio of variances            1.110232  > t.test(wt~sex, data = a2, va..
[R] 비모수적 검정 Spearman corr VS Pearson corr 비모수적 검정은 정규분포를 따르지 않는 데이터셋에 대한 검증이다.모수검정에서 평균을 비교하였지만 비모수적 검정에서는 중위수를 기준으로 데이터를 분석한다. 데이터가 정규분포하는 양상을 가질 때에는 Pearson correlation test를 하였다. 데이터가 정규분포하지 않을 때 단순선형회귀를 하는 방법도 있으나 단순선형회귀 이후 residuals이 정규분포해야함을 증명해야한다. 그래서 비모수적인 상관관계 분석인 spearman correlation test를 소개하려한다. 다음과 같은 personid에 따른 다양한 데이터셋을 기반으로 wt와 age의 상관관계 분석을 해보자 > shapiro.test(a2$wt)         Shapiro-Wilk normality test data:  a2$wt W ..
[R] 카이제곱검정 카이제곱 분석은 주로 다음 상황에서 사용됩니다:두 범주형 변수 간의 관계를 평가 (독립성 검정).데이터 분포가 예상 분포와 일치하는지 확인 (적합도 검정).서로 다른 집단 간에 분포가 동일한지 평가 (동질성 검정). 귀무가설과 대립가설귀무가설 (H0H_0H0​): 두 변수 m$vs와 m$gear는 독립적이다.대립가설 (H1H_1H1​): 두 변수 m$vs와 m$gear는 독립적이지 않다>m = mtcars> chisq.test(m$vs, m$gear)         Pearson's Chi-squared test data:  m$vs and m$gear X-squared = 12.224, df = 2, p-value = 0.002216 경고메시지(들): chisq.test(m$vs, m$gear)에서: ..
[R] 상관분석 상관분석이란-두 개 이상의 변수들 간에 어떤 연관성이 존재하는지 알아보기위한 방법-변수들의 원인과 결과를 밝히는 것이 아니라 단순히 상관성을 분석하고자 하는 것- 1에 가까울수록 양의 상관관계 -1에 가까울 수록 음의 상관관계를 가짐  > c = cars> cor.test(c$speed, c$dist)         Pearson's product-moment correlation data:  c$speed and c$dist t = 9.464, df = 48, p-value = 1.49e-12 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:  0.6816422 0.8862036 sample..
[R] 로지스틱회귀 R의 survival 패키지에 포함된 colon 데이터셋은 결장암 환자에 대한 임상 데이터를 제공하며, 생존 분석(survival analysis)에 주로 사용됩니다. 이 데이터셋은 결장암 연구에서 환자의 상태와 치료 결과를 기록한 데이터입니다. > library(survival)> library(descr)> df = colon> CrossTable(df$obstruct, df$status)   Cell Contents|-------------------------||                       N || Chi-square contribution ||           N / Row Total ||           N / Col Total ||         N / Table Total ..
[R] 다중 선형회귀 다중 선형회귀는 단순 선형회귀와 달리 여러개의 독립변수(x)에 의해 결정되는 종속변수(y)를 찾는 모델이다. y= β0 ​+ β1​⋅x0 + β2​⋅x1 + β3​⋅x2 + β4​⋅x3 + ϵ  다중 선형 회귀의 주요 가정은 다음과 같습니다:선형성(Linearity): 독립 변수와 종속 변수 간의 관계가 선형이어야 한다.등분산성(Homoscedasticity): 오차의 분산이 독립 변수의 값에 관계없이 일정해야 한다.독립성(Independence): 오차가 서로 독립적이어야 한다.정규성(Normality): 오차(잔차)가 평균 0이고 정규분포를 따라야 한다.R의 내장데이터인 mtcar를 사용해 다중선형회귀를 해보자. > m = mtcars> res = lm(mpg ~ wt + vs + factor(gea..
[R] 단순선형회귀 y = ax + b를 예측하는 모델단순 선형회귀에서는 오차(Residuals)**가 정규분포를 따라야 합니다.qqnorm(residuals(model)) qqline(residuals(model)) : 잔차가 직선에 가까울수록 정규성을 만족.shapiro.test(residuals(model)) : p-value가 0.05 이상이면 정규성을 만족한다고 볼 수 있음.hist(residuals(model)): 잔차의 분포를 시각적으로 확인. 정규성을 크게 위반해도 예측에는 큰 영향을 미치지 않을 수 있습니다.하지만 가설 검정과 신뢰구간에 문제가 생길 수 있으므로, 다음과 같은 조치를 취할 수 있습니다:로그 변환, 루트 변환 등으로 종속 변수 또는 독립 변수를 변환.더 강건한 모델(예: 일반화 선형 모델 gl..
[R] 독립된 세 집단 이상의 모평균 비교 셋 이상의 집단 모평균 비교전체 집단을 두개씩 짝지어 모평균의 차이를 비교하면 신뢰구간이 줄어드는 문제가 있음. - 각 비교에서 신뢰수준 1-a로 k 번 비교를 진행한다면 신뢰수준은 (1-a)^k가 되어 신뢰수준이 떨어지는 문제 발생 따라서 세 집단 이상의 모평균을 비교할 때는 ANOVA 사용 ANOVAH0: mu1 = mu2 = mu3 = ... =mu n    H1 : 적어도 하나의 mu i 는 나머지와 다름 ANOVA 분석도 t-test와 마찬가지로 각 집단이 정규분포해야한다.ANOVA에서 기본 가정 중 하나는 집단 간의 모분산이 동일(등분산)하다는 것임 (등분산성 가정)등분산임을 확인하기 위해 bartlett.test() 시행등분산임이 확인되었을 경우 anova 분석 실행 p-value 각 집단..