분류 전체보기 (24) 썸네일형 리스트형 [R] 다중 선형회귀 다중 선형회귀는 단순 선형회귀와 달리 여러개의 독립변수(x)에 의해 결정되는 종속변수(y)를 찾는 모델이다. y= β0 + β1⋅x0 + β2⋅x1 + β3⋅x2 + β4⋅x3 + ϵ 다중 선형 회귀의 주요 가정은 다음과 같습니다:선형성(Linearity): 독립 변수와 종속 변수 간의 관계가 선형이어야 한다.등분산성(Homoscedasticity): 오차의 분산이 독립 변수의 값에 관계없이 일정해야 한다.독립성(Independence): 오차가 서로 독립적이어야 한다.정규성(Normality): 오차(잔차)가 평균 0이고 정규분포를 따라야 한다.R의 내장데이터인 mtcar를 사용해 다중선형회귀를 해보자. > m = mtcars> res = lm(mpg ~ wt + vs + factor(gea.. [R] 단순선형회귀 y = ax + b를 예측하는 모델단순 선형회귀에서는 오차(Residuals)**가 정규분포를 따라야 합니다.qqnorm(residuals(model)) qqline(residuals(model)) : 잔차가 직선에 가까울수록 정규성을 만족.shapiro.test(residuals(model)) : p-value가 0.05 이상이면 정규성을 만족한다고 볼 수 있음.hist(residuals(model)): 잔차의 분포를 시각적으로 확인. 정규성을 크게 위반해도 예측에는 큰 영향을 미치지 않을 수 있습니다.하지만 가설 검정과 신뢰구간에 문제가 생길 수 있으므로, 다음과 같은 조치를 취할 수 있습니다:로그 변환, 루트 변환 등으로 종속 변수 또는 독립 변수를 변환.더 강건한 모델(예: 일반화 선형 모델 gl.. [R] 독립된 세 집단 이상의 모평균 비교 셋 이상의 집단 모평균 비교전체 집단을 두개씩 짝지어 모평균의 차이를 비교하면 신뢰구간이 줄어드는 문제가 있음. - 각 비교에서 신뢰수준 1-a로 k 번 비교를 진행한다면 신뢰수준은 (1-a)^k가 되어 신뢰수준이 떨어지는 문제 발생 따라서 세 집단 이상의 모평균을 비교할 때는 ANOVA 사용 ANOVAH0: mu1 = mu2 = mu3 = ... =mu n H1 : 적어도 하나의 mu i 는 나머지와 다름 ANOVA 분석도 t-test와 마찬가지로 각 집단이 정규분포해야한다.ANOVA에서 기본 가정 중 하나는 집단 간의 모분산이 동일(등분산)하다는 것임 (등분산성 가정)등분산임을 확인하기 위해 bartlett.test() 시행등분산임이 확인되었을 경우 anova 분석 실행 p-value 각 집단.. [R] 독립된 두 집단의 모평균 비교 Two-sample t-test목적독립적인 두 모집단의 평균을 비교할 경우에 이용종속변수는 연속형 변수정규분포를 만족해야 하고, 관찰치 간에 독립성이 있어야함검정 절차정규성 검정two-sample t-test를 하기 위해서는 두 집단이 정규분포를 만족해야함. 따라서 shapiro.test(), qqline()등을 이용해 정규성 확인두 집단의 분산/표준편차가 동일한지 확인해야함two-sample t-test의 경우 두 집단이 동일한 분산을 가질때와 그렇지 않을때의 식이 다르기에 F-test로 등분산 검정을 먼저 실시함. t.test()를 실시하여 p-value가 0.05미만이면 귀무가설 기각 -> 두 집단의 평균은 다르다.t-test에 쓰이는 S^2는 표본분산이나 t-test는 모분산을 모를때 표본분산을 .. [R] 표본과 추론 모집단에서 추출한 표본집단의 표본평균과 분산은 다음을 따른다 모집단(N)표본집단(n)평균분산 이때 표본의 수가 충분히 크다면 중심극한정리에 의해 표본평균의 분포가 정규분포와 가까워진다고 가정할 수 있다.추정표본으로부터 통계량의 값을 구하여 그 값을 근거로 모집단의 모수값을 추론하는 것 신뢰구간 추정량의 분포를 기반으로 모수값이 포함되리라 예상되는 구간(L, U)의 형식 신뢰구간 P(L95% 신뢰구간 P(L Z검정표본평균을 바탕으로 모평균이 가설에 부합하는지 검정하는 방법모집단의 평균이 특정한값(모평균)과 다르다고 가정하는 상황에서 표본평균을 이용하여 그 가설을 검증하는 방법 모집단 분산/표준편차를 아는경우표본평균의 표본분포는 정규분포를 따른다고 가정Z검정 사용모집단 표준편차를 모르는데, 표본의 .. [R] 기본함수 - aggregate() aggrregate()기준 열로 그룹화 하여 특정 열에 대해 요약 통계를 적용한 값을 반환하는 함수.마지막 파라미터에 따라 평균, 합계, 표준편차 등으로 분석 aggregate(x~y, data, FUN) ## x ~ y : 그룹화대상 ~ 그룹화 요인 y기준 x의 FUN값## data : 그룹화를 수행할 data 지정## FUN : 그룹별로 적용할 집계 함수를 지정 ex) 평균(mean), 합계(sum), 표준편차(sd) [R] dataframe과 열의 차이 Q : w1$BMI = w1['WT']/(w1['HT']/100)**2 이게 작동은 하는데 새로 추가되는열의 이름이 WT로 나와A : R에서 w1['WT'] / (w1['HT'] / 100)**2와 같이 코드를 작성했을 때 작동은 하지만, 새로 추가되는 열의 이름이 WT로 나오는 이유는 R의 대괄호([])를 사용해 열을 선택할 때 데이터프레임 형태로 반환되기 때문입니다. 이 경우, 대괄호로 참조한 결과가 여전히 데이터프레임이기 때문에 연산 후에도 새로운 열의 이름이 WT로 남습니다.이를 해결하기 위해서는, 열 이름을 벡터 형식으로 가져오는 $ 연산자를 사용하는 것이 좋습니다.문제 해결 방법새로운 BMI 열을 추가할 때 $ 연산자를 사용하여 벡터를 참조하는 방식으로 수정하면 됩니다: w1$BMI w1$W.. [R] 데이터 전처리 -결측치 제거 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있는 경우가 있다.결측치가 존재하면 함수가 적용이 되지 않거나 분석 결과가 왜곡되는 문제가 발생한다.따라서 데이터를 분석하기 전 결측치를 제거해주는 과정이 필요하다.is.na()is.na()함수는 NA값을 True로 그렇지 않은값을 False로 바꾸어주는 함수이다.is.na(x) ##이때 x는 data.frame, 벡터, 행렬 일반적으로 dfnew = df[is.na(df$x) != T, ] 형식으로 결측치를 가진 데이터를 뽑아낸다.complete.cases()is.na()와 반대로 결측치 값을 False, 결측치가 아닌 값을 True로 반환한다.is.na()와 달리 행단위로 함수가 적용된다. complete.case.. 이전 1 2 3 다음