본문 바로가기

전체 글

(33)
[ML&DL] KNN Classification & Regression KNN(K-Nearest Neighbors, K-최근접 이웃) 알고리즘은 지도 학습(Supervised Learning)에서 사용되는 간단하면서도 효과적인 분류(Classification) 및 회귀(Regression) 방법이다.1. 기본 개념KNN은 새로운 데이터가 주어졌을 때, 가장 가까운 K개의 데이터를 찾아 다수결(분류) 또는 평균(회귀) 방식으로 예측을 수행한다. 즉, 새로운 샘플이 어떤 클래스에 속할지를 결정할 때, 기존 데이터 중 가장 가까운 K개의 샘플을 참고하는 방식이다.2. 작동 원리데이터셋에서 새로운 데이터와 기존 데이터 간의 거리를 계산한다. 일반적으로 유클리드 거리(Euclidean Distance)가 가장 많이 사용되지만, 맨해튼 거리(Manhattan Distance), 코사인..
[지능형 시스템] 학자 별 인공지능의 정의 오늘은 인공지능 융성기(1956~1960s)에 있었던 학자별 인공지능의 정의 및 충돌에 대해 알아보자. 존 메카시(John McCarthy) : 심볼릭 AI의 아버지존 메카시는 "Symbolic AI"의 아버지로 가장 처음 AI라는 용어를 만든 사람이다.그는 AI를 논리와 기호(Symbol)를 기반으로 문제를 해결하는 시스템으로 정의했다.논리적 추론, 규칙 기반 시스템(If-Then), 프로그래밍 언어 개발(LISP)을 중요시함 📌 매카시의 AI 개념"인공지능이란, 인간처럼 논리적으로 사고하고 문제를 해결할 수 있는 기계를 만드는 것이다."그는 AI를 "논리적 추론(Logical Reasoning)"과 "심볼(기호, Symbol) 조작"으로 접근해야 한다고 주장했다.📌 매카시의 핵심 연구LISP (1..
[백준]18429번 :근손실(C++) https://www.acmicpc.net/problem/18429 문제웨이트 트레이닝을 좋아하는 어떤 대학원생은, 현재 3대 운동 중량 500의 괴력을 소유하고 있다. 다만, 하루가 지날 때마다 중량이 K만큼 감소한다. 예를 들어 K=4일 때, 3일이 지나면 중량이 488로 감소하게 된다. 따라서 운동을 하지 않고, 가만히 있다면 매일매일 중량이 감소할 뿐이다.다행히도 이 대학원생은 N개의 서로 다른 운동 키트를 가지고 있다. 이 대학원생은 하루에 1개씩의 키트를 사용하며, 매일 어떤 키트를 사용할 지는 마음대로 결정할 수 있다. 운동 키트들은 각각의 중량 증가량을 가지고 있으며, 사용할 때마다 즉시 중량이 증가하게 된다. 이 때 몇몇 운동 키트들의 중량 증가량이 같을 수 있으나, 서로 다른 운동 키트..
[백준] 2206번 : 벽 부수고 이동하기(C++) https://www.acmicpc.net/problem/2206문제N×M의 행렬로 표현되는 맵이 있다. 맵에서 0은 이동할 수 있는 곳을 나타내고, 1은 이동할 수 없는 벽이 있는 곳을 나타낸다. 당신은 (1, 1)에서 (N, M)의 위치까지 이동하려 하는데, 이때 최단 경로로 이동하려 한다. 최단경로는 맵에서 가장 적은 개수의 칸을 지나는 경로를 말하는데, 이때 시작하는 칸과 끝나는 칸도 포함해서 센다.만약에 이동하는 도중에 한 개의 벽을 부수고 이동하는 것이 좀 더 경로가 짧아진다면, 벽을 한 개 까지 부수고 이동하여도 된다.한 칸에서 이동할 수 있는 칸은 상하좌우로 인접한 칸이다.맵이 주어졌을 때, 최단 경로를 구해 내는 프로그램을 작성하시오.입력첫째 줄에 N(1 ≤ N ≤ 1,000), M(1 ..
[R] 비모수적 검정 Wilcoxon rank sum test(Mann-Whitney test) VS unpaired t-test / Kruscal-Wallis test 정규성을 따르는 데이터셋의 unpaired t-test과 대응되는 비모수적 검정 방법 > var.test(wt~sex, data = a2)         F test to compare two variances data:  wt by sex F = 1.1102, num df = 214, denom df = 200, p-value = 0.454 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:  0.844142 1.458331 sample estimates: ratio of variances            1.110232  > t.test(wt~sex, data = a2, va..
[R] 비모수적 검정 Spearman corr VS Pearson corr 비모수적 검정은 정규분포를 따르지 않는 데이터셋에 대한 검증이다.모수검정에서 평균을 비교하였지만 비모수적 검정에서는 중위수를 기준으로 데이터를 분석한다. 데이터가 정규분포하는 양상을 가질 때에는 Pearson correlation test를 하였다. 데이터가 정규분포하지 않을 때 단순선형회귀를 하는 방법도 있으나 단순선형회귀 이후 residuals이 정규분포해야함을 증명해야한다. 그래서 비모수적인 상관관계 분석인 spearman correlation test를 소개하려한다. 다음과 같은 personid에 따른 다양한 데이터셋을 기반으로 wt와 age의 상관관계 분석을 해보자 > shapiro.test(a2$wt)         Shapiro-Wilk normality test data:  a2$wt W ..
[R] 카이제곱검정 카이제곱 분석은 주로 다음 상황에서 사용됩니다:두 범주형 변수 간의 관계를 평가 (독립성 검정).데이터 분포가 예상 분포와 일치하는지 확인 (적합도 검정).서로 다른 집단 간에 분포가 동일한지 평가 (동질성 검정). 귀무가설과 대립가설귀무가설 (H0H_0H0​): 두 변수 m$vs와 m$gear는 독립적이다.대립가설 (H1H_1H1​): 두 변수 m$vs와 m$gear는 독립적이지 않다>m = mtcars> chisq.test(m$vs, m$gear)         Pearson's Chi-squared test data:  m$vs and m$gear X-squared = 12.224, df = 2, p-value = 0.002216 경고메시지(들): chisq.test(m$vs, m$gear)에서: ..
[R] 상관분석 상관분석이란-두 개 이상의 변수들 간에 어떤 연관성이 존재하는지 알아보기위한 방법-변수들의 원인과 결과를 밝히는 것이 아니라 단순히 상관성을 분석하고자 하는 것- 1에 가까울수록 양의 상관관계 -1에 가까울 수록 음의 상관관계를 가짐  > c = cars> cor.test(c$speed, c$dist)         Pearson's product-moment correlation data:  c$speed and c$dist t = 9.464, df = 48, p-value = 1.49e-12 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:  0.6816422 0.8862036 sample..