분류 전체보기 (33) 썸네일형 리스트형 [R] 데이터 전처리 -결측치 제거 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있는 경우가 있다.결측치가 존재하면 함수가 적용이 되지 않거나 분석 결과가 왜곡되는 문제가 발생한다.따라서 데이터를 분석하기 전 결측치를 제거해주는 과정이 필요하다.is.na()is.na()함수는 NA값을 True로 그렇지 않은값을 False로 바꾸어주는 함수이다.is.na(x) ##이때 x는 data.frame, 벡터, 행렬 일반적으로 dfnew = df[is.na(df$x) != T, ] 형식으로 결측치를 가진 데이터를 뽑아낸다.complete.cases()is.na()와 반대로 결측치 값을 False, 결측치가 아닌 값을 True로 반환한다.is.na()와 달리 행단위로 함수가 적용된다. complete.case.. [R] 정규성 분석 qq plotqqnorm()정규 분포표의 qq plot을 그려주는 함수qqnorm(data) qqline()qqnorm에서 정규성을 나타내주는 선이 추가된 형태line 위에 dot이 존재한다면 정규분포하다고 이야기할 수 있다.qqline(data) t-test 등 정규분포의 형태를 전재로 하는 검정을 하기전 정규성 판단에 사용하는 함수shapiro.test()정규성 검정을 위한 p-value도출 함수p-value p-value > 0.05이면 H0를 기각하지 못하므로 정규분포한다고 할 수 있음shapiro.test(data) ##이때 data는 vector이어야함 1차원 dataframe을 넣을시 함수 실행안됨 ## 3ex) shapiro.. [R] 범주형 데이터와 그래프 Tabletable()인자로 주어진 데이터 x1, x2에 대한 빈도수를 구하는 함수'table'유형의 R 객체를 반환- 1개의 인자인 경우 도수분포표 2개의 인자인 경우 교차표를 반환 table(x1)ortable(x1,x2) ##이때 x1, x2는 범주로 구분할 수 있는 R벡터값 CrossTable()crosstable형태로 데이터 출력gmodels 패키지 설치 필요 install.packages('gmodels')ㅔlibrary(gmodels) CrossTable(x1,x2) ##이때 x1, x2는 범주로 구분할 수 있는 R벡터값ex) CrossTable(df$sex, df$incm)표에 나타나는 수치는 순서대로1.일반횟수2.카이로제곱분포3.행 기준 분포 비율4.열 기준 분포 비율5.전체기준.. [R] 수치형 데이터와 그래프 히스토그램 가로축에 계급값을 같은 간격으로 둔다각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급 값에 속한 빈도수 또는 비율을 나타낸다hist(x) ##이때 x에 해당하는 값은 반드시 숫자여야함ex) hist(g$weight)두번째 breaks 인자로 seq()를 활용하면 히스토그램의 범위를 설정 할 수 있음hist(g$weight, breaks = seq(3.5,6.5,by=1))박스 플롯데이터 범위와 중앙값을 한눈에 확인하고, 이상치(outlier)가 있는지 여부를 파악할 수 있는 그래프박스플롯 그래프에서 표현되는 값들최솟값 = (제 1사분위 -1.5* IQR)제 1사분위(Q1)-데이터의 25%지점에 위치하는 수제 2사분위(Q2)-데이터의 50%지점에 위치하는 수-중앙값제 3사분위(Q3).. [R] 외부 데이터 불러오기 CSV파일 불러오기df SPSS(.sav)파일 불러오기foreign 라이브러리 사용install.packages('foreign') //foreign package 설치 및 호출library(foreign)df dataframe 형태로 파일 불러오기 가능haven 라이브러리 사용install.packages('haven')library(haven)df EXCEL파일 불러오기install.packages('readxl')library(readxl) read_excel("파일경로") [백준] 1024번 수열의 합 - 시그마 합 공식, 이진탐색 알고리즘(Python) https://www.acmicpc.net/problem/1024 1024번: 수열의 합 첫째 줄에 N과 L이 주어진다. N은 1,000,000,000보다 작거나 같은 자연수이고, L은 2보다 크거나 같고, 100보다 작거나 같은 자연수이다. www.acmicpc.net 사용 알고리즘 수열의 합공식을 이용해서 리스트를 구하는 조건문을 작성하였다. 풀이 합이 N이면서 길이가 최소 L인 음이 아닌 정수 리스트의 시작 값을 k라고 한다면, 리스트는 항상 [k k+1 k+2 ... k+m](m은 L-1보다 큰 임의의 정수)의 값을 가질 것이다. 따라서 우리는 아래의 식을 만족하는 k, m값을 찾아주면 된다. 이때, 우리는 등차수열의 유한합 공식이 다음과 같다는 것을 알고있다. 위 공식을 식에 대입시켜 보자. 따.. [백준] 1011번 Fly me to the Alpha Centauri - 수학(Python) https://www.acmicpc.net/problem/1011 1011번: Fly me to the Alpha Centauri 우현이는 어린 시절, 지구 외의 다른 행성에서도 인류들이 살아갈 수 있는 미래가 오리라 믿었다. 그리고 그가 지구라는 세상에 발을 내려 놓은 지 23년이 지난 지금, 세계 최연소 ASNA 우주 비행 www.acmicpc.net 사용 알고리즘 사실 사용 알고리즘이라 할 것이 없다. 그냥 수학적 패턴을 찾으면 되는 문제이다. 풀이 우선 1 부터 차례대로 계산 과정을 써보았다. INPUT HOW TO OUTPUT 1 1' 1 2 1 + 1 2 3 1+1+1 3 4 1+2+1 3 5 1+2+1+1 4 6 1+2+2+1 4 7 1+2+2+1+1 5 8 1+2+2+2+1 5 9 1+2+.. [백준] 2606번 바이러스 - DFS와 BFS(Python) https://www.acmicpc.net/problem/2606 2606번: 바이러스 첫째 줄에는 컴퓨터의 수가 주어진다. 컴퓨터의 수는 100 이하인 양의 정수이고 각 컴퓨터에는 1번 부터 차례대로 번호가 매겨진다. 둘째 줄에는 네트워크 상에서 직접 연결되어 있는 컴퓨터 쌍 www.acmicpc.net 사용 알고리즘 그래프 탐색을 할 때 사용되는 알고리즘은 DFS(깊이 우선 탐색법)와 BFS(너비 우선 탐색법)이다. DFS(깊이 우선 탐색법) 그래프 탐색 방식의 일종으로, 트리/그래프의 갈림길에서 막다른 길이 나올 때 까지 최대한 깊숙히 들어가서 확인한 뒤 다시 돌아가 다른 루트를 탐색하는 방식이다. BFS(너비 우선 탐색법) 그래프 탐색 방식의 일종으로, 트리/그래프의 갈림길에 연결되어 있는 모든 .. 이전 1 2 3 4 5 다음 목록 더보기