히스토그램
- 가로축에 계급값을 같은 간격으로 둔다
- 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급 값에 속한 빈도수 또는 비율을 나타낸다
<사용법>
hist(x) ##이때 x에 해당하는 값은 반드시 숫자여야함
ex) hist(g$weight)
두번째 breaks 인자로 seq()를 활용하면 히스토그램의 범위를 설정 할 수 있음
<히스토그램의 경계를 1로 바꾸는법>
hist(g$weight, breaks = seq(3.5,6.5,by=1))
박스 플롯
- 데이터 범위와 중앙값을 한눈에 확인하고, 이상치(outlier)가 있는지 여부를 파악할 수 있는 그래프
- 박스플롯 그래프에서 표현되는 값들
- 최솟값 = (제 1사분위 -1.5* IQR)
- 제 1사분위(Q1)
-데이터의 25%지점에 위치하는 수 - 제 2사분위(Q2)
-데이터의 50%지점에 위치하는 수
-중앙값 - 제 3사분위(Q3)
-데이터의 75%지점에 위치하는수 - 최댓값 = (제 3사분위 +1.5* IQR)
- 범위(Range) : 데이터의 범위 (최댓값 - 최솟값)으로 구함
- 사분위수(IQR) : InterQuartile Range로 제 1분위인 Q1에서 제 3분위인 Q3까지의 범위
- 이상치(Outlier) : 데이터의 범위에서 벗어난 정도가 큰 데이터로, 다른 값들에 비해 지나치게 크거나 작은 관측치
- (제 1사분위수 - 1.5 * IQR) 보다 작은 수
- (제 3사분위수 + 1.5* IQR) 보다 큰 수
<사용법>
boxplot(x) ##이때 x에 해당하는 값은 반드시 숫자여야함
ex) boxplot(g$weight)
산점도
- 좌표평면상에 두 변수간의 관계를 나타내는 그래프로, 두 변수간 관계가 있는지, 만약 관계가 있는 경우 그 정도가 얼마인지를 살펴볼 수 있는 그래프
- 상관관계는 X값이 증가 또는 감소할 때 Y의 경향(trend)을 의미함
<사용법>
plot(x,y)
ex) plot (c(1,2,4,5,6), c(4,8,9,10,23))
'R 통계' 카테고리의 다른 글
[R] dataframe과 열의 차이 (1) | 2024.10.15 |
---|---|
[R] 데이터 전처리 -결측치 제거 (0) | 2024.10.15 |
[R] 정규성 분석 (0) | 2024.10.12 |
[R] 범주형 데이터와 그래프 (0) | 2024.10.12 |
[R] 외부 데이터 불러오기 (0) | 2024.10.12 |