본문 바로가기

R 통계

[R] 수치형 데이터와 그래프

히스토그램 

  • 가로축에 계급값을 같은 간격으로 둔다
  • 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급 값에 속한 빈도수 또는 비율을 나타낸다

<사용법>
hist(x)     ##이때 x에 해당하는 값은 반드시 숫자여야함
ex) hist(g$weight)

두번째 breaks 인자로 seq()를 활용하면 히스토그램의 범위를 설정 할 수 있음

<히스토그램의 경계를 1로 바꾸는법>
hist(g$weight, breaks = seq(3.5,6.5,by=1))


박스 플롯

  • 데이터 범위와 중앙값을 한눈에 확인하고, 이상치(outlier)가 있는지 여부를 파악할 수 있는 그래프
  • 박스플롯 그래프에서 표현되는 값들
  1. 최솟값 = (제 1사분위 -1.5* IQR)
  2. 제 1사분위(Q1)
    -데이터의 25%지점에 위치하는 수
  3. 제 2사분위(Q2)
    -데이터의 50%지점에 위치하는 수
    -중앙값
  4. 제 3사분위(Q3)
    -데이터의 75%지점에 위치하는수
  5. 최댓값 = (제 3사분위 +1.5* IQR)

  • 범위(Range) : 데이터의 범위 (최댓값 - 최솟값)으로 구함
  • 사분위수(IQR) : InterQuartile Range로 제 1분위인 Q1에서 제 3분위인 Q3까지의 범위
  • 이상치(Outlier) : 데이터의 범위에서 벗어난 정도가 큰 데이터로, 다른 값들에 비해 지나치게 크거나 작은 관측치
    - (제 1사분위수 - 1.5 * IQR) 보다 작은 수 
    - (제 3사분위수 + 1.5* IQR) 보다 큰 수 
<사용법>
boxplot(x)     ##이때 x에 해당하는 값은 반드시 숫자여야함
ex) boxplot(g$weight)


산점도

  • 좌표평면상에 두 변수간의 관계를 나타내는 그래프로, 두 변수간 관계가 있는지, 만약 관계가 있는 경우 그 정도가 얼마인지를 살펴볼 수 있는 그래프
  • 상관관계는 X값이 증가 또는 감소할 때 Y의 경향(trend)을 의미함
<사용법>
plot(x,y)
ex) plot (c(1,2,4,5,6), c(4,8,9,10,23))

'R 통계' 카테고리의 다른 글

[R] dataframe과 열의 차이  (1) 2024.10.15
[R] 데이터 전처리 -결측치 제거  (0) 2024.10.15
[R] 정규성 분석  (0) 2024.10.12
[R] 범주형 데이터와 그래프  (0) 2024.10.12
[R] 외부 데이터 불러오기  (0) 2024.10.12