본문 바로가기
데이터분석/R

[실무 프로젝트로 배우는...] 데이터 분포 탐색

by 버섯도리 2022. 1. 24.

> ### 3.4 중고차 가격 분포 확인을 위한 데이터 분포 탐색
> summary(Audi$price)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1490   15131   20200   22897   27990  145000 
> ggplot(Audi) +
+   geom_histogram(aes(x = price), binwidth = 1000) +
+   theme_bw()


> install.packages("fBasics")
> library(fBasics)


> #### 3.4.1 왜도와 첨도

> # 왜도 : 분포가 왼쪽으로 긴 꼬리를 가지게 할 경우에는 음수를, 반대로 오른쪽으로 꼬리가 길 경우에는 양수로 계산된다.

skewness(Audi$price)
[1] 2.276683
attr(,"method")
[1] "moment"

> # 첨도 : 양수를 가지는 경우 분포의 꼬리가 정규분포보다 두껍다.   
kurtosis(Audi$price)
[1] 11.66285
attr(,"method")
[1] "excess"


> #### 3.4.2 데이터 변환을 통한 분포 탐색

> # 데이터 로그 변환    

> ggplot(Audi) +
+   geom_point(aes(x = price, y = log(price))) +
+   theme_bw()


> ggplot(Audi) +
+   geom_histogram(aes(x = log(price)), binwidth = 0.1) +
+   theme_bw()
> # 로그 변환된 price의 히스토그램은 기존 price의 히스토그램보다 정규분포에 더 근접한 형태를 띤다.


> # QQ Plot : 주어진 데이터가 정규분포와 얼마나 유사한지 나타내는 그래프
qqnorm(Audi$price)

qqnorm(log(Audi$price))

 

 

 

 

 

출처 : 실무 프로젝트로 배우는 데이터 분석 with R