데이터분석/R76 [실무 프로젝트로 배우는...] 관계 분석 > ### 3.7 중고차 가격에 미치는 영향 파악을 위한 관계 분석 > > #### 3.7.1 상관분석 > > # 상관분석 > > Audi %>% + sample_n(size = 1000, replace = FALSE) %>% + ggplot() + + geom_point(aes(x = mileage, y = price)) + + geom_smooth(aes(x = mileage, y = price)) + + theme_bw() `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")' > > cor(Audi$mileage, Audi$price) [1] -0.5353571 > > # price 변수에 존재하는 극단적인 패턴을 정리하고 분.. 2022. 1. 28. [실무 프로젝트로 배우는...] 평균 분석 > ### 3.6 중고차 특성 분석을 위한 평균 분석 > > #### 3.6.1 일표본 t 검정 > t.test(log(Sample$price),mu = 9.94) One Sample t-test data: log(Sample$price) t = -2.4822, df = 7466, p-value = 0.01308 alternative hypothesis: true mean is not equal to 9.94 95 percent confidence interval: 9.915643 9.937139 sample estimates: mean of x 9.926391 > # 로그 변환된 중고차 가격의 평균은 9.94라는 귀무가설을 기각 > > > #### 3.6.2 독립표본 t 검정 > > # 두 집단의 등분.. 2022. 1. 26. [실무 프로젝트로 배우는...] 통계적 가설 검정 > ### 3.5 중고차 가격 분석을 위한 통계적 가설 검정 > > #### 3.5.1 귀무가설과 대립가설 > > # 데이터 샘플 > set.seed(1234) > SL = sample(1:nrow(Audi), nrow(Audi) * 0.7, replace = FALSE) > Sample = Audi[SL,] > > # 평균, 표준편차, 분위수 계산 > Mean = mean(log(Sample$price)) > Sd = sd(log(Sample$price)) > n = nrow(Sample) > t0025 = qt(p = 0.025, df = n-1) > t0975 = qt(p = 0.975, df = n-1) > > # 신뢰구간 계산 > > Lower = Mean + t0025 * Sd/sqrt(n) .. 2022. 1. 25. [실무 프로젝트로 배우는...] 데이터 분포 탐색 > ### 3.4 중고차 가격 분포 확인을 위한 데이터 분포 탐색 > summary(Audi$price) Min. 1st Qu. Median Mean 3rd Qu. Max. 1490 15131 20200 22897 27990 145000 > ggplot(Audi) + + geom_histogram(aes(x = price), binwidth = 1000) + + theme_bw() > > install.packages("fBasics") > library(fBasics) > > > #### 3.4.1 왜도와 첨도 > > # 왜도 : 분포가 왼쪽으로 긴 꼬리를 가지게 할 경우에는 음수를, 반대로 오른쪽으로 꼬리가 길 경우에는 양수로 계산된다. > skewness(Audi$price) [1] 2.276683.. 2022. 1. 24. [실무 프로젝트로 배우는...] 확률분포 함수 > ### 3.3 확률분포 함수 > > #### 3.3.1 난수 생성 > > # 정규분포 난수 생성 - rnorm() > RN = rnorm(n = 100, mean = 0, sd = 1) # 난수 생성 > hist(RN) > > # t 분포 난수 생성 - rt() > RT = rt(n = 100, df = 9) > hist(RT) > > # 카이제곱분포 난수 생성 - rchisq() > RCH = rchisq(n = 100, df = 9) > hist(RCH) > > # F분포 난수 생성 - rf() > RF = rf(n = 100, df1 = 2, df2 = 3) > hist(RF) > > > #### 3.3.2 확률밀도, 누적분포, 분위수 > > # 확률밀도 - dnorm() > dnorm(x = .. 2022. 1. 22. [실무 프로젝트로 배우는...] 데이터 분석을 위한 확률분포 > #### 3.2 데이터 분석을 위한 확률분포 > > #### 3.2.1 이산형 확률분포 > > # 이항분포 > > Audi_NonHybrid = Audi %>% + filter(fuelType != "Hybrid") > ggplot(Audi_NonHybrid) + + geom_bar(aes(x = fuelType, y = (..count..)/sum(..count..), + fill = fuelType)) + + theme_bw() + + ylab("Perc") > > P_Petrol = sum(Audi$fuelType == "Petrol")/nrow(Audi_NonHybrid) > P_Diesel = 1 - P_Petrol > P_Diesel [1] 0.5241541 > > # 다항분포 > > gg.. 2022. 1. 22. 이전 1 ··· 6 7 8 9 10 11 12 13 다음