본문 바로가기

데이터분석/R76

[실무 프로젝트로 배우는...] 중고차 시세 확인 서비스 예측 분석 > ### 5.2 데이터 전처리 > > #### 5.2.1 데이터 및 패키지 불러오기 > > library(stringr) > library(dplyr) > library(ggplot2) > library(ggsci) > > DIR = "F:/1_Study/1_BigData/12_R/02_Practical-R/Data/" > List_Files = list.files(DIR) > File_Length = length(List_Files) > > Total_Data = data.frame() > > for(k in 1:File_Length) { + if(!str_detect(str = List_Files[k], pattern = "unclean")) { + DF = read.csv(paste0(DIR, L.. 2022. 2. 2.
[실무 프로젝트로 배우는...] 주성분 분석 > ### 4.2 중고차 특성의 차원 축소를 위한 데이터 분석 기법 > > # 상관행렬 그래프 > # 주성분분석은 예측자들의 공분산을 활용하기 때문에 일반적으로 상관계수가 높을수록 결과가 깔끔하게 나온다. > > library(corrplot) > Corr_mat = cor(Audi2) > corrplot(Corr_mat, method = "color", outline = T, addgrid.col = "darkgray", + order="hclust", addrect = 4, rect.col = "black", + rect.lwd = 5,cl.pos = "b", tl.col = "indianred4", + tl.cex = 0.5, cl.cex = 0.5, addCoef.col = "white", + n.. 2022. 2. 2.
[실무 프로젝트로 배우는...] 군집 분석 > ### 4.1 중고차 데이터 분할을 위한 데이터 분석 기법 > > #### 4.1.1 비슷한 유형의 중고차 탐색 - 유사도 분석 > > # 데이터 및 패키지 불러오기 > > library(ggplot2) > library(dplyr) > library(reshape) > > DIR = "F:/1_Study/1_BigData/12_R/02_Practical-R/Data/" > Audi = read.csv(paste0(DIR, "audi.csv"),stringsAsFactors = FALSE) > > # 유사도 기준 > > Normalization = function(x){ + y = (x-min(x))/(max(x)-min(x)) + return(y) + } > > Audi$mileage_Norm = .. 2022. 2. 2.
[실무 프로젝트로 배우는...] 머신러닝 기초 > ### 3.10 중고차 등급 분석을 위한 머신러닝 기초 > > #### 3.10.1 의사결정나무 > > # 엔트로피 모델 > # 엔트로피(Entropy)는 의사결정나무에서 불순도(Impurity) 지표를 나타낸다. > > # 불순도 지표 계산 > > DF = data.frame( + TEXT = rep(c("A","B"),c(9,3)), + x = rep(1:4,3), + y = rep(1:3, each = 4) + ) > > H = 0 > for(k in unique(DF$TEXT)) { + Prob = sum(DF$TEXT == k)/ nrow(DF) + Value = Prob * log2(Prob) + H = H + Value + } > H = H * (-1) > print(H) [1] 0.81.. 2022. 1. 31.
[실무 프로젝트로 배우는...] 분류 모형 > ### 3.9 중고차 등급 분석을 위한 분류 모형 > > #### 3.9.1 로지스틱 회귀분석 > > Q3 = quantile(Audi$price, probs = c(0.75)) > Audi$price_G = ifelse(Audi$price > Q3, 1, 0) > Sample = Audi[SL,] > Test = Audi[-SL,] > > # 로지스틱 회귀분석의 접근 방식 > > ggplot(Sample) + + geom_point(aes(x = mileage, y = price_G, col = as.factor(price_G))) + + geom_abline(mapping=aes(slope = 1/150000,intercept = 1), + linetype = "dashed", size = 1.2.. 2022. 1. 31.
[실무 프로젝트로 배우는...] 예측 분석 > ### 3.8 중고차 판매 가격 예측을 위한 분석 > > #### 3.8.1 범주형 변수를 활용한 예측 분석 > > # 가변수를 활용한 회귀분석 > > D_Reg = lm(log(price) ~ mileage + fuelType, data = Sample) > summary(D_Reg) Call: lm(formula = log(price) ~ mileage + fuelType, data = Sample) Residuals: Min 1Q Median 3Q Max -1.58062 -0.21701 -0.02386 0.18308 1.73167 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.037e+01 7.472e-03 1387.797 P.. 2022. 1. 31.