전체 글141 머신러닝 Example by Python - 토픽 모델 시스템 만들기 (문서 분류) # 데이터 다운로드 경로 : https://archive.ics.uci.edu/ml/machine-learning-databases/00228/ ## 1. LDA를 이용하여 문자에서 토픽 추출하기 from sklearn.decomposition import LatentDirichletAllocation from sklearn.feature_extraction.text import CountVectorizer spam_header = 'spam\t' no_spam_header = 'ham\t' documents = [] with open('F:/1_Study/1_BigData/7_FirstML/smsspamcollection/SMSSpamCollection', 'rt', encoding='UTF8') as.. 2022. 1. 14. 머신러닝 Example by Python - 스팸 문자 필터 만들기 (문서 분류) # 데이터 다운로드 경로 : https://archive.ics.uci.edu/ml/machine-learning-databases/00228/ ## 1. 단어집 만들기 vocabularary = {} with open('D:/99_Study/FirstML/source/11_DocAnalysis/SMSSpamCollection', 'rt', encoding='UTF8') as file_handle: for line in file_handle: splits = line.split() # 한 줄을 빈 칸으로 쪼개서 리스트로 만듭니다. text = splits[1:] # 전체 내용을 단어 단위로 살펴보고 # 사전에 해당 단어가 없으면 추가 후 고유번호를 붙입니다. # 그리고 그 매핑을 vocabularary에.. 2022. 1. 14. 머신러닝 Example by Python - 구매 이력 테이터를 이용한 사용자 그룹 만들기 ## 데이터의 기초 통계량 계산 및 시각화 import time from scipy import stats # 데이터 구조 정의 # 사용자 ID를 키로 갖고 상품 코드의 셋을 값으로 갖는 딕셔너리와 # 상품 코드를 키로 갖고 사용자 ID의 셋을 값으로 갖는 딕셔너리 user_product_dic = {} product_user_dic = {} # 상품 코드를 키로 갖고 상품명을 값으로 갖는 딕셔너리 # 군집화의 내용을 확인하는 단계에서 상품명을 사용합니다. product_id_name_dic = {} # 파일을 읽어 위에서 정의한 데이터 구조를 채웁니다. # 파일은 여기에서... # https://archive.ics.uci.edu/ml/machine-learning-databases/00352/ for.. 2022. 1. 14. 이전 1 ··· 21 22 23 24 다음