본문 바로가기

Data_Analysis

(294)
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 약 500,000건 데이터 불러오기 컬럼 확인 컬럼명 설명 invoiceNo 주문 번호 StockCode 아이템 아이디 Description 상품에 대한 정보 Quantity 상품 주문 수량 InvoiceDate 주문 일자, 시간 UnitPrice 상품 가격 CustomerID 고객 아이디 Country 고객 거주 지역 (국가) 데이터 살펴보기 고객ID에 누락값이 있는 것을 확인했다. 기술통계 확인 상품의 주문 수량과 가격의 최솟값이 음수가 나와있다. 이는 이상한 값으로 제거해주는 편이 좋아보인다. 컬럼별 누락값 개수 확인..
Matplotlib - plt : xlim, ylim https://steadiness-193.tistory.com/151 Matplotlib - 그래프 꾸미기 : marker, markerfacecolor, markersize, color, linewidth, linestyle https://steadiness-193.tistory.com/150 Matplotlib - plt : xticks, yticks https://steadiness-193.tistory.com/149 Matplotlib - 선그래프, x축 라벨, y축 라벨, 그래프 제목, 범례 데이터 불러오기 서울에서.. steadiness-193.tistory.com 위 포스팅에서 만든 그래프를 이용한다. 기존 그래프 xlim x축의 최솟값과 최댓값을 설정한다. plt.xlim([최솟값, 최댓값..
Matplotlib - 그래프 꾸미기 : marker, markerfacecolor, markersize, color, linewidth, linestyle https://steadiness-193.tistory.com/150 Matplotlib - plt : xticks, yticks https://steadiness-193.tistory.com/149 Matplotlib - 선그래프, x축 라벨, y축 라벨, 그래프 제목, 범례 데이터 불러오기 서울에서 경기도로 이동한 인구 데이터 값 import matplotlib.pyplot as plt 한글 폰트.. steadiness-193.tistory.com 위 포스팅에서 만든 그래프를 이용한다. 선 그래프의 꾸미기 옵션 옵션 설명 'o' 선이 아닌 점 그래프 marker 마커 모양 'o' ',' '^' '' '*' '+' 'v' '8' 's' 'p' 'h' 'D' '.' markerfacecolor 마커 배경..
Matplotlib - plt : xticks, yticks https://steadiness-193.tistory.com/149 Matplotlib - 선그래프, x축 라벨, y축 라벨, 그래프 제목, 범례 데이터 불러오기 서울에서 경기도로 이동한 인구 데이터 값 import matplotlib.pyplot as plt 한글 폰트 문제 해결 from matplotlib import font_manager, rc font_path = 'c:/Windows/Fonts/malgun.ttf' font_na.. steadiness-193.tistory.com 위 포스팅에서 만든 sr_kk 시리즈를 이용한다. sr_kk의 인덱스는 1970년부터 2018년까지인데 문자열로 되어있어 이를 정수형으로 바꿔서 그래프를 다시 그려본다. 위의 x축에 표시되는 숫자가 10년 단위로 뜨..
Matplotlib - plt : 선그래프, xlabel, ylabel, title, legend(범례) 데이터 불러오기 서울에서 경기도로 이동한 인구 데이터 값 import matplotlib.pyplot as plt 한글 폰트 문제 해결 from matplotlib import font_manager, rc font_path = 'c:/Windows/Fonts/malgun.ttf' font_name = font_manager.FontProperties(fname=font_path).get_name() rc('font', family=font_name) 선 그래프 1. plt.plot(x축 설정, y축 설정) 2. plt.plot(시리즈) 3. 시리즈.plot() 이 방법은 위 2가지 방법에 비해 x축 인덱스가 많이 생략됐다. x축 이름 plt.xlabel(이름) size와 fontsize 모두 동일한 결..
텍스트 분석 - 네이버 카페(비건 디저트) : SNA (의미연결망 분석) [의미연결망분석] 텍스트 분석의 한 종류로, 자연어 처리 방식을 활용해 텍스트 형태로 이루어진 비정형 데이터들에서 정보를 추출하거나 단어 간 연계성을 파악하는 기법 출처 : https://blog.naver.com/bflysoft_biz/221981817243 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 � steadiness-193.tistory.com 위에서 만들어낸 mas 엑셀 파일을 이용한다. 텍스트 분석 - 네이버 카페(비건 디저트) : 상..
텍스트 분석 - 네이버 카페(비건 디저트) : 토픽모델링 (페르소나 설정, corpora, models) 토픽모델링은 텍스트 데이터에서 사용된 주제어들의 동시 사용 패턴을 바탕으로, 해당 텍스트들을 대표하는 특정 주제나 이슈, 주제 그룹들을 자동으로 추출하는 분석 기법이다. 이때 토픽은 함께 등장할 확률이 높고 유사한 의미를 가지는 단어들의 집합이라고 할 수 있다. 이 방식은 텍스트 데이터 내 단어들의 빈도를 통계적으로 분석하여 전체 데이터를 관통하는 잠재적 주제, 즉 토픽들을 자동으로 추출하는 분류를 하기 때문에 쟁점, 즉 프레임 분석 시 유용하다. 출처 : https://blog.naver.com/bflysoft_biz/222012782382 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. conte..
텍스트 분석 - 네이버 카페(비건 디저트) : Word2Vec (가까운 단어 찾기) https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 � steadiness-193.tistory.com 위 포스팅에서 만들어낸 mas 엑셀 파일을 이용한다. https://steadiness-193.tistory.com/145 텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud https://steadiness-193.tistory.com/144 텍스트 ..