본문 바로가기

Pandas/실전

(47)
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 시간대별 매출, 상위 매출 제품의 월별 판매량 추이 https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data clea.. steadiness-193.tistory.com 위 포스팅과 연결됩니다. 데이터 불러오기 시간대별 매출 [방법1] InvoiceDate를 인덱스로 설정 → hour만 뽑아내서 groupby 이용 우선 인덱스로 설정해주고 lambda 함수를 이용해서 hour만 뽑아낸 뒤 이를 이용해서 그..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일.. steadiness-193.tistory.com 위 포스팅과 연결됩니다. 데이터 불러오기 InvoiceDate 컬럼은 자료형이 datetime이다. 하나의 자료를 가져와보면 Timestamp를 볼 수 있는데 연도를 얻기위해선 year를, 월을 얻기위해선 month를 이용하면 된다..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 약 500,000건 데이터 불러오기 컬럼 확인 컬럼명 설명 invoiceNo 주문.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터프레임으로 진행한다. 필요 라이브러리 불러오기 데이터 불러오기 * 메모리 효율화를 위해 몇몇 컬럼은 downcast 진행됨 InvoiceData 컬럼 날짜 데이터로 변경 infer_datetime_for..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 약 500,000건 데이터 불러오기 컬럼 확인 컬럼명 설명 invoiceNo 주문 번호 StockCode 아이템 아이디 Description 상품에 대한 정보 Quantity 상품 주문 수량 InvoiceDate 주문 일자, 시간 UnitPrice 상품 가격 CustomerID 고객 아이디 Country 고객 거주 지역 (국가) 데이터 살펴보기 고객ID에 누락값이 있는 것을 확인했다. 기술통계 확인 상품의 주문 수량과 가격의 최솟값이 음수가 나와있다. 이는 이상한 값으로 제거해주는 편이 좋아보인다. 컬럼별 누락값 개수 확인..
판다스 - 연령과 직업, 은행 상품 가입간의 관계 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 고려하고자하는 세가지 변수는 직업, 나이, 은행상품 가입 여부이다. 직업 - job (문자열) 나이 - age (정수형) 은행 상품 가입 여부 - y (문자열) 위 세가지를 피벗테이블을 이용해 분석해보자 위 피벗테이블은 직업별, 은행상품 가입 / 미가입의 평균 나이를 나타낸다. 그냥 보기엔 큰 의미를 찾기 어려우니 컬럼간 연산을 해보자 yes컬럼에서 no컬럼을 빼..
판다스 - 대출이 있다면 은행상품에 잘 가입하지 않을까? 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 위 데이터의 y컬럼을 살펴보면 no와 yes로 구성되어있다. yes 은행 상품 가입 no 은행 상품 미가입 loan(대출) 컬럼 yes 대출이 있는 상태 no 대출하지 않음 unknown 확인할 수 없음 도식으로 정리해보면 찾아야하는 데이터는 가입여부에 따라 / 대출을 받은 사람들의 비율인 것이다. 가입여부에 따라 ↓ y컬럼의 값에 따라 그룹핑 get_group을..
판다스 - 고객데이터 시각화 : 히스토그램, 아웃라이어(이상치, 특잇값) 제거 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 duration(전화통화시간) 컬럼 시각화 1. 선그래프 큰 의미를 찾기 힘들다. 오름차순으로 정렬하고 인덱스를 초기화해서 다시 그려보자 상위 5% 정도의 데이터와 나머지의 격차가 매우 커 보인다. 2. 히스토그램 히스토그램을 그리기 전에 구간 설정에 대한 정보를 얻기 위해 describe로 요약본을 살펴보자 최소는 0이고 최대는 4918이다. 우선 그냥 그려보면..
판다스 - 고객데이터 시각화 : 나이대별 히스토그램, 문자열 컬럼 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 세미콜론으로 구분되어 있기에 sep=';'을 넣어주었다. 나이 컬럼 시각화 1. 선그래프 이정도는 시각화의 의미가 없다. 오름차순으로 정렬하고 인덱스를 초기화하여 다시 해보자 데이터가 너무 많아서 보기에 좋지 않다. 보통 하나의 컬럼이고 나이처럼 연속적인 데이터는 히스토그램으로 많이 표현하니 히스토그램으로 그려보자 2. 히스토그램 아무 옵션 없이 히스토그램을 그리..