본문 바로가기

Pandas

(165)
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 고객 코호트(cohort) 분석 https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data clea.. steadiness-193.tistory.com 전처리, 컬럼 추가 등은 위 포스팅 참조 데이터 불러오기 연도, 월 컬럼 추가 코호트 분석을 위해선 고객별로 첫 구매가 언제인지 파악해야한다. 이번 코호트 분석은 월 단위로 분석한다. 고객별 첫 구매 연도 추출 고객별로 (CustomerI..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 시간대별 매출, 상위 매출 제품의 월별 판매량 추이 https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data clea.. steadiness-193.tistory.com 위 포스팅과 연결됩니다. 데이터 불러오기 시간대별 매출 [방법1] InvoiceDate를 인덱스로 설정 → hour만 뽑아내서 groupby 이용 우선 인덱스로 설정해주고 lambda 함수를 이용해서 hour만 뽑아낸 뒤 이를 이용해서 그..
판다스 - groupby : set_index와 사용자 정의 함수로 그룹핑 판다스 - groupby : 함수로 그룹핑하기 사전이나 시리즈로 그룹핑하는 것보다 함수로 그룹핑하는 것이 보다 더 일반적이다. 그룹 색인으로 넘긴 함수는 색인값 하나마다 한 번씩 호출되며 반환값은 그 그룹의 이름으로 사용된다. 데�� steadiness-193.tistory.com 판다스 - groupby : 인덱스로 그룹화하기 (멀티인덱스, level) https://steadiness-193.tistory.com/76 판다스 - groupby : 색인 단계로 그룹핑하기(계층적 색인) 계층적 색인에서는 축 색인의 단계 중 하나를 이용해 집계할 수 있다. 데이터 만들기 컬럼이 멀티인덱스이므� steadiness-193.tistory.com 판다스 - groupby : 인덱스를 함수로 그룹핑하기 https..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일.. steadiness-193.tistory.com 위 포스팅과 연결됩니다. 데이터 불러오기 InvoiceDate 컬럼은 자료형이 datetime이다. 하나의 자료를 가져와보면 Timestamp를 볼 수 있는데 연도를 얻기위해선 year를, 월을 얻기위해선 month를 이용하면 된다..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 약 500,000건 데이터 불러오기 컬럼 확인 컬럼명 설명 invoiceNo 주문.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터프레임으로 진행한다. 필요 라이브러리 불러오기 데이터 불러오기 * 메모리 효율화를 위해 몇몇 컬럼은 downcast 진행됨 InvoiceData 컬럼 날짜 데이터로 변경 infer_datetime_for..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 데이터 출처 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 약 500,000건 데이터 불러오기 컬럼 확인 컬럼명 설명 invoiceNo 주문 번호 StockCode 아이템 아이디 Description 상품에 대한 정보 Quantity 상품 주문 수량 InvoiceDate 주문 일자, 시간 UnitPrice 상품 가격 CustomerID 고객 아이디 Country 고객 거주 지역 (국가) 데이터 살펴보기 고객ID에 누락값이 있는 것을 확인했다. 기술통계 확인 상품의 주문 수량과 가격의 최솟값이 음수가 나와있다. 이는 이상한 값으로 제거해주는 편이 좋아보인다. 컬럼별 누락값 개수 확인..
판다스 - 연령과 직업, 은행 상품 가입간의 관계 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 고려하고자하는 세가지 변수는 직업, 나이, 은행상품 가입 여부이다. 직업 - job (문자열) 나이 - age (정수형) 은행 상품 가입 여부 - y (문자열) 위 세가지를 피벗테이블을 이용해 분석해보자 위 피벗테이블은 직업별, 은행상품 가입 / 미가입의 평균 나이를 나타낸다. 그냥 보기엔 큰 의미를 찾기 어려우니 컬럼간 연산을 해보자 yes컬럼에서 no컬럼을 빼..
판다스 - 행의 값 기준 정렬 데이터 불러오기 행 기준 정렬은 sort_values를 이용하되 by 인자에는 행 인덱스 값을, axis에는 1을 넘겨서 열방향으로 진행한다. 위 데이터프레임에서 동민의 점수를 오름차순 정렬해보자 df3.sort_values(by='동민', axis=1) 동민의 점수가 오름차순 되며 컬럼의 순서도 동시에 바뀌었다. 동민의 점수를 내림차순 정렬해보자 df3.sort_values(by='동민', axis=1, ascending=False) 동민의 점수가 내림차순되며 컬럼의 순서도 바뀌었다.