반응형
데이터 출처
UCI Machine Learning Repository
Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31
데이터 불러오기
고려하고자하는 세가지 변수는
직업, 나이, 은행상품 가입 여부이다.
직업 - job (문자열)
나이 - age (정수형)
은행 상품 가입 여부 - y (문자열)
위 세가지를 피벗테이블을 이용해 분석해보자
위 피벗테이블은
직업별, 은행상품 가입 / 미가입의 평균 나이를 나타낸다.
그냥 보기엔 큰 의미를 찾기 어려우니 컬럼간 연산을 해보자
yes컬럼에서 no컬럼을 빼준뒤
이를 diff 컬럼으로 추가했다.
이제 diff 컬럼 기준으로 내림차순 정렬을 하면
retired 그룹과 housemaid 그룹의 차이가 매우 큰 것을 볼 수 있다.
이를 막대그래프로 시각화해보면
이렇게 볼 수 있다.
해석을 해보면
retired 그룹과 housemaid 그룹은 평균적으로 나이가 높을수록 가입을 하는 것으로 보인다.
반대로 self-employed 그룹은 조금 젊을 때 은행 상품을 가입하는 것으로 보인다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 (0) | 2020.07.20 |
---|---|
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data cleansing, 메모리 효율화 (3) | 2020.07.20 |
판다스 - 대출이 있다면 은행상품에 잘 가입하지 않을까? (0) | 2020.07.15 |
판다스 - 고객데이터 시각화 : 히스토그램, 아웃라이어(이상치, 특잇값) 제거 (0) | 2020.07.15 |
판다스 - 고객데이터 시각화 : 나이대별 히스토그램, 문자열 컬럼 (0) | 2020.07.15 |