Pandas/실전
판다스 - 연령과 직업, 은행 상품 가입간의 관계
Data_Pistachio
2020. 7. 16. 11:05
반응형
데이터 출처
UCI Machine Learning Repository
Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31
데이터 불러오기
고려하고자하는 세가지 변수는
직업, 나이, 은행상품 가입 여부이다.
직업 - job (문자열)
나이 - age (정수형)
은행 상품 가입 여부 - y (문자열)
위 세가지를 피벗테이블을 이용해 분석해보자
위 피벗테이블은
직업별, 은행상품 가입 / 미가입의 평균 나이를 나타낸다.
그냥 보기엔 큰 의미를 찾기 어려우니 컬럼간 연산을 해보자
yes컬럼에서 no컬럼을 빼준뒤
이를 diff 컬럼으로 추가했다.
이제 diff 컬럼 기준으로 내림차순 정렬을 하면
retired 그룹과 housemaid 그룹의 차이가 매우 큰 것을 볼 수 있다.
이를 막대그래프로 시각화해보면
이렇게 볼 수 있다.
해석을 해보면
retired 그룹과 housemaid 그룹은 평균적으로 나이가 높을수록 가입을 하는 것으로 보인다.
반대로 self-employed 그룹은 조금 젊을 때 은행 상품을 가입하는 것으로 보인다.
반응형