본문 바로가기

Pandas/실전

판다스 - 연령과 직업, 은행 상품 가입간의 관계

반응형

데이터 출처

UCI Machine Learning Repository

Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31

 

 

 

 

데이터 불러오기

 

 

 

고려하고자하는 세가지 변수는

 

직업, 나이, 은행상품 가입 여부이다.

 

 

 

직업 - job (문자열)

 

나이 - age (정수형)

 

은행 상품 가입 여부 - y (문자열)

 

 

 

 

위 세가지를 피벗테이블을 이용해 분석해보자

 

 

 

위 피벗테이블은

 

 

직업별, 은행상품 가입 / 미가입의 평균 나이를 나타낸다.

 

 

 

그냥 보기엔 큰 의미를 찾기 어려우니 컬럼간 연산을 해보자

 

 

 

yes컬럼에서 no컬럼을 빼준뒤

 

이를 diff 컬럼으로 추가했다.

 

 

 

이제 diff 컬럼 기준으로 내림차순 정렬을 하면

 

 

retired 그룹과 housemaid 그룹의 차이가 매우 큰 것을 볼 수 있다.

 

 

 

 

 

 

 

이를 막대그래프로 시각화해보면

 

 

 

이렇게 볼 수 있다.

 

 

 

 

해석을 해보면

 

retired 그룹과 housemaid 그룹은 평균적으로 나이가 높을수록 가입을 하는 것으로 보인다.

 

반대로 self-employed 그룹은 조금 젊을 때 은행 상품을 가입하는 것으로 보인다.

 

 

반응형