본문 바로가기

Pandas/실전

판다스 - 고객데이터 시각화 : 나이대별 히스토그램, 문자열 컬럼

반응형

데이터 출처 

UCI Machine Learning Repository

Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31

 

 

 

데이터 불러오기

 

세미콜론으로 구분되어 있기에

 

sep=';'을 넣어주었다.

 

 

 

 

나이 컬럼 시각화

 

1. 선그래프

 

 

이정도는 시각화의 의미가 없다.

 

 

 

오름차순으로 정렬하고 인덱스를 초기화하여 다시 해보자

 

 

 

데이터가 너무 많아서 보기에 좋지 않다.

 

보통 하나의 컬럼이고 나이처럼 연속적인 데이터는

 

히스토그램으로 많이 표현하니 히스토그램으로 그려보자

 

 

 

 

 

2. 히스토그램

 

 

 

 

아무 옵션 없이 히스토그램을 그리는 것보다

 

 

구간을 설정해주는 편이 분석에 용이하다.

 

 

 

 

 

구간을 0부터 100까지 10씩 나눠주면

 

나이대별로 분포를 확인할 수 있다.

 

 

 

 

 

 

문자열 컬럼 시각화

 

 

결혼 정보에 대한 marital 컬럼과 교육수준에 대한 education 컬럼은

 

 

값이 문자열로 되어있어

 

 

 

no numeric data to plot 에러메시지가 뜬다.

 

 

 

 

해결방법 : value_counts 이용

 

 

컬럼의 각 고유값 개수를 센 다음 

 

 

이를 이용해 막대그래프를 그려본다.

 

 

 

 

 

education 컬럼 또한 마찬가지로

 

value_counts를 이용한 뒤 가로막대 그래프를 그릴 수 있다.

 

 

 

반응형