반응형
데이터 출처
UCI Machine Learning Repository
Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31
데이터 불러오기
세미콜론으로 구분되어 있기에
sep=';'을 넣어주었다.
나이 컬럼 시각화
1. 선그래프
이정도는 시각화의 의미가 없다.
오름차순으로 정렬하고 인덱스를 초기화하여 다시 해보자
데이터가 너무 많아서 보기에 좋지 않다.
보통 하나의 컬럼이고 나이처럼 연속적인 데이터는
히스토그램으로 많이 표현하니 히스토그램으로 그려보자
2. 히스토그램
아무 옵션 없이 히스토그램을 그리는 것보다
구간을 설정해주는 편이 분석에 용이하다.
구간을 0부터 100까지 10씩 나눠주면
나이대별로 분포를 확인할 수 있다.
문자열 컬럼 시각화
결혼 정보에 대한 marital 컬럼과 교육수준에 대한 education 컬럼은
값이 문자열로 되어있어
no numeric data to plot 에러메시지가 뜬다.
해결방법 : value_counts 이용
컬럼의 각 고유값 개수를 센 다음
이를 이용해 막대그래프를 그려본다.
education 컬럼 또한 마찬가지로
value_counts를 이용한 뒤 가로막대 그래프를 그릴 수 있다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 대출이 있다면 은행상품에 잘 가입하지 않을까? (0) | 2020.07.15 |
---|---|
판다스 - 고객데이터 시각화 : 히스토그램, 아웃라이어(이상치, 특잇값) 제거 (0) | 2020.07.15 |
판다스 - 광고데이터 분석을 통한 비효율 키워드 추출 (0) | 2020.07.14 |
판다스 - 광고데이터 분석을 통한 중점관리 키워드 추출 (0) | 2020.07.14 |
판다스 - 네이버 쇼핑 크롤링 자료 : 분석 (0) | 2020.07.13 |