본문 바로가기

Pandas/실전

판다스 - 2012년 연방선거관리위원회 : 후보 및 주별 기부 통계

반응형

https://steadiness-193.tistory.com/220

 

판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화

데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데

steadiness-193.tistory.com

위 포스팅에서 전처리 완료한 fec_mrbo를 이용한다.

 

 

 

 

데이터 불러오기

 

 

 

 

 

후보와 주 컬럼으로 그룹핑하기

 

 

후보와 주 별로 그룹핑 한 객체의

 

그룹별 기부금의 합을 구했다.

 

 

 

이 또한 좀 더 보기 좋게 unstack을 하자

 

 

 

 

위 데이터프레임에서 누락값을 0으로 바꾸고

 

 

그 객체를 totals 변수에 넣어주자

 

 

 

 

 

67개의 주는 너무 많으니

 

후보 상관없이 10만 달러 초과로 기부한 주만 필터링 해보자

 

 

 

 

 

 

 

절대적인 기부금의 차이가 크기 때문에

 

주별 기부금의 합으로 나눠서 정규화를 해줘야한다.

 

 

 

 

 

 

위 데이터프레임의 행도 적은 것은 아니니

 

롬니에게 기부를 많이 한 상위 15개의 주를 기준으로 내림차순해서

 

시각화를 해보자

 

 

 

 

시각화

 

반응형