Pandas/실전
판다스 - 2012년 연방선거관리위원회 : 후보와 기부 규모별 기부 비율
Data_Pistachio
2020. 8. 9. 23:31
반응형
https://steadiness-193.tistory.com/220
판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화
데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데
steadiness-193.tistory.com
위 포스팅에서 전처리 완료한 fec_mrbo를 이용한다.
데이터 불러오기

기부 규모 나누기

0부터 1,
1부터는 10의 배수씩 커지는 구간을 만들었다.
이제 pd.cut을 이용해서 기부금 컬럼을 저 bins 구간으로 나눠주면 된다.

후보와 section으로 그룹핑

좀 더 보기좋게 unstack을 이용하자.

위 데이터만 봐도 오바마가 확실히 롬니보다는 적은 금액의 기부를 많이 받았다.
기부 금액을 모두 더한 뒤 버킷별로 정규화해서 보자

왼쪽 데이터프레임을 오른쪽 시리즈로,
행방향으로 나눠주면 된다.

시각화


기부 금액 순에서 가장 큰 2개의 버킷은 제외했다.
반응형