반응형
https://steadiness-193.tistory.com/220
판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화
데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데
steadiness-193.tistory.com
위 포스팅에서 전처리 완료한 fec_mrbo를 이용한다.
데이터 불러오기
기부 규모 나누기
0부터 1,
1부터는 10의 배수씩 커지는 구간을 만들었다.
이제 pd.cut을 이용해서 기부금 컬럼을 저 bins 구간으로 나눠주면 된다.
후보와 section으로 그룹핑
좀 더 보기좋게 unstack을 이용하자.
위 데이터만 봐도 오바마가 확실히 롬니보다는 적은 금액의 기부를 많이 받았다.
기부 금액을 모두 더한 뒤 버킷별로 정규화해서 보자
왼쪽 데이터프레임을 오른쪽 시리즈로,
행방향으로 나눠주면 된다.
시각화
기부 금액 순에서 가장 큰 2개의 버킷은 제외했다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 2012년 연방선거관리위원회 : 후보 및 주별 기부 통계 (2) | 2020.08.09 |
---|---|
판다스 - 2012년 연방선거관리위원회 : 직업 및 고용주에 따른 (정당별)기부 통계 (0) | 2020.08.09 |
판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 (0) | 2020.08.09 |
판다스 - 뉴욕 Airbnb 데이터 : 지역별 가격 분포 파악, 시각화 (0) | 2020.08.03 |
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기 (0) | 2020.08.02 |