반응형
https://steadiness-193.tistory.com/220
위 포스팅에서 전처리 완료한 fec와 fec_mrbo를 이용한다.
데이터 불러오기
직업 / 정당별 기부금 피벗테이블
다 살펴보기엔 무리가 있으니
최소 2백만불 초과로 기부한 직업만 추출해서 다시 보자
피벗 테이블을 열 방향으로 더한 다음
2백만 초과인 조건을 만들어 낸다.
이제 이 조건으로 필터링 하면 된다.
역시 그냥 보긴 어려우니 시각화로 다시 보자
양대 후보별로 가장 많은 금액을 기부한 직군은?
데이터 불러오기
위에서 설명한, 이전 포스팅에서 만들어낸 fec_mrbo 데이터프레임이다.
오바마의 데이터가 롬니의 데이터보다 약 5배 이상 많다.
함수 정의
그룹객체를 인풋으로 받아서 그룹별로
다시 grouping_col으로 그룹핑하여, 기부금액의 합을 찾고
그 합이 높은 상위 5개의 데이터를 시리즈로 추출한다.
위 함수에 대한 상세 설명은 아래 포스팅 참조
https://steadiness-193.tistory.com/219
함수 실행
n을 7로 조정해 상위 7개의 직군들을 뽑았다.
은퇴자, NOT PROVIDED, 주부를 제외하면
오바마의 경우 변호사, 의사, 컨설턴트가 보이고
롬니의 경우 변호사, 시장, 사장, 임원이 보인다.
양대 후보별로 가장 많은 금액을 기부한 고용주는?
위 함수를 똑같이 이용하되 grouping_col을 고용주 컬럼으로 넣어주면 된다.
오바마의 경우 자영업을 하는 사람들의 기부금 롬니의 그것보다 2배 이상 높았다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 2012년 연방선거관리위원회 : 후보 및 주별 기부 통계 (2) | 2020.08.09 |
---|---|
판다스 - 2012년 연방선거관리위원회 : 후보와 기부 규모별 기부 비율 (0) | 2020.08.09 |
판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 (0) | 2020.08.09 |
판다스 - 뉴욕 Airbnb 데이터 : 지역별 가격 분포 파악, 시각화 (0) | 2020.08.03 |
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기 (0) | 2020.08.02 |