본문 바로가기

Pandas/실전

판다스 - 2012년 연방선거관리위원회 : 직업 및 고용주에 따른 (정당별)기부 통계

반응형

https://steadiness-193.tistory.com/220

 

판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화

데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데

steadiness-193.tistory.com

위 포스팅에서 전처리 완료한 fec와 fec_mrbo를 이용한다.

 

 

 

 

데이터 불러오기

 

 

 

 

 

 

직업 / 정당별 기부금 피벗테이블

 

 

 

다 살펴보기엔 무리가 있으니

 

최소 2백만불 초과로 기부한 직업만 추출해서 다시 보자

 

 

 

 

 

피벗 테이블을 열 방향으로 더한 다음

 

2백만 초과인 조건을 만들어 낸다.

 

이제 이 조건으로 필터링 하면 된다.

 

 

 

 

 

 

역시 그냥 보긴 어려우니 시각화로 다시 보자

 

 

 

 

 

 

 

 

 

양대 후보별로 가장 많은 금액을 기부한 직군은?

 

데이터 불러오기

 

 

 

위에서 설명한, 이전 포스팅에서 만들어낸 fec_mrbo 데이터프레임이다.

 

 

 

 

오바마의 데이터가 롬니의 데이터보다 약 5배 이상 많다.

 

 

 

 

 

함수 정의

 

 

그룹객체를 인풋으로 받아서 그룹별로

 

다시 grouping_col으로 그룹핑하여, 기부금액의 합을 찾고

 

그 합이 높은 상위 5개의 데이터를 시리즈로 추출한다.

 

 

 

 

 

 

 

위 함수에 대한 상세 설명은 아래 포스팅 참조

 

https://steadiness-193.tistory.com/219

 

판다스 - groupby : 그룹 객체별, 기준 컬럼의 상위 N개의 행만 시리즈로 추출

https://steadiness-193.tistory.com/130 판다스 - groupby : 그룹 객체별 상위 N개의 행만 추출 타이타닉 데이터프레임을 pclass와 성별 컬럼으로 그룹화 그룹별 데이터 개수 여기서 그룹별 fare(요금) 컬럼 기준.

steadiness-193.tistory.com

 

 

 

 

 

 

함수 실행

 

 

 

n을 7로 조정해 상위 7개의 직군들을 뽑았다.

 

은퇴자, NOT PROVIDED, 주부를 제외하면

 

 

오바마의 경우 변호사, 의사, 컨설턴트가 보이고

 

롬니의 경우 변호사, 시장, 사장, 임원이 보인다.

 

 

 

 

 

 

 

양대 후보별로 가장 많은 금액을 기부한 고용주는?

 

 

 

위 함수를 똑같이 이용하되 grouping_col을 고용주 컬럼으로 넣어주면 된다.

 

오바마의 경우 자영업을 하는 사람들의 기부금 롬니의 그것보다 2배 이상 높았다.

 

 

 

 

 

반응형