본문 바로가기

Pandas/실전

(47)
판다스 - 2012년 연방선거관리위원회 : 후보 및 주별 기부 통계 https://steadiness-193.tistory.com/220 판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데 steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 fec_mrbo를 이용한다. 데이터 불러오기 후보와 주 컬럼으로 그룹핑하기 후보와 주 별로 그룹핑 한 객체의 그룹별 기부금의 합을 구했다. 이 또한 좀 더 보기 좋게 unstack을 하자 위 데이터프레임에서 누락값을 0으로 바꾸고 그 객체를 totals 변수에 넣어주자 67개의 주는 너무 많으니 후보 상..
판다스 - 2012년 연방선거관리위원회 : 후보와 기부 규모별 기부 비율 https://steadiness-193.tistory.com/220 판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데 steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 fec_mrbo를 이용한다. 데이터 불러오기 기부 규모 나누기 0부터 1, 1부터는 10의 배수씩 커지는 구간을 만들었다. 이제 pd.cut을 이용해서 기부금 컬럼을 저 bins 구간으로 나눠주면 된다. 후보와 section으로 그룹핑 좀 더 보기좋게 unstack을 이용하자. 위 데이터만 봐도 오바마가..
판다스 - 2012년 연방선거관리위원회 : 직업 및 고용주에 따른 (정당별)기부 통계 https://steadiness-193.tistory.com/220 판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데 steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 fec와 fec_mrbo를 이용한다. 데이터 불러오기 직업 / 정당별 기부금 피벗테이블 다 살펴보기엔 무리가 있으니 최소 2백만불 초과로 기부한 직업만 추출해서 다시 보자 피벗 테이블을 열 방향으로 더한 다음 2백만 초과인 조건을 만들어 낸다. 이제 이 조건으로 필터링 하면 된다. 역시 그냥 보긴 어려우..
판다스 - 2012년 연방선거관리위원회 : 전처리, 메모리 효율화 데이터 불러오기 백만행이 넘어가는 큰 데이터이다. 컬럼 살펴보기 정치활동 후원금에 대한 데이터 기부자의 이름, 직업, 고용형태, 주소, 기부금액이 포함되어 있다. 2012년 미국 대통령 선거 데이터이며, 모든 주를 포함하고 있다. info 9, 15번 컬럼의 메모리를 효율화하자 전처리 0 - 메모리 효율화 메모리를 약 8MB 아꼈다. 전처리 1 - 소속 정당 표시 대통령 선거에 출마했던 모든 후보자들이다. 후보자들 별로 소속 정당을 연결해줄 수 있는 딕셔너리를 정의한다. 이제, map 메서드를 이용해서 새로운 시리즈를 만들 수 있다. 이렇게 만든 시리즈를 party라는 이름의 컬럼으로 추가해주자 map 메서드에 대한 자세한 내용은 아래 포스팅 참조 https://steadiness-193.tistory...
판다스 - 뉴욕 Airbnb 데이터 : 지역별 가격 분포 파악, 시각화 데이터 및 이미지 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 필드(컬럼), 행/열 개수 확인 컬럼별 누락값 확인 투숙객 이름과 호스트 이름에 누락값이 있다. 위 두개 컬럼은 분석에 있어서 중요하니 누락값이 있는 행을 삭제하자. 이 데이터프레임에서 재밌는 점은 위도와 경도를 알 수 있다는 것이다. 위도와 경도를 산점도에 이용하면 뉴욕의 지도처럼 나타난다. 위도와 경도로 지도 그리기 뉴욕에서 airbnb를 운영하는 위치를 볼 수 있는 지도를 만들었다. 가격별로 색 조정 pandas로 scatter를 그릴 때 c옵션이나 colorbar=True를 이용해서 컬러바까지 나오게 되면 x축 눈금이 보이지 않을 때가 있다. 이럴..
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기 https://steadiness-193.tistory.com/202 판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다... steadiness-193.tistory.com 위 포스팅에서 전처리 완료된 analysis_df를 이용한다. [SQL을 이용하여 room을 가장 많이 등록한 호스트 상위 10명의 room 평균 가격을 찾아보자] 우선 판다스에서 host_id를 그룹핑한 다음 행의 개수를 세보자 총 25,940명의 호스트..
판다스 - 뉴욕 Airbnb 데이터 : room_type별 분석 https://steadiness-193.tistory.com/202 판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다... steadiness-193.tistory.com 위 포스팅에서 전처리 완료된 analysis_df를 이용한다. 데이터 불러오기 room_type의 고유값 총 3가지 타입이 있으며 room_type별로 어떤 값을 보고자 하면 groupby를 이용해야 한다. [목표 : 각 그룹별로 price가 가장 높은 그..
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다. 자료형은 알맞게 구성되었으나 몇몇 컬럼에선 누락값이 있어 보인다. 컬럼별 누락값을 살펴보자 투숙객의 이름과 호스트의 이름 컬럼에서 누락값이 조금 보인다. 위 두개의 컬럼은 분석에 있어서 비중이 높으니 향후 에러 방지를 위해 누락값이 있는 행은 삭제하는 것이 좋아보인다. 누락값이 있는 행 제거 name컬럼과 host_name 컬럼의 누락값이 있는 행을 없애주자 리뷰 컬럼 외엔 누락값이 없어졌다. import re 정규표현식 라이브러리를 impor..