본문 바로가기

Pandas/실전

판다스 - 뉴욕 Airbnb 데이터 : 지역별 가격 분포 파악, 시각화

반응형

데이터 및 이미지 출처

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

 

 

 

 

데이터 불러오기

 

 

 

 

 

 

 

 

필드(컬럼), 행/열 개수 확인

 

 

 

 

 

 

 

컬럼별 누락값 확인

 

 

 

투숙객 이름과 호스트 이름에 누락값이 있다.

 

위 두개 컬럼은 분석에 있어서 중요하니 누락값이 있는 행을 삭제하자.

 

 

 

 

 

 

이 데이터프레임에서 재밌는 점은 위도와 경도를 알 수 있다는 것이다.

 

위도와 경도를 산점도에 이용하면 뉴욕의 지도처럼 나타난다.

 

 

 

 

 

위도와 경도로 지도 그리기

 

 

뉴욕에서 airbnb를 운영하는 위치를 볼 수 있는 지도를 만들었다.

 

 

 

 

 

 

 

가격별로 색 조정

 

 

pandas로 scatter를 그릴 때

c옵션이나 colorbar=True를 이용해서 컬러바까지 나오게 되면 x축 눈금이 보이지 않을 때가 있다.

이럴땐 sharex=False 옵션을 주면 x축 눈금이 정상적으로 보이게된다.

 

 

c='price'를 입력해서 가격별로 색깔을 달리하려 했는데 

 

뭔가 원하는 결과가 나오지 않았다.

 

그 이유를 기술통계에서 찾아보자

 

 

 

 

보는 바와 같이 3사분위까지의 가격은 175달러지만

 

최댓값이 $10,000이기 때문에 격차가 너무 커서 색깔의 격차도 커지게 된 것이다.

 

 

 

 

백분위 95%까지의 값

 

quantile

 

 

describe(percentiles)

 

백분위 95%까지의 가격 값도 $355이다.

 

$355 미만인 행만 남겨서 다시 지도를 그려보자

 

 

 

 

visual_df

 

 

 

 

 

 

다시 그리기

 

 

 

위 그래프는 너무 흑백이니 조금 더 꾸며보자

 

 

 

 

 

colorbar, cmap, alpha 설정

 

 

컬러맵을 설정하고, 컬러바를 True로 표시해줬다.

 

투명도는 0.4로 설정해 겹치는 지역도 볼 수 있게 했다.

 

 

 

 

 

이미지 위에 겹치기

기존 이미지

 

 

위 이미지는 데이터 출처에서 제공하는 이미지이며, 뉴욕을 약식화해서 보여주고 있다.

 

이 지도 위에 지금까지 그렸던 산점도를 겹쳐서 그릴 수 있다.

 

 

 

 

반응형