https://steadiness-193.tistory.com/115
위 포스팅에서 만들어낸 merged 데이터프레임을 불러오자
이것만으로는 인구밀도를 알아낼 수 없으니
areas 데이터프레임과 연결해야한다.
merged와 area의 merge → final
merged의 state와 areas의 state로 join하면 된다.
이렇게 원하던 final 데이터프레임이 만들어졌다.
join이 문제 없이 잘 됐다면
이제 정말 필요한 것은 popluation컬럼과 area(sq. mi) 컬럼이다.
그러나 불행히도 area (sq. mi)에 누락값이 생겨버렸다.
area (sq. mi)컬럼이 누락된 행만 보면
state/region이 USA인 행만 나왔다.
생각해보면 미국의 주별 인구밀도를 구해야하기 때문에
USA 행은 필요 없다.
그러므로 area (sq. mi)컬럼에 누락값이 있는 USA행만 삭제해주자
이제 필요한 area(sq. mi)에는 누락값이 없어졌다.
다만, population에 누락값이 있는 연도는 1990년부터 1999년까지 2개씩 있다.
그러니, 위 연도가 없는 해의 인구밀도만 살펴보자
2000년부터로 데이터를 걸러냈고
누락값은 하나도 없다.
이제 population을 area(sq. mi)로 나누면 된다.
이렇게 잘 나온 인구밀도 시리즈를 컬럼으로 추가하면
2000년부터의 (주, 나이, 연도)별 인구밀도를 잘 구해냈다.
뉴욕의 인구밀도만 그래프로 나타내면 아래와 같다.
2004년 이후 살짝 감소하다 2007년부터 증가 추세를 보인다.
'Pandas > 실전' 카테고리의 다른 글
판다스 - 네이버 쇼핑 크롤링 자료 : 전처리, 살펴보기 (0) | 2020.07.13 |
---|---|
판다스 - 미국의 연도별 인구밀도 변화 (0) | 2020.07.11 |
판다스 - 미국 주/지역별 인구밀도 계산 : 전처리, merge (0) | 2020.07.11 |
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 발렌타인데이 분석 (0) | 2020.07.10 |
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석 (0) | 2020.07.10 |