본문 바로가기

Pandas/실전

판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석

반응형

데이터 불러오기

 

https://steadiness-193.tistory.com/109

 

판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리

데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이..

steadiness-193.tistory.com

위 포스팅에서 만든 df를 가져온다.

 

 

 

 

 

 

우선 월별로 total 내림차순을 살펴보자

 

 

1월 다음으로 2월이 2위를 차지했다.

 

 

 

 

 

 

그러면 2월의 데이터만 뽑아내보자

 

 

Feb이라는 변수에 담았고

 

결과로 총 17118개의 행이 나왔다.

 

 

 

 

 

 

 

 

2월 며칠에 가장 승객 수가 많을까?

 

 

어떤 특정한 규칙은 찾을 수 없지만

 

발렌타인데이 당일과 전날에 가장 높음을 볼 수 있다.

 

 

 

위 일자별 승객수를 시각화해보자

 

 

토요일, 일요일은 당연스레 승객 수가 적고 출근하는 월요일부터 많아진다.

 

 

어찌된 이유인지는 몰라도 

 

2월 마지막주의 승객 수가 다른 주보다 적어보인다.

 

 

 

 

 

 

 

이제 승객 수가 많은 상위 5개의 일자를 가져오자

 

 

 

top5_days는 14, 13, 19, 18, 17일이다.

 

 

 

 

 

 

 

 

 

2월에 승객 수가 많은 역은 어디일까?

 

 

예상대로 강남, 잠실, 홍대입구 등이 강세를 보인다.

 

 

 

 

 

이제 승객 수가 많은 상위 10개 역만 뽑아오자

 

 

top10_stations에는

 

강남, 잠실, 홍대입구, 서울역, 고속터미널, 선릉, 신림, 사당, 구로디지털단지, 가산디지털단지가 있다.

 

 

 

 

 

 

 

 

 

2월 전체 피벗테이블

 

2월 전체 피벗테이블에 top5_days와 top10_stations를 이용하면

 

인기있는 날과 역만 추려서 볼 수 있다.

 

 

 

 

 

컬럼의 인덱스를 정렬하고 히트맵으로 살펴보자

 

 

 

역시 강남의 유동인구가 월등히 많고, 14일이 가장 짙다.

 

 

 

 

 

 

 

 

 

2월 전체 일자와 top10_stations

 

 

전체적인 비교를 위해 top5_days만이 아닌

 

전체 일자별 top10_stations의 히트맵을 만들었다.

 

그래프에서 봤던대로 2월 마지막 주의 승객수가 대체적으로 줄어들었고

 

발렌타인데이가 가장 핫한 것을 볼 수 있다.

반응형