데이터 불러오기
https://steadiness-193.tistory.com/109
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리
데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이..
steadiness-193.tistory.com
위 포스팅에서 만든 df를 가져온다.
우선 월별로 total 내림차순을 살펴보자
1월 다음으로 2월이 2위를 차지했다.
그러면 2월의 데이터만 뽑아내보자
Feb이라는 변수에 담았고
결과로 총 17118개의 행이 나왔다.
2월 며칠에 가장 승객 수가 많을까?
어떤 특정한 규칙은 찾을 수 없지만
발렌타인데이 당일과 전날에 가장 높음을 볼 수 있다.
위 일자별 승객수를 시각화해보자
토요일, 일요일은 당연스레 승객 수가 적고 출근하는 월요일부터 많아진다.
어찌된 이유인지는 몰라도
2월 마지막주의 승객 수가 다른 주보다 적어보인다.
이제 승객 수가 많은 상위 5개의 일자를 가져오자
top5_days는 14, 13, 19, 18, 17일이다.
2월에 승객 수가 많은 역은 어디일까?
예상대로 강남, 잠실, 홍대입구 등이 강세를 보인다.
이제 승객 수가 많은 상위 10개 역만 뽑아오자
top10_stations에는
강남, 잠실, 홍대입구, 서울역, 고속터미널, 선릉, 신림, 사당, 구로디지털단지, 가산디지털단지가 있다.
2월 전체 피벗테이블
2월 전체 피벗테이블에 top5_days와 top10_stations를 이용하면
인기있는 날과 역만 추려서 볼 수 있다.
컬럼의 인덱스를 정렬하고 히트맵으로 살펴보자
역시 강남의 유동인구가 월등히 많고, 14일이 가장 짙다.
2월 전체 일자와 top10_stations
전체적인 비교를 위해 top5_days만이 아닌
전체 일자별 top10_stations의 히트맵을 만들었다.
그래프에서 봤던대로 2월 마지막 주의 승객수가 대체적으로 줄어들었고
발렌타인데이가 가장 핫한 것을 볼 수 있다.
'Pandas > 실전' 카테고리의 다른 글
판다스 - 미국 주/지역별 인구밀도 계산 : 전처리, merge (0) | 2020.07.11 |
---|---|
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 발렌타인데이 분석 (0) | 2020.07.10 |
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 승객이 가장 많은 역/노선의 1월 분석 (0) | 2020.07.09 |
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 (0) | 2020.07.09 |
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 (0) | 2020.07.09 |