데이터 출처
https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do
1. 데이터 불러오기
위의 2020년 1월부터 5월까지의 csv 파일을 subway 폴더에 저장해서
glob를 이용해 불러온다.
https://steadiness-193.tistory.com/27
우선 1월의 데이터프레임을 맛보기로 봐보자
우선 고려해야할 것은 사용일자 컬럼이다.
이 컬럼은 날짜를 나타내고, 숫자형으로 등록되어 있다.
따라서 데이터를 불러올 때 parse_dates를 이용하는 것이 좋아보인다.
2. 데이터 합치기
이제 for loop를 이용해 리스트에 데이터프레임을 쌓고
concat을 이용해 합치면 된다.
단, csv 인코딩 문제가 있어서
불러올 때 encoding 파라미터를 이용해야, 글자의 깨짐이 없고 문제 없이 불러올 수 있다.
** 5월의 csv 파일은 utf-8로 해야 읽힌다.
encoding에 넣을 만한 코드는 아래와 같다.
euc-kr, cp949, latin_1, utf-8, utf-16
이제 df_list를 concat해주자
기존 인덱스가 유지되어 합쳐졌으니
인덱스를 초기화 해주자
3. 데이터 살펴보기
이제 이 데이터프레임의 정보를 살펴보면
총 6개의 컬럼이 있고, 사용일자는 datetime으로 잘 불려왔다.
누락값이 있지는 않은지 확인해보자
다행히 누락값은 없다.
4. 불필요한 컬럼 삭제 및 연/월/일 컬럼 추가
사실 등록일자 컬럼은 필요가 없으니 삭제하고
사용일자의 컬럼에서 연, 월, 일을 얻어 하나씩 컬럼을 추가해보자
https://steadiness-193.tistory.com/60
dt 연산자에 대한 내용은 위 포스팅 참조
마지막으로 한번 더 각 컬럼의 유형을 보면
연, 월, 일 컬럼이 정수형으로 잘 추가되었다.
5. 분석에 이용할 총 승객수 컬럼 추가
승차총승객수와 하차총승객수를 합친 total 컬럼을 추가했다.
'Pandas > 실전' 카테고리의 다른 글
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 승객이 가장 많은 역/노선의 1월 분석 (0) | 2020.07.09 |
---|---|
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 (0) | 2020.07.09 |
판다스 - 미국농무부 영양소 정보 : 각 영양소가 가장 많이 든 음식 (0) | 2020.07.08 |
판다스 - 미국농무부 영양소 정보 : 음식 그룹별 영양소 중간값, 최댓값 (0) | 2020.07.08 |
판다스 - 미국농무부 영양소 정보 (json 데이터 전처리2) (0) | 2020.07.08 |