본문 바로가기

Pandas/실전

(47)
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석 데이터 불러오기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이.. steadiness-193.tistory.com 위 포스팅에서 만든 df를 가져온다. 우선 월별로 total 내림차순을 살펴보자 1월 다음으로 2월이 2위를 차지했다. 그러면 2월의 데이터만 뽑아내보자 Feb이라는 변수에 담았고 결과로 총 17118개의 행이 나왔다. 2월 며칠에 가..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 승객이 가장 많은 역/노선의 1월 분석 https://steadiness-193.tistory.com/110 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별.. steadiness-193.tistory.com 위 포스팅에서 만들어낸 top 데이터 프레임을 이용한다. 역명 : 강남, 잠실(송파구청), 홍대입구, 고속터미널, 서울역, 신림, 선릉, 사당, 구로디지털단지, 가산디지털단지 노선명 : 2호선,..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이.. steadiness-193.tistory.com 위에서 만들어낸 df를 불러온다. 우선 전체적으로 total을 기준으로 내림차순해서 살펴보자 역시 2호선 강남이 압도적으로 승객수가 많다. 승하차 승객수가 가장 많은 상위 10개 역 추출 역명으로 groupby를 해서 합을 구한 다음 total을 기준..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이터 불러오기 위의 2020년 1월부터 5월까지의 csv 파일을 subway 폴더에 저장해서 glob를 이용해 불러온다. https://steadiness-193.tistory.com/27 판다스 - 여러 대용량 데이터 처리하기 : glob 이 다섯개의 csv 파일을 불러와 한꺼번에 보고자 한다. glob 라이브러리, glob 메서드 이용 glob 라이브러리의 glob메서드는 특정한 패턴의 이름을 가진 파일을 한번에 읽어들일 수 있다. 방법1. ..
판다스 - 미국농무부 영양소 정보 : 각 영양소가 가장 많이 든 음식 https://steadiness-193.tistory.com/106 판다스 - 미국농무부 영양소 정보 (json 데이터 전처리2) https://steadiness-193.tistory.com/105 판다스 - 미국농무부 영양소 정보 (json 데이터 전처리) json 라이브러리를 이용해 읽어오기 이 db의 길이는 6636이다. 단, json데이터의 특성상 그냥 6636개의 데이터가.. steadiness-193.tistory.com 위 포스팅에서 만든 ndata를 불러오자 [목표 : 비타민D2가 제일 많이 함유된 음식 찾기] 영양소를 기준으로 봐야하니 nutgroup과 nutrient로 그룹화해보자 잘 그룹핑되었다. Vitamins에서 비타민 D2가 있는 것도 보인다. 이제 value를 기준으로 그룹..
판다스 - 미국농무부 영양소 정보 : 음식 그룹별 영양소 중간값, 최댓값 https://steadiness-193.tistory.com/106 판다스 - 미국농무부 영양소 정보 (json 데이터 전처리2) https://steadiness-193.tistory.com/105 판다스 - 미국농무부 영양소 정보 (json 데이터 전처리) json 라이브러리를 이용해 읽어오기 이 db의 길이는 6636이다. 단, json데이터의 특성상 그냥 6636개의 데이터가.. steadiness-193.tistory.com 위 포스팅에서 만들어낸 ndata 를 불러오자 영양소와 영양소 그룹, 음식과 음식 그룹을 가지고 있는 데이터프레임이다. 음식 그룹과 영양소 종류별로 데이터를 보기위해 nutrient와 fgroup으로 그룹핑하자 우리가 궁금한 것은 Value 컬럼의 값이다. 영양소와 음식 ..
판다스 - 미국농무부 영양소 정보 (json 데이터 전처리2) https://steadiness-193.tistory.com/105 판다스 - 미국농무부 영양소 정보 (json 데이터 전처리) json 라이브러리를 이용해 읽어오기 이 db의 길이는 6636이다. 단, json데이터의 특성상 그냥 6636개의 데이터가 있다고 볼 수 없다. 그 이유는 db의 첫번째 값은 위와 같기 때문이다. Key Value id 단일값 steadiness-193.tistory.com 위 포스팅에서 만든 nutrients 데이터를 보자 총 375176행의 데이터로 영양소에 대한 정보를 담아두고 있다. 그러나 이 데이터프레임 하나만 가지고는 사실 어떤 분석을 하기 어렵다. 그래서 db의 다른 데이터와 병합을 해주려고 한다. 처음부터 차근히 보자 json 데이터 불러오기 첫번째 db의 값..
판다스 - 미국농무부 영양소 정보 (json 데이터 전처리) json 라이브러리를 이용해 읽어오기 이 db의 길이는 6636이다. 단, json데이터의 특성상 그냥 6636개의 데이터가 있다고 볼 수 없다. 그 이유는 db의 첫번째 값은 위와 같기 때문이다. Key Value id 단일값 description 문자열 값(들) tags (빈) 리스트 manufacturer 문자열 값(들) group 문자열 값(들) portions 리스트 안의 딕셔너리 딕셔너리의 키 = amount, unit, grams nutrients 리스트 안의 딕셔너리 딕셔너리의 키 = value, units, description, group 위 표의 내용대로 db의 key들은 총 7개이다. 그러나 여기서 눈여겨봐야할 키는 바로 nutrients이다. nutrients 하나로도 데이터프레임..