본문 바로가기

Pandas

(165)
판다스 - 미국의 연도별 인구밀도 변화 https://steadiness-193.tistory.com/116 판다스 - 미국 주/지역별 인구밀도 계산 : merge, 인구밀도 계산 https://steadiness-193.tistory.com/115 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrev.. steadiness-193.tistory.com 위 포스팅의 final 데이터프레임을 이용한다. 위 포스팅에선 USA의 행을 삭제했지만 지금은 USA의 행을 이용할 것이다. 현재 USA의 전체 면적만을 모르고 있는 상태다. USA의 행만 따내와서 usa 변수에 넣어주자 반대로 final 데이터프레임..
판다스 - 미국 주/지역별 인구밀도 계산 : merge, 인구밀도 계산 https://steadiness-193.tistory.com/115 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrevs 3. 주와 그 주의 면적을 담은 areas 모든 데이터가 하나의 데이터프레임에 있지 않 steadiness-193.tistory.com 위 포스팅에서 만들어낸 merged 데이터프레임을 불러오자 이것만으로는 인구밀도를 알아낼 수 없으니 areas 데이터프레임과 연결해야한다. merged와 area의 merge → final merged의 state와 areas의 state로 join하면 된다. 이렇게 원하던 final 데이터프레임이 만들어..
판다스 - 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrevs 3. 주와 그 주의 면적을 담은 areas 모든 데이터가 하나의 데이터프레임에 있지 않고 SQL 처럼 join하기 위해 정규화 되어 있다. 우선 Null이 있는지 보자 population의 population 컬럼에만 20개의 NaN값이 있다. 그리고 각 데이터프레임의 shape을 살펴보면 popluation이 주된 데이터프레임인 것을 확인할 수 있고 나머지 2개는 정보를 담아둔 컬럼이라고 생각할 수 있다. 이제, 목표로 하는 주별 인구밀도를 얻기 위해선 population컬럼이 필요하고, area (sq. mi) 컬럼이 필요하다 즉, merge가 진행되어야한..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 발렌타인데이 분석 https://steadiness-193.tistory.com/112 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석 데이터 불러오기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지.. steadiness-193.tistory.com 위에서 만들어낸 Feb 데이터프레임을 불러온다. 2월 14일에 승객이 많은 노선의 순위는? groupby(['day', '노선명']) 2월 14일, 발렌타인데이를 살펴봐야하기 때문에 day로 ..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석 데이터 불러오기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이.. steadiness-193.tistory.com 위 포스팅에서 만든 df를 가져온다. 우선 월별로 total 내림차순을 살펴보자 1월 다음으로 2월이 2위를 차지했다. 그러면 2월의 데이터만 뽑아내보자 Feb이라는 변수에 담았고 결과로 총 17118개의 행이 나왔다. 2월 며칠에 가..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 승객이 가장 많은 역/노선의 1월 분석 https://steadiness-193.tistory.com/110 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별.. steadiness-193.tistory.com 위 포스팅에서 만들어낸 top 데이터 프레임을 이용한다. 역명 : 강남, 잠실(송파구청), 홍대입구, 고속터미널, 서울역, 신림, 선릉, 사당, 구로디지털단지, 가산디지털단지 노선명 : 2호선,..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 월별 승객이 제일 많은 역(노선) 찾기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이.. steadiness-193.tistory.com 위에서 만들어낸 df를 불러온다. 우선 전체적으로 total을 기준으로 내림차순해서 살펴보자 역시 2호선 강남이 압도적으로 승객수가 많다. 승하차 승객수가 가장 많은 상위 10개 역 추출 역명으로 groupby를 해서 합을 구한 다음 total을 기준..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이터 불러오기 위의 2020년 1월부터 5월까지의 csv 파일을 subway 폴더에 저장해서 glob를 이용해 불러온다. https://steadiness-193.tistory.com/27 판다스 - 여러 대용량 데이터 처리하기 : glob 이 다섯개의 csv 파일을 불러와 한꺼번에 보고자 한다. glob 라이브러리, glob 메서드 이용 glob 라이브러리의 glob메서드는 특정한 패턴의 이름을 가진 파일을 한번에 읽어들일 수 있다. 방법1. ..