데이터 불러오기
에볼라 바이러스에 대한 데이터이다.
각 나라별 발생 케이스가 언제부터인지 입력되어 있다.
이를 그래프로 보자
우리가 보고자 하는 것이
에볼라의 확산 속도라면 출발선이 같아야 비교가 가능할 것이다.
다만 원래 데이터프레임의 일자도 구멍이 난 부분이 많다.
따라서 인덱스부터 다시 설정해야 한다.
기존의 데이터프레임은 2014년 3월 22일부터 2015년 1월 5일까지 총 122행이지만
원래대로라면 290일이 맞다.
이제 새로운 인덱스로 다시 인덱스를 설정하자.
이제 290행으로 잘 맞춰졌으니
각 컬럼별로 2014년 3월 22일 행에 첫 데이터가 나올 수 있게
옮겨야 한다.
이는 첫 발생일에서 각 데이터가 처음 입력된 날을 빼면 된다.
자세한 사용법은 아래의 포스팅 참조
https://steadiness-193.tistory.com/83
그러면 각 컬럼별로 옮겨야하는 일자들이 나온다.
데이터 타입은 timedelta64형이다.
만약 -5의 값만 얻기 위해선 다음과 같이 하면 된다.
이를 이용해 각 컬럼을 옮긴 시리즈를 리스트에 담고
pd.concat을 이용하면 데이터프레임으로 만들 수 있다.
그럼 우리가 원했던 대로 3월 22일부터 데이터가 입력된 것을 볼 수 있다.
이를 시각화하면
사실 확산 속도를 비교하기 위해 한 작업이지만
인덱스가 2배가 늘어나서
데이터가 너무 미미해 보인다.
그렇다면 date_range를 사용하지 않고 해보자
다시 그냥 122행의 데이터프레임을 가져와
기본 인덱스 기준으로
각 컬럼별 옮길 숫자를 구한다.
같은 작업으로 만들어낸 122행의 데이터프레임이다.
이를 다시 시각화하면
우리가 원했던대로 첫 날짜부터 출발선을 동일하게 하고
확산 속도를 비교할 수 있게 됐다.
하늘색 데이터인 Guinea는 천천히 오르는 반면
주황색 데이터인 Liberia는 급격하게 증가하는 것을 볼 수 있다.
'Pandas > 실전' 카테고리의 다른 글
판다스 - 미국 신생아 이름 : 마지막 글자의 변화 (0) | 2020.07.04 |
---|---|
판다스 - 미국 신생아 이름2 : 유행 분석, 이름 사용 경향 (0) | 2020.07.03 |
판다스 - 미국 신생아 이름 : 전처리 (0) | 2020.07.02 |
판다스 - 은행의 파산 연도, 분기 : groupby, 시각화 (0) | 2020.06.30 |
판다스 - MoviesLens의 영화 평점 데이터 (0) | 2020.06.30 |