Pandas/실전
판다스 - 구글 플레이 스토어 : 전처리
Data_Pistachio
2020. 7. 29. 16:59
반응형
데이터 출처
https://www.kaggle.com/lava18/google-play-store-apps
데이터 불러오기
구글 플레이 스토어의 데이터를 df 변수에 담았다.
행은 총 10841개, 컬럼은 13개로 확인된다.
데이터프레임 정보, 누락값 개수 확인
우선 Rating 컬럼 외에는 다 문자열로 되어있고
Rating 컬럼에 누락값이 1474로 제일 많이 있는 것을 확인 했다.
Installs 컬럼 전처리
Installs 컬럼의 고유값을 보니 이상한 Free 값이 있다
이 값은 제외하자
또한 설치 숫자이기 때문에 '+'와 ','(콤마)를 없애서 정수형으로 바꿔주자
Reviews 전처리
Reviews는 단순히 정수형으로만 데이터 타입을 변경해주면 된다.
Price 전처리
문자열 0을 포함해, 실수형 값에 $가 붙어 있어 다 문자열이 되버렸다.
모두 통화가 달러로 공통이니, $는 없애고 실수형으로 바꿔주자
누락값 삭제
위에서 봤던대로 Rating 컬럼의 누락값이 많고
이 컬럼은 분석에 중요하기 때문에 누락값이 있는 행을 삭제해주자
나머지 6개 행은 무시하고 넘어간다.
메모리 효율화
현재 info 확인
float64와 int64는 표현하는 실수, 정수의 범위는 많으나
메모리를 많이 차지한다.
pd.to_numeric을 이용해서 downcast 해주자
downcast용 함수 제작 후 실행
메모리가 987.8에서 878.1로 줄어든 것을 볼 수 있다.
반응형