반응형
데이터 출처
https://www.kaggle.com/lava18/google-play-store-apps
데이터 불러오기
구글 플레이 스토어의 데이터를 df 변수에 담았다.
행은 총 10841개, 컬럼은 13개로 확인된다.
데이터프레임 정보, 누락값 개수 확인
우선 Rating 컬럼 외에는 다 문자열로 되어있고
Rating 컬럼에 누락값이 1474로 제일 많이 있는 것을 확인 했다.
Installs 컬럼 전처리
Installs 컬럼의 고유값을 보니 이상한 Free 값이 있다
이 값은 제외하자
또한 설치 숫자이기 때문에 '+'와 ','(콤마)를 없애서 정수형으로 바꿔주자
Reviews 전처리
Reviews는 단순히 정수형으로만 데이터 타입을 변경해주면 된다.
Price 전처리
문자열 0을 포함해, 실수형 값에 $가 붙어 있어 다 문자열이 되버렸다.
모두 통화가 달러로 공통이니, $는 없애고 실수형으로 바꿔주자
누락값 삭제
위에서 봤던대로 Rating 컬럼의 누락값이 많고
이 컬럼은 분석에 중요하기 때문에 누락값이 있는 행을 삭제해주자
나머지 6개 행은 무시하고 넘어간다.
메모리 효율화
현재 info 확인
float64와 int64는 표현하는 실수, 정수의 범위는 많으나
메모리를 많이 차지한다.
pd.to_numeric을 이용해서 downcast 해주자
downcast용 함수 제작 후 실행
메모리가 987.8에서 878.1로 줄어든 것을 볼 수 있다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 구글 플레이 스토어 : 카테고리별 점유율, 상위 카테고리의 앱 설치수와 평점의 평균 (0) | 2020.07.29 |
---|---|
판다스 - 구글 플레이 스토어 : 앱 설치수, 리뷰수, 평점간의 관계 (0) | 2020.07.29 |
판다스 - 로그데이터 분석 : 고객 이탈률이 높은 페이지는? (0) | 2020.07.23 |
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 고객별 주문을 가장 많이 하는 시간은? (0) | 2020.07.21 |
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 몇시에 Push 마케팅하는게 제일 좋을까? (4) | 2020.07.21 |