본문 바로가기

Pandas/실전

판다스 - 구글 플레이 스토어 : 전처리

반응형

데이터 출처

https://www.kaggle.com/lava18/google-play-store-apps

 

 

 

 

데이터 불러오기

 

 

구글 플레이 스토어의 데이터를 df 변수에 담았다.

 

행은 총 10841개, 컬럼은 13개로 확인된다.

 

 

 

 

 

데이터프레임 정보, 누락값 개수 확인

 

 

우선 Rating 컬럼 외에는 다 문자열로 되어있고

 

Rating 컬럼에 누락값이 1474로 제일 많이 있는 것을 확인 했다.

 

 

 

 

 

 

Installs 컬럼 전처리

 

 

 

Installs 컬럼의 고유값을 보니 이상한 Free 값이 있다 

 

이 값은 제외하자

 

 

 

또한 설치 숫자이기 때문에 '+'와 ','(콤마)를 없애서 정수형으로 바꿔주자

 

 

 

 

 

 

 

 

Reviews 전처리

 

 

Reviews는 단순히 정수형으로만 데이터 타입을 변경해주면 된다.

 

 

 

 

 

 

 

 

 

Price 전처리

 

 

 

 

문자열 0을 포함해, 실수형 값에 $가 붙어 있어 다 문자열이 되버렸다.

 

모두 통화가 달러로 공통이니, $는 없애고 실수형으로 바꿔주자

 

 

 

 

 

 

 

 

 

 

누락값 삭제

 

 

 

위에서 봤던대로 Rating 컬럼의 누락값이 많고

 

이 컬럼은 분석에 중요하기 때문에 누락값이 있는 행을 삭제해주자

 

 

 

 

나머지 6개 행은 무시하고 넘어간다.

 

 

 

 

 

 

 

메모리 효율화

현재 info 확인

 

 

 

float64와 int64는 표현하는 실수, 정수의 범위는 많으나

 

메모리를 많이 차지한다.

 

pd.to_numeric을 이용해서 downcast 해주자

 

 

 

 

 

downcast용 함수 제작 후 실행

 

 

 

 

 

메모리가 987.8에서 878.1로 줄어든 것을 볼 수 있다.

 

 

 

 

 

 

반응형