본문 바로가기

Pandas/실전

판다스 - 구글 플레이 스토어 : 카테고리별 점유율, 상위 카테고리의 앱 설치수와 평점의 평균

반응형

https://steadiness-193.tistory.com/189

 

판다스 - 구글 플레이 스토어 : 전처리

데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값..

steadiness-193.tistory.com

전처리한 데이터프레임과 출처는 위 포스팅 참조

 

 

 

 

 

 

카테고리별 구글 플레이 스토어 점유율

 

 

 

우선 카테고리는 총 33개가 있다.

 

각 카테고리별 점유율을 살펴보려면 value_counts를 이용하면 된다.

 

 

 

 

 

카테고리의 value_counts를 value_counts의 합으로 나눠준 뒤

 

100을 곱해서 나온 결과다.

 

 

 

analysis_data['Category'].value_counts(normalize=True) * 100

위 코드로도 가능하다.

https://steadiness-193.tistory.com/210
 

판다스 - value_counts(normalize=True)

데이터 출처 https://www.kaggle.com/c/titanic/data Pclass 우선 train 데이터프레임의 Pclass의 분포를 시각화 해서 보자 단편적으로는 3등급의 승객 수가 많아 보인다. [그렇다면 각 등급별로 비율을 확인하려

steadiness-193.tistory.com

 

 

 

 

이제 이 cat_share로 파이 차트를 그려보자

 

 

 

 

 

카테고리 점유율 파이차트

 

 

 

상위 5개의 카테고리가 약 50%를 차지하고 있다.

 

 

 

 

 

 

 

점유율 상위 5개 카테고리의 Rating, Installs 평균

 

 

 

 

우선 상위 5개의 카테고리를 뽑아내고

 

 

 

 

전체 데이터프레임에서 top5에 포함하는지 여부를

 

불린 시리즈로 갖는 top5_cond를 만들어 낸다.

 

이 top5_cond를 이용해서 상위 5개 카테고리만 있는 top5_cat 데이터프레임을 제작한다.

 

 

 

 

 

 

이제 groupby를 이용해서 Rating, Installs의 평균을 구할 수 있다.

 

 

 

 

 

 

 

 

 

위 데이터에서 Rating이 제일 높은 카테고리의 Type별 Rating, Installs 평균

 

 

top5 중에서 Rating이 제일 높은 카테고리는 GAME이다.

 

 

 

GAME 카테고리만 걸러내서 Type으로 그룹핑해보자

 

 

 

GAME 카테고리의 평점은 Paid 그룹이 약 0.09점 높게 나타난다.

 

 

단, Installs는 

 

 

약 125배 차이가 나고 있다.

 

 

반응형