반응형
https://steadiness-193.tistory.com/189
전처리한 데이터프레임과 출처는 위 포스팅 참조
카테고리별 구글 플레이 스토어 점유율
우선 카테고리는 총 33개가 있다.
각 카테고리별 점유율을 살펴보려면 value_counts를 이용하면 된다.
카테고리의 value_counts를 value_counts의 합으로 나눠준 뒤
100을 곱해서 나온 결과다.
analysis_data['Category'].value_counts(normalize=True) * 100
위 코드로도 가능하다.
https://steadiness-193.tistory.com/210
이제 이 cat_share로 파이 차트를 그려보자
카테고리 점유율 파이차트
상위 5개의 카테고리가 약 50%를 차지하고 있다.
점유율 상위 5개 카테고리의 Rating, Installs 평균
우선 상위 5개의 카테고리를 뽑아내고
전체 데이터프레임에서 top5에 포함하는지 여부를
불린 시리즈로 갖는 top5_cond를 만들어 낸다.
이 top5_cond를 이용해서 상위 5개 카테고리만 있는 top5_cat 데이터프레임을 제작한다.
이제 groupby를 이용해서 Rating, Installs의 평균을 구할 수 있다.
위 데이터에서 Rating이 제일 높은 카테고리의 Type별 Rating, Installs 평균
top5 중에서 Rating이 제일 높은 카테고리는 GAME이다.
GAME 카테고리만 걸러내서 Type으로 그룹핑해보자
GAME 카테고리의 평점은 Paid 그룹이 약 0.09점 높게 나타난다.
단, Installs는
약 125배 차이가 나고 있다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 뉴욕 Airbnb 데이터 : room_type별 분석 (0) | 2020.08.02 |
---|---|
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 (0) | 2020.08.02 |
판다스 - 구글 플레이 스토어 : 앱 설치수, 리뷰수, 평점간의 관계 (0) | 2020.07.29 |
판다스 - 구글 플레이 스토어 : 전처리 (0) | 2020.07.29 |
판다스 - 로그데이터 분석 : 고객 이탈률이 높은 페이지는? (0) | 2020.07.23 |