https://steadiness-193.tistory.com/189
위 포스팅에서 만든 df를 계속 이용한다.
기술통계 살펴보기
우선 Rating의 경우 1분위수의 값이 4점인 것을 보아
대체적으로 후하게 평점을 주는 것을 볼 수 있다.
Price의 경우는 대부분이 3분위수까지 0인 것을 보아
대부분이 무료인 것을 볼 수 있다.
컬럼 간 상관계수
https://steadiness-193.tistory.com/97
숫자로만 보면 한번에 보기 불편하니 히트맵으로 그려서 보자
의미가 있다고 보이는 컬럼 2개는 Reviews와 Installs다.
값이 1에 가까우므로 두 컬럼이 비슷하게 증가하는 경향을 보인다고 해석할 수 있다.
나머지는 0에 가까워 큰 관계가 없을 수 있다.
visual_df 제작
Installs가 0을 초과하는 행만 걸러낸 df를 visual_df로 정의하자
1. Rating과 Installs
Rating과 Installs의 관계를 보고 싶으나
Installs의 값이 워낙 크기 때문에 산점도가 좀 이상하게 나온다.
조금 균일하게 보기 위해
Installs 컬럼에 상용로그를 씌운 log_installs 컬럼을 만들어서 다시 그려보자
1-1. Rating과 log10(Installs)
적절히 그려진 것 같다.
우선 Rating이 높을 수록 설치 수도 많은 것을 볼 수 있다.
1-2. Rating과 log10(Installs), Type 변수 추가
lmplot을 이용해서 hue옵션에 Type을 넣었다.
모든 타입 다 Rating이 높을 수록 설치 수는 높았으나
Paid 그룹은 Free 그룹보다 설치수가 상대적으로 적은 것을 볼 수 있다.
2. Rating과 Reviews
이 또한 Reviews가 값이 매우 크기 때문에 원하는 형태의 그래프가 나오지 않았다.
이에 Reviews 컬럼에 상용로그를 씌운 log_reviews 컬럼을 생성해서
다시 그려보자
2-1. Rating과 log10(Reviews)
위 결과를 보니 역시 평점이 높을 수록 리뷰 수도 많아지는 것을 볼 수 있다.
평점이 3점 이상부터 리뷰를 남기는 정도가 늘어난다.
2-2. Rating과 log10(Reviews), Type 변수 추가
역시 평점이 높아야 리뷰도 많이 남기는데
무료로 이용해야 리뷰수가 더 많이 등록된다.
3. log10(Installs)와 log10(Reviews)
상관계수를 봤을 때 0.64의 값을 보여준 [설치 수와 리뷰 컬럼]간 관계를 시각화 해보자
다만 두개 다 모두 값이 크기 때문에 상용로그를 씌워서 살펴볼 것이다.
과연 0.64의 값을 보인 만큼 비례하는 그래프가 그려졌다.
3. log10(Installs)와 log10(Reviews), Type 변수 추가
'Pandas > 실전' 카테고리의 다른 글
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 (0) | 2020.08.02 |
---|---|
판다스 - 구글 플레이 스토어 : 카테고리별 점유율, 상위 카테고리의 앱 설치수와 평점의 평균 (0) | 2020.07.29 |
판다스 - 구글 플레이 스토어 : 전처리 (0) | 2020.07.29 |
판다스 - 로그데이터 분석 : 고객 이탈률이 높은 페이지는? (0) | 2020.07.23 |
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 고객별 주문을 가장 많이 하는 시간은? (0) | 2020.07.21 |