본문 바로가기

Pandas/실전

판다스 - 구글 플레이 스토어 : 앱 설치수, 리뷰수, 평점간의 관계

반응형

https://steadiness-193.tistory.com/189

 

판다스 - 구글 플레이 스토어 : 전처리

데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값..

steadiness-193.tistory.com

위 포스팅에서 만든 df를 계속 이용한다.

 

 

 

 

 

 

기술통계 살펴보기

 

 

우선 Rating의 경우 1분위수의 값이 4점인 것을 보아

 

대체적으로 후하게 평점을 주는 것을 볼 수 있다.

 

 

Price의 경우는 대부분이 3분위수까지 0인 것을 보아

 

대부분이 무료인 것을 볼 수 있다.

 

 

 

 

 

 

 

컬럼 간 상관계수

 

 

 

https://steadiness-193.tistory.com/97

 

판다스 - 컬럼(열 or 변수)간 상관계수 : corr

corr함수를 통해 상관계수 연산 (-1, 1 사이의 결과) ㅇ 변수와 상관관계 : 변수간 흐름이 얼마나 비슷한가를 나타내는 척도 - a가 증가하면 b도 증가하냐/감소하냐 - 증가의 성향이 얼마나 비슷한가

steadiness-193.tistory.com

 

 

 

 

숫자로만 보면 한번에 보기 불편하니 히트맵으로 그려서 보자

 

 

 

의미가 있다고 보이는 컬럼 2개는 Reviews와 Installs다.

 

값이 1에 가까우므로 두 컬럼이 비슷하게 증가하는 경향을 보인다고 해석할 수 있다.

 

나머지는 0에 가까워 큰 관계가 없을 수 있다.

 

 

 

 

 

 

 

 

visual_df 제작

 

Installs가 0을 초과하는 행만 걸러낸 df를 visual_df로 정의하자

 

 

 

 

 

 

 

1. Rating과 Installs

 

 

 

Rating과 Installs의 관계를 보고 싶으나

 

Installs의 값이 워낙 크기 때문에 산점도가 좀 이상하게 나온다.

 

조금 균일하게 보기 위해

 

Installs 컬럼에 상용로그를 씌운 log_installs 컬럼을 만들어서 다시 그려보자

 

 

 

 

 

1-1. Rating과 log10(Installs)

 

 

 

 

적절히 그려진 것 같다.

 

우선 Rating이 높을 수록 설치 수도 많은 것을 볼 수 있다.

 

 

 

 

 

1-2. Rating과 log10(Installs), Type 변수 추가

 

 

lmplot을 이용해서 hue옵션에 Type을 넣었다.

 

모든 타입 다 Rating이 높을 수록 설치 수는 높았으나

 

Paid 그룹은 Free 그룹보다 설치수가 상대적으로 적은 것을 볼 수 있다.

 

 

 

 

 

 

 

 

2. Rating과 Reviews

 

 

 

 

이 또한 Reviews가 값이 매우 크기 때문에 원하는 형태의 그래프가 나오지 않았다.

 

이에 Reviews 컬럼에 상용로그를 씌운 log_reviews 컬럼을 생성해서

 

다시 그려보자

 

 

 

 

 

 

2-1. Rating과 log10(Reviews)

 

 

위 결과를 보니 역시 평점이 높을 수록 리뷰 수도 많아지는 것을 볼 수 있다.

 

평점이 3점 이상부터 리뷰를 남기는 정도가 늘어난다.

 

 

 

 

 

 

 

2-2. Rating과 log10(Reviews), Type 변수 추가

 

 

 

역시 평점이 높아야 리뷰도 많이 남기는데

 

무료로 이용해야 리뷰수가 더 많이 등록된다.

 

 

 

 

 

 

 

3. log10(Installs)와 log10(Reviews)

 

 

상관계수를 봤을 때 0.64의 값을 보여준 [설치 수와 리뷰 컬럼]간 관계를 시각화 해보자

 

다만 두개 다 모두 값이 크기 때문에 상용로그를 씌워서 살펴볼 것이다.

 

 

 

과연 0.64의 값을 보인 만큼 비례하는 그래프가 그려졌다.

 

 

 

 

 

 

3. log10(Installs)와 log10(Reviews), Type 변수 추가

 

 

반응형