본문 바로가기

Pandas

(165)
판다스 - 구글 플레이 스토어 : 카테고리별 점유율, 상위 카테고리의 앱 설치수와 평점의 평균 https://steadiness-193.tistory.com/189 판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값.. steadiness-193.tistory.com 전처리한 데이터프레임과 출처는 위 포스팅 참조 카테고리별 구글 플레이 스토어 점유율 우선 카테고리는 총 33개가 있다. 각 카테고리별 점유율을 살펴보려면 value_counts를 이용하면 된다. 카테고리의 value_counts를 value_counts의 합으로 나눠준 뒤 100을 곱해서 나온 결..
판다스 - 구글 플레이 스토어 : 앱 설치수, 리뷰수, 평점간의 관계 https://steadiness-193.tistory.com/189 판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값.. steadiness-193.tistory.com 위 포스팅에서 만든 df를 계속 이용한다. 기술통계 살펴보기 우선 Rating의 경우 1분위수의 값이 4점인 것을 보아 대체적으로 후하게 평점을 주는 것을 볼 수 있다. Price의 경우는 대부분이 3분위수까지 0인 것을 보아 대부분이 무료인 것을 볼 수 있다. 컬럼 간 상관계수 https://s..
판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값 개수 확인 우선 Rating 컬럼 외에는 다 문자열로 되어있고 Rating 컬럼에 누락값이 1474로 제일 많이 있는 것을 확인 했다. Installs 컬럼 전처리 Installs 컬럼의 고유값을 보니 이상한 Free 값이 있다 이 값은 제외하자 또한 설치 숫자이기 때문에 '+'와 ','(콤마)를 없애서 정수형으로 바꿔주자 Reviews 전처리 Reviews는 단순히 정수형으로만 데이터 타입을 변경해주면 된다. Price 전처리 문자열 0을 포함해, 실수형..
판다스 - to_datetime : format, dt to_datetime 메서드를 사용하면 Date 형식의 자료형을 datetime 오브젝트로 변환할 수 있다. 데이터 만들기 date컬럼은 자료형이 object이다. 이 문자열 날짜를 datetime 자료형으로 변환하려면 pd.to_datetime을 이용한다. infer_datetime_format=True 여러 datetime 유명한 포맷 중에서 datetime이 어떤 형식으로 이루어졌는지 확인 후 자동으로 변환 지금은 맨 앞을 월, 중간을 일, 마지막을 연도로 파악하고 바뀌었다. 만약 위 변환이 마음에 안든다면 직접 format 형식을 지정해줘야 한다. format 지정 첫번째를 일, 중간을 월, 마지막을 연도로 지정 첫번째를 연도, 중간을 월, 마지막을 일로 설정 위 예시는 연월일을 / 로 구분했다...
판다스 - 로그데이터 분석 : 고객 이탈률이 높은 페이지는? 웹서버가 request를 받으면 해당 요청에 대한 log 정보가 남는다. log 정보 ip / 세션아이디 / 사용자아이디 / 시각 / 요청 페이지 / 상태코드 / 바이트사이즈 등이 있다. 세션 아이디 사용자가 로그인을 해서 일련의 활동을 하는데, 그 활동이 활발하게 이루어지는 그 기간 즉, 사용자가 Active하게 해당 사이트를 이용하는 기간을 의미한다. 간혹 어떤 페이지에서 장시간 움직임이 없으면 자동으로 로그아웃되는데 이는 세션 아이디가 리셋되는 것이라 생각하면 된다. 데이터 불러오기 이는 실제 로그 데이터가 아닌 임의로 작성된 데이터를 밝힘. 사용자가 어떤 과정을 거치는지는 url 컬럼을 확인한다. url컬럼의 고유값 여기서 /checkout을 제외한 4단계를 살펴볼 예정이다. 날짜 컬럼 전처리 필..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 고객별 주문을 가장 많이 하는 시간은? https://steadiness-193.tistory.com/160 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 몇시에 Push 마케팅하는게 제일 좋을까? https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가.. steadiness-193.tistory.com 위 포스팅의 Push Notification 내용과 연결됩니다. 데이터 불러오기 위 포스팅에서 추가한 Hour 컬럼도 있음을 확인했다. 개인 맞춤형 시간대별 주문량을 파악해야한다. 방법1 CustomerID와 Hour 컬럼으로 그..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 몇시에 Push 마케팅하는게 제일 좋을까? https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data clea.. steadiness-193.tistory.com 전처리, 컬럼 추가 등은 위 포스팅 참조 데이터 불러오기 Push Notification Push 알람(마케팅)을 몇시에 하는 것이 좋은지는 시간대별 주문 수를 보면 된다. InvoiceDate 컬럼을 이용해 시간 컬럼을 만들어 추가하자 ..
판다스 - 가상 쇼핑몰 고객 주문 데이터 : 우수 고객 찾기, 고객 코호트 분석 https://steadiness-193.tistory.com/155 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 연월별 매출, 요일별 매출 https://steadiness-193.tistory.com/154 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전체 매출, 국가별 매출 https://steadiness-193.tistory.com/153 판다스 - 가상 쇼핑몰 고객 주문 데이터 : 전처리, Data clea.. steadiness-193.tistory.com 전처리, 컬럼 추가 등은 위 포스팅 참조 데이터 불러오기 우수 고객 찾기 1. 구매 횟수 기준 고객을 기준으로 해야하니 CustomerID로 그룹화한뒤 count메서드를 이용한다. 누락값이 없으니 아무 컬럼을 기준으로 내림차순해서 보면 된..