반응형
1. 노출수
광고데이터의 노출수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)
2. 클릭수
광고데이터의 클릭수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)
노출수와 클릭수를 보니 각 컬럼별
상위 5%의 값들이 다른 값들과의 격차가 절대적으로 크다.
3. 총비용
광고데이터의 총비용 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)
총비용컬럼은 노출수와 클릭수에 비해 상위 15%정도가 나머지에 비해
격차가 상당해보인다.
정리해보면
비효율 키워드는
● 노출수 95백분위수 미만 (상위 5% 아닌 데이터)
● 클릭수 95백분위수 미만 (상위 5% 아닌 데이터)
● 총비용 85백분위수 이상 (상위 15% 데이터)
위 세가지를 동시에 만족해야 한다.
노출수 95백분위수 미만 (상위 5% 아닌 데이터) → mask1
클릭수 95백분위수 미만 (상위 5% 아닌 데이터) → mask2
총비용 85백분위수 이상 (상위 15% 데이터) → mask3
위 3가지 mask를 &로 연결해서
조건을 모두 만족하는 키워드 컬럼의 값 추출
비효율 키워드는 총 128개로 찾아낼 수 있다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 고객데이터 시각화 : 히스토그램, 아웃라이어(이상치, 특잇값) 제거 (0) | 2020.07.15 |
---|---|
판다스 - 고객데이터 시각화 : 나이대별 히스토그램, 문자열 컬럼 (0) | 2020.07.15 |
판다스 - 광고데이터 분석을 통한 중점관리 키워드 추출 (0) | 2020.07.14 |
판다스 - 네이버 쇼핑 크롤링 자료 : 분석 (0) | 2020.07.13 |
판다스 - 네이버 쇼핑 크롤링 자료 : 전처리, 살펴보기 (0) | 2020.07.13 |