본문 바로가기

Pandas/실전

판다스 - 광고데이터 분석을 통한 비효율 키워드 추출

반응형

1. 노출수

 

광고데이터의 노출수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)

 

 

 

 

 

 

 

 

 

2. 클릭수

 

광고데이터의 클릭수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)

 

 

 

 

 

 

 

노출수와 클릭수를 보니 각 컬럼별

 

상위 5%의 값들이 다른 값들과의 격차가 절대적으로 크다.

 

 

 

 

 

 

 

3. 총비용

 

광고데이터의 총비용 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index)

 

 

 

 

총비용컬럼은 노출수와 클릭수에 비해 상위 15%정도가 나머지에 비해

 

격차가 상당해보인다.

 

 

 

 

 

정리해보면

 

 

비효율 키워드는

 

                ●                          노출수 95백분위수 미만 (상위 5% 아닌 데이터)

                ●                          클릭수 95백분위수 미만 (상위 5% 아닌 데이터)

                ●                          총비용 85백분위수 이상 (상위 15% 데이터)

 

위 세가지를 동시에 만족해야 한다.

 

 

 

 

 

 

 

노출수 95백분위수 미만 (상위 5% 아닌 데이터) → mask1

 

 

 

 

 

클릭수 95백분위수 미만 (상위 5% 아닌 데이터) → mask2

 

 

 

 

총비용 85백분위수 이상 (상위 15% 데이터) → mask3

 

 

 

위 3가지 mask를 &로 연결해서

조건을 모두 만족하는 키워드 컬럼의 값 추출

 

데이터는 비공개

 

비효율 키워드는 총 128개로 찾아낼 수 있다.

 

 

 

반응형