본문 바로가기

Pandas/실전

(47)
판다스 - 광고데이터 분석을 통한 비효율 키워드 추출 1. 노출수 광고데이터의 노출수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index) 2. 클릭수 광고데이터의 클릭수 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index) 노출수와 클릭수를 보니 각 컬럼별 상위 5%의 값들이 다른 값들과의 격차가 절대적으로 크다. 3. 총비용 광고데이터의 총비용 컬럼을 오름차순한 뒤 인덱스 초기화 (reset_index) 총비용컬럼은 노출수와 클릭수에 비해 상위 15%정도가 나머지에 비해 격차가 상당해보인다. 정리해보면 비효율 키워드는 ● 노출수 95백분위수 미만 (상위 5% 아닌 데이터) ● 클릭수 95백분위수 미만 (상위 5% 아닌 데이터) ● 총비용 85백분위수 이상 (상위 15% 데이터) 위 세가지를 동시에 만족해야 한다. 노출수 95백분위수 미만 ..
판다스 - 광고데이터 분석을 통한 중점관리 키워드 추출 1. 노출수 광고데이터의 노출수를 오름차순하고 인덱스를 초기화(reset_index) 하여 시각화 x축은 인덱스로 큰 의미 없음 주목해야할 것은 상위 5%에서 압도적으로 높은 성적을 보임 2. 클릭수 광고데이터의 클릭수를 오름차순 하고 인덱스를 초기화(reset_index) 하여 시각화 x축은 인덱스로 큰 의미 없음 클릭 수 또한 상위 5%에서 압도적으로 높은 성적을 보이고 있음. 노출수, 클릭수 기준 상위 5% 이상의 키워드 추출 95백분위수를 이용한다. (quantile(0.95)) 1. 첫번째 조건 만들기 (cond1) 노출수가 상위 5% 이상인지 확인하는 불린 시리즈 2. 두번째 조건 만들기 (cond2) 클릭수가 상위 5% 이상인지 확인하는 불린 시리즈 3. cond1과 cond2를 &를 이용하..
판다스 - 네이버 쇼핑 크롤링 자료 : 분석 https://steadiness-193.tistory.com/124 판다스 - 네이버 쇼핑 크롤링 자료 : 전처리, 살펴보기 나이키 스우시 드라이핏 캡 548533 : 네이버쇼핑 판매되는 상품의 수량에 대해 2주, 1개월, 3개월, 6개월 단위로 추이를 보여주는 정보입니다. search.shopping.naver.com 네이버 쇼핑에서 위 나이키 모자에 steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 데이터프레임을 이용한다. df mall 별로 그룹화 → grouped mall 별로 total_price를 가장 저렴히 판매하는 곳 찾기 위 함수를 이용한다. get_minimum 함수 적용 → group_df 이를 total_price 기준으로 오름차순으로 정렬하고 인덱스를 ..
판다스 - 네이버 쇼핑 크롤링 자료 : 전처리, 살펴보기 나이키 스우시 드라이핏 캡 548533 : 네이버쇼핑 판매되는 상품의 수량에 대해 2주, 1개월, 3개월, 6개월 단위로 추이를 보여주는 정보입니다. search.shopping.naver.com 네이버 쇼핑에서 위 나이키 모자에 대한 정보를 긁어왔다. https://steadiness-193.tistory.com/121 크롤링 - webdriver(selenium)으로 네이버 쇼핑 크롤링하기 크롤링할 콘텐츠 나이키 스우시 드라이핏 캡 548533 : 네이버쇼핑 판매되는 상품의 수량에 대해 2주, 1개월, 3개월, 6개월 단위로 추이를 보여주는 정보입니다. search.shopping.naver.com https://steadiness-193. steadiness-193.tistory.com 크롤링은 위..
판다스 - 미국의 연도별 인구밀도 변화 https://steadiness-193.tistory.com/116 판다스 - 미국 주/지역별 인구밀도 계산 : merge, 인구밀도 계산 https://steadiness-193.tistory.com/115 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrev.. steadiness-193.tistory.com 위 포스팅의 final 데이터프레임을 이용한다. 위 포스팅에선 USA의 행을 삭제했지만 지금은 USA의 행을 이용할 것이다. 현재 USA의 전체 면적만을 모르고 있는 상태다. USA의 행만 따내와서 usa 변수에 넣어주자 반대로 final 데이터프레임..
판다스 - 미국 주/지역별 인구밀도 계산 : merge, 인구밀도 계산 https://steadiness-193.tistory.com/115 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrevs 3. 주와 그 주의 면적을 담은 areas 모든 데이터가 하나의 데이터프레임에 있지 않 steadiness-193.tistory.com 위 포스팅에서 만들어낸 merged 데이터프레임을 불러오자 이것만으로는 인구밀도를 알아낼 수 없으니 areas 데이터프레임과 연결해야한다. merged와 area의 merge → final merged의 state와 areas의 state로 join하면 된다. 이렇게 원하던 final 데이터프레임이 만들어..
판다스 - 미국 주/지역별 인구밀도 계산 : 전처리, merge 총 3개의 데이터프레임이 있다. 1. 주 / 나이 / 연도 / 인구 수를 담은 population 2. 주와 주 이름의 약자를 담은 abbrevs 3. 주와 그 주의 면적을 담은 areas 모든 데이터가 하나의 데이터프레임에 있지 않고 SQL 처럼 join하기 위해 정규화 되어 있다. 우선 Null이 있는지 보자 population의 population 컬럼에만 20개의 NaN값이 있다. 그리고 각 데이터프레임의 shape을 살펴보면 popluation이 주된 데이터프레임인 것을 확인할 수 있고 나머지 2개는 정보를 담아둔 컬럼이라고 생각할 수 있다. 이제, 목표로 하는 주별 인구밀도를 얻기 위해선 population컬럼이 필요하고, area (sq. mi) 컬럼이 필요하다 즉, merge가 진행되어야한..
판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 발렌타인데이 분석 https://steadiness-193.tistory.com/112 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 2월의 유동인구 많은 일자, 역별 분석 데이터 불러오기 https://steadiness-193.tistory.com/109 판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지.. steadiness-193.tistory.com 위에서 만들어낸 Feb 데이터프레임을 불러온다. 2월 14일에 승객이 많은 노선의 순위는? groupby(['day', '노선명']) 2월 14일, 발렌타인데이를 살펴봐야하기 때문에 day로 ..