반응형
네이버 쇼핑에서 위 나이키 모자에 대한 정보를 긁어왔다.
https://steadiness-193.tistory.com/121
크롤링은 위 포스팅 참조
데이터 불러오기
엑셀로 저장했던 Nike 엑셀 파일을 불러왔다.
데이터 살펴보기
배송비 컬럼에 무료배송이라는 글자가 있어 자료형이 object로 나왔다.
전처리 : deliver_fee 정수형으로 변환, 컬럼으로 추가
숫자는 정수형이나, 무료배송만 문자열이다.
무료배송은 0원으로 바꿔주자
잘 바뀌었다.
바로 원하는 위치에 컬럼으로 추가하자
새로 추가한 컬럼(d_fee)의 자료형은 int64로 잘 바뀌었다.
전처리 : 분석에 불필요한 컬럼 제외
기존 배송비 컬럼과 url 컬럼은 빼주자
전처리 : 최종 가격 컬럼 추가
가격과 배송비를 포함한 최종 가격 컬럼 추가
total_price 컬럼 살펴보기
최솟값은 22020, 최댓값은 67700으로 격차가 상당하다.
평균은 28056으로 최솟값쪽에 더 가까워보인다.
mall의 value_counts
하나의 판매처만 있지 않고
판매처별로 여러개의 상품을 팔고 있는 것으로 보인다.
판매처의 고유값
총 52개의 고유 판매처가 있는 것으로 보인다.
제일 저렴하게 올려놓은 판매처는?
소셜커머스인 위메프에서 가장 저렴하게 판매하고 있다.
단, 제품의 가격만으로 본다면 브랜드붐이 19,800원으로 더 싸게 판매하고 있다.
total_price의 히스토그램
2만원 초반대부터 3만원 중반대까지 제품이 많아보이며
그 위 가격은 듬성듬성 있어보인다.
반응형
'Pandas > 실전' 카테고리의 다른 글
판다스 - 광고데이터 분석을 통한 중점관리 키워드 추출 (0) | 2020.07.14 |
---|---|
판다스 - 네이버 쇼핑 크롤링 자료 : 분석 (0) | 2020.07.13 |
판다스 - 미국의 연도별 인구밀도 변화 (0) | 2020.07.11 |
판다스 - 미국 주/지역별 인구밀도 계산 : merge, 인구밀도 계산 (0) | 2020.07.11 |
판다스 - 미국 주/지역별 인구밀도 계산 : 전처리, merge (0) | 2020.07.11 |