본문 바로가기

텍스트 분석/전처리_형태소 분석

텍스트 분석 - 네이버 카페(비건 디저트) : 전처리

반응형

https://steadiness-193.tistory.com/142

 

크롤링 - webdriver(selenium)으로 네이버 카페 크롤링하기

네이버 카페 크롤링 카테고리의 최종본이다. 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어

steadiness-193.tistory.com

네이버 카페에 비건디저트를 검색해 찾은

 

2010년 1월1일 ~ 2020년 5월 23일까지

 

1300여개 게시글

 

텍스트를 분석한다.

 

 

 

 

 

데이터 불러오기

 

 

 

중복 제거

 

 

 

 

 

 

컬럼별 데이터 타입 확인

 

 

조회수와 좋아요 수가 문자열이다.

 

이를 정수형으로 바꾸는 전처리를 진행해보자.

 

 

 

 

 

1. 조회수

 

 

 

고유값을 보면 콤마가 있는데이터와 2.9만과 같은 데이터가 있기 때문에

 

문자열로 나왔다.

 

 

콤마를 없애주고 2.9만을 29000으로 바꿔주는 함수를 정의하고 apply하자

 

 

 

만들어진 시리즈롤 views 컬럼과 맞바꾼 뒤

 

정수형으로 타입을 변경하면 된다.

 

 

 

 

 

 

 

 

 

2. 좋아요 수

 

 

저 999+ 라는 값 때문에 문자열 컬럼이 되었다.

 

 

999+를 999로 바꿔주자

 

 

 

위 시리즈를 likes 컬럼과 맞바꾸고 정수형으로 전환하자.

 

 

 

 

우선 컬럼의 전처리는 완료되었다.

 

 

반응형