본문 바로가기

텍스트 분석/전처리_형태소 분석

(2)
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 이를 문자열로 하면 길이가 3이기 때문이다. reply reply는 우선 seperate 문자인 |||||로 연결을 해놨기 때문에 split으로 잘라준 뒤 content와 마찬가지로 길이가 4 이상인 reply만 인덱스와 함께 리스트로 저장한다. 위 작업으로 만들어낸 result_double_list를 데이터프레임화 하면 된다. 위 데이터프레임을 result_df로 정의한다. 우선 중복을 제거해주자 형태소 분석 Komoran을 이용해 형태소를 분석한다. 그리고 미리 메모장에 Komoran..
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리 https://steadiness-193.tistory.com/142 크롤링 - webdriver(selenium)으로 네이버 카페 크롤링하기 네이버 카페 크롤링 카테고리의 최종본이다. 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어 steadiness-193.tistory.com 네이버 카페에 비건디저트를 검색해 찾은 2010년 1월1일 ~ 2020년 5월 23일까지 1300여개 게시글의 텍스트를 분석한다. 데이터 불러오기 중복 제거 컬럼별 데이터 타입 확인 조회수와 좋아요 수가 문자열이다. 이를 정수형으로 바꾸는 전처리를 진행해보자. 1. 조회수 고유값을 보면 콤마가 있는데이터..