텍스트 분석/전처리_형태소 분석 (2) 썸네일형 리스트형 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 이를 문자열로 하면 길이가 3이기 때문이다. reply reply는 우선 seperate 문자인 |||||로 연결을 해놨기 때문에 split으로 잘라준 뒤 content와 마찬가지로 길이가 4 이상인 reply만 인덱스와 함께 리스트로 저장한다. 위 작업으로 만들어낸 result_double_list를 데이터프레임화 하면 된다. 위 데이터프레임을 result_df로 정의한다. 우선 중복을 제거해주자 형태소 분석 Komoran을 이용해 형태소를 분석한다. 그리고 미리 메모장에 Komoran.. 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리 https://steadiness-193.tistory.com/142 크롤링 - webdriver(selenium)으로 네이버 카페 크롤링하기 네이버 카페 크롤링 카테고리의 최종본이다. 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어 steadiness-193.tistory.com 네이버 카페에 비건디저트를 검색해 찾은 2010년 1월1일 ~ 2020년 5월 23일까지 1300여개 게시글의 텍스트를 분석한다. 데이터 불러오기 중복 제거 컬럼별 데이터 타입 확인 조회수와 좋아요 수가 문자열이다. 이를 정수형으로 바꾸는 전처리를 진행해보자. 1. 조회수 고유값을 보면 콤마가 있는데이터.. 이전 1 다음