데이터 불러오기
여기서 필요한 것은 content와 reply뿐이다.
content
content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다.
여기서 길이가 4 이상이어야 하는데 그 이유는
누락값은 NaN인데 이를 문자열로 하면 길이가 3이기 때문이다.
reply
reply는 우선 seperate 문자인 |||||로 연결을 해놨기 때문에
split으로 잘라준 뒤
content와 마찬가지로 길이가 4 이상인 reply만
인덱스와 함께 리스트로 저장한다.
위 작업으로 만들어낸
result_double_list를 데이터프레임화 하면 된다.
위 데이터프레임을 result_df로 정의한다.
우선 중복을 제거해주자
형태소 분석
Komoran을 이용해 형태소를 분석한다.
그리고 미리 메모장에 Komoran이 알지 못하는 명사들을 적어놔준다.
비건 자체가 새로 들어온 외래어이기 때문에
관련 단어들을 최대한 적어준다.
정규표현식
정규표현식으로 원하는 데이터만 뽑아낸다.
테스트를 해보자
cleanText를 하고 안하고의 차이를 보면 다음과 같다.
필요없는 ^^ 이나 ~등을 없애고 가져오는 것이다.
mas_double_list에 분석한 것을 append하고
이를 result_df의 새로운 열로 추가해주자
마지막으로 형태소 분석을 한 mas 컬럼에서
2글자 이상이고 명사만을 모은 데이터를 mas_noun 컬럼으로,
어근과 형용사 그리고 명사를 모두 모은 데이터를 mas_selected 컬럼으로 추가하면 완성이다.
그리고 이 데이터를 mas 라는 이름의 엑셀파일로 저장하자.
'텍스트 분석 > 전처리_형태소 분석' 카테고리의 다른 글
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리 (0) | 2020.07.16 |
---|