본문 바로가기

텍스트 분석/Word2Vec

텍스트 분석 - 네이버 카페(비건 디저트) : Word2Vec (가까운 단어 찾기)

반응형

https://steadiness-193.tistory.com/144

 

텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran)

데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 �

steadiness-193.tistory.com

위 포스팅에서 만들어낸 mas 엑셀 파일을 이용한다.

 

 

 

 

 

https://steadiness-193.tistory.com/145

 

텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud

https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다..

steadiness-193.tistory.com

 

전처리와 STOP_WORDS와 CHANGE_WORDS_SET에 대한 내용은 위 포스팅 참조

 

 

 

 

데이터 불러오기

 

 

 

STOP_WORDS / CHANGE_WORDS_SET 생성

 

 

 

mas_double_list 만들기

 

 

한 행씩의 단어 하나 하나(mas)가

 

STOP_WORDS에 포함되지 않고 CHANGE_WORDS_SET을 통과하면

 

그 행의 단어들을 다시 mas_list에 담는다.

 

 

 

그 mas_list를 다시 mas_double_list에 append하여

 

이중 리스트를 만들어 낸다.

 

 

 

 

 

mas_double_list의 일부만 보면

 

 

불필요한 단어들도 없고 리스트로 잘 구성되어 있다.

 

 

 

 

from gensim.models import Word2Vec

 

워드투벡을 이용해서

 

어떤 단어와 가까운 단어가 무엇인지 찾을 수 있다.

 

 

예를 들어 설탕과 가까운 단어들은 위와 같다

 

비건 디저트의 특성상 계란(흰자), 버터, 마가린이 들어가지 않는데

 

 

설탕 또한 No와 가까운 것을 보아

 

비건 디저트에는 설탕 또한 기피하는 것으로 보여진다.

 

 

 

 

 

한 단어와는 가까운, 나머지 단어와는 먼

 

 

비건과는 가깝고 야자유와는 거리가 먼 단어들은 위와 같다.

 

값이 0.66이 최고인 것을 보면 크게 유의미하진 않아 보인다.

 

 

 

 

반응형