반응형
https://steadiness-193.tistory.com/144
위 포스팅에서 만들어낸 mas 엑셀 파일을 이용한다.
https://steadiness-193.tistory.com/145
전처리와 STOP_WORDS와 CHANGE_WORDS_SET에 대한 내용은 위 포스팅 참조
데이터 불러오기
STOP_WORDS / CHANGE_WORDS_SET 생성
mas_double_list 만들기
한 행씩의 단어 하나 하나(mas)가
STOP_WORDS에 포함되지 않고 CHANGE_WORDS_SET을 통과하면
그 행의 단어들을 다시 mas_list에 담는다.
그 mas_list를 다시 mas_double_list에 append하여
이중 리스트를 만들어 낸다.
mas_double_list의 일부만 보면
불필요한 단어들도 없고 리스트로 잘 구성되어 있다.
from gensim.models import Word2Vec
워드투벡을 이용해서
어떤 단어와 가까운 단어가 무엇인지 찾을 수 있다.
예를 들어 설탕과 가까운 단어들은 위와 같다
비건 디저트의 특성상 계란(흰자), 버터, 마가린이 들어가지 않는데
설탕 또한 No와 가까운 것을 보아
비건 디저트에는 설탕 또한 기피하는 것으로 보여진다.
한 단어와는 가까운, 나머지 단어와는 먼
비건과는 가깝고 야자유와는 거리가 먼 단어들은 위와 같다.
값이 0.66이 최고인 것을 보면 크게 유의미하진 않아 보인다.
반응형