[의미연결망분석]
텍스트 분석의 한 종류로, 자연어 처리 방식을 활용해 텍스트 형태로 이루어진 비정형 데이터들에서
정보를 추출하거나 단어 간 연계성을 파악하는 기법
출처 : https://blog.naver.com/bflysoft_biz/221981817243
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran)
데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 �
steadiness-193.tistory.com
위에서 만들어낸 mas 엑셀 파일을 이용한다.
텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud
https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다..
steadiness-193.tistory.com
전처리와 STOP_WORDS와 CHANGE_WORDS_SET에 대한 내용은 위 포스팅 참조
데이터 불러오기
1. mas_total 제작
mas_noun 컬럼의 모든 단어들을 필터링 해서
mas_total에 넣어두는 것이다.
STOP_WORDS와 CHANGE_WORDS_SET을 거치기 전에 우선
중복된 단어들을 제거한다.
이후 필터링을 진행한 뒤
모아진 단어들의 개수를 보면 총 225,203개가 나왔다.
2. Counter
most_common()을 이용해 빈도가 높은 순으로
단어와 빈도수를 출력한다.
총 28755의 단어들이 빈도수와 함께 나왔다.
3. word_list 제작
최소 150번 초과로 나온 단어들만 word_list에 담는 작업이다.
최소 151번 이상 언급된 단어들은 총 199개 이다.
4. mas_double_list 제작
STOP_WORDS에 해당하지 않고
word_list에는 해당하며
CHANGE_WORDS_SET을 거친
리스트를 담은 이중리스트
5. mas_relation 제작
itertools 라이브러리의 combinations을 이용한다.
순서들을 고려해 mas_relations 리스트를 만든다.
위 작업은 데이터가 많아 시간이 많이 소요된다.
이렇게 만들어진 데이터프레임은 총 826,879행이다.
6. words_relations_count
위 데이터프레임의 한 행은 두개의 단어를 포함하고 있다.
그 두개의 단어를 하나의 단어라고 생각하고
두개의 튜플 세트의 개수를 센다.
7. SNA 시각화
비건 디저트로 검색한 것이므로 두 단어의 연관이 제일 많다.
동물성 재료에 대한 언급과
예상하지 못했던 생각, 사람, 시간 주제의 중심도 보인다.
위 단어들을 보고 어떠한 인사이트를 찾기 위해선
해당 단어를 더 파고들어 커뮤니케이션 실무자와의 지속적인 분석이 필요할 것이다.
위 SNA의 interactive 파일
마우스로 단어들을 움직일 수 있으며 스크롤로 확대/축소 할 수 있다.