본문 바로가기

텍스트 분석/SNA

텍스트 분석 - 네이버 카페(비건 디저트) : SNA (의미연결망 분석)

Data_Pistachio 2020. 7. 17. 17:28

[의미연결망분석]

텍스트 분석의 한 종류로, 자연어 처리 방식을 활용해 텍스트 형태로 이루어진 비정형 데이터들에서

정보를 추출하거나 단어 간 연계성을 파악하는 기법

출처 : https://blog.naver.com/bflysoft_biz/221981817243

텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran)

데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 �

steadiness-193.tistory.com

위에서 만들어낸 mas 엑셀 파일을 이용한다.

텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud

https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다..

steadiness-193.tistory.com

전처리와 STOP_WORDS와 CHANGE_WORDS_SET에 대한 내용은 위 포스팅 참조

데이터 불러오기

1. mas_total 제작

mas_noun 컬럼의 모든 단어들을 필터링 해서

mas_total에 넣어두는 것이다.

STOP_WORDS와 CHANGE_WORDS_SET을 거치기 전에 우선

중복된 단어들을 제거한다.

이후 필터링을 진행한 뒤

모아진 단어들의 개수를 보면 총 225,203개가 나왔다.

2. Counter

most_common()을 이용해 빈도가 높은 순으로

단어와 빈도수를 출력한다.

총 28755의 단어들이 빈도수와 함께 나왔다.

3. word_list 제작

최소 150번 초과로 나온 단어들만 word_list에 담는 작업이다.

최소 151번 이상 언급된 단어들은 총 199개 이다.

4. mas_double_list 제작

STOP_WORDS에 해당하지 않고

word_list에는 해당하며

CHANGE_WORDS_SET을 거친

리스트를 담은 이중리스트

5. mas_relation 제작

itertools 라이브러리의 combinations을 이용한다.

순서들을 고려해 mas_relations 리스트를 만든다.

위 작업은 데이터가 많아 시간이 많이 소요된다.

이렇게 만들어진 데이터프레임은 총 826,879행이다.

6. words_relations_count

위 데이터프레임의 한 행은 두개의 단어를 포함하고 있다.

그 두개의 단어를 하나의 단어라고 생각하고

두개의 튜플 세트의 개수를 센다.

7. SNA 시각화

비건 디저트로 검색한 것이므로 두 단어의 연관이 제일 많다.

동물성 재료에 대한 언급과

예상하지 못했던 생각, 사람, 시간 주제의 중심도 보인다.

위 단어들을 보고 어떠한 인사이트를 찾기 위해선

해당 단어를 더 파고들어 커뮤니케이션 실무자와의 지속적인 분석이 필요할 것이다.

SNAinteractive.html

위 SNA의 interactive 파일

마우스로 단어들을 움직일 수 있으며 스크롤로 확대/축소 할 수 있다.

저작자표시 (새창열림)

티스토리툴바