본문 바로가기

텍스트 분석/SNA

텍스트 분석 - 네이버 카페(비건 디저트) : SNA (의미연결망 분석)

반응형
[의미연결망분석]

텍스트 분석의 한 종류로, 자연어 처리 방식을 활용해 텍스트 형태로 이루어진 비정형 데이터들에서

정보를 추출하거나 단어 간 연계성을 파악하는 기법


출처 : https://blog.naver.com/bflysoft_biz/221981817243

 

 

 

 

텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran)

데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 �

steadiness-193.tistory.com

위에서 만들어낸 mas 엑셀 파일을 이용한다.

 

 

 

 

 

 

 

텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud

https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다..

steadiness-193.tistory.com

전처리와 STOP_WORDS와 CHANGE_WORDS_SET에 대한 내용은 위 포스팅 참조

 

 

 

 

 

 

데이터 불러오기

 

 

 

 

 

 

 

1. mas_total 제작

 

mas_noun 컬럼의 모든 단어들을 필터링 해서

 

mas_total에 넣어두는 것이다.

 

 

 

 

STOP_WORDS와 CHANGE_WORDS_SET을 거치기 전에 우선 

 

중복된 단어들을 제거한다.

 

 

이후 필터링을 진행한 뒤

 

모아진 단어들의 개수를 보면 총 225,203개가 나왔다.

 

 

 

 

 

 

 

 

 

 

2. Counter

 

 

most_common()을 이용해 빈도가 높은 순으로 

 

단어와 빈도수를 출력한다.

 

 

총 28755의 단어들이 빈도수와 함께 나왔다.

 

 

 

 

 

 

 

 

3. word_list 제작

 

최소 150번 초과로 나온 단어들만 word_list에 담는 작업이다.

 

최소 151번 이상 언급된 단어들은 총 199개 이다.

 

 

 

 

 

 

 

 

4. mas_double_list 제작

 

 

STOP_WORDS에 해당하지 않고

 

word_list에는 해당하며

 

 

CHANGE_WORDS_SET을 거친

 

리스트를 담은 이중리스트

 

 

 

 

 

 

 

 

5. mas_relation 제작

 

 

itertools 라이브러리의 combinations을 이용한다.

 

순서들을 고려해 mas_relations 리스트를 만든다.

 

위 작업은 데이터가 많아 시간이 많이 소요된다.

 

 

 

 

이렇게 만들어진 데이터프레임은 총 826,879행이다.

 

 

 

 

 

 

 

 

6. words_relations_count

 

위 데이터프레임의 한 행은 두개의 단어를 포함하고 있다.

 

그 두개의 단어를 하나의 단어라고 생각하고

 

두개의 튜플 세트의 개수를 센다.

 

 

 

 

 

 

 

 

7. SNA 시각화

 

 

비건 디저트로 검색한 것이므로 두 단어의 연관이 제일 많다.

 

동물성 재료에 대한 언급과

 

예상하지 못했던 생각, 사람, 시간 주제의 중심도 보인다.

 

 

 

 

위 단어들을 보고 어떠한 인사이트를 찾기 위해선 

 

해당 단어를 더 파고들어 커뮤니케이션 실무자와의 지속적인 분석이 필요할 것이다.

 

 

 

 

SNAinteractive.html
0.03MB

위 SNA의 interactive 파일

 

마우스로 단어들을 움직일 수 있으며 스크롤로 확대/축소 할 수 있다.

 

 

 

반응형