본문 바로가기

텍스트 분석

(6)
텍스트 분석 - 네이버 카페(비건 디저트) : SNA (의미연결망 분석) [의미연결망분석] 텍스트 분석의 한 종류로, 자연어 처리 방식을 활용해 텍스트 형태로 이루어진 비정형 데이터들에서 정보를 추출하거나 단어 간 연계성을 파악하는 기법 출처 : https://blog.naver.com/bflysoft_biz/221981817243 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 � steadiness-193.tistory.com 위에서 만들어낸 mas 엑셀 파일을 이용한다. 텍스트 분석 - 네이버 카페(비건 디저트) : 상..
텍스트 분석 - 네이버 카페(비건 디저트) : 토픽모델링 (페르소나 설정, corpora, models) 토픽모델링은 텍스트 데이터에서 사용된 주제어들의 동시 사용 패턴을 바탕으로, 해당 텍스트들을 대표하는 특정 주제나 이슈, 주제 그룹들을 자동으로 추출하는 분석 기법이다. 이때 토픽은 함께 등장할 확률이 높고 유사한 의미를 가지는 단어들의 집합이라고 할 수 있다. 이 방식은 텍스트 데이터 내 단어들의 빈도를 통계적으로 분석하여 전체 데이터를 관통하는 잠재적 주제, 즉 토픽들을 자동으로 추출하는 분류를 하기 때문에 쟁점, 즉 프레임 분석 시 유용하다. 출처 : https://blog.naver.com/bflysoft_biz/222012782382 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. conte..
텍스트 분석 - 네이버 카페(비건 디저트) : Word2Vec (가까운 단어 찾기) https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 � steadiness-193.tistory.com 위 포스팅에서 만들어낸 mas 엑셀 파일을 이용한다. https://steadiness-193.tistory.com/145 텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud https://steadiness-193.tistory.com/144 텍스트 ..
텍스트 분석 - 네이버 카페(비건 디저트) : 상위빈도단어 시각화, wordcloud https://steadiness-193.tistory.com/144 텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 � steadiness-193.tistory.com 위 포스팅에서 만들어낸 mas 엑셀파일을 불러온다. 엑셀파일에 저장했다가 불러오면 다시 처리해야할 것이 있다. 엑셀로 저장했다가 불러오면 리스트까지 문자열로 보기 때문에 위 처럼 리스트를 ""로 감싸서 str로 나타내고 있다. 따라서 앞의 2글자와 뒤 2글자를 제외하고 박스 표시한 저 ..
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리, 형태소 분석(Komoran) 데이터 불러오기 여기서 필요한 것은 content와 reply뿐이다. content content를 문자열로 다 바꾸고 인덱스와 함께 리스트로 저장한다. 여기서 길이가 4 이상이어야 하는데 그 이유는 누락값은 NaN인데 이를 문자열로 하면 길이가 3이기 때문이다. reply reply는 우선 seperate 문자인 |||||로 연결을 해놨기 때문에 split으로 잘라준 뒤 content와 마찬가지로 길이가 4 이상인 reply만 인덱스와 함께 리스트로 저장한다. 위 작업으로 만들어낸 result_double_list를 데이터프레임화 하면 된다. 위 데이터프레임을 result_df로 정의한다. 우선 중복을 제거해주자 형태소 분석 Komoran을 이용해 형태소를 분석한다. 그리고 미리 메모장에 Komoran..
텍스트 분석 - 네이버 카페(비건 디저트) : 전처리 https://steadiness-193.tistory.com/142 크롤링 - webdriver(selenium)으로 네이버 카페 크롤링하기 네이버 카페 크롤링 카테고리의 최종본이다. 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어 steadiness-193.tistory.com 네이버 카페에 비건디저트를 검색해 찾은 2010년 1월1일 ~ 2020년 5월 23일까지 1300여개 게시글의 텍스트를 분석한다. 데이터 불러오기 중복 제거 컬럼별 데이터 타입 확인 조회수와 좋아요 수가 문자열이다. 이를 정수형으로 바꾸는 전처리를 진행해보자. 1. 조회수 고유값을 보면 콤마가 있는데이터..