본문 바로가기

Crawling (크롤링)/네이버 카페

크롤링 - webdriver(selenium)으로 네이버 카페글 긁어오기

반응형

https://steadiness-193.tistory.com/139

 

크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기

크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser.get(url)을 이용하면된다. 중요한 것은 url을 찾아내는 것이다. 검색어 비건 디저트 사이트 네

steadiness-193.tistory.com

https://steadiness-193.tistory.com/140

 

크롤링 - webdriver(selenium)으로 네이버 카페글 접속하기

https://steadiness-193.tistory.com/139 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser...

steadiness-193.tistory.com

위 두개의 포스팅으로 네이버 카페에 접속해서

 

카페글 클릭한 뒤 탭 변경하는 것 까지 살펴봤다.

 

이제 카페로 들어가 필요한 내용을 긁어오자.

 

 

 

 

브라우저를 실행해

 

비건디저트를 검색한 카페 1페이지로 들어간 뒤

 

맨 처음 게시글을 클릭하고

 

탭을 변경하자.

 

 

 

 

 

 

여기까지 됐으면 네이버 카페 크롤링에서 중요한

 

프레임 변경을 해줘야 한다.

 

그냥 태그를 가져오면 원하는 값이 안나오기 때문에

 

브라우저의 프레임을 바꿔줘야 한다.

 

 

카페 프레임 변경

 

네이버 카페의 주된 글이 있는 프레임은 cafe_main이다.

 

 

page_source로 html을 얻고

 

soup을 구하자

 

 

 

이제 크롤링을 진행할 모든 준비가 끝났다.

 

 

 

 

 

 

제목 / 조회수 / 날짜

 

 

 

 

 

본문 / 좋아요 수

 

 

 

 

 

댓글

 

 

우선 모든 댓글을 담은 all_reply를 만든다.

 

 

 

 

 

그 다음 text 들만 뽑아서 reply_list에 append 해주자

 

 

마지막으로 이를 하나의 문자열로 이어주기 위해 

 

seperate 문자열과 join을 이용한다.

 

 

 

 

 

위 모든 내용을 리스트로 감싸서 data 변수에 넣자

 

 

 

마지막으로 이 전체를 get_data라는 함수로 정의한다.

 

 

 

 

get_data 함수 실행

 

영상 광고는 자동으로 설정된 것이며 블로그의 수익과 관계 없습니다.

 

 

반응형