본문 바로가기

Crawling (크롤링)/네이버 카페

크롤링 - webdriver(selenium)으로 네이버 카페 크롤링하기

반응형

네이버 카페 크롤링 카테고리의 최종본이다.

 

 

 

 

크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기

크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser.get(url)을 이용하면된다. 중요한 것은 url을 찾아내는 것이다. 검색어 비건 디저트 사이트 네

steadiness-193.tistory.com

 

 

위 포스팅에서 얻은 move_page 함수와

 

 

 

 

 

크롤링 - webdriver(selenium)으로 네이버 카페글 접속하기

https://steadiness-193.tistory.com/139 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser...

steadiness-193.tistory.com

 

 

위 포스팅에서 설명한 카페 글 접속 및 탭 변경 방법,

 

 

 

 

 

크롤링 - webdriver(selenium)으로 네이버 카페글 긁어오기

https://steadiness-193.tistory.com/139 크롤링 - webdriver(selenium)으로 네이버 카페 페이지 넘기기 크롬 브라우저로 실행한다. 방법은 간단하다. 크롬 브라우저를 browser 라는 변수명으로 넣어주고 browser...

steadiness-193.tistory.com

 

그리고 위 포스팅에서 설명한 

 

프레임 변경을 포함해 데이터를 긁어오는 함수인 get_data를 이용해 

 

네이버 카페를 크롤링한다.

 

 

 

 

 

 

브라우저 실행 후 

 

move_page 함수에 인자로 전달할 searching 입력

 

최종 결과를 담아낼 빈 리스트(result) 생성

 

 

 

 

크롤링 실행

 

 

 

1부터 10페이지까지 10개의 게시글씩

 

 

 

 

 

총 100개의 리스트가 만들어졌다.

 

 

 

 

 

 

이 result를 데이터프레임으로 바꿔주자

 

 

 

 

 

추후 활용을 위해 엑셀파일로 저장한다.

 

 

 

단, 데이터가 너무 길어 에러가 나는 것을 방지하고자

 

ExcelWriter를 이용한다.

 

 

 

 

https://steadiness-193.tistory.com/120

 

판다스 - 길이가 긴 데이터를 에러 없이 엑셀로 저장하기 : ExcelWriter

데이터프레임 위와 같은 데이터프레임의 컬럼을 보자 컬럼 중 url의 데이터가 너무 길다. 그래서 pd.to_excel을 이용하면 에러메세지가 뜬다. 실제로 Nike 엑셀 파일에 들어가봐도 url 컬럼은 비어 있�

steadiness-193.tistory.com

ExcelWriter 내용은 위 포스팅 참조

반응형