본문 바로가기

Pandas/실전

판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기

반응형

 

https://steadiness-193.tistory.com/202

 

판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링

데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다...

steadiness-193.tistory.com

 

위 포스팅에서 전처리 완료된 analysis_df를 이용한다.

 

 

 

 

[SQL을 이용하여 room을 가장 많이 등록한 호스트 상위 10명의
room 평균 가격을 찾아보자]

 

 

 

 

 

우선 판다스에서 host_id를 그룹핑한 다음 행의 개수를 세보자

 

 

 

총 25,940명의 호스트가 있다.

 

 

 

이를 내림차순 해서 보면

 

 

 

방 등록을 많이 한 순서대로 출력된다.

 

 

 

 

 

 

이제 SQL을 이용해서 원하는 결과를 뽑아내 보자

 

 

import sqlite3

conn = sqlite3.connect(':memory:')
conn.text_factory = str
analysis_df.to_sql(name='data', con=conn)

pd.read_sql('select * from data', conn)

 

 

우선 위 코드를 실행하면

 

 

 

기존 데이터프레임에서 reset_index를 실행한 듯한 결과가 출력된다.

 

 

 

 

 

SQL 작성

 

 

pd.read_sql 메서드를 이용하면 된다.

 

메서드 안에는 SQL에서 원래 작성하던 대로 문법을 사용하면 되고 

 

엔터를 쳤을 때 연결된다는 \만 잘 써주면 된다.

 

방 등록을 많이 한 10명을 내림차순으로 출력한다.

 

 

 

 

 

반응형