Pandas/실전
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기
Data_Pistachio
2020. 8. 2. 17:06
반응형
https://steadiness-193.tistory.com/202
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링
데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다...
steadiness-193.tistory.com
위 포스팅에서 전처리 완료된 analysis_df를 이용한다.
[SQL을 이용하여 room을 가장 많이 등록한 호스트 상위 10명의
room 평균 가격을 찾아보자]
우선 판다스에서 host_id를 그룹핑한 다음 행의 개수를 세보자
총 25,940명의 호스트가 있다.
이를 내림차순 해서 보면
방 등록을 많이 한 순서대로 출력된다.
이제 SQL을 이용해서 원하는 결과를 뽑아내 보자
import sqlite3
conn = sqlite3.connect(':memory:')
conn.text_factory = str
analysis_df.to_sql(name='data', con=conn)
pd.read_sql('select * from data', conn)
우선 위 코드를 실행하면
기존 데이터프레임에서 reset_index를 실행한 듯한 결과가 출력된다.
SQL 작성
pd.read_sql 메서드를 이용하면 된다.
메서드 안에는 SQL에서 원래 작성하던 대로 문법을 사용하면 되고
엔터를 쳤을 때 연결된다는 \만 잘 써주면 된다.
방 등록을 많이 한 10명을 내림차순으로 출력한다.
반응형