본문 바로가기

Data_Analysis

(294)
Kaggle - titanic(타이타닉) : Modeling (Decision Tree) https://steadiness-193.tistory.com/208 Kaggle - titanic(타이타닉) : Feature Engineering https://steadiness-193.tistory.com/207 Kaggle - titanic(타이타닉) : EDA 데이터 출처 https://www.kaggle.com/c/titanic/data 컬럼 설명 자료형 Survived 0이면 사망, 1이면 생존 int64 Pclass 티켓 등급 : 1,.. steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 train과 test를 이용해서 생존자를 예측해보자 지도 학습 - Supervised Learning 예측에 이용할 컬럼 (feature names) : label을 맞추는데 ..
Kaggle - titanic(타이타닉) : Feature Engineering https://steadiness-193.tistory.com/207 Kaggle - titanic(타이타닉) : EDA 데이터 출처 https://www.kaggle.com/c/titanic/data 컬럼 설명 자료형 Survived 0이면 사망, 1이면 생존 int64 Pclass 티켓 등급 : 1, 2, 3 int64 Name 승객 이름 : 성, 호칭. 이름 Surname, Title. Firstname ob.. steadiness-193.tistory.com 위에서 분석한 대로 컬럼을 전처리 해주자 성별 train과 test를 한번씩 해주긴 귀찮으니 for 구문을 이용한다. 또한 lambda 함수에서 조건문을 이용해서 여자 승객일 경우 1을, 남자일 경우 0으로 치환해준다. Name - Title..
Kaggle - titanic(타이타닉) : EDA 데이터 출처 https://www.kaggle.com/c/titanic/data 컬럼 설명 자료형 Survived 0이면 사망, 1이면 생존 int64 Pclass 티켓 등급 : 1, 2, 3 int64 Name 승객 이름 : 성, 호칭. 이름 Surname, Title. Firstname object Sex 성별 : male, female object Age 승객의 나이 float64 SibSp 형제, 자매, 배우자의 합 int64 Parch 부모, 자식의 합 int64 Ticket 티켓 번호 object Fare 요금 float64 Cabin 객실 번호 object Embarked 선착장 : C(Cherbourg), Q(Queenstown), S(Southampton) object 데이터 불러오기 누..
판다스 - 뉴욕 Airbnb 데이터 : 지역별 가격 분포 파악, 시각화 데이터 및 이미지 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 필드(컬럼), 행/열 개수 확인 컬럼별 누락값 확인 투숙객 이름과 호스트 이름에 누락값이 있다. 위 두개 컬럼은 분석에 있어서 중요하니 누락값이 있는 행을 삭제하자. 이 데이터프레임에서 재밌는 점은 위도와 경도를 알 수 있다는 것이다. 위도와 경도를 산점도에 이용하면 뉴욕의 지도처럼 나타난다. 위도와 경도로 지도 그리기 뉴욕에서 airbnb를 운영하는 위치를 볼 수 있는 지도를 만들었다. 가격별로 색 조정 pandas로 scatter를 그릴 때 c옵션이나 colorbar=True를 이용해서 컬러바까지 나오게 되면 x축 눈금이 보이지 않을 때가 있다. 이럴..
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기 https://steadiness-193.tistory.com/202 판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다... steadiness-193.tistory.com 위 포스팅에서 전처리 완료된 analysis_df를 이용한다. [SQL을 이용하여 room을 가장 많이 등록한 호스트 상위 10명의 room 평균 가격을 찾아보자] 우선 판다스에서 host_id를 그룹핑한 다음 행의 개수를 세보자 총 25,940명의 호스트..
판다스 - 뉴욕 Airbnb 데이터 : room_type별 분석 https://steadiness-193.tistory.com/202 판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다... steadiness-193.tistory.com 위 포스팅에서 전처리 완료된 analysis_df를 이용한다. 데이터 불러오기 room_type의 고유값 총 3가지 타입이 있으며 room_type별로 어떤 값을 보고자 하면 groupby를 이용해야 한다. [목표 : 각 그룹별로 price가 가장 높은 그..
정규표현식 - re.sub : 원하는 문자만 남기고 제거하기 re.sub('찾을 패턴', '찾은 패턴을 변경할 내용', '원본') 주어진 문자열(찾을 패턴)에서 일치하는 모든 패턴을 (변경할 내용으로)바꾼다. 두번째 인자는 특정 문자열이거나 함수가 될 수도 있다. 메타캐릭터 [] []안에 들어있는 캐릭터 자체를 나타내며 [abc] : a 또는 b 또는 c - : 해당 문자 사이 범위에 속하는 문자 중 하나 [a-d] : a 또는 b 또는 c 또는 d ^ : 맨 앞에 사용될 경우에만 해당 문자 패턴이 아닌 것과 매칭 [^a-d] : a 그리고 b 그리고 c 그리고 d 가 아닌 문자열 위 두가지 원리를 가지고 예제를 풀어보자 위 전화번호에서 010-1234-1321만 뽑아내려고 한다. 이때 re.sub를 이용하면 된다. % 또는 $ 또는 ^ 또는 * 또는 !을 없애주..
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 데이터 출처 https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 데이터 불러오기 airbnb 데이터를 df 변수에 담았다. 데이터 살펴보기 컬럼은 총 16개로 다양하며 행은 총 48,895개로 나타난다. 자료형은 알맞게 구성되었으나 몇몇 컬럼에선 누락값이 있어 보인다. 컬럼별 누락값을 살펴보자 투숙객의 이름과 호스트의 이름 컬럼에서 누락값이 조금 보인다. 위 두개의 컬럼은 분석에 있어서 비중이 높으니 향후 에러 방지를 위해 누락값이 있는 행은 삭제하는 것이 좋아보인다. 누락값이 있는 행 제거 name컬럼과 host_name 컬럼의 누락값이 있는 행을 없애주자 리뷰 컬럼 외엔 누락값이 없어졌다. import re 정규표현식 라이브러리를 impor..