본문 바로가기

Kaggle

Kaggle - titanic(타이타닉) : Modeling (Decision Tree)

반응형

https://steadiness-193.tistory.com/208

 

Kaggle - titanic(타이타닉) : Feature Engineering

https://steadiness-193.tistory.com/207 Kaggle - titanic(타이타닉) : EDA 데이터 출처 https://www.kaggle.com/c/titanic/data 컬럼 설명 자료형 Survived 0이면 사망, 1이면 생존 int64 Pclass 티켓 등급 : 1,..

steadiness-193.tistory.com

 

위 포스팅에서 전처리 완료한 train과 test를 이용해서

 

생존자를 예측해보자

 

 

 

 

 

지도 학습 - Supervised Learning

 

 

 

 

 

예측에 이용할 컬럼 (feature names) : label을 맞추는데 도움을 주는 컬럼

 

 

 

 

목표로 하는 컬럼 (label name) : 타겟 변수

 

 

 

 

 

학습 시킬 데이터프레임, 시리즈 (X_train, y_train)

 

X_train
y_train

 

 

 

 

 

 

예측에 필요한 데이터프레임 (X_test)

 

 

 

 

 

 

 

Decision Tree

 

 

트리의 최대 깊이는 7로 설정한다.

 

 

 

fit 머신러닝 알고리즘 학습
X_train, y_train
predict label 예측
X_test

 

 

 

 

 

학습 시키기 - fit

 

 

 

 

 

예측하기 - Predict

 

 

 

 

 

 

제출용 데이터프레임의 label을 바꿔주기

 

 

 

기본으로 제공되는 gender_submission의 Survived 컬럼 값을

 

 

model이 예측한 시리즈(predictions)로 바꿔주면 된다.

 

 

 

 

 

csv로 저장하고 Kaggle에 제출하기

 

 

 

 

 

0.78947의 정확도가 나왔다.

 

 

반응형