본문 바로가기

Kaggle

Kaggle - titanic(타이타닉) : Feature Engineering

반응형

https://steadiness-193.tistory.com/207

 

Kaggle - titanic(타이타닉) : EDA

데이터 출처 https://www.kaggle.com/c/titanic/data 컬럼 설명 자료형 Survived 0이면 사망, 1이면 생존 int64 Pclass 티켓 등급 : 1, 2, 3 int64 Name 승객 이름 : 성, 호칭. 이름 Surname, Title. Firstname ob..

steadiness-193.tistory.com

 

위에서 분석한 대로 컬럼을 전처리 해주자

 

 

 

 

 

성별 

 

 

 

train과 test를 한번씩 해주긴 귀찮으니 for 구문을 이용한다.

 

또한 lambda 함수에서 조건문을 이용해서 여자 승객일 경우 1을, 남자일 경우 0으로 치환해준다.

 

 

 

 

 

 

 

Name - Title

 

 

 

str의 extract 메서드를 이용해서 Title 컬럼을 생성해준다.

(정규표현식 처럼 이용하면 된다.)

 

호칭이 Master인 경우에만 True를 넣어준다.

 

 

 

 

 

 

 

Embarked

 

우선 train의 Embarked 컬럼엔 2개의 누락값이 있다.

 

 

누락값이 두개 뿐이니 Embarked의 최빈값으로 채워주자

 

 

 

이제 Embarked 컬럼을 더미로 만들어서 concat으로 연결해주면 된다.

(원핫인코딩)

 

 

 

 

 

 

 

Age - Child

 

 

Age 컬럼에도 누락값이 있다.

 

사실 그냥 15세 미만이라는 조건을 넣어, 진행할 수도 있지만

 

 

성별, 호칭 등 별로 나이가 다를 수 있다.

 

이에 그룹별로 누락값을 채워준 뒤 15세 미만에 해당하는 Child 컬럼을 생성하자.

 

 

 

 

 

 

 

 

Family Type

 

 

 

 

Family Type을 원핫인코딩해서 컬럼으로 추가해줬다.

 

 

 

 

 

Fare

 

 

test 데이터프레임엔 Fare 컬럼에 단 하나의 누락값이 있기 때문에

 

단순히 0으로 대체해주자.

 

 

 

 

마지막 검토

 

train

 

test

 

 

 

반응형