반응형
https://steadiness-193.tistory.com/207
위에서 분석한 대로 컬럼을 전처리 해주자
성별
train과 test를 한번씩 해주긴 귀찮으니 for 구문을 이용한다.
또한 lambda 함수에서 조건문을 이용해서 여자 승객일 경우 1을, 남자일 경우 0으로 치환해준다.
Name - Title
str의 extract 메서드를 이용해서 Title 컬럼을 생성해준다.
(정규표현식 처럼 이용하면 된다.)
호칭이 Master인 경우에만 True를 넣어준다.
Embarked
우선 train의 Embarked 컬럼엔 2개의 누락값이 있다.
누락값이 두개 뿐이니 Embarked의 최빈값으로 채워주자
이제 Embarked 컬럼을 더미로 만들어서 concat으로 연결해주면 된다.
(원핫인코딩)
Age - Child
Age 컬럼에도 누락값이 있다.
사실 그냥 15세 미만이라는 조건을 넣어, 진행할 수도 있지만
성별, 호칭 등 별로 나이가 다를 수 있다.
이에 그룹별로 누락값을 채워준 뒤 15세 미만에 해당하는 Child 컬럼을 생성하자.
Family Type
Family Type을 원핫인코딩해서 컬럼으로 추가해줬다.
Fare
test 데이터프레임엔 Fare 컬럼에 단 하나의 누락값이 있기 때문에
단순히 0으로 대체해주자.
마지막 검토
반응형
'Kaggle' 카테고리의 다른 글
Kaggle - Bike Sharing Demand : Evaluation (Random Forest, Cross-validation) (0) | 2020.08.19 |
---|---|
Kaggle - Bike Sharing Demand : EDA & Feature Engineering (2) (0) | 2020.08.19 |
Kaggle - Bike Sharing Demand : EDA & Feature Engineering (0) | 2020.08.18 |
Kaggle - titanic(타이타닉) : Modeling (Decision Tree) (0) | 2020.08.07 |
Kaggle - titanic(타이타닉) : EDA (2) | 2020.08.07 |