반응형
https://steadiness-193.tistory.com/96
위 포스팅에서 나이 컬럼의 누락데이터를
Survived와 성별로 그룹화한 평균값으로 대체했다.
위 데이터를 불러와서 범주화를 진행해보자
전체 데이터
이제 이 train 데이터프레임에서
Age_filled를 이용해 나이대를 만들어보자
우선 10살 미만인 데이터는 제외하자
불린 조건을 데이터프레임에 주면
기존 891행에서 829행으로 줄어들었다.
apply를 이용하기 전에
나이대를 만드는 함수를 정의하자.
https://steadiness-193.tistory.com/28
판다스에서는 최대한 for loop 사용을 지양하고
apply를 이용하는 것이 좋다.
예를 들어 23살이면 23을 10으로 나눈 몫인 2가 나오고
2에 10을 곱하면 20
즉, 20대라고 정의할 수 있다.
apply를 이용해 함수가 적용된 시리즈를 만들고
컬럼 추가하기 전에
astype을 이용해 카테고리화 해준다.
https://steadiness-193.tistory.com/94
이제 insert를 이용해 원하는 위치에 컬럼을 추가하자
문제 없이 카테고리 자료형으로 잘 추가되었다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 누락데이터 처리 : interpolate (0) | 2020.07.07 |
---|---|
판다스 - 원핫인코딩 : get_dummies (0) | 2020.07.07 |
판다스 - 컬럼(열 or 변수)간 상관계수 : corr (0) | 2020.07.07 |
판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score (0) | 2020.06.29 |
판다스 - 원핫인코딩 (One-Hot Encoding) (0) | 2020.06.28 |