반응형
https://steadiness-193.tistory.com/239
위 포스팅의 내용과 데이터프레임을 이용한다.
데이터프레임 및 결측치 확인
[Median]
데이터 개수에 대해 절반으로 나누는 위치의 값
개수가 짝수일 땐 중간에 위치한 두 값의 평균
중간값은 모든 관측값을 이용하지 않으므로 평균값보단 이상치(아웃라이어)의 영향을 덜 받는다.
복사본 만들기
중간값으로 결측치 처리
num_columns와 for 구문은 이전 포스팅 참조
[Mode]
범주형 변수에서 가장 자주 등장하는 값
object 자료형의 컬럼에서 결측값을 최빈값으로 대체하는 개념
복사본 만들기
mode 살펴보기
mode는 위 결과처럼 시리즈를 반환한다.
위 결과는 ownerChange 컬럼에서 가장 많이 나온 값은 same이라는 것을 알려준다.
same만을 얻기 위해선
0으로 인덱싱을 해주면 된다.
최빈값으로 결측치 처리
범주형 자료형의 결측값이 잘 채워졌다.
반응형
'Machine Learning > 전처리(Preprocessing)' 카테고리의 다른 글
Machine Learning - One-Hot Encoding (원핫 인코딩) (0) | 2020.08.26 |
---|---|
Machine Learning - Label Encoding (라벨 인코딩) (0) | 2020.08.26 |
Machine Learning - Scaling : Standard Scaling (Z-score) (0) | 2020.08.26 |
Machine Learning - Scaling : Min-Max Scaling (0) | 2020.08.26 |
Machine Learning - 결측값 처리(Imputation) : mean (0) | 2020.08.26 |