본문 바로가기

Machine Learning/전처리(Preprocessing)

Machine Learning - 결측값 처리(Imputation) : median, mode

반응형

https://steadiness-193.tistory.com/239

 

머신러닝 - 결측값 처리 : mean

데이터 불러오기 categorical, numeric 컬럼 구분 리스트 제작 간단히, 자료형이 object라면 categorical이고 int나 float이라면 numeric이라 보면 된다. 방법1. for loop 이용 방법2. 직접 명시 + 리스트 이용..

steadiness-193.tistory.com

 

위 포스팅의 내용과 데이터프레임을 이용한다.

 

 

 

 

데이터프레임 및 결측치 확인

 

 

 

[Median]

데이터 개수에 대해 절반으로 나누는 위치의 값

개수가 짝수일 땐 중간에 위치한 두 값의 평균

중간값은 모든 관측값을 이용하지 않으므로 평균값보단 이상치(아웃라이어)의 영향을 덜 받는다.

 

 

복사본 만들기

 

 

 

 

 

중간값으로 결측치 처리

 

 

num_columns와 for 구문은 이전 포스팅 참조

 

 

 

 

 

 

[Mode]

범주형 변수에서 가장 자주 등장하는 값

object 자료형의 컬럼에서 결측값을 최빈값으로 대체하는 개념

 

 

 

복사본 만들기

 

 

 

mode 살펴보기

 

 

mode는 위 결과처럼 시리즈를 반환한다.

 

위 결과는 ownerChange 컬럼에서 가장 많이 나온 값은 same이라는 것을 알려준다.

 

 

same만을 얻기 위해선

 

 

0으로 인덱싱을 해주면 된다.

 

 

 

 

 

 

최빈값으로 결측치 처리

 

 

범주형 자료형의 결측값이 잘 채워졌다.

 

 

반응형