본문 바로가기

Machine Learning/전처리(Preprocessing)

Machine Learning - 결측값 처리(Imputation) : mean

반응형

 

데이터 불러오기

 

 

 

 

categorical, numeric 컬럼 구분 리스트 제작

 

간단히, 자료형이 object라면 categorical이고

int나 float이라면 numeric이라 보면 된다.

 

 

방법1. for loop 이용

 

 

 

 

 

방법2. 직접 명시 + 리스트 이용

 

 

 

둘 중 편한 방법을 이용하면 된다.

 

 

 

 

 

 

 

 

결측값 확인

 

방법1. missingno 라이브러리의 matrix 이용

 

 

 

세로 흰색 선이 컬럼을 구분한다.

 

각 컬럼별 흰색 가로 선이 결측값이 있다는 것을 표시한다.

 

revenue1 컬럼부터 결측값이 많아진다.

 

 

 

 

 

방법2. isna + sum

 

 

 

각 컬럼별로 결측값의 개수를 명확히 보고자할 때 이용하면 된다.

 

 

 

 

 

[Imputation]

대표값을 사용한 결측치 처리


[Mean]

산술평균, 표본 평균으로도 불린다.

모든 관측치의 값을 반영하므로 이상치(아웃라이어)들의 영향을 많이 받게 된다.

 

 

 

원본의 사본 만들기

 

 

 

 

한 컬럼의 결측값들과 그 컬럼의 평균값

 

 

 

왼쪽의 NaN을 2696.... 값으로 대체하는 개념이다.

 

 

 

위 작업을 for loop를 돌며 진행하면 된다.

 

 

 

기존 numeric 자료형 컬럼의 결측값이 없어진 것을 볼 수 있다.

반응형