반응형
데이터 불러오기
categorical, numeric 컬럼 구분 리스트 제작
간단히, 자료형이 object라면 categorical이고
int나 float이라면 numeric이라 보면 된다.
방법1. for loop 이용
방법2. 직접 명시 + 리스트 이용
둘 중 편한 방법을 이용하면 된다.
결측값 확인
방법1. missingno 라이브러리의 matrix 이용
세로 흰색 선이 컬럼을 구분한다.
각 컬럼별 흰색 가로 선이 결측값이 있다는 것을 표시한다.
revenue1 컬럼부터 결측값이 많아진다.
방법2. isna + sum
각 컬럼별로 결측값의 개수를 명확히 보고자할 때 이용하면 된다.
[Imputation]
대표값을 사용한 결측치 처리
[Mean]
산술평균, 표본 평균으로도 불린다.
모든 관측치의 값을 반영하므로 이상치(아웃라이어)들의 영향을 많이 받게 된다.
원본의 사본 만들기
한 컬럼의 결측값들과 그 컬럼의 평균값
왼쪽의 NaN을 2696.... 값으로 대체하는 개념이다.
위 작업을 for loop를 돌며 진행하면 된다.
기존 numeric 자료형 컬럼의 결측값이 없어진 것을 볼 수 있다.
반응형
'Machine Learning > 전처리(Preprocessing)' 카테고리의 다른 글
Machine Learning - One-Hot Encoding (원핫 인코딩) (0) | 2020.08.26 |
---|---|
Machine Learning - Label Encoding (라벨 인코딩) (0) | 2020.08.26 |
Machine Learning - Scaling : Standard Scaling (Z-score) (0) | 2020.08.26 |
Machine Learning - Scaling : Min-Max Scaling (0) | 2020.08.26 |
Machine Learning - 결측값 처리(Imputation) : median, mode (0) | 2020.08.26 |