본문 바로가기

Machine Learning/전처리(Preprocessing)

(10)
Machine Learning - 결측값 처리(Imputation) : median, mode https://steadiness-193.tistory.com/239 머신러닝 - 결측값 처리 : mean 데이터 불러오기 categorical, numeric 컬럼 구분 리스트 제작 간단히, 자료형이 object라면 categorical이고 int나 float이라면 numeric이라 보면 된다. 방법1. for loop 이용 방법2. 직접 명시 + 리스트 이용.. steadiness-193.tistory.com 위 포스팅의 내용과 데이터프레임을 이용한다. 데이터프레임 및 결측치 확인 [Median] 데이터 개수에 대해 절반으로 나누는 위치의 값 개수가 짝수일 땐 중간에 위치한 두 값의 평균 중간값은 모든 관측값을 이용하지 않으므로 평균값보단 이상치(아웃라이어)의 영향을 덜 받는다. 복사본 만들기 중간값..
Machine Learning - 결측값 처리(Imputation) : mean 데이터 불러오기 categorical, numeric 컬럼 구분 리스트 제작 간단히, 자료형이 object라면 categorical이고 int나 float이라면 numeric이라 보면 된다. 방법1. for loop 이용 방법2. 직접 명시 + 리스트 이용 둘 중 편한 방법을 이용하면 된다. 결측값 확인 방법1. missingno 라이브러리의 matrix 이용 세로 흰색 선이 컬럼을 구분한다. 각 컬럼별 흰색 가로 선이 결측값이 있다는 것을 표시한다. revenue1 컬럼부터 결측값이 많아진다. 방법2. isna + sum 각 컬럼별로 결측값의 개수를 명확히 보고자할 때 이용하면 된다. [Imputation] 대표값을 사용한 결측치 처리 [Mean] 산술평균, 표본 평균으로도 불린다. 모든 관측치의 값을..