반응형
https://steadiness-193.tistory.com/68
위 포스팅의 방법을 이용하되
평균값으로 특잇값을 처리하는 것이 다르다.
데이터 불러오기
data = pd.DataFrame(np.random.randn(1000, 4))
요약본 살펴보기
이 데이터도
평균값은 매우 작은데
최소값과 최대값의 절댓값이 3을 초과하는 데이터가 있다.
처리2. 컬럼별 평균값으로 대체하기
평균값을 이용하기 위해 mean 행만 가져오자
절댓값 3이 넘는 데이터 only
이전 포스팅처럼 저 값을 대체하려면 동일한 크기의
데이터프레임이 필요하다.
이제는 평균값으로 대체할 것이기 때문에
이를 아까 만든 mean_sr을 이용해야 한다.
위의 코드를 이용하면
각 컬럼별로 컬럼별 평균값들만 채운
기존 데이터프레임과 크기가 같은 데이터프레임을 만들 수 있다.
이제 이를 대체하기만 하면 된다.
원본과 비교해보면
아웃라이어들만 잘 바뀌었음을 확인할 수 있다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score (0) | 2020.06.29 |
---|---|
판다스 - 원핫인코딩 (One-Hot Encoding) (0) | 2020.06.28 |
판다스 - 특잇값(outlier) 처리하기 (0) | 2020.06.27 |
판다스 - 넓은 데이터 정리하기 : melt (0) | 2020.06.20 |
판다스 - isin() (0) | 2020.06.19 |