본문 바로가기

Pandas/전처리

판다스 - 특잇값(outlier) 처리하기2

반응형

https://steadiness-193.tistory.com/68

 

판다스 - 특잇값(outlier) 처리하기

데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만 때로는 제외하고 처리해야할 때가 많다. 데이터 불러오기 data = pd.DataFrame(np.random.randn(1000, 4)) 요��

steadiness-193.tistory.com

위 포스팅의 방법을 이용하되 

 

평균값으로 특잇값을 처리하는 것이 다르다.

 

 

 

 

 

 

데이터 불러오기

 

data = pd.DataFrame(np.random.randn(1000, 4))

 

 

 

 

 

 

요약본 살펴보기

 

 

이 데이터도

 

평균값은 매우 작은데

 

최소값과 최대값의 절댓값이 3을 초과하는 데이터가 있다.

 

 

 

 

 

처리2. 컬럼별 평균값으로 대체하기

 

 

평균값을 이용하기 위해 mean 행만 가져오자

 

 

 

 

 

 

 

 

 

절댓값 3이 넘는 데이터 only

 

 

 

이전 포스팅처럼 저 값을 대체하려면 동일한 크기의

 

데이터프레임이 필요하다.

 

 

 

 

 

 

 

이제는 평균값으로 대체할 것이기 때문에

 

이를 아까 만든 mean_sr을 이용해야 한다.

 

 

 

위의 코드를 이용하면

 

각 컬럼별로 컬럼별 평균값들만 채운 

 

기존 데이터프레임과 크기가 같은 데이터프레임을 만들 수 있다.

 

 

 

 

 

이제 이를 대체하기만 하면 된다.

 

 

 

 

 

 

원본과 비교해보면

 

 

 

아웃라이어들만 잘 바뀌었음을 확인할 수 있다.

 

 

 

반응형