본문 바로가기

Pandas/전처리

판다스 - 데이터 정규화

반응형

데이터 불러오기

 

 

 

숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있다.

 

마력과 무게의 절대값의 차가 매우 크기 때문에

(0번행의 마력 : 130, 무게 :  3504)

 

상대적으로 큰 숫자 값을 갖는, 무게 컬럼(변수)의 영향이 더 클 수 있다.

 

 

 

 

 

[목적 : horsepower 컬럼 정규화]

 

방법1 : 해당 열의 최댓값으로 나누기

 

horsepower_normalization 컬럼의 값은 0부터 1까지 값을 가지게 된다.

 

horsepower 컬럼의 최댓값은 230

 

0번행은 130이므로 130 / 230을 하면

 

0.565217이 나온다.

 

 

 

 

 

 

방법2 : 최댓값과 최솟값 이용

 

분자 = 값 - 최솟값

 

분모 = 최댓값 - 최솟값

 

 

예제의 horsepower 열의 최댓값은 230, 최솟값은 46이다.

 

최댓값과 최솟값의 차는 184

 

0번행의 값은 130이다.

 

분자 → 130 - 46 = 84

분모 → 230 - 46 = 184

 

84 / 184 = 0.4565..

 

최소 0 부터 최대 1 사이의 범위로 변환된다.

 

 

 

 

 

방법1과 방법2 비교

 

 

값은 예상대로 다소 차이가 난다.

 

 

 

 

 

sns.distplot을 이용해 시각화

 

 

https://steadiness-193.tistory.com/241

 

Machine Learning - Scaling : Min-Max Scaling

[Scaling] 변수의 크기가 다 상대적이므로 값이 너무 작거나, 큰 경우 해당 변수가 Target에 미치는 영향력이 제대로 표현되지 않을 수 있음 [Min-Max Scaling] 값의 범위를 0이상 1이하로 변경한다. 데이��

steadiness-193.tistory.com

위 포스팅에 더 자세히 나와있습니다.

반응형