반응형
데이터 불러오기
숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있다.
마력과 무게의 절대값의 차가 매우 크기 때문에
(0번행의 마력 : 130, 무게 : 3504)
상대적으로 큰 숫자 값을 갖는, 무게 컬럼(변수)의 영향이 더 클 수 있다.
[목적 : horsepower 컬럼 정규화]
방법1 : 해당 열의 최댓값으로 나누기
horsepower_normalization 컬럼의 값은 0부터 1까지 값을 가지게 된다.
horsepower 컬럼의 최댓값은 230
0번행은 130이므로 130 / 230을 하면
0.565217이 나온다.
방법2 : 최댓값과 최솟값 이용
분자 = 값 - 최솟값
분모 = 최댓값 - 최솟값
예제의 horsepower 열의 최댓값은 230, 최솟값은 46이다.
최댓값과 최솟값의 차는 184
0번행의 값은 130이다.
분자 → 130 - 46 = 84
분모 → 230 - 46 = 184
84 / 184 = 0.4565..
최소 0 부터 최대 1 사이의 범위로 변환된다.
방법1과 방법2 비교
값은 예상대로 다소 차이가 난다.
sns.distplot을 이용해 시각화
https://steadiness-193.tistory.com/241
위 포스팅에 더 자세히 나와있습니다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 컬럼(열) 분리, 컬럼(열) 추가 : str.split, str.get (0) | 2020.06.19 |
---|---|
판다스 - 컬럼 순서 변경 (0) | 2020.06.19 |
판다스 - 구간 분할 : pd.cut, pd.get_dummies (0) | 2020.06.19 |
판다스 - 자료형 변환 : astype, pd.to_numeric (0) | 2020.06.19 |
판다스 - 데이터 표준화 (단위 환산 : kpl, mpg) (0) | 2020.06.19 |