판다스 - 데이터 정규화

데이터 불러오기

숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있다.

마력과 무게의 절대값의 차가 매우 크기 때문에

(0번행의 마력 : 130, 무게 : 3504)

상대적으로 큰 숫자 값을 갖는, 무게 컬럼(변수)의 영향이 더 클 수 있다.

[목적 : horsepower 컬럼 정규화]

방법1 : 해당 열의 최댓값으로 나누기

horsepower_normalization 컬럼의 값은 0부터 1까지 값을 가지게 된다.

horsepower 컬럼의 최댓값은 230

0번행은 130이므로 130 / 230을 하면

0.565217이 나온다.

방법2 : 최댓값과 최솟값 이용

분자 = 값 - 최솟값

분모 = 최댓값 - 최솟값

예제의 horsepower 열의 최댓값은 230, 최솟값은 46이다.

최댓값과 최솟값의 차는 184

0번행의 값은 130이다.

분자 → 130 - 46 = 84

분모 → 230 - 46 = 184

84 / 184 = 0.4565..

최소 0 부터 최대 1 사이의 범위로 변환된다.

방법1과 방법2 비교

값은 예상대로 다소 차이가 난다.

sns.distplot을 이용해 시각화

https://steadiness-193.tistory.com/241

Machine Learning - Scaling : Min-Max Scaling

[Scaling] 변수의 크기가 다 상대적이므로 값이 너무 작거나, 큰 경우 해당 변수가 Target에 미치는 영향력이 제대로 표현되지 않을 수 있음 [Min-Max Scaling] 값의 범위를 0이상 1이하로 변경한다. 데이��

steadiness-193.tistory.com

위 포스팅에 더 자세히 나와있습니다.

'Pandas > 전처리' 카테고리의 다른 글

판다스 - 컬럼(열) 분리, 컬럼(열) 추가 : str.split, str.get (0)	2020.06.19
판다스 - 컬럼 순서 변경 (0)	2020.06.19
판다스 - 구간 분할 : pd.cut, pd.get_dummies (0)	2020.06.19
판다스 - 자료형 변환 : astype, pd.to_numeric (0)	2020.06.19
판다스 - 데이터 표준화 (단위 환산 : kpl, mpg) (0)	2020.06.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Steadiness

판다스 - 데이터 정규화

[목적 : horsepower 컬럼 정규화]

방법1 : 해당 열의 최댓값으로 나누기

방법2 : 최댓값과 최솟값 이용

방법1과 방법2 비교

'Pandas > 전처리' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

판다스 - 데이터 정규화

[목적 : horsepower 컬럼 정규화]

방법1 : 해당 열의 최댓값으로 나누기

방법2 : 최댓값과 최솟값 이용

방법1과 방법2 비교

'Pandas > 전처리' 카테고리의 다른 글

'Pandas/전처리' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역