본문 바로가기

Machine Learning/전처리(Preprocessing)

Machine Learning - Label Encoding (라벨 인코딩)

반응형

https://steadiness-193.tistory.com/236

 

판다스 - 라벨링(Labeling)

머신러닝을 진행하기 위해서는 문자열을 숫자로 바꿔줘야 한다. 소형 → 0 / 중형 → 1 / 대형 → 2 이런 식이다. 데이터 불러오기 race 컬럼의 고유값 라벨링 목표 White → 0 Black →1 Asian-Pac-Islander.

steadiness-193.tistory.com

 

위 포스팅에서도 해보았으나 이번엔

 

sklearn.preprocessing 패키지에 있는 LabelEncoder를 이용해본다.

 

 

 

범주형 변수를 수치형 변수로 변경


[Label Encoding]

라벨 인코딩은 n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현

소 → 0 / 중 → 1 / 대 → 2

주의할 점은 인코딩의 결과가 수치적인 차이를 의미하진 않는다는 것이다.

즉, 대(2)가 중(1)의 두배라는 것은 아니다.

 

 

 

 

데이터 불러오기

 

 

 

open과 close를 라벨 인코딩을 해보자

 

 

 

 

 

 

 

 

(1) Label Encoder 불러온 뒤 정의

 

 

sklearn.preprocessing 패키지의 LabelEncoder를 불러왔다.

 

이를 le로 정의한다.

 

 

 

 

 

 

 

(2) 범주 찾기

 

 

fit으로 범주를 찾아낸다.

 

 

 

 

 

 

 

(3) 범주형 → 수치형 데이터로 변환

 

 

transform을 이용해서 수치형 데이터를 얻어냈다.

 

 

 

 

 

 

(4) 결과 확인

 

 

 

open이 1, close가 0으로 라벨링 된 것을 볼 수 있다.

 

 

반응형