본문 바로가기

Pandas/응용

판다스 - 라벨링(Labeling)

반응형
머신러닝을 진행하기 위해서는

문자열을 숫자로 바꿔줘야 한다.


소형 → 0 / 중형 → 1 / 대형 → 2

이런 식이다.

 

 

데이터 불러오기

 

 

 

 

race 컬럼의 고유값

 

 

 

 

라벨링 목표

 

White → 0
Black →1
Asian-Pac-Islander → 2
mer-Indian-Eskimo →3
Other → 4

 

 

 

 

 

두가지 방법으로 알아본다.

 

 

 

 

1. 딕셔너리 + map

 

 

 

일일이 사전으로 매핑을 만들어두고 map을 이용해서 값을 구해낸다.

 

 

 

 

 

https://steadiness-193.tistory.com/216?category=947982

 

판다스 - map

map 순차적 자료형에 대해 함수를 적용하는, 내장 함수 map(함수, 순차적 자료) map(func, iterables) map의 첫번째 인자인 함수는 파이썬의 내장함수도 가능하며 사용자 정의 함수나 딕셔너리(사전) 등도

steadiness-193.tistory.com

 

 

 

 

 

2. list.index() + map

 

 

 

 

고유값이 담긴 배열을 tolist를 통해 리스트 형태로 바꿔준다.

 

 

 

 

 

 

 

list.index()에 인자로 리스트 원소를 넣으면 원소가 들어있는 위치(인덱스)를 리턴한다.

 

 

 

 

 

 

 

 

 

만든 리스트를 temp_list라는 변수에 넣어두고

 

 

 

 

 

 

map과 lambda를 같이 이용하면 1번과 같은 결과를 얻을 수 있다.

 

 

 

 

 

 

컬럼으로 추가

 

 

 

 

 

https://steadiness-193.tistory.com/243

 

Machine Learning - Label Encoding (라벨 인코딩)

https://steadiness-193.tistory.com/236 판다스 - 라벨링(Labeling) 머신러닝을 진행하기 위해서는 문자열을 숫자로 바꿔줘야 한다. 소형 → 0 / 중형 → 1 / 대형 → 2 이런 식이다. 데이터 불러오기 race 컬럼..

steadiness-193.tistory.com

위 포스팅엔 sklearn.preprocessing 패키지를 이용하는 방법이 있다.

 

 

 

반응형