본문 바로가기

Pandas/전처리

판다스 - 구간 분할 : pd.cut, pd.get_dummies

반응형

데이터 불러오기

 

 

 

horsepower를 3구간으로 

저출력 / 보통출력 / 고출력 나누고자 한다.

 

 

 

이때 pd.cut을 이용하는데

(데이터배열, 구간, 레이블이름, 경계 포함) 중 데이터배열과 구간은 필수 입력이다.

 

 

 

 

include_lowest는 첫 경계값을 포함하는지에 대한 여부이다.

 

 

 

각각의 출력 빈도를 볼 수 있다.

 

 

 

 

 

 

더미 변수 - get_dummies

 

 

뒤에서 나올 원핫인코딩을 위해 get_dummies를 이용한다.

 

0은 False, 1은 True를 의미하며 각 행은 하나의 1값 / 2개의 0값을 가질 수 있다.

 

원래 0번째 행은 보통출력이었으므로 저출력과 고출력은 0, 보통출력은 1을 가진다.

 

 

 

 

이를 기존 데이터프레임의 컬럼으로 추가할 수 있다.

 

위 코드보단 pd.concat을 이용하는 것이 더 효율적이다.

 

반응형