반응형
데이터 불러오기
horsepower를 3구간으로
저출력 / 보통출력 / 고출력 나누고자 한다.
이때 pd.cut을 이용하는데
(데이터배열, 구간, 레이블이름, 경계 포함) 중 데이터배열과 구간은 필수 입력이다.
include_lowest는 첫 경계값을 포함하는지에 대한 여부이다.
각각의 출력 빈도를 볼 수 있다.
더미 변수 - get_dummies
뒤에서 나올 원핫인코딩을 위해 get_dummies를 이용한다.
0은 False, 1은 True를 의미하며 각 행은 하나의 1값 / 2개의 0값을 가질 수 있다.
원래 0번째 행은 보통출력이었으므로 저출력과 고출력은 0, 보통출력은 1을 가진다.
이를 기존 데이터프레임의 컬럼으로 추가할 수 있다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 컬럼 순서 변경 (0) | 2020.06.19 |
---|---|
판다스 - 데이터 정규화 (0) | 2020.06.19 |
판다스 - 자료형 변환 : astype, pd.to_numeric (0) | 2020.06.19 |
판다스 - 데이터 표준화 (단위 환산 : kpl, mpg) (0) | 2020.06.19 |
판다스 - 중복 데이터 처리 : duplicated, drop_duplicates (0) | 2020.06.19 |