본문 바로가기

Pandas/기초

판다스 - pd.cut, pd.qcut

반응형
[cut 함수]

균등한 길이의 그룹


데이터의 분산에 따라 각각의 그룹마다 데이터 수가 다르게 나뉜다.



[qcut 함수]

같은 크기의 그룹


 표본 변위치를 기반으로 데이터를 나누어, 
적당히 같은 크기의 그룹으로 나눌 수 있다.

 

 

 

 

연속성 데이터를 개별로 분할하거나 

 

분석을 위해 그룹별로 나누기도 한다.

 

 

 

나이대가 이렇게 있다고 해보자

 

이를 네구간으로 나누려면 pd.cut을 이용하면 된다.

 

 

https://steadiness-193.tistory.com/19

 

판다스 - 구간 분할(pd.cut)

데이터 불러오기 horsepower를 3구간으로 저출력 / 보통출력 / 고출력 나누고자 한다. 이때 pd.cut을 이용하는데 (데이터배열, 구간, 레이블이름, 경계 포함) 중 데이터배열과 구간은 필수 입력이다. in

steadiness-193.tistory.com

세부적 방법은 위 포스팅 참조

 

 

 

 

 

 

 

이는 카테고리형이므로

 

categories를 이용하면

 

 

내부적으로 담긴 배열을 볼 수 있다.

 

 

 

 

간격은 중괄호로 시작해서 대괄호로 끝나는데

 

 

중괄호 쪽의 값은 포함하지 않고,

 

대괄호 쪽의 값은 포함한다.

 

 

지금은 4구간으로 나누라고 값을 4를 넣어줬지만

 

내가 원하는 구간으로 나눌 수도 있다.

 

 

 

 

이를 위해선 

 

두번째 인자에 5개의 경계값을 넣은 리스트를 전달하면 된다.

 

* 4 구간 == 5개의 경계값

 

 

 

 

숫자로만 보면 알아보기 힘드니

 

label 을 넣어보자

 

 

 

 

 

 

 

 

 

 

 

pd.qcut()

 

qcut은 표본 변위치를 기반으로 데이터를 나눠준다.

 

 

적당히 같은 크기의 그룹 (3개씩)으로 나뉘었다.

 

 

cut 함수처럼 경계값을 직접 넣어주거나 label도 추가할 수 있다.

 

 

 

 

 

 

반응형