반응형
[cut 함수]
균등한 길이의 그룹
데이터의 분산에 따라 각각의 그룹마다 데이터 수가 다르게 나뉜다.
[qcut 함수]
같은 크기의 그룹
표본 변위치를 기반으로 데이터를 나누어,
적당히 같은 크기의 그룹으로 나눌 수 있다.
연속성 데이터를 개별로 분할하거나
분석을 위해 그룹별로 나누기도 한다.
나이대가 이렇게 있다고 해보자
이를 네구간으로 나누려면 pd.cut을 이용하면 된다.
https://steadiness-193.tistory.com/19
세부적 방법은 위 포스팅 참조
이는 카테고리형이므로
categories를 이용하면
내부적으로 담긴 배열을 볼 수 있다.
간격은 중괄호로 시작해서 대괄호로 끝나는데
중괄호 쪽의 값은 포함하지 않고,
대괄호 쪽의 값은 포함한다.
지금은 4구간으로 나누라고 값을 4를 넣어줬지만
내가 원하는 구간으로 나눌 수도 있다.
이를 위해선
두번째 인자에 5개의 경계값을 넣은 리스트를 전달하면 된다.
* 4 구간 == 5개의 경계값
숫자로만 보면 알아보기 힘드니
label 을 넣어보자
pd.qcut()
qcut은 표본 변위치를 기반으로 데이터를 나눠준다.
적당히 같은 크기의 그룹 (3개씩)으로 나뉘었다.
cut 함수처럼 경계값을 직접 넣어주거나 label도 추가할 수 있다.
반응형
'Pandas > 기초' 카테고리의 다른 글
판다스 - set_index(), reset_index() (0) | 2020.06.28 |
---|---|
판다스 - 계층적 색인 (0) | 2020.06.28 |
판다스 - 데이터프레임 축 색인 이름 바꾸기 (0) | 2020.06.27 |
판다스 - 데이터프레임의 인덱스 정렬 : sort_index (0) | 2020.06.27 |
판다스 - 데이터프레임과 시리즈의 연산 (0) | 2020.06.27 |