본문 바로가기

Pandas/응용

판다스 - 카테고리 자료형 (category)

반응형
[범주형 데이터]

카테고리 자료형의 장점

- 용량과 속도 측면에서 굉장히 효율적이다.
- groupby 같은 일부 pandas 함수는 범주형 데이터를 사용할 때 더 나은 성능을 보인다.
- 메모리도 훨씬 적게 사용한다.



사용하는 경우

- 주로 동일한 '문자열'이 반복되어 데이터를 구성하는 경우

 

 

memory usage 확인

 

 

 

천만 개의 값을 가지는 시리즈를 만들었다.

 

 

 

 

위 시리즈를 카테고리형으로 바꿔주자

 

 

 

 

 

 

메모리 사용량 확인

 

 

약 8배나 차이가 난다.

 

 

 

 

 

데이터프레임으로도 살펴보자

 

데이터 불러오기

 

 

 

seaborn의 tips 데이터를 불러와

 

 

 

info를 확인해보자.

 

 

 

총 메모리 사용량은 8.8 KB이며

 

성별 컬럼은 문자열로 구성되어있고

 

Female과 Male 두가지 뿐이다.

 

이럴때 카테고리 자료형으로 변환하는 것이다.

 

 

 

 

 

 

 

범주형으로 변환하기

 

 

astype 메서드를 이용해 

 

성별컬럼을 범주형으로 변환했더니

 

메모리 사용량이 7.3 KB로 줄어들었다.

 

 

확실히 반복되는 문자열로 구성된 데이터는

 

카테고리를 사용하는 것이 더 효율적이다.

 

 

 

 

반응형