본문 바로가기

Pandas/기초

판다스 - value_counts(normalize=True)

반응형

데이터 출처

https://www.kaggle.com/c/titanic/data

 

 

 

 

 

Pclass

 

 

우선 train 데이터프레임의 Pclass의 분포를 시각화 해서 보자

 

 

 

단편적으로는 3등급의 승객 수가 많아 보인다.

 

 

 

 

[그렇다면 각 등급별로 비율을 확인하려면 어떻게 해야할까?]

 

 

 

 

1. value_counts()

 

 

 

Pclass 컬럼의 고유값 개수를 센 뒤 

 

총 개수로 나눠주면 된다.

 

 

 

 

 

 

2. value_counts(normalize=True)

 

1번의 방법을 한번에 할 수 있다.

 

 

 

바로 normalize 옵션을 True로 넣어주면 된다.

 

 

 

 

 

(번외) 3. groupby와 size() 이용

 

 

위 방법도 가능은 하다.

 

 

 

 

 

 

2번 활용

 

 

Pclass가 1인 승객의 생존 여부에 대한 비율을 확인할 수 있다.

 

 

반응형