Pandas/기초
판다스 - value_counts(normalize=True)
Data_Pistachio
2020. 8. 7. 20:21
반응형
데이터 출처
https://www.kaggle.com/c/titanic/data
Pclass
우선 train 데이터프레임의 Pclass의 분포를 시각화 해서 보자
단편적으로는 3등급의 승객 수가 많아 보인다.
[그렇다면 각 등급별로 비율을 확인하려면 어떻게 해야할까?]
1. value_counts()
Pclass 컬럼의 고유값 개수를 센 뒤
총 개수로 나눠주면 된다.
2. value_counts(normalize=True)
1번의 방법을 한번에 할 수 있다.
바로 normalize 옵션을 True로 넣어주면 된다.
(번외) 3. groupby와 size() 이용
위 방법도 가능은 하다.
2번 활용
Pclass가 1인 승객의 생존 여부에 대한 비율을 확인할 수 있다.
반응형