반응형
데이터 출처
https://www.kaggle.com/c/titanic/data
Pclass
우선 train 데이터프레임의 Pclass의 분포를 시각화 해서 보자
단편적으로는 3등급의 승객 수가 많아 보인다.
[그렇다면 각 등급별로 비율을 확인하려면 어떻게 해야할까?]
1. value_counts()
Pclass 컬럼의 고유값 개수를 센 뒤
총 개수로 나눠주면 된다.
2. value_counts(normalize=True)
1번의 방법을 한번에 할 수 있다.
바로 normalize 옵션을 True로 넣어주면 된다.
(번외) 3. groupby와 size() 이용
위 방법도 가능은 하다.
2번 활용
Pclass가 1인 승객의 생존 여부에 대한 비율을 확인할 수 있다.
반응형
'Pandas > 기초' 카테고리의 다른 글
판다스 - 카테고리 자료형 : Categorical, cat 속성, categories, codes, categorical 메서드 (0) | 2020.08.20 |
---|---|
판다스 - 백분위수 찾기 : describe(percentiles), quantile (0) | 2020.08.09 |
판다스 - to_datetime : format, dt (0) | 2020.07.23 |
판다스 - 행의 값 기준 정렬 (0) | 2020.07.15 |
판다스 - 행 추가하기 (0) | 2020.07.15 |