본문 바로가기

시각화/Seaborn

Seaborn - 막대 그래프 : barplot

반응형
[barplot]

지정한 변수의 평균을 계산하여 그림

데이터의 개수가 아닌 평균을 계산한다.


sns.barplot(x, y, data, .., )
-data : 데이터프레임
- x, y : 컬럼 참조


막대그래프 위에 덧그려진 검은 선은 95%의 신뢰구간을 나타낸다.

 

 

데이터 불러오기

 

https://steadiness-193.tistory.com/180

 

Seaborn - 산점도 : regplot

[산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - �

steadiness-193.tistory.com

 

위 포스팅에서 fare 컬럼의 아웃라이어를 제거한

 

타이타닉 데이터프레임을 가져온다.

 

 

성별별 생존율

 

 

기본 barplot

 

 

위 그래프를 보면 남성의 생존율은 0.2에도 못 미치는 것을 볼 수 있다.

 

groupby를 통해 실제 수치를 보면

 

 

 

실제로도 성별간 생존율의 차이는 심하게 나고 있다.

 

 

 

 

 

 

 

수평 그래프

 

 

수평으로 그리려면 x, y축을 바꾸고

 

orient 옵션에 'h'를 넘기면 된다.

 

 

 

 

 

 

 

 

성별, class별 생존율

 

기본 barplot + hue

 

성별과 class별로도 구분해서 생존율의 평균값을 볼 수 있다.

 

 

성별별로 First 클래스의 승객의 생존율이 가장 높은 것을 볼 수 있다.

 

 

 

실제 수치와 함께 보면

 

 

 

 

class별로 격차가 큰 것을 볼 수 있다.

 

 

 

 

 

 

 

누적 출력

dodge=False

 

 

기본적으로는 dodge=True로 되어있으나

False를 넘기면 그래프를 누적해서 출력한다.

 

단, 이는 평균값들을 더해서 그 값을 누적한 것을 보여주는 것이 아니라

 

그래프 자체를 겹치게 누적해서 보여주는 것이다.

 

 

실제로 male의 생존율의 총 합은 약 0.669인데

 

그래프에선 first 클래스의 생존율인 0.377까지만 그래프가 올라가 있다.

 

 

 

 

 

누적 합

estimator=np.sum

 

(import numpy as np)

estimator 옵션에 np.sum을 넘기면 각 등급별 나이의 합을 구할 수 있다.

 

기본은 평균이지만 목적에 따라 합을 구하면 된다.

반응형