본문 바로가기

시각화/Seaborn

Seaborn - 히스토그램/커널 밀도 그래프 : distplot

반응형
[커널 밀도 그래프 (밀집도 그래프)]

kde 인자


주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프
그래프와 x 축 사이의 면적이 1이 되도록 그리는 밀도 분포 함수



[양탄자 그래프]

rug 인자


그래프의 축에 동일한 길이의 직선을 붙여 데이터의 밀집 정도를 표현한 그래프

 

 

 

데이터 불러오기

 

https://steadiness-193.tistory.com/180

 

Seaborn - 산점도 : regplot

[산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - �

steadiness-193.tistory.com

 

위 포스팅에서 fare 컬럼의 아웃라이어를 제거한

 

타이타닉 데이터프레임을 가져온다.

 

 

 

 

 

 

distplot

 

 

하나의 그래프만 그리려면 단순히 ax=subplots()를 이용해도 된다.

 

distplot을 그리면 자동으로 커널 밀도 그래프도 같이 나온다.

 

 

 

 

 

 

밀집도 그래프만 그리려면

 

 

밀집도 그래프만 그리려면 hist 인자를 False로 지정하면 된다.

 

 

 

 

 

 

 

구간 및 xticks 조절

 

 

우선 fare 컬럼의 기술통계를 보니 0부터 164까지의 값이 있으며

 

3분위의 값도 30으로, 낮은 수준에 몰려있는 것을 볼 수 있다.

 

구간을 15씩 11개로 나눠서 그려보자

 

 

 

예상했던대로 요금을 적게 낸 사람들이 많다.

 

 

 

 

 

 

커널 밀도 그래프 제외

 

 

우측의 그래프처럼 밀집도 그래프를 제외하려면

 

kde=False를 넣어주면 된다.

 

 

 

 

 

 

 

양탄자(rug) 그래프 설정

 

 

rug (양탄자) 그래프는 동일한 길이의 밀집 정도를 나타낸 그래프다.

 

히스토그램 그래프의 막대가 높은 구간에서 밀집 정도가 높은 것을 볼 수 있다.

 

 

 

 

여러 개의 밀도 그래프 그리기

 

 

distplot을 여러 번 호출하면 한 figure에 동시에 다 그려진다.

 

label 옵션과 plt.legend로 구분하면 된다.

 

 

반응형