본문 바로가기

시각화/Matplotlib

Matplotlib - 히스토그램 : hist

반응형
[히스토그램]

변수가 하나인 단변수 데이터의 빈도수를 그래프로 표현 (일변량 그래프)
x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 개수(빈도)를 y축에 표시

즉, 값들의 빈도를 분리해서 고른 간격의 막대로 표현되며 데이터의 숫자가 막대의 높이로 나타나는 것이다.

열 데이터 분포와 빈도를 살펴보는 용도, 살펴볼 컬럼을 변수라고 표현




시리즈.plot(kind='hist')
시리즈.hist()
시리즈.plot.hist()

add_subplot
ax.hist()




[구간(bins)]

구간을 나누는 간격의 크기에 따라 빈도가 달라지며 
히스토그램의 모양이 변하게 된다.

 

 

 

mpg(연비)컬럼에 대한 히스토그램

 

 

kind에 hist를 넣어 히스토그램을 그렸다.

 

구간은 bins에 10을 넣어 10개 구간으로 그리게 했다.

 

grid를 True로 해서 각 구간이 나뉘는 격자를 표시할 수 있게 했다.

 

 

 

 

 

 

구간 조정

 

히스토그램을 그리기 전엔 해당 시리즈의 기술통계를 살펴보는 습관을 길러야 한다.

 

연비 컬럼의 describe

 

 

지금 보면 최솟값이 9이고 최댓값은 46이다.

 

그렇다면 0부터 50까지 10씩 구간을 잘라서 그려보자

 

 

 

 

bins에 range함수를 이용해 0부터 50까지 10씩 구간을 자를 수 있게 했다.

 

아까의 그래프보다 구간이 명확해져서 해석이 더 용이해졌다.

 

 

 

 

 

 

다음은 add_subplot을 이용해서 그려본 히스토그램이다.

 

 

ax객체를 이용할때는

 

ax.plot.hist나 ax.plot(kind='hist')를 하면 에러가 난다.

 

바로 ax.hist로 그려야 한다.

 

또한 figsize는 plt.figure에서 조정하고 grid도 따로 설정해줘야 한다.

 

 

 

 

위 검정 히스토그램은 아무 옵션 없이 그렸을 때의 그림이다.

 

반응형