본문 바로가기

시각화

(42)
Seaborn - 막대 그래프 : barplot [barplot] 지정한 변수의 평균을 계산하여 그림 데이터의 개수가 아닌 평균을 계산한다. sns.barplot(x, y, data, .., ) -data : 데이터프레임 - x, y : 컬럼 참조 막대그래프 위에 덧그려진 검은 선은 95%의 신뢰구간을 나타낸다. 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - � steadiness-193.tistory.com 위 포스팅에서 fare ..
Seaborn - 범주형 데이터의 산점도 : stripplot, swarmplot 범주형 변수에 들어 있는 각 범주별 데이터의 분포 확인 [stripplot] 데이터 포인트가 중복되어 범주별 분포를 그린다. [swarmplot] 위 그래프는 데이터의 분산까지 고려하여, 데이터 포인트가 서로 중복되지 않도록 그린다. 즉, 데이터가 퍼져 있는 정도를 입체적으로 볼 수 있다. 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - � steadiness-193.tistory.com..
Seaborn - 히트맵 : heatmap 2개의 범주형 변수를 각각 x, y축에 넣고 데이터를 매트릭스 형태로 분류한 상태를 그릴 수 있다. 주로 데이터프레임을 피벗테이블로 만든 객체를 그린다. 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - � steadiness-193.tistory.com 위 포스팅에서 fare 컬럼의 아웃라이어를 제거한 타이타닉 데이터프레임을 가져온다. 피벗테이블 제작 성별별, class별 인원 수를 피벗..
Seaborn - heatmap이 잘려나오는 경우 해결 주로 히트맵이 잘려나오는 이유는 matplotlib의 버전이 3.1.1일때 그럴 가능성이 높다. import matplotlib print("matplotlib version: {}". format(matplotlib.__version__)) 위 코드를 실행해 matplotlib의 버전이 3.1.1이라면 버전을 업그레이드 해야한다. 업그레이드 방법 1. Anaconda를 관리자권한으로 실행 2. 주피터 노트북에서 pip install --upgrade matplotlib 위 코드 실행 그리고 다시 버전을 확인하면 2020년 7월 26일 기준 matplotlib version: 3.3.0 위와 같이 나온다. 다시 sns.heatmap을 실행하면 잘림 없이 잘 나오게 된다.
Seaborn - 히스토그램/커널 밀도 그래프 : distplot [커널 밀도 그래프 (밀집도 그래프)] kde 인자 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프 그래프와 x 축 사이의 면적이 1이 되도록 그리는 밀도 분포 함수 [양탄자 그래프] rug 인자 그래프의 축에 동일한 길이의 직선을 붙여 데이터의 밀집 정도를 표현한 그래프 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - � steadiness-193.tistory.com 위 포..
Seaborn - 산점도(산포도) : regplot [산포도(산점도)] 서로 다른 2개의 연속 변수 이용 두 개의 1차원 데이터 묶음 간의 관계 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score https://steadiness-193.tistory.com/68 판다스 - 특잇값(outlier) 처리하기 데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만 때로는 제외하고 처리해야할 때가 steadiness-193.tistory.com z-score의 절댓값이 3이 넘는 행을 제거 했다. 선형회귀선..
Matplotlib - 박스 플롯(박스 그래프) : boxplot [박스 플롯] 이산형 변수와 연속형 변수를 함께 사용 - 이산형 변수 : Female, Male 처럼 명확하게 구분되는 값 - 연속형 변수 : 정수, 실수 같이 명확히 셀 수 없는 범위의 값 범주형 데이터의 분포를 파악하는데 용이함 한개의 컬럼 데이터프레임.boxplot(column=['컬럼명']) 여러 개의 연속형 변수 ax=fig.add_subplot ax.boxplot 최댓값과 최솟값 밖의 값들은 이상치라고 볼 수 있다. mpg 컬럼의 박스 플롯 시리즈.boxplot은 에러 발생 시리즈.plot.box() 또는 시리즈.plot(kind='box') 이용 여러 개의 연속 변수 origin 컬럼은 1, 2, 3의 값이 있는데 해당 값별 mpg의 분포를 살펴보자 add_subplot을 이용해서 ax.bo..
Matplotlib - 파이 차트 : pie [파이 차트] 원을 파이 조각처럼 나눠서 그린다. 조각의 크기는 해당 변수에 속하는 데이터 값의 크기에 비례한다. plot(kind='pie') plot.pie() 그림의 옵션들은 하나씩 그려보며 살펴보자 데이터 살펴보기 위 데이터프레임에서 origin 컬럼으로 그룹핑 한다. 각 그룹의 행 개수를 시리즈로 나타내고 인덱스를 바꿔주자 이제 이 grouped_sr을 이용해 파이 차트를 그릴 수 있다. 기본 파이 차트 USA, EU, KR은 시리즈의 인덱스로 자동으로 표시된다. 다만 파이 조각별로 비율이 어느정도인지는 나타나지 않는다. 파이 조각별로 값% 표시 autopct autopct에 '%1.1f%%'를 넘겨서 조각별로 소수 첫째자리까지 수치를 표시했다. 파이 조각을 나누는 시작점 조정 (각도) star..