본문 바로가기

Pandas/전처리

판다스 - 컬럼(열 or 변수)간 상관계수 : corr

반응형
corr함수를 통해 상관계수 연산 (-1, 1 사이의 결과)


ㅇ 변수와 상관관계 : 변수간 흐름이 얼마나 비슷한가를 나타내는 척도
- a가 증가하면 b도 증가하냐/감소하냐
- 증가의 성향이 얼마나 비슷한가        


ㅇ   1에 가까울 수록 두개가 비슷하게 증가
ㅇ   -1에 가까울 수록 하나 증가/ 하나 감소
ㅇ   0에 가까울수록 두개간 관계가 없다     


ㅇ 연속성(숫자형)데이터에 대해서만 연산


ㅇ 인과관계를 의미할 수도 아닐 수도 있음

 

 

 

데이터 불러오기

 

타이타닉의 train 데이터

 

 

 

 

 

 

correlation을 뜻하는 corr함수를 이용하면

 

각 컬럼간의 양상을 확인할 수 있다.

 

당연하게도 우측하향 대각선은 1의 값을 가진다.

 

 

이를 숫자로만 보면 파악하기 어려우니 시각화를 해보자

 

 

 

 

 

 

 

1. plt.matshow()

 

 

matplotlib.pyplot을 이용해서 아주 간단하게 시각화를 할 수 있다.

 

다만 이는 컬럼명이 나오지도 않고 

 

각각의 색이 다양하므로 보기 편하지만은 않다.

 

 

 

 

 

 

 

 

 

2. heatmap

 

 

seaborn의 heatmap을 이용하고

 

컬러맵을 RdBu_r로 넣어준다.

 

 

 

노란색 체크표시한 부분을 보면 -1에 가까운 값을 보인다.

 

 

실제로도 등급이 높을수록 (1, 2, 3중 1에 가까울 수록)

 

요금이 높아진다. 즉 1일수록(↓) 요금은 높아진다.(↑)

 

 

이렇게 전처리 작업 전, 후에 컬럼(변수)간의 관계가 어떤지 파악하는데 이용하면 좋다.

 

 

반응형