반응형
corr함수를 통해 상관계수 연산 (-1, 1 사이의 결과)
ㅇ 변수와 상관관계 : 변수간 흐름이 얼마나 비슷한가를 나타내는 척도
- a가 증가하면 b도 증가하냐/감소하냐
- 증가의 성향이 얼마나 비슷한가
ㅇ 1에 가까울 수록 두개가 비슷하게 증가
ㅇ -1에 가까울 수록 하나 증가/ 하나 감소
ㅇ 0에 가까울수록 두개간 관계가 없다
ㅇ 연속성(숫자형)데이터에 대해서만 연산
ㅇ 인과관계를 의미할 수도 아닐 수도 있음
데이터 불러오기
correlation을 뜻하는 corr함수를 이용하면
각 컬럼간의 양상을 확인할 수 있다.
당연하게도 우측하향 대각선은 1의 값을 가진다.
이를 숫자로만 보면 파악하기 어려우니 시각화를 해보자
1. plt.matshow()
matplotlib.pyplot을 이용해서 아주 간단하게 시각화를 할 수 있다.
다만 이는 컬럼명이 나오지도 않고
각각의 색이 다양하므로 보기 편하지만은 않다.
2. heatmap
seaborn의 heatmap을 이용하고
컬러맵을 RdBu_r로 넣어준다.
노란색 체크표시한 부분을 보면 -1에 가까운 값을 보인다.
실제로도 등급이 높을수록 (1, 2, 3중 1에 가까울 수록)
요금이 높아진다. 즉 1일수록(↓) 요금은 높아진다.(↑)
이렇게 전처리 작업 전, 후에 컬럼(변수)간의 관계가 어떤지 파악하는데 이용하면 좋다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 원핫인코딩 : get_dummies (0) | 2020.07.07 |
---|---|
판다스 - 나이를 나이대로 범주화(카테고리화)하기 (0) | 2020.07.07 |
판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score (0) | 2020.06.29 |
판다스 - 원핫인코딩 (One-Hot Encoding) (0) | 2020.06.28 |
판다스 - 특잇값(outlier) 처리하기2 (0) | 2020.06.27 |