반응형
데이터 불러오기
퓨 리서치센터에서 조사한, 미국의 소득과 종교
종교별 소득에 대한 설문 데이터이다.
컬럼은 <$10k부터 Don't know/refused 까지 소득에 대한 답변을 담았다.
열 자체가 어떤 값을 의미하고 있어, 분석에 용이한 상태가 아니다.
이에 종교별로 소득 컬럼을 하나의 열로 통합시키고자 한다.
이때 melt 메서드를 이용하고 melt 메서드의 인자는 다음과 같다.
id_vars |
위치를 유지할 열 |
value_name |
행으로 옮길 열 |
var_name |
행으로 옮긴 열의 이름을 지정 |
value_name |
행으로 옮긴 열의, 데이터를 담은 열의 이름을 지정 |
글로 보기만 하면 헷갈리니 예제를 살펴보자
id_vars로 그대로 있을 열을, 종교로 지정했다.
나머지 컬럼은 행으로 옮겨지는데, 각 종교별로 소득을 볼 수 있게 된 것이다.
shape를 보자면 기존(5, 11)의 행은 5개였다.
여기에 행으로 옮겨질 열이 10개이므로 5 * 10 = 50행
기존의 열은 11개였으나 10개가 행으로 옮겨지고, 새로운 열이 2개가 추가되어 총 3열이 되었다.
(50, 3)
variable과 value는 기본적으로 설정되는 컬럼명이므로, 바꿔보자
var_name과 value_name 옵션으로 알아보기 쉽게 바꿨다.
3번행을 해석해보자면, 카톨릭 신자 중 소득이 만 달러 미만이라고 응답한 사람은 418명이다.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 특잇값(outlier) 처리하기2 (0) | 2020.06.27 |
---|---|
판다스 - 특잇값(outlier) 처리하기 (0) | 2020.06.27 |
판다스 - isin() (0) | 2020.06.19 |
판다스 - 컬럼(열) 분리, 컬럼(열) 추가 : str.split, str.get (0) | 2020.06.19 |
판다스 - 컬럼 순서 변경 (0) | 2020.06.19 |