본문 바로가기

Pandas/전처리

판다스 - 넓은 데이터 정리하기 : melt

반응형

 

데이터 불러오기

 

 

 

퓨 리서치센터에서 조사한, 미국의 소득과 종교

 

종교별 소득에 대한 설문 데이터이다.

 

컬럼은 <$10k부터 Don't know/refused 까지 소득에 대한 답변을 담았다.

 

 

 

 

열 자체가 어떤 값을 의미하고 있어, 분석에 용이한 상태가 아니다.

 

이에 종교별로 소득 컬럼을 하나의 열로 통합시키고자 한다.

 

이때 melt 메서드를 이용하고 melt 메서드의 인자는 다음과 같다.

 

 

id_vars 

위치를 유지할 열

value_name 

행으로 옮길 열

var_name 

행으로 옮긴 열의 이름을 지정

value_name 

행으로 옮긴 열의, 데이터를 담은 열의 이름을 지정

 

 

 

 

글로 보기만 하면 헷갈리니 예제를 살펴보자

 

 

 

 

id_vars로 그대로 있을 열을, 종교로 지정했다.

 

나머지 컬럼은 행으로 옮겨지는데, 각 종교별로 소득을 볼 수 있게 된 것이다.

 

 

 

shape를 보자면 기존(5, 11)의 행은 5개였다.

 

 

여기에 행으로 옮겨질 열이 10개이므로 5 * 10 = 50행

 

기존의 열은 11개였으나 10개가 행으로 옮겨지고, 새로운 열이 2개가 추가되어 총 3열이 되었다.

(50, 3)

 

 

 

 

 

 

variable과 value는 기본적으로 설정되는 컬럼명이므로, 바꿔보자

 

 

 

var_name과  value_name 옵션으로 알아보기 쉽게 바꿨다.

 

3번행을 해석해보자면, 카톨릭 신자 중 소득이 만 달러 미만이라고 응답한 사람은 418명이다.

 

 

반응형