본문 바로가기

Pandas/전처리

판다스 - 누락 데이터 확인 : isnull(), count_nonzero()

반응형

타이타닉 데이터 불러오기

 

 

 

 

deck 컬럼의 경우 전체 891개의 행 중 203개의 행만 값이 채워진 것을 볼 수 있다.

 

 

 

 

 

 

 

 

value_counts()로 누락값 개수 확인하기

 

dropna=False

 

누락데이터의 개수를 확인하고자 하면 value_counts에 dropna=False 옵션을 사용해야한다.

 

NaN의 개수가 688개인 것을 볼 수 있다.

 

 

 

 

 

 

 

개별 컬럼이 아닌 전체 컬럼의 누락개수 확인하기1

 

각 컬럼별 값이 입력된 개수
벡터와 스칼라 연산

 

df.count()는 각 컬럼별 값이 입력된 개수

df.shape[0]는 전체 행의 개수

 

따라서 df.shape[0]에서 df.count()를 뺀다면 각 컬럼별 누락값의 개수를 볼 수 있다.

 

 

 

 

 

 

 

개별 컬럼이 아닌 전체 컬럼의 누락개수 확인하기2

 

isnull() 메서드

 

axis=0을 이용하면 한 컬럼씩 위에서 아래로 연산 = 행방향

 

True = 1 / False = 0이므로 입력이 되어있으면 False, 값이 없다면 True를 나타냄

 

True의 값이 1이므로 1인 값들의 합은 누락된 개수를 나타낸다.

 

 

 

 

 

 

 

데이터프레임 전체의 누락값 개수 구하기1

 

 

위에서 구한 시리즈를 sum을 이용해 더하면 전체 데이터의 누락값을 알 수 있다.

 

 

 

 

 

 

 

 

 

데이터프레임 전체의 누락값 개수 구하기2

 

 

numpy의 count_nonzero를 이용

 

배열에서 0이 아닌 개수를 세는 메서드.

반응형