반응형
타이타닉 데이터 불러오기
deck 컬럼의 경우 전체 891개의 행 중 203개의 행만 값이 채워진 것을 볼 수 있다.
value_counts()로 누락값 개수 확인하기
누락데이터의 개수를 확인하고자 하면 value_counts에 dropna=False 옵션을 사용해야한다.
NaN의 개수가 688개인 것을 볼 수 있다.
개별 컬럼이 아닌 전체 컬럼의 누락개수 확인하기1
df.count()는 각 컬럼별 값이 입력된 개수
df.shape[0]는 전체 행의 개수
따라서 df.shape[0]에서 df.count()를 뺀다면 각 컬럼별 누락값의 개수를 볼 수 있다.
개별 컬럼이 아닌 전체 컬럼의 누락개수 확인하기2
axis=0을 이용하면 한 컬럼씩 위에서 아래로 연산 = 행방향
True = 1 / False = 0이므로 입력이 되어있으면 False, 값이 없다면 True를 나타냄
True의 값이 1이므로 1인 값들의 합은 누락된 개수를 나타낸다.
데이터프레임 전체의 누락값 개수 구하기1
위에서 구한 시리즈를 sum을 이용해 더하면 전체 데이터의 누락값을 알 수 있다.
데이터프레임 전체의 누락값 개수 구하기2
numpy의 count_nonzero를 이용
배열에서 0이 아닌 개수를 세는 메서드.
반응형
'Pandas > 전처리' 카테고리의 다른 글
판다스 - 데이터 표준화 (단위 환산 : kpl, mpg) (0) | 2020.06.19 |
---|---|
판다스 - 중복 데이터 처리 : duplicated, drop_duplicates (0) | 2020.06.19 |
판다스 - 누락 데이터 처리 : dropna, thresh, fillna, idxmax, ffill, bfill (0) | 2020.06.18 |
판다스 - 데이터 연결 : concat (0) | 2020.06.18 |
판다스 - 시리즈와 데이터프레임 데이터 처리 (0) | 2020.06.18 |