본문 바로가기

Pandas/전처리

판다스 - 중복 데이터 처리 : duplicated, drop_duplicates

반응형

데이터프레임 제작

 

 

 

 

행의 레코드가 중복되는지 여부확인 위해

duplicated() 메서드 사용

 

 

h행과 k 행은 중복 되었음

 

 

 

 

 

 

drop_duplicates()

 

 

duplicated()메서드에서 True로 확인된 k열이 삭제되었음

 

 

 

 

 

 

 

 

 

c2열과 c3 열 기준으로 중복되었는지 확인

 

 

k행(h행과 중복)과 m행(r행과 중복)이 중복되었음

 

 

 

 

 

 

 

c2, c3열을 기준으로 중복되었던 k와 m행이 삭제되었음

 

 

 

 

 

 

keep='last'를 이용하면

 

h행과 중복인 k행을 살리고 h행을 삭제

r행과 중복인 m행을 살리고 r행을 삭제

반응형