반응형
시리즈.nlargest(n, keep='first')
n : 상위 몇개까지 나타낼 것인가
keep='first' : 동등한 값이 있다면 제일 먼저 나온 값을 보여준다.
시리즈의 경우엔 컬럼을 명시할 필요 없다.
데이터프레임.nlargest(n, columns, keep='first')
데이터프레임의 경우 우선 순위에 따라 컬럼을 명시해 줄 수 있다.
참조 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nlargest.html
데이터 불러오기
시리즈.nlargest
인구수가 많은 순서대로 상위 3개가 나왔다.
keep='first'이기 때문에 Malta가 나왔다.
keep='all'
keep='all' 옵션을 주게되면
동등한 값을 모두 표시한다.
데이터프레임.nlargest
데이터프레임의 경우엔 어떤 컬럼이 기준이 될지 명시를 해줘야한다.
이 또한 keep='first'가 디폴트이므로 Malta가 나왔다.
keep='last', 'all'
복수 개의 컬럼
* 컬럼의 순서는 우선 순위와 관련 있음
인구 뿐만 아니라 GDP 컬럼까지 넣게되면
인구를 먼저 내림차순 한 뒤 GDP 컬럼에서 높은 순을 찾아 보여준다.
인구 수가 같은 Malta, Maldives, Brunei
세 후보군에서 GDP가 제일 높은 Brunei가 나온 것이다.
우선 순위 변경
GDP를 먼저 명시하게되면 GDP 컬럼에서 높은 순이 먼저 나오게 된다.
분명 Iceland는 인구수가 Malta, Maldives, Brunei 보다 낮지만
GDP가 높아 출력된 것이다.
반응형
'Pandas > 응용' 카테고리의 다른 글
판다스 - datetime : dt 연산자 활용 (0) | 2020.08.13 |
---|---|
판다스 - groupby : 그룹 객체별, 기준 컬럼의 상위 N개의 행만 추출 (0) | 2020.08.09 |
판다스 - map : dict.get (0) | 2020.08.09 |
판다스 - map (0) | 2020.08.09 |
정규표현식 - 원하는 문자열이 있는 행만 남기기 : re.compile, re.search (0) | 2020.08.08 |