본문 바로가기

Pandas/기초

(32)
판다스 - 데이터프레임 다뤄보기 데이터 불러오기 컬럼간 비교를 통한 불린 추출 scientist['Age'] > scientist['Age'].mean()의 결과로 [False, True, True, True, False, False, False, True]가 나오는데 이를 데이터프레임[불린시리즈]로 입력하면 True에 해당하는 행만 나온다. 브로드캐스팅 하기 데이터프레임도 시리즈와 마찬가지로, 스칼라 연산을 하면 모든 요소에 스칼라 적용하여 연산함
판다스 - 시리즈 다뤄보기(응용) 데이터 불러오기 Age 컬럼, 시리즈로 불러오기 불린 시리즈(Boolean Series) ages.mean() == 59.125 즉 59.125보다 큰가에 대한 답을 True or False로 리턴 1, 2, 3, 7행만 평균보다 큰 값 시리즈[불린 시리즈] 시리즈[불린 시리즈]형태로 넣으면 True였던 행만 출력 벡터 : 여러 개의 값을 가진 데이터 시리즈는 벡터의 한 종류 스칼라 : 단순 크기를 나타내는 데이터 같은 길이의 벡터 연산하기 벡터와 스칼라 연산 => 브로드캐스팅 다른 길이의 벡터간 연산 시리즈와 시리즈를 연산할 경우 같은 인덱스의 값만 계산 인덱스가 일치한 0, 1만 계산되며 나머지 인덱스는 누락값(NaN)으로 처리 위의 값은 ages + ages의 결과와 동일함 이유는 인덱스가 일치하는..
판다스 - 시리즈 다뤄보기 데이터프레임 생성 시리즈 선택 loc속성에 인덱스를 전달하면 시리즈 선택 가능 type으로 검사 결과 Series 확인 시리즈 속성과 메서드 사용하기 1. index 속성에는 시리즈의 인덱스가 들어있음 2. values 속성에는 시리즈의 데이터가 들어있음 3. keys 메서드는 index 속성과 같은 결과를 얻을 수 있음 인덱스의 첫번째 값 추출하는 방법, 다양하게 활용 가능함 정수형 시리즈, 기초 통계 메서드 사용하기 1. min : 최솟값 2. max : 최대값 3. std : 표준편차 4. mean : 평균값 4. describe를 이용해 동시에 살펴볼 수 있음 5. equals : 시리즈의 해당 값을 가진 요소가 있는지 확인 6. isin : 시리즈에 포함된 값이 있는지 확인
판다스 - 데이터 추출하기 데이터 불러오기 슬라이싱 구문 이용 df.loc[[행], [열]] 을 이용하면 데이터를 추출할 수 있다. 모든 행과 year, pop컬럼을 선별해 subset변수에 넣었다. * 주의 : loc 속성의 열 지정값에 정수 리스트를 전달하면 에러 발생 lioc 속성을 이용하면 정수 리스트를 전달해야한다. 행 : 모든 행 / 열 : 맨 마지막 열, 5번째 열, 3번째 열 * 주의 : iloc의 열 지정값을 문자열로 추출하려하면 에러 발생 물론 range 메서드도 이용 가능하다. 다만, 더 간편하게 사용할 수 있는 파이썬 슬라이싱 구문을 이용하는 것이 좋다. 원하는 대로 추출할 수 있다.
판다스 - 데이터 추출하기(행) 인덱스 기준 행 데이터 추출 loc 속성 이용 주의 : 인덱스가 없는 -1과 같은 숫자를 넣으면 에러 발생 인덱스 기준 여러 행 데이터 추출 loc 속성을 이용하되 리스트로 한번 더 감싸야한다. 행 번호 기준 행 데이터 추출 lioc 속성 이용 lioc 속성은 데이터 순서를 의미하는 행 번호 사용하여 데이터 추출 lioc 속성은 -1과 같이 음수를 사용해도 데이터 추출 가능 * 주의 : 데이터프레임에 존재하지 않는 행번호 전달하면 에러 발생 (df.iloc[100000])
판다스 - 데이터 추출하기 (컬럼/열) 열 단위로 데이터 추출1 데이터프레임[컬럼명]으로 작성하면 해당 컬럼만 추출할 수 있으며 타입은 시리즈로 확인 열 단위로 추출2 여러개의 컬럼을 보고 싶을땐 리스트 안에 넣어서 불러온다. * 주의 : 리스트가 이중으로 겹쳐야지만 볼 수 있다. 만약 df['country', 'continent', 'year'] 라고만 한다면 에러가 발생한다. 또한 여러개의 컬럼을 불러온 데이터는 타입이 데이터프레임임을 확인할 수 있다.
판다스 - 데이터프레임 살펴보기 데이터 불러오기 https://steadiness-193.tistory.com/2 판다스 - CSV 읽어오기 (tsv) tsv 데이터를 불러오려면 read_csv 메서드 이용 - read_csv메서드는 기본적으로 쉼표(,)로 구분된 데이터를 불러옴 - tsv파일은 쉼표가 아닌 탭(tap)으로 구분되어 있기에 메서드 호출 시 미리 알려주� steadiness-193.tistory.com 타입 확인 DataFrame을 확인할 수 있음 shape 확인 1번째 값은 행, 2번째 값은 열 1704개의 행과 6개의 열로 이루어진 데이터 프레임 컬럼 확인 데이터프레임의 열 이름 확인 데이터프레임을 구성하는 값의 자료형 확인1 열을 구성하는 값의 자료형 확인 object : 문자열 / int : 정수 / float :..
판다스 - CSV 읽어오기 (tsv) tsv 데이터를 불러오려면 read_csv 메서드 이용 - read_csv메서드는 기본적으로 쉼표(,)로 구분된 데이터를 불러옴 - tsv파일은 쉼표가 아닌 탭(tap)으로 구분되어 있기에 메서드 호출 시 미리 알려주어야함 - 알려주는 방법 : sep = '\t' df라는 변수에 갭마인더 파일을 넣고 .head() 메서드를 이용해 가장 앞에 있는 5행을 읽음