본문 바로가기

Data_Analysis

(294)
판다스 - 시리즈 다뤄보기 데이터프레임 생성 시리즈 선택 loc속성에 인덱스를 전달하면 시리즈 선택 가능 type으로 검사 결과 Series 확인 시리즈 속성과 메서드 사용하기 1. index 속성에는 시리즈의 인덱스가 들어있음 2. values 속성에는 시리즈의 데이터가 들어있음 3. keys 메서드는 index 속성과 같은 결과를 얻을 수 있음 인덱스의 첫번째 값 추출하는 방법, 다양하게 활용 가능함 정수형 시리즈, 기초 통계 메서드 사용하기 1. min : 최솟값 2. max : 최대값 3. std : 표준편차 4. mean : 평균값 4. describe를 이용해 동시에 살펴볼 수 있음 5. equals : 시리즈의 해당 값을 가진 요소가 있는지 확인 6. isin : 시리즈에 포함된 값이 있는지 확인
판다스 - 데이터 추출하기 데이터 불러오기 슬라이싱 구문 이용 df.loc[[행], [열]] 을 이용하면 데이터를 추출할 수 있다. 모든 행과 year, pop컬럼을 선별해 subset변수에 넣었다. * 주의 : loc 속성의 열 지정값에 정수 리스트를 전달하면 에러 발생 lioc 속성을 이용하면 정수 리스트를 전달해야한다. 행 : 모든 행 / 열 : 맨 마지막 열, 5번째 열, 3번째 열 * 주의 : iloc의 열 지정값을 문자열로 추출하려하면 에러 발생 물론 range 메서드도 이용 가능하다. 다만, 더 간편하게 사용할 수 있는 파이썬 슬라이싱 구문을 이용하는 것이 좋다. 원하는 대로 추출할 수 있다.
판다스 - 데이터 추출하기(행) 인덱스 기준 행 데이터 추출 loc 속성 이용 주의 : 인덱스가 없는 -1과 같은 숫자를 넣으면 에러 발생 인덱스 기준 여러 행 데이터 추출 loc 속성을 이용하되 리스트로 한번 더 감싸야한다. 행 번호 기준 행 데이터 추출 lioc 속성 이용 lioc 속성은 데이터 순서를 의미하는 행 번호 사용하여 데이터 추출 lioc 속성은 -1과 같이 음수를 사용해도 데이터 추출 가능 * 주의 : 데이터프레임에 존재하지 않는 행번호 전달하면 에러 발생 (df.iloc[100000])
판다스 - 데이터 추출하기 (컬럼/열) 열 단위로 데이터 추출1 데이터프레임[컬럼명]으로 작성하면 해당 컬럼만 추출할 수 있으며 타입은 시리즈로 확인 열 단위로 추출2 여러개의 컬럼을 보고 싶을땐 리스트 안에 넣어서 불러온다. * 주의 : 리스트가 이중으로 겹쳐야지만 볼 수 있다. 만약 df['country', 'continent', 'year'] 라고만 한다면 에러가 발생한다. 또한 여러개의 컬럼을 불러온 데이터는 타입이 데이터프레임임을 확인할 수 있다.
판다스 - 데이터프레임 살펴보기 데이터 불러오기 https://steadiness-193.tistory.com/2 판다스 - CSV 읽어오기 (tsv) tsv 데이터를 불러오려면 read_csv 메서드 이용 - read_csv메서드는 기본적으로 쉼표(,)로 구분된 데이터를 불러옴 - tsv파일은 쉼표가 아닌 탭(tap)으로 구분되어 있기에 메서드 호출 시 미리 알려주� steadiness-193.tistory.com 타입 확인 DataFrame을 확인할 수 있음 shape 확인 1번째 값은 행, 2번째 값은 열 1704개의 행과 6개의 열로 이루어진 데이터 프레임 컬럼 확인 데이터프레임의 열 이름 확인 데이터프레임을 구성하는 값의 자료형 확인1 열을 구성하는 값의 자료형 확인 object : 문자열 / int : 정수 / float :..
판다스 - CSV 읽어오기 (tsv) tsv 데이터를 불러오려면 read_csv 메서드 이용 - read_csv메서드는 기본적으로 쉼표(,)로 구분된 데이터를 불러옴 - tsv파일은 쉼표가 아닌 탭(tap)으로 구분되어 있기에 메서드 호출 시 미리 알려주어야함 - 알려주는 방법 : sep = '\t' df라는 변수에 갭마인더 파일을 넣고 .head() 메서드를 이용해 가장 앞에 있는 5행을 읽음