본문 바로가기

Pandas

(165)
판다스 - zip : 카테고리형 컬럼과 숫자형 컬럼 구분 zip (*iterable) 동일한 개수로 이루어진 자료형을 묶어 주는 역할을 하는 함수이다. (점프투파이썬) 이렇게 1과 4, 2와 5 그리고 3과 6을 묶어주는 역할을 하는 것이다. 문자열도 가능하다. for 문으로 한 쌍씩 꺼내올 수도 있다. 길이가 맞지 않다면 짧은 쪽, c의 길이 만큼만 맞춰 4개의 쌍이 나온다. titanic 데이터셋 불러오기 dtypes를 이용해 컬럼과 컬럼의 데이터타입을 zip으로 묶어낼 것이다. 이렇게 묶어서 한 쌍씩 불러낼 수 있다. 숫자형 컬럼 찾기 컬럼의 타입이 int64이거나 float64인 컬럼을 찾아내면 되는 것이다. 리스트 표현식 이용 숫자형과 숫자형이 아닌 컬럼으로 구분을 완성했다. * 만약 타입이 object와 int64, float64 밖에 없다면 typ..
판다스 - isinstance [isinstace(값, 자료형)] * 자료형은 str, float, list, tuple 등 가능하다. 값의 자료형이 인자에 있는 자료형과 동일하다면 True 그렇지 않다면 False를 반환 결과를 True or False로 반환한다. 데이터 프레임 생성 Num 컬럼 값들의 자료형이 int와 str이 혼재되어있다. , 를 없애서 정수형으로 바꾸기 위해 map과 replace를 이용한다. 하지만 3400이 int이기 때문에 replace는 먹히지 않는다. isinstance로 Num 컬럼 확인 리스트 표현식으로 동시에 이용 원하는대로 컬럼의 dtype이 int로 바뀌었다. https://steadiness-193.tistory.com/216 판다스 - map map 순차적 자료형에 대해 함수를 적용하는,..
판다스 - 데이터프레임 랜덤 추출 : DataFrame.sample 데이터 불러오기 편하게 10개 행만 가져온다. [DataFrame.sample(frac, n, replace, random_state)] frac 전체 행에서 몇 %만 추출할 것인가 0~1까지의 값을 넣을 수 있다. n 몇개의 행을 추출할 것인가 * frac과 n은 동시에 쓸 수 없다. replace=False default는 중복 비허용 random_state 설정 시 결과 고정 n n, random_state random_state에 아무 숫자나 넣으면 된다. 몇번을 실행해도 동일한 추출이 된다. reset_index로 활용 frac 전체 10개 행에서 50%인 5개 행만 추출한다. n과 같이 쓸 수 없다. 70%인 7개 행을 가져온다. frac=1 frac에 1을 넣으면 전체 데이터프레임을 랜덤으로..
판다스 - 데이터프레임 역순으로 재구성 데이터 불러오기 인덱스가 0부터 243까지 있다. 역순이라면 243부터 0번까지 반대로 인덱스가 설정되어야 한다. range 243부터 -1까지를 포함하지 않는 범위를 만들었다. range에 범위 다음으로 -1을 넣는다면 역순으로 이해한다. 실제로 위 범위를 리스트로 바꿔서 출력하면 ... 역순으로 리스트가 잘 생성되었다. 역순 리스트 변수 생성 pd.DataFrame(기존 데이터프레임, index=r_idx) index인자에 역순으로 만든 인덱스 리스트를 넣어준다. 인덱스 초기화 잘 바뀌었는지 확인해보자 마지막행이던 243행이 0번행으로, 0번행이 243행으로 잘 바뀌었다.
판다스 - 라벨링(Labeling) 머신러닝을 진행하기 위해서는 문자열을 숫자로 바꿔줘야 한다. 소형 → 0 / 중형 → 1 / 대형 → 2 이런 식이다. 데이터 불러오기 race 컬럼의 고유값 라벨링 목표 White → 0 Black →1 Asian-Pac-Islander → 2 mer-Indian-Eskimo →3 Other → 4 두가지 방법으로 알아본다. 1. 딕셔너리 + map 일일이 사전으로 매핑을 만들어두고 map을 이용해서 값을 구해낸다. https://steadiness-193.tistory.com/216?category=947982 판다스 - map map 순차적 자료형에 대해 함수를 적용하는, 내장 함수 map(함수, 순차적 자료) map(func, iterables) map의 첫번째 인자인 함수는 파이썬의 내장함수도 ..
판다스 - 파일 읽어오기 : from os.path import join 운영체제에 따라 경로를 / 또는 \ 등을 이용할 수 있다. 여러 운영체제 간 이슈를 방지하기 위해서는 직접 경로설정을 하기보단 join을 이용하는 것이 낫다. 라이브러리 불러오기 경로 지정하기 상대경로를 이용한다. titanic 폴더의 data 폴더 안의 train.csv 파일을 지정해줬다. csv 파일 읽기 문제 없이 잘 읽어냈다. 상위 폴더 지정 이렇게 한 계층 위 폴더도 지정해줄 수 있다.
판다스 - 카테고리 자료형 : Categorical, cat 속성, categories, codes, categorical 메서드 Pandas에는 정수 기반의 범주형 데이터를 표현(인코딩)할 수 있는 Categorical형이라고 하는 특수한 데이터형이 존재한다. 데이터프레임 제작 fruit 컬럼을 카테고리형 시리즈로 제작 fruit 컬럼은 파이썬 문자열 객체의 배열로 쉽게 범주형으로 바꿀 수 있다. Categorical 인스턴스 Categorical 객체는 categories와 codes 속성을 가진다. 만약 apple, orange, banana였으면 codes는 2 값도 가졌을 것이다. 컬럼을 범주형으로 변경 변경 완료된 값을 대입해서 DataFrame의 컬럼을 범주형으로 변경할 수 있다. Categorical 메서드 범주형 데이터를 담고 있는 Series는 특화된 문자열 메서드인 Series.str과 유사한 특수 메서드인 ca..
판다스 - datetime : dt 연산자 활용 데이터 불러오기 자료형이 datetime인 datetime 컬럼을 만들어 데이터프레임으로 만들어줬다. https://steadiness-193.tistory.com/171 판다스 - to_datetime : format, dt to_datetime 메서드를 사용하면 Date 형식의 자료형을 datetime 오브젝트로 변환할 수 있다. 데이터 만들기 date컬럼은 자료형이 object이다. 이 문자열 날짜를 datetime 자료형으로 변환하려면 pd.to_datetime을 steadiness-193.tistory.com 위 포스팅에서 설명한 dt 연산자에 대해 조금 더 다양한 예시를 살펴보자 연도 추출 dt.year 월 추출 dt.month 일 추출 dt.day 시간 추출 dt.hour 분 추출 dt.mi..