본문 바로가기

Pandas

(165)

판다스 - 데이터 끌어올리기 : first_valid_index, shift https://steadiness-193.tistory.com/82 판다스 - 데이터 밀어내기 (last_valid_index, shift) 데이터 불러오기 우선 Date 컬럼을 보면 날짜의 역순으로 데이터가 진행되고 있다. 또한 2월 10일부터 A컬럼의 데이터가 있으나 B컬럼은 2월 11일, C 컬럼은 2월 12일부터 데이터가 입력되어있다. 이� steadiness-193.tistory.com 위와 반대로 하는 내용 데이터 불러오기 날짜순으로 내려가는 데이터이며 각 컬럼별로 데이터가 입력된 날짜가 다르다. 그래프로 보니 각 출발하는 날짜가 다르다. pd.Series.first_valid_index 유효한 값이 있는 첫번째 인덱스 반환 더 쉽게 보자면 B컬럼이 처음 입력된 일자는 2월 11일로 1번 인덱..

판다스 - 데이터 밀어내기 : last_valid_index, shift 데이터 불러오기 우선 Date 컬럼을 보면 날짜의 역순으로 데이터가 진행되고 있다. 또한 2월 10일부터 A컬럼의 데이터가 있으나 B컬럼은 2월 11일, C 컬럼은 2월 12일부터 데이터가 입력되어있다. 이를 간단하게 그래프로 그려보면 출발선이 다름을 볼 수 있다. 따라서 2월 10일부터 출발을 같이한 자료를 보기위해 데이터를 수정해보자. pd.Series.last_valid_index last_valid_index는 유효한 값이 있는 마지막 인덱스를 반환한다. 더 쉽게 보면 B 컬럼을 예로 들면 3번 인덱스부터 값이 입력되었다. 그 인덱스를 반환하는 것이 pd.Series.last_valid_index 이다. 그렇다면 제일 오래전에 입력된 데이터에서 각 컬럼별 last_valid_index 만큼 아래로..

판다스 - 은행의 파산 연도, 분기 : groupby, 시각화 데이터 불러오기 closing Date와 Updated Date를 parse_dates로 넘겨서 자료형을 datetime64로 변경 Closing Date 기준, 분기와 연도 컬럼 생성하기 dt 연산자를 이용하면 손쉽게 분기와 연도를 꺼내올 수 있다. 연도별 그룹화 및 시각화 (연도와 분기)별 그룹화 및 시각화 두 그래프를 비교해보자 연도와 분기로 그룹화 한 시각자료가 더 굴곡이 많다.

판다스 - 시계열 : 최초발생일, 진행 정도 파악 데이터 불러오기 에볼라 바이러스의 데이터프레임이다. 데이터프레임을 읽어올 때 parse_dates를 이용해 Date 컬럼의 자료형을 datetime64로 바꿔줬다. ** (parse_dates=[0])도 가능 살펴보니 데이터가 시간 역순으로 정렬되어있다. Date 컬럼에서 최초 발생일을 빼면 에볼라의 진행정도를 알 수 있다. Date컬럼에서 최솟값을 구하면 최초 발생일이 나온다. Date 컬럼에서 최초 발생일을 빼면 진행 정도를 컬럼으로 만들 수 있다. (벡터 - 스칼라) 브로드캐스팅

판다스 - MoviesLens의 영화 평점 데이터 세가지 데이터프레임이 있다. 이를 SQL의 JOIN처럼 활용해야 한다. 사용자 정보 // 평점 // 영화 정보 사용자 정보 테이블과 평점 테이블은 user_id로 merge한 다음 그 merge된 테이블과 영화 정보 테이블을 다시 한번 movie_id로 merge하면 하나의 대용량 테이블을 만들 수 있다. 사용자 정보 테이블과 평점 테이블은 user_id로 merge inner조인, 겹치는 컬럼은 user_id뿐 이를 다시 영화 정보 테이블과 merge 이제 최종적으로 다루게될 데이터프레임이다. 변수명 = data 1. 성별에 따른 영화의 '평균' 평점 성별과 영화를 각각 보아야하기 때문에 피벗테이블을 이용한다. 3706개의 영화는 너무 많으니 평점 정보가 많이 있는 영화만 추려보자 2. 250건 이상의..

판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score https://steadiness-193.tistory.com/68 판다스 - 특잇값(outlier) 처리하기 데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만 때로는 제외하고 처리해야할 때가 많다. 데이터 불러오기 data = pd.DataFrame(np.random.randn(1000, 4)) 요�� steadiness-193.tistory.com https://steadiness-193.tistory.com/69 판다스 - 특잇값(outlier) 처리하기2 https://steadiness-193.tistory.com/68 판다스 - 특잇값(outlier) 처리하기 데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만..

판다스 - groupby : cut, qcut을 이용해 그룹핑 cut 함수(등간격)와 qcut 함수(같은 크기)는 groupby와 조합하면 데이터 묶음에 대해 변위치 분석이나 버킷 분석을 쉽게 수행할 수 있다. cut, qcut에서 반환된 Categorical 객체를 바로 groupby에 넘길 수 있다. 데이터 불러오기 위 데이터프레임에서 horsepower(마력) 컬럼을 나눠서 그룹핑해보자 1. cut Categorical 객체를 바로 그룹핑에 이용 agg를 이용해 다양하게 분석 가능 보기 불편할 땐 stack을 이용 2. qcut 표본 변위치 기반하여 크기가 같은 버킷을 구하려면 qcut을 사용한다. Categorical 객체를 바로 그룹핑에 이용 agg를 이용해 다양하게 분석 가능 보기 불편할 땐 stack을 이용 필요한 함수를 적절히 groupby와 함께 분..

판다스 - groupby : 색인 단계로 그룹핑하기(계층적 색인) 계층적 색인에서는 축 색인의 단계 중 하나를 이용해 집계할 수 있다. 데이터 만들기 컬럼이 멀티인덱스이므로 컬럼으로 그룹핑할땐 level을 명시해줘야 한다. city를 기준으로 그룹핑 tenor를 기준으로 그룹핑 또는 level=1을 입력해도 동일한 결과가 나온다.

이전 1 ··· 9 10 11 12 13 14 15 ··· 21 다음

티스토리툴바