본문 바로가기

Data_Analysis

(294)
판다스 - 은행의 파산 연도, 분기 : groupby, 시각화 데이터 불러오기 closing Date와 Updated Date를 parse_dates로 넘겨서 자료형을 datetime64로 변경 Closing Date 기준, 분기와 연도 컬럼 생성하기 dt 연산자를 이용하면 손쉽게 분기와 연도를 꺼내올 수 있다. 연도별 그룹화 및 시각화 (연도와 분기)별 그룹화 및 시각화 두 그래프를 비교해보자 연도와 분기로 그룹화 한 시각자료가 더 굴곡이 많다.
판다스 - 시계열 : 최초발생일, 진행 정도 파악 데이터 불러오기 에볼라 바이러스의 데이터프레임이다. 데이터프레임을 읽어올 때 parse_dates를 이용해 Date 컬럼의 자료형을 datetime64로 바꿔줬다. ** (parse_dates=[0])도 가능 살펴보니 데이터가 시간 역순으로 정렬되어있다. Date 컬럼에서 최초 발생일을 빼면 에볼라의 진행정도를 알 수 있다. Date컬럼에서 최솟값을 구하면 최초 발생일이 나온다. Date 컬럼에서 최초 발생일을 빼면 진행 정도를 컬럼으로 만들 수 있다. (벡터 - 스칼라) 브로드캐스팅
판다스 - MoviesLens의 영화 평점 데이터 세가지 데이터프레임이 있다. 이를 SQL의 JOIN처럼 활용해야 한다. 사용자 정보 // 평점 // 영화 정보 사용자 정보 테이블과 평점 테이블은 user_id로 merge한 다음 그 merge된 테이블과 영화 정보 테이블을 다시 한번 movie_id로 merge하면 하나의 대용량 테이블을 만들 수 있다. 사용자 정보 테이블과 평점 테이블은 user_id로 merge inner조인, 겹치는 컬럼은 user_id뿐 이를 다시 영화 정보 테이블과 merge 이제 최종적으로 다루게될 데이터프레임이다. 변수명 = data 1. 성별에 따른 영화의 '평균' 평점 성별과 영화를 각각 보아야하기 때문에 피벗테이블을 이용한다. 3706개의 영화는 너무 많으니 평점 정보가 많이 있는 영화만 추려보자 2. 250건 이상의..
판다스 - 특잇값(outlier) 찾아내기 : Tukey Fences, Z-score https://steadiness-193.tistory.com/68 판다스 - 특잇값(outlier) 처리하기 데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만 때로는 제외하고 처리해야할 때가 많다. 데이터 불러오기 data = pd.DataFrame(np.random.randn(1000, 4)) 요�� steadiness-193.tistory.com https://steadiness-193.tistory.com/69 판다스 - 특잇값(outlier) 처리하기2 https://steadiness-193.tistory.com/68 판다스 - 특잇값(outlier) 처리하기 데이터프레임을 다루다보면 여러 아웃라이어들을 볼 수 있다. 이 값들은 가치가 있을 수 있지만..
판다스 - groupby : cut, qcut을 이용해 그룹핑 cut 함수(등간격)와 qcut 함수(같은 크기)는 groupby와 조합하면 데이터 묶음에 대해 변위치 분석이나 버킷 분석을 쉽게 수행할 수 있다. cut, qcut에서 반환된 Categorical 객체를 바로 groupby에 넘길 수 있다. 데이터 불러오기 위 데이터프레임에서 horsepower(마력) 컬럼을 나눠서 그룹핑해보자 1. cut Categorical 객체를 바로 그룹핑에 이용 agg를 이용해 다양하게 분석 가능 보기 불편할 땐 stack을 이용 2. qcut 표본 변위치 기반하여 크기가 같은 버킷을 구하려면 qcut을 사용한다. Categorical 객체를 바로 그룹핑에 이용 agg를 이용해 다양하게 분석 가능 보기 불편할 땐 stack을 이용 필요한 함수를 적절히 groupby와 함께 분..
판다스 - groupby : 색인 단계로 그룹핑하기(계층적 색인) 계층적 색인에서는 축 색인의 단계 중 하나를 이용해 집계할 수 있다. 데이터 만들기 컬럼이 멀티인덱스이므로 컬럼으로 그룹핑할땐 level을 명시해줘야 한다. city를 기준으로 그룹핑 tenor를 기준으로 그룹핑 또는 level=1을 입력해도 동일한 결과가 나온다.
판다스 - groupby : 함수로 그룹핑하기 사전이나 시리즈로 그룹핑하는 것보다 함수로 그룹핑하는 것이 보다 더 일반적이다. 그룹 색인으로 넘긴 함수는 색인값 하나마다 한 번씩 호출되며 반환값은 그 그룹의 이름으로 사용된다. 데이터 만들기 이러한 데이터프레임이 있다. 이를 이름의 길이별로 그룹화하려면 groupby 메서드에 len 함수를 넣어주면 되는 것이다. 내부적으로 모두 배열로 변환되므로 함수를 배열이나 사전 또는 시리즈와 섞어써도 문제 없다.
판다스 - groupby : 사전과 시리즈로 그룹핑하기 사전을 groupby 메서드에 넘길 수 있다. 데이터 만들기 1. 사전으로 그룹핑 컬럼을 기준으로 묶을 것이기 때문에 컬럼과 관련된 사전을 만들어야 한다. axis=1로 컬럼으로 그룹화를 했는데 이 과정에서 사전에 있는 키:값을 기준으로 묶였다. a, b, e는 red / c,d는 blue 2. 시리즈로 그룹핑하기 사전이냐 시리즈냐는 크게 중요하지 않고 효율적으로 활용할 줄 알면 된다.