Pandas (165) 썸네일형 리스트형 판다스 - 행 추가하기 데이터 불러오기 방법1. 데이터프레임.loc['새로운 행이름'] = 길이가 같은 리스트 방법2. 데이터프레임.loc['새로운 행이름'] = {컬럼명: 값, ..., 컬럼명: 값} 방법3. 구조가 동일한 데이터프레임을 append 방법4. 기존 데이터프레임과 구조가 동일한 데이터프레임을 concat 방법5. 기존 행들(간) 연산 판다스 - 대출이 있다면 은행상품에 잘 가입하지 않을까? 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 위 데이터의 y컬럼을 살펴보면 no와 yes로 구성되어있다. yes 은행 상품 가입 no 은행 상품 미가입 loan(대출) 컬럼 yes 대출이 있는 상태 no 대출하지 않음 unknown 확인할 수 없음 도식으로 정리해보면 찾아야하는 데이터는 가입여부에 따라 / 대출을 받은 사람들의 비율인 것이다. 가입여부에 따라 ↓ y컬럼의 값에 따라 그룹핑 get_group을.. 판다스 - 고객데이터 시각화 : 히스토그램, 아웃라이어(이상치, 특잇값) 제거 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 duration(전화통화시간) 컬럼 시각화 1. 선그래프 큰 의미를 찾기 힘들다. 오름차순으로 정렬하고 인덱스를 초기화해서 다시 그려보자 상위 5% 정도의 데이터와 나머지의 격차가 매우 커 보인다. 2. 히스토그램 히스토그램을 그리기 전에 구간 설정에 대한 정보를 얻기 위해 describe로 요약본을 살펴보자 최소는 0이고 최대는 4918이다. 우선 그냥 그려보면.. 판다스 - 고객데이터 시각화 : 나이대별 히스토그램, 문자열 컬럼 데이터 출처 UCI Machine Learning Repository Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31 데이터 불러오기 세미콜론으로 구분되어 있기에 sep=';'을 넣어주었다. 나이 컬럼 시각화 1. 선그래프 이정도는 시각화의 의미가 없다. 오름차순으로 정렬하고 인덱스를 초기화하여 다시 해보자 데이터가 너무 많아서 보기에 좋지 않다. 보통 하나의 컬럼이고 나이처럼 연속적인 데이터는 히스토그램으로 많이 표현하니 히스토그램으로 그려보자 2. 히스토그램 아무 옵션 없이 히스토그램을 그리.. 판다스 - 파일경로에 한글이 있어 에러가 발생한 경우 read_excel이나 read_csv를 이용할 때 경로명에 한글명 폴더가 있는 경우가 많다. 이럴 때 간혹 에러가 발생하는데, 이때 engine 옵션에 python을 값으로 넣어주면 정상 작동한다. 같은 폴더에 있는 경우 이는 문제가 별로 없다. 한글명 폴더에 데이터가 있는 경우 engine='python'을 넣어준다. 물론 항상 에러가 나는 것은 아니니 기억해두고 활용하면 된다. 판다스 - groupby : 집계함수를 활용한 뒤 데이터프레임 분석 데이터 불러오기 25행 6열의 df가 있다. 광고그룹과 키워드는 위와 같다. 이를 우선 광고그룹으로 그룹핑해보자 목표 : 광고그룹별 클릭률 구하기 try1 : 함수정의 후 apply 데이터프레임의 원본을 반환한다. 이는 컬럼간 나누기를 한 것이기 때문에 키워드별 클릭률과 동일한 값이 나왔다. try1 실패 try2 : lambda와 apply 이용 이 또한 try1과 같은 결과로 원하는 값이 아니다. try2 실패 try3 : lambda와 집계함수 이용 그룹별 클릭수의 합과 노출수의 합으로 나누면 원하는 데이터를 얻을 수 있다. 단, 그룹과 값만 있는 시리즈가 나와서 활용도는 다소 떨어질 수 있다. try4 : 집계함수를 포함한 함수 정의 그룹별 그룹_클릭률 컬럼이 새로 추가된다. 데이터프레임의 원본 .. 판다스 - groupby : 그룹 객체별 상위 N개의 행만 추출 타이타닉 데이터프레임을 pclass와 성별 컬럼으로 그룹화 그룹별 데이터 개수 여기서 그룹별 fare(요금) 컬럼 기준으로 상위 50개씩만 추출하려면? 1. lambda 함수 이용 위 lambda 함수를 apply와 함께 이용한다. pclass 3개 성별 2개 각 50개의 행 6 x 50 = 300개의 행 잘 출력되었다. 2. 함수 정의 위 lambda 함수와 결과로는 큰 차이가 없다. 판다스 - groupby : 그룹 객체에서 컬럼간 연산 타이타닉 데이터프레임을 pclass와 성별 컬럼으로 그룹화 1. 하나의 컬럼 그룹별 나이를, 그룹별 나이의 합으로 나누고 싶다면? 방법1. apply와 lambda 함수 이용 멀티인덱스의 시리즈로 나왔다. 보기엔 편할 수 있으나 굳이 인덱스까지 필요없다면 방법2. 컬럼명.apply 또는 컬럼명.transform 이용 좌,우 두 개의 결과는 동일하다. apply와 transform에 대한 내용은 아래 포스팅 참조 https://steadiness-193.tistory.com/42 판다스 - groupby : apply와 transform (차이) [개별 원소] apply transform [공통] 컬럼명을 메서드 밖에서 명시하면 결과는 같게 나온다. [차이1] 컬럼명을 메서드 안에서 명시하면 그룹별 시리즈.. 이전 1 ··· 3 4 5 6 7 8 9 ··· 21 다음