본문 바로가기

Data_Analysis

(294)
Seaborn - 박스 플롯(박스 그래프) : boxplot 박스 플롯은 범주형 데이터 분포와 주요 통계 지표를 함께 제공 다양한 통계 수치를 확인하기 위해 자주 사용 최솟값, 1분위수, 중간값, 3분위수, 최댓값, 이상치 등 다양한 통계량을 한번에 표현 이번 포스팅에선 seaborn으로 boxplot을 그리는 방법에 초점을 맞춘다. boxplot에 대한 설명은 아래 포스팅 참조 https://steadiness-193.tistory.com/179 Matplotlib - 박스 플롯(박스 그래프) : boxplot [박스 플롯] 이산형 변수와 연속형 변수를 함께 사용 - 이산형 변수 : Female, Male 처럼 명확하게 구분되는 값 - 연속형 변수 : 정수, 실수 같이 명확히 셀 수 없는 범위의 값 범주형 데이터의 분포를 steadiness-193.tistory..
Seaborn - 빈도 그래프 : countplot 이산값을 나타내는 그래프 각 범주에 속하는 데이터의 개수를 막대 그래프로 나타냄 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이용 선형회귀선을 함께 나타냄 데이터 불러오기 seaborn의 타이타닉 데이터에서 fare컬럼의 아웃라이어 행을 제거했다. https://steadiness-193.tistory.com/78 판다스 - � steadiness-193.tistory.com 위 포스팅에서 fare 컬럼의 아웃라이어를 제거한 타이타닉 데이터프레임을 가져온다. class별 인원 파악 class별로 인원 수를 그래프로 파악할 수 있다. 실제 수치를 보면 동일하게 그려진 것을 알 수 있다..
판다스 - 구글 플레이 스토어 : 카테고리별 점유율, 상위 카테고리의 앱 설치수와 평점의 평균 https://steadiness-193.tistory.com/189 판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값.. steadiness-193.tistory.com 전처리한 데이터프레임과 출처는 위 포스팅 참조 카테고리별 구글 플레이 스토어 점유율 우선 카테고리는 총 33개가 있다. 각 카테고리별 점유율을 살펴보려면 value_counts를 이용하면 된다. 카테고리의 value_counts를 value_counts의 합으로 나눠준 뒤 100을 곱해서 나온 결..
판다스 - 구글 플레이 스토어 : 앱 설치수, 리뷰수, 평점간의 관계 https://steadiness-193.tistory.com/189 판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값.. steadiness-193.tistory.com 위 포스팅에서 만든 df를 계속 이용한다. 기술통계 살펴보기 우선 Rating의 경우 1분위수의 값이 4점인 것을 보아 대체적으로 후하게 평점을 주는 것을 볼 수 있다. Price의 경우는 대부분이 3분위수까지 0인 것을 보아 대부분이 무료인 것을 볼 수 있다. 컬럼 간 상관계수 https://s..
판다스 - 구글 플레이 스토어 : 전처리 데이터 출처 https://www.kaggle.com/lava18/google-play-store-apps 데이터 불러오기 구글 플레이 스토어의 데이터를 df 변수에 담았다. 행은 총 10841개, 컬럼은 13개로 확인된다. 데이터프레임 정보, 누락값 개수 확인 우선 Rating 컬럼 외에는 다 문자열로 되어있고 Rating 컬럼에 누락값이 1474로 제일 많이 있는 것을 확인 했다. Installs 컬럼 전처리 Installs 컬럼의 고유값을 보니 이상한 Free 값이 있다 이 값은 제외하자 또한 설치 숫자이기 때문에 '+'와 ','(콤마)를 없애서 정수형으로 바꿔주자 Reviews 전처리 Reviews는 단순히 정수형으로만 데이터 타입을 변경해주면 된다. Price 전처리 문자열 0을 포함해, 실수형..
Seaborn - 그래프 그릴 때 헷갈리는 부분 정리 https://steadiness-193.tistory.com/186 Matplotlib - 그래프 그릴 때 헷갈리는 부분 정리 위 데이터프레임의 mpg 컬럼과 horsepower 컬럼의 관계를 살펴보자 scatter 이용 [하나의 그래프] 1. plt plt.scatter() plt.plot.scatter() plt.plot(kind='scatter') 가능 - xlabel, ylabel 등은 수동으로 추가.. steadiness-193.tistory.com 위 포스팅의 데이터프레임을 그대로 이용한다. mpg 컬럼과 horsepower 컬럼의 관계를 보기 위해 regplot을 이용한다. [하나의 그래프] 기본 기본, data 옵션 없이 크기 조정 plt.figure(figsize=(12, 6) sns...
Matplotlib - 그래프 그릴 때 헷갈리는 부분 정리(2) https://steadiness-193.tistory.com/186 Matplotlib - 그래프 그릴 때 헷갈리는 부분 정리 위 데이터프레임의 mpg 컬럼과 horsepower 컬럼의 관계를 살펴보자 scatter 이용 [하나의 그래프] 1. plt plt.scatter() plt.plot.scatter() plt.plot(kind='scatter') 가능 - xlabel, ylabel 등은 수동으로 추가.. steadiness-193.tistory.com 위 포스팅의 데이터를 그대로 이용한다. scatter 이용 [두개 이상의 그래프(subplots)] plt.subplots() 1. ax = plt.scatter 이전 포스팅의 add_subplot과는 다르게 plt.scatter를 해도 ax인자를..
Matplotlib - 그래프 그릴 때 헷갈리는 부분 정리 위 데이터프레임의 mpg 컬럼과 horsepower 컬럼의 관계를 살펴보자 scatter 이용 [하나의 그래프] 1. plt plt.scatter() plt.plot.scatter() plt.plot(kind='scatter') 가능 - xlabel, ylabel 등은 수동으로 추가해야 함 - data 옵션 이용 여부에 따라 컬럼 연산 가능/불가능 - 사이즈는 plt.figure(figsize=(N, N))으로 조정 불가능 불가능 data 옵션 없이 data 옵션 이용 크기(figsize) 조정 2. 데이터프레임(시리즈).plot df.plot.scatter / df.plot(kind='scatter') 모두 가능 - plot 메서드 안에서 figsize 조절 가능 - label이 자동으로 생겨남 크기(..