본문 바로가기

Data_Analysis

(294)
Big Query - 타 RDBMS와 다른 FROM 절 문법 보통 Oracel이나 PostgreSQL 등 RDBMS의 기본 문법은 다음과 같다. SELECT * FROM 테이블 Big Query는 FROM에서 데이터 세트를 함께 써줘야한다. SELECT * FROM 데이터세트.테이블 https://steadiness-193.tistory.com/246 Big Query - 프로젝트, 데이터 세트, 테이블 만들기 https://cloud.google.com/bigquery 에서 BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud BigQuery는 확장성이 뛰어난 서버리스 저비용 데이터 웨어하우스로, 빅데이터를 통해 정보에 기반한 비즈니스 결.. steadiness-193.tistory.com
SQL - JOIN 할 때 ON과 WHERE의 차이 [공통점] 둘 다 JOIN을 위한 조건절로 쓰인다. [차이점] ON - JOIN이 실행되기 전 WHERE - JOIN이 실행된 후 * 모든 JOIN은 LEFT JOIN으로 통일함 예시1. ON JOIN에 우선 이름으로 테이블을 연결한 뒤 AND t2.몸무게 = 50 이라는 조건을 준 상황이다. ON은 JOIN이 되기 전에 실행되므로 간단하게 보면 1번과 3번의 LEFT JOIN이 된 것처럼 보이는 것이다. 나머지 B, C의 몸무게는 NULL값을 가진다. 예시2. WHERE WHERE은 JOIN이 실행된 후 적용된다. 우선 가운데 회색 테이블은 이름을 기준으로 t1과 t2를 JOIN한 것이다. 여기서 WHERE 조건으로 t2의 몸무게가 50인 데이터만 필터링 하면 맨 오른쪽의 하나의 행만 있는 테이블이 보..
SQL - 실무에 많이 쓰이는 JOIN은? 1. LEFT JOIN LEFT JOIN이 실무적으로 가장 많이 쓰인다. 주로 보고 싶은 테이블을 왼쪽에 두고 추가적인 정보를 더하기 위한 JOIN이기 때문이다. 위 그림의 예시에는 고객 테이블이 있고 주문 테이블이 있다. 한 고객이 여러 주문을 할 수도 있으나, 주문을 하지 않은 고객도 있을 수 있다. 모든 고객을 다 보면서 주문에 대한 정보를 추가해주는 작업은 LEFT JOIN을 해야하는 것이다. 같은 맥락에서 RIGHT JOIN도 많이 쓰여야할 것 같으나 어차피 기능은 같고 굳이 오른쪽에 메인 테이블을 둘 필요는 없으니 RIGHT JOIN은 거의 쓰이지 않는다. 2. INNER JOIN INNER JOIN도 간혹 쓰인다. 두 테이블에서 모두 해당하는 경우를 원할 때도 있기 때문이다. 위 예시에서 인..
Big Query - 프로젝트, 데이터 세트, 테이블 만들기 https://cloud.google.com/bigquery 에서 BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud BigQuery는 확장성이 뛰어난 서버리스 저비용 데이터 웨어하우스로, 빅데이터를 통해 정보에 기반한 비즈니스 결정을 내릴 수 있도록 도와줍니다. cloud.google.com 무료 계정 생성 [프로젝트 생성] My First Project - 새 프로젝트 - 프로젝트 이름 입력 후 만들기 * 프로젝트 : 최상단 폴더와 비슷한 개념 한 개의 프로젝트에 여러 개의 데이터 세트가 들어갈 수 있다. https://console.cloud.google.com/bigquery Google Cloud Platform 하나의 계정으로 모든 Google 서비스를 Google Clou..
Machine Learning - PCA (Principal Component Analysis, 주성분 분석) [PCA (Pricipal Component Analysis, 주성분 분석)] 여러 차원으로 이루어진 '데이터를 가장 잘 표현하는 축'으로 사영(Projection)해서 차원을 축소 각 변수들의 공분산에 대한 주 성분(PC, Principal Component) 혹은 고유 벡터(Eigenvector) 중 가장 고유 값이 높은 주 성분(PC)에 데이터들을 사영(프로젝션, Projection) 한 것 [PC (Pricipal Component, 주성분)] 위에 있는 '데이터를 가장 잘 표현하는 축'은 데이터의 분산을 가장 잘 표현하는 축으로서 데이터 셋을 특이값 분해를 통해 추출된 고유 벡터(Eigenvector). 각 고유 벡터들은 서로 직교성을 띄기에 서로 독립적으로 데이터를 잘 표현 가능 데이터 불러오..
Machine Learning - One-Hot Encoding (원핫 인코딩) https://steadiness-193.tistory.com/70 판다스 - 원핫인코딩 (One-Hot Encoding) https://steadiness-193.tistory.com/19 판다스 - 구간 분할(pd.cut) 데이터 불러오기 horsepower를 3구간으로 저출력 / 보통출력 / 고출력 나누고자 한다. 이때 pd.cut을 이용하는데 (데이터배열, 구간, 레이블이.. steadiness-193.tistory.com https://steadiness-193.tistory.com/99 판다스 - 원핫인코딩 : get_dummies 범주형 데이터는 연산이 어렵기 때문에 숫자형으로 처리 가능하게 바꿔주는 것 범주형 데이터의 각 범주(category)를 컬럼 레벨로 변경 해당 범주에 해당하면 1로..
Machine Learning - Label Encoding (라벨 인코딩) https://steadiness-193.tistory.com/236 판다스 - 라벨링(Labeling) 머신러닝을 진행하기 위해서는 문자열을 숫자로 바꿔줘야 한다. 소형 → 0 / 중형 → 1 / 대형 → 2 이런 식이다. 데이터 불러오기 race 컬럼의 고유값 라벨링 목표 White → 0 Black →1 Asian-Pac-Islander. steadiness-193.tistory.com 위 포스팅에서도 해보았으나 이번엔 sklearn.preprocessing 패키지에 있는 LabelEncoder를 이용해본다. 범주형 변수를 수치형 변수로 변경 [Label Encoding] 라벨 인코딩은 n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현 소 → 0 / 중 → 1 / 대 → 2 주의..
Machine Learning - Scaling : Standard Scaling (Z-score) [Z-score] 데이터를 통계적으로 표준정규분포화 평균= 0, 표준편차= 1 데이터(x)에서 평균을 뺀 값을 표준편차로 나눠준다. 데이터 불러오기 및 결측치 처리 결측치 처리는 아래 포스팅 참조 https://steadiness-193.tistory.com/239?category=961040 Machine Learning - 결측값 처리(Imputation) : mean 데이터 불러오기 categorical, numeric 컬럼 구분 리스트 제작 간단히, 자료형이 object라면 categorical이고 int나 float이라면 numeric이라 보면 된다. 방법1. for loop 이용 방법2. 직접 명시 + 리스트 이용.. steadiness-193.tistory.com 복사본 만들기 (1) Sta..