본문 바로가기

Data_Analysis

(294)
Feature Selection - Permutation Importance Permutation Importance 모델 fitting이 끝난 뒤에 측정한다. Validation의 한 컬럼만 무작위로 섞은 뒤 정확도를 측정한다. 위 작업을 모든 컬럼에 대해서 진행하며 모델이 예측에 크게 의존하는 열을 섞으면 정확도가 크게 떨어지는데, 이를 이용하는 것이다. 위 과정을 완료한 뒤 각 컬럼별 weight의 값과 feature를 리턴해낸다. Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.com/253 Machine Learning - 랜덤으로 train과 test로..
Feature Selection - Feature_importances https://steadiness-193.tistory.com/261 Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com https://steadiness-193.tistory.com/263 Classification - XGBClassifier [XGBoost] 부트스트래핑(Bootstrappi..
Clustering - Hierarchical Clustering [Hierarchical Clustering] 계층적 트리 모형을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘 K-means 군집화와 달리 군집 수를 사전에 정하지 않아도 됨 (덴드로그램, Dendrogram 이용) 거리(Distance) 또는 유사도(Similarity)를 기반으로 클러스터를 형성 Agglomerative Method 응집형 계층적 클러스터링 각 데이터 지점에서 시작해 유사한 지점들을 함께 결합해 클러스터를 형성 (Bottom-up) 연결기준 (유클리디안 거리) 1. Single Linkage - 두 클러스터 내의 가장 가까운 점 사이의 거리 먼 거리에 있는 이상한 데이터의 영향을 최소화할 수 있다. 2. Complete Link..
Clustering - K-means Cluster (클러스터) 비슷한 특성을 가진 데이터들끼리의 묶음 Clustering (클러스터링) 데이터들을 군집(클러스터, 무리)으로 묶어주는 작업 라벨링된 데이터를 묶는 작업으로, 비지도 학습으로 분류됨 K-mean 클러스터링 각 클러스터에 할당된 데이터 포인트들의 평균 좌표를 이용해 중심점을 반복적으로 업데이트하며 클러스터를 형성하는 알고리즘 K는 군집의 개수를 의미하며 사용자가 조정해야하는 파라미터 Centroid (중심점) 클러스터의 중심 작동원리 1. 클러스터의 수(K) 설정 (n_clusters) 2. init 파라미터의 기본값인 k-means++ 방식으로 centroid1, 2, 3, ..., n개 찾음 centroid1에서 제일 멀리 떨어져 있는 데이터를 centroid2로 찾고 cen..
Regression - 모델 평가 : MSE, MAE, RMSE, RMSLE, R-Squared MSE 회귀 모델의 주요 손실함수 예측값과 실제값의 차이인 오차들의 제곱 평균으로 정의한다. 제곱을 하기 때문에 특이치(아웃라이어)에 민감하다. MAE 실제값과 예측값의 차이인 오차들의 절댓값 평균 MSE보다는 특이치에 덜 민감하다. RMSE MSE에 root를 씌운 값 오류 지표를 실제 값과 유사한 단위로 다시 변환하기에 해석이 다소 용이해진다. RMSLE 오차를 구할 때 RMSE와는 log를 추가하는 점이 다르다. RMSLE의 특징 1. 아웃라이어에 덜 민감하다. (robust) : 아웃라이어가 있더라도 값의 변동폭이 크지 않다. 2. 상대적 Error를 측정해준다. 값의 절대적 크기가 커지면 RMSE의 값도 커지지만, RMSLE는 상대적 크기가 동일하다면 RMSLE의 값도 동일하다. 예측값 = 10..
Regression - RandomForestRegressor, XGBRegressor, LGBMRegressor Random Forest Regressor Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com 위 포스팅의 Classifier대신 Regressor를 이용한다. 데이터 불러오기 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전..
Regression - SVR https://steadiness-193.tistory.com/259 Classification - SVM 서포트 벡터 머신 https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com 서포트 벡터 머신에 대한 내용은 위 포스팅에 있다. SVC와 같이 마진을 최대화할 수 있는 결정경계를 그려나가는 것이 바로 SVR이다. 데이터 불러오기 https://steadiness-193..
Regression - Multi Layer Perceptron Regressor Multi Layer Perceptron Regressor MLP : Input-Hidden-Output으로 구성된 뉴럴 네트워크 Hidden layer에 존재하는 노드는 기본 선형 회귀 모델과 동일하게 wx + b로 이루어져 있다. 이러한 선형 분리를 할 수 있는 모델을 여러 개 모아서 비선형 분리를 해내는 것이 MLPRegressor이다. 4개의 벡터 공간을 선형 분리하는 퍼셉트론들이 하나의 비선형 공간을 분류할 수 있는 벡터 공간을 형성 데이터 불러오기 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 :..