본문 바로가기

Data_Analysis

(294)
Validation - Voting Ensemble (VotingClassifier) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋과 함수를 이용한다. 필요 라이브러리 호출 및 데이터셋 설정 우선 Voting Ensemble을 하기 전에 그리드 서치를 통해 각 모델별로 최적의 파라미터를 설정한 best estimator를 가져온다. ..
Validation - GridSearchCV https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋을 이용한다. Grid Search 클래스 객체에 fit 메서드를 호출하면 grid search를 사용하여 자동으로 복수개의 내부 모형을 생성하고 이를 모두 실행시켜서 최적 파라미터를 찾아준다. 파라미터를..
Validation - StratifiedKFold (Cross Validation) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋을 이용하며 class imbalance 상황에서 썼던 KFold의 단점을 보완하는 방법을 알아보자. Stratify KFold 분류할 클래스의 비율이 다르다면 이를 반영해서 k개의 fold를 해야한다. ..
Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리 필요 라이브러리 호출 데이터 불러오기 생존 여부(Survived)의 빈도수를 확인하고 고의로 class imbalanced를 유도하기 위해 1값을 가진 행을 일부 랜덤하게 삭제한다. 342행에서 205행으로 줄어들었다. 불필요 컬럼 삭제 및 이름에서 Title 컬럼 추출 분리할 data는 총 754행으로 확인 숫자형, 카테고리형 컬럼 뽑아두기 누락값 확인 라벨 인코딩 전처리 프로세스 ..
Clustering - 최적의 군집 수 구하기 : Elbow Method, silhouette, 손실함수 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 : DACON - Data Science Competition dacon.io 각 컬럼의 정보 id 선수 고유의 아이디 name 이름 age 나이 continent 선.. steadiness-193.tistory.com 위에서 전처리 완료한 데이터를 이용한다. 1. K-Means 1-1. Elbow Method Cluster 간의 거리의 합을 나타내는 inertia가 급격히 떨어지는 구간이 생기는데 이 지점의 K 값을 군집의 개수로 사용 inertia_속성으로 ..
Clustering - 모델 평가 : Silhouette Silhouette (실루엣) 군집을 만든 결과가 얼마나 유용한지 따지는 군집타당성지표(Clustering Validity Index) 중 하나. 한 군집 내의 데이터들이 다른 군집과 비교해 얼마나 비슷한지를 나타내는 값 수식 a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 각각 구한 뒤, 이 가운데 가장 작은 값 즉, i번째 개체가 속한 군집과 가장 근접한 군집간, 거리의 평균 값 a(i)는 검정 사각형 표시된 데이터와 파란색 군집 내 포인트들 사이의 평균 거리 b(i)는 검정 사각형 표시된 데이터와 오렌지색 군집 내 포인트들 사이의 평균 거리 다시 한번 수식을 보면 가장 이상적인 것은 한 군집의 객체..
Clustering - DBSCAN DBSCAN (Density-based spatial clustering of applications with noise) 데이터의 밀도를 이용해 군집화하는 알고리즘 '동일한 클래스에 속하는 데이터는 서로 근접하게 분포할 것이다'라는 가정으로 시작 밀도 기반이기에 불특정한 분포의 데이터를 군집화하는데 이용할 수 있다. 위 그림처럼 군집의 형태에 구애받지 않으며 밀도 기반으로 알아서 클러스터링 되기에 군집의 갯수를 사용자가 지정할 필요가 없다. DBSCAN의 장점 1. 군집 수를 미리 정할 필요가 없다. 2. 불특정한 분포, 기하학적 모양의 군집도 잘 찾아낸다. (비선형적 클러스터링 가능) 3. 노이즈에 강하다. (클러스터링 수행 동시에 아웃라이어 분류 가능) DBSCAN의 단점 1. 데이터 입력 순서에 ..
Feature Selection - Feature_importances + Permutation Importance https://steadiness-193.tistory.com/280 Feature Selection - Feature_importances https://steadiness-193.tistory.com/261 Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistor.. steadiness-193.tistory.com https://steadiness-193.tistory.com/281 Feature Selection - Permutation Importance Permutation Impo..