본문 바로가기

Machine Learning

(47)
Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리 필요 라이브러리 호출 데이터 불러오기 생존 여부(Survived)의 빈도수를 확인하고 고의로 class imbalanced를 유도하기 위해 1값을 가진 행을 일부 랜덤하게 삭제한다. 342행에서 205행으로 줄어들었다. 불필요 컬럼 삭제 및 이름에서 Title 컬럼 추출 분리할 data는 총 754행으로 확인 숫자형, 카테고리형 컬럼 뽑아두기 누락값 확인 라벨 인코딩 전처리 프로세스 ..
Clustering - 최적의 군집 수 구하기 : Elbow Method, silhouette, 손실함수 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 : DACON - Data Science Competition dacon.io 각 컬럼의 정보 id 선수 고유의 아이디 name 이름 age 나이 continent 선.. steadiness-193.tistory.com 위에서 전처리 완료한 데이터를 이용한다. 1. K-Means 1-1. Elbow Method Cluster 간의 거리의 합을 나타내는 inertia가 급격히 떨어지는 구간이 생기는데 이 지점의 K 값을 군집의 개수로 사용 inertia_속성으로 ..
Clustering - 모델 평가 : Silhouette Silhouette (실루엣) 군집을 만든 결과가 얼마나 유용한지 따지는 군집타당성지표(Clustering Validity Index) 중 하나. 한 군집 내의 데이터들이 다른 군집과 비교해 얼마나 비슷한지를 나타내는 값 수식 a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 각각 구한 뒤, 이 가운데 가장 작은 값 즉, i번째 개체가 속한 군집과 가장 근접한 군집간, 거리의 평균 값 a(i)는 검정 사각형 표시된 데이터와 파란색 군집 내 포인트들 사이의 평균 거리 b(i)는 검정 사각형 표시된 데이터와 오렌지색 군집 내 포인트들 사이의 평균 거리 다시 한번 수식을 보면 가장 이상적인 것은 한 군집의 객체..
Clustering - DBSCAN DBSCAN (Density-based spatial clustering of applications with noise) 데이터의 밀도를 이용해 군집화하는 알고리즘 '동일한 클래스에 속하는 데이터는 서로 근접하게 분포할 것이다'라는 가정으로 시작 밀도 기반이기에 불특정한 분포의 데이터를 군집화하는데 이용할 수 있다. 위 그림처럼 군집의 형태에 구애받지 않으며 밀도 기반으로 알아서 클러스터링 되기에 군집의 갯수를 사용자가 지정할 필요가 없다. DBSCAN의 장점 1. 군집 수를 미리 정할 필요가 없다. 2. 불특정한 분포, 기하학적 모양의 군집도 잘 찾아낸다. (비선형적 클러스터링 가능) 3. 노이즈에 강하다. (클러스터링 수행 동시에 아웃라이어 분류 가능) DBSCAN의 단점 1. 데이터 입력 순서에 ..
Feature Selection - Feature_importances + Permutation Importance https://steadiness-193.tistory.com/280 Feature Selection - Feature_importances https://steadiness-193.tistory.com/261 Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistor.. steadiness-193.tistory.com https://steadiness-193.tistory.com/281 Feature Selection - Permutation Importance Permutation Impo..
Feature Selection - Permutation Importance Permutation Importance 모델 fitting이 끝난 뒤에 측정한다. Validation의 한 컬럼만 무작위로 섞은 뒤 정확도를 측정한다. 위 작업을 모든 컬럼에 대해서 진행하며 모델이 예측에 크게 의존하는 열을 섞으면 정확도가 크게 떨어지는데, 이를 이용하는 것이다. 위 과정을 완료한 뒤 각 컬럼별 weight의 값과 feature를 리턴해낸다. Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.com/253 Machine Learning - 랜덤으로 train과 test로..
Feature Selection - Feature_importances https://steadiness-193.tistory.com/261 Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com https://steadiness-193.tistory.com/263 Classification - XGBClassifier [XGBoost] 부트스트래핑(Bootstrappi..
Clustering - Hierarchical Clustering [Hierarchical Clustering] 계층적 트리 모형을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘 K-means 군집화와 달리 군집 수를 사전에 정하지 않아도 됨 (덴드로그램, Dendrogram 이용) 거리(Distance) 또는 유사도(Similarity)를 기반으로 클러스터를 형성 Agglomerative Method 응집형 계층적 클러스터링 각 데이터 지점에서 시작해 유사한 지점들을 함께 결합해 클러스터를 형성 (Bottom-up) 연결기준 (유클리디안 거리) 1. Single Linkage - 두 클러스터 내의 가장 가까운 점 사이의 거리 먼 거리에 있는 이상한 데이터의 영향을 최소화할 수 있다. 2. Complete Link..