본문 바로가기

Machine Learning/군집(Clustering)

(5)
Clustering - 최적의 군집 수 구하기 : Elbow Method, silhouette, 손실함수 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 : DACON - Data Science Competition dacon.io 각 컬럼의 정보 id 선수 고유의 아이디 name 이름 age 나이 continent 선.. steadiness-193.tistory.com 위에서 전처리 완료한 데이터를 이용한다. 1. K-Means 1-1. Elbow Method Cluster 간의 거리의 합을 나타내는 inertia가 급격히 떨어지는 구간이 생기는데 이 지점의 K 값을 군집의 개수로 사용 inertia_속성으로 ..
Clustering - 모델 평가 : Silhouette Silhouette (실루엣) 군집을 만든 결과가 얼마나 유용한지 따지는 군집타당성지표(Clustering Validity Index) 중 하나. 한 군집 내의 데이터들이 다른 군집과 비교해 얼마나 비슷한지를 나타내는 값 수식 a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 각각 구한 뒤, 이 가운데 가장 작은 값 즉, i번째 개체가 속한 군집과 가장 근접한 군집간, 거리의 평균 값 a(i)는 검정 사각형 표시된 데이터와 파란색 군집 내 포인트들 사이의 평균 거리 b(i)는 검정 사각형 표시된 데이터와 오렌지색 군집 내 포인트들 사이의 평균 거리 다시 한번 수식을 보면 가장 이상적인 것은 한 군집의 객체..
Clustering - DBSCAN DBSCAN (Density-based spatial clustering of applications with noise) 데이터의 밀도를 이용해 군집화하는 알고리즘 '동일한 클래스에 속하는 데이터는 서로 근접하게 분포할 것이다'라는 가정으로 시작 밀도 기반이기에 불특정한 분포의 데이터를 군집화하는데 이용할 수 있다. 위 그림처럼 군집의 형태에 구애받지 않으며 밀도 기반으로 알아서 클러스터링 되기에 군집의 갯수를 사용자가 지정할 필요가 없다. DBSCAN의 장점 1. 군집 수를 미리 정할 필요가 없다. 2. 불특정한 분포, 기하학적 모양의 군집도 잘 찾아낸다. (비선형적 클러스터링 가능) 3. 노이즈에 강하다. (클러스터링 수행 동시에 아웃라이어 분류 가능) DBSCAN의 단점 1. 데이터 입력 순서에 ..
Clustering - Hierarchical Clustering [Hierarchical Clustering] 계층적 트리 모형을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘 K-means 군집화와 달리 군집 수를 사전에 정하지 않아도 됨 (덴드로그램, Dendrogram 이용) 거리(Distance) 또는 유사도(Similarity)를 기반으로 클러스터를 형성 Agglomerative Method 응집형 계층적 클러스터링 각 데이터 지점에서 시작해 유사한 지점들을 함께 결합해 클러스터를 형성 (Bottom-up) 연결기준 (유클리디안 거리) 1. Single Linkage - 두 클러스터 내의 가장 가까운 점 사이의 거리 먼 거리에 있는 이상한 데이터의 영향을 최소화할 수 있다. 2. Complete Link..
Clustering - K-means Cluster (클러스터) 비슷한 특성을 가진 데이터들끼리의 묶음 Clustering (클러스터링) 데이터들을 군집(클러스터, 무리)으로 묶어주는 작업 라벨링된 데이터를 묶는 작업으로, 비지도 학습으로 분류됨 K-mean 클러스터링 각 클러스터에 할당된 데이터 포인트들의 평균 좌표를 이용해 중심점을 반복적으로 업데이트하며 클러스터를 형성하는 알고리즘 K는 군집의 개수를 의미하며 사용자가 조정해야하는 파라미터 Centroid (중심점) 클러스터의 중심 작동원리 1. 클러스터의 수(K) 설정 (n_clusters) 2. init 파라미터의 기본값인 k-means++ 방식으로 centroid1, 2, 3, ..., n개 찾음 centroid1에서 제일 멀리 떨어져 있는 데이터를 centroid2로 찾고 cen..