본문 바로가기

Machine Learning/군집(Clustering)

Clustering - 최적의 군집 수 구하기 : Elbow Method, silhouette, 손실함수

반응형

https://steadiness-193.tistory.com/269

 

Regression - FIFA 이적료 예측 : 전처리

dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 : DACON - Data Science Competition dacon.io 각 컬럼의 정보 id 선수 고유의 아이디 name 이름 age 나이 continent 선..

steadiness-193.tistory.com

위에서 전처리 완료한 데이터를 이용한다.

 

 

1. K-Means

 

1-1. Elbow Method

Cluster 간의 거리의 합을 나타내는 inertia가 급격히 떨어지는 구간이 생기는데

이 지점의 K 값을 군집의 개수로 사용

inertia_속성으로 확인할 수 있다.
 

Clustering - K-means

Cluster (클러스터) 비슷한 특성을 가진 데이터들끼리의 묶음 Clustering (클러스터링) 데이터들을 군집(클러스터, 무리)으로 묶어주는 작업 라벨링된 데이터를 묶는 작업으로, 비지도 학습으로 분류�

steadiness-193.tistory.com

 

 

 

숫자로만 보면 감소 정도를 파악하기 어려우니 시각화를 해보자

 

 

 

 

이처럼 그래프가 꺾이는 모양이 팔꿈치 같아 Elbow method라고 불린다.

 

 

위 그래프에 의하면 K 값은 3 또는 4가 적당해 보인다.

 

 

 

 

 

 

1-2. 손실함수

K-Means Clustering으로 만든 feature를 머신러닝 Model에서 결국 사용하기 때문에

K 값도 하나의 하이퍼 파라미터로 보고 평가 점수가 가장 좋게 나오는 K를 선택해서 사용

 

 

총 48번 K의 값을 올려가며 검증을 하고

 

평가 지표는 R-squared와 RMSLE를 이용한다.

 

 

 

 

RMSLE가 가장 낮게 나온 군집의 개수 K는 7이다.

 

 

 

왼쪽 : 원본의 평가 결과 / 오른쪽 : 군집을 feature로 추가한 뒤의 평가 결과

 

 

원본의 RMSLE 값보다(0.006282)

군집을 feature로 추가한 데이터의 RMSLE가(0.006244) 더 낮게 나왔다.

 

 

 

 

 

1-3. silhouette (실루엣)

군집타당성지표인 실루엣 점수를 이용한다.

1에 가까울 수록 적절한 군집화가 되었다고 판단한다.
 

Clustering - 모델 평가 : Silhouette

Silhouette (실루엣) 군집을 만든 결과가 얼마나 유용한지 따지는 군집타당성지표(Clustering Validity Index) 중 하나. 한 군집 내의 데이터들이 다른 군집과 비교해 얼마나 비슷한지를 나타내는 값 수식 a

steadiness-193.tistory.com

 

 

실루엣 점수에 의하면 최적의 군집 수는 2개다.

 

 

 

 

정리 표

  Elbow Method 손실함수
(RMSLE)
Silhouette
K-Means 3-4개 7개 2개

 

 

각 방법마다 최적의 K 개수가 다르게 나왔다.

 

 

 

 

 

 

2. Hierarchical Clustering

 

계층적 군집화는 아직 fit_predict 밖에 없기 때문에

 

손실함수는 건너뛰고 실루엣으로만 확인해본다.

 

 

 

연결기준과 군집의 개수에 따라 실루엣 점수를 측정했다.

 

2개부터 10개까지 나눠봤으며, 보는 바와 같이 군집이 적을 수록 점수가 높은 경향이 있다.

 

 

모든 연결 방법에서 제일 점수가 좋은 군집의 개수는 2개다.

 

또한 대체적으로 single linkage가 좋은 점수를 보이고 있다.

 

 

 

 

이처럼 다양한 기준이 있으므로 분석하고자 하는 목표, 방향 뿐만 아니라

 

사후 분석의 용이성을 위해서 여러 방면으로 검증을 해봐야 한다.

 

 

참조

www.kaggle.com/tmheo74/geo-data-eda-and-feature-engineering#K-Means-Clustering---Lat,-Long

반응형

'Machine Learning > 군집(Clustering)' 카테고리의 다른 글

Clustering - 모델 평가 : Silhouette  (0) 2020.09.17
Clustering - DBSCAN  (0) 2020.09.16
Clustering - Hierarchical Clustering  (0) 2020.09.15
Clustering - K-means  (0) 2020.09.15