[WEKA] 클러스터링 알고리즘 - 클러스터 수 결정하기
- 컴퓨터공학과/그외
- 2013. 8. 12.
클러스터링 알고리즘
다음은 WEKA에서 지원하는 클러스터링 알고리즘들이다.
CLOPE
Cobweb
DBSCAN
EM
FarthestFirst
FilteredClusterer
HierarchicalClusterer
MakeDensityBasedClusterer
OPTICS
sIB
SimpleKMeans
XMeans
자동으로 클러스터 수를 결정하는 알고리즘
자동으로 클러스터 수가 결정되는 알고리즘의 성능을 비교하는 실험을 진행하기 위해 실험에 앞서 우선 WEKA에서 지원하는 클러스터링 알고리즘 중에서 자동으로 클러스터 수가 결정되는 알고리즘을 찾아보았다.
그동안 내가 공부해왔던 것과 WEKA 툴 메뉴얼에 설명되어 있는 것으로 보았을 때 WEKA에서 자동으로 클러스터 수가 결정되는 듯한 것은 EM 알고리즘과 X-means 알고리즘이다.
1) EM 알고리즘
EM 알고리즘은 원하는 클러스터 수를 numClusters 파라미터로 넣을 수도 있지만, numClusters에 -1을 기입하면 cross-validation을 통해 가장 적합한 클러스터 수를 자동으로 생성해낸다.
numClusters : set number of clusters. -1 to select number of clusters automatically by cross validation.
2) XMeans 알고리즘
또한 그동안 클러스터링 관련연구를 보면서 『Software Fault Prediction of Unlabeled Program Modules』에서 보았듯이 XMeans 알고리즘 역시 클러스터 수 결정이 자동화된다.
* 관련 연구
1. Software Fault Prediction of Unlabeled Program Modules, C. Catal, U. Sevim, and B. Diri
... X-means: One drawback of k-means algorithm is the selection of the number of clusters, k, as an input parameter. Pelleg and Moore [12] developed an algorithm to solve this problem and used the Bayesian Information Criterion (BIC) or the Akaike Information Criterion (AIC) measure for optimization [9]. Rather than choosing the specific number of clusters, k, x-means needs kmin and kmax values. The algorithm starts with kmin value and adds centroids if needed. The BIC or Schwarz criterion is applied to split some centroids into two and hence new centroids are created [9]. Final centroid set is the one that has the best score....
2. X-means: Extending K-means with Efficient Estimation of the Number of Clusters (2000) by Dau Pelleg , Andrew Moore
Despite its popularity for general clustering, K-means suffers three major shortcomings; it scales poorly computationally, the number of clusters K has to be supplied by the user, and the search is prone to local minima. We propose solutions for the first two problems, and a partial remedy for the third. Building on prior work for algorithmic acceleration that is not based on approximation, we introduce a new algorithm that efficiently, searches the space of cluster locations and number of clusters to optimize the Bayesian Information Criterion (BIC) or the Akaike Information Criterion (AIC) measure. The innovations include two new ways of exploiting cached sufficient statistics and a new very efficient test that in one K-means sweep selects the most promising subset of classes for refinement. This gives rise to a fast, statistically founded algorithm that outputs both the number of classes and their parameters. Experiments show this technique reveals the true number of classes in the underlying distribution, and that it is much faster than repeatedly using accelerated K-means for different values of K.
추가적으로!
CLOPE, Cobweb, DBSCAN, OPTICS은 numClusters 파라미터가 따로 있진 않지만 결국 사용자가 넣은 파라미터에 따라 결정된다. 맞나? 좀 더 찾아봐야겠다.
WKEA에서 지원하는 클러스터링 알고리즘 비교가 되어있는 저널을 찾았다. 살펴 봐야지!
http://www.ijetae.com/files/Volume2Issue5/IJETAE_0512_13.pdf
'컴퓨터공학과 > 그외' 카테고리의 다른 글
[데이터마이닝] 빅데이터 OT강의 (0) | 2014.01.03 |
---|---|
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우 (0) | 2013.12.20 |
[데이터마이닝] 빅데이터에 대한 송길영 부사장의 이야기 (1) | 2013.12.12 |
KAIST 웹사이언스공학 (0) | 2013.03.08 |
[JSP] 개발환경구축 - ① JDK 설치 (0) | 2012.07.13 |