How to cite: Onan A. Metaheuristics based clustering algorithms on document clustering. Akıllı Sistemler ve Uygulamaları Dergisi (Journal of Intelligent Systems with Applications) 2019; 2(1): 39-45.
Full Text: PDF, in Turkish.
Total number of downloads: 980
Title: Metaheuristics Based Clustering Algorithms on Document Clustering
Abstract: Cluster analysis is an important exploratory data analysis technique which divides data into groups based on their similarity. Document clustering is the process of employing clustering algorithms on textual data so that text documents can be retrieved, organized, navigated and summarized in an efficient way. Document clustering can be utilized in the organization, summarization and classification of text documents. Metaheuristic algorithms have been successfully utilized to deal with complex optimization problems, including cluster analysis. In this paper, we analyze the clustering quality of five metaheuristic clustering algorithms (namely, particle swarm optimization, genetic algorithm, cuckoo search, firefly algorithm and yarasa algorithm) on fifteen text collections in term of F-measure. In the empirical analysis, two conventional clustering algorithms (K-means and bi-secting k-means) are also considered. The experimental analysis indicates that swarm-based clustering algorithms outperform conventional clustering algorithms on text document clustering.
Keywords: Document clustering; swarm intelligence; metaheuristic algorithms
Başlık: Metin Belgesi Kümelemede Metasezgisel Yöntemlere Dayalı Kümeleme Algoritmaları
Özet: Kümeleme analizi, verileri benzerliklerine göre gruplarına ayıran önemli bir veri analizi tekniğidir. Belge kümeleme, kümeleme algoritmalarının metin belgeleri üzerinde uygulanması ile belgelerin etkin bir biçimde geri getiriminin, organizasyonunun, erişiminin ve özetlenmesinin olanaklı hale gelmesini sağlar. Belge kümeleme, metin belgelerinin organizasyonu, özetlenmesi ve sınıflandırılmasında kullanılabilir. Metasezgisel algoritmalar, aralarında kümeleme analizinin de yer aldığı birçok karmaşık eniyileme probleminin çözümünde uygulanmaktadır. Bu çalışmada, beş metasezgisel kümeleme algoritmasının (parçacık sürüsü eniyilemesi, genetik algoritma, guguk kuşu algoritması, ateşböceği algoritması ve yarasa algoritması) on beş metin veri seti üzerinde F-ölçütü aracılığı ile değerlendirilmiştir. Deneysel analizlerde, iki geleneksel kümeleme algoritması (K-ortalama ve ikiye ayırma Kortalama) da dikkate alınmıştır. Deneysel analiz sonuçları, sürü zekasına dayalı kümeleme algoritmalarının daha yüksek başarım elde ettiğini göstermektedir.
Anahtar kelimeler: Belge kümeleme; sürü zekası; metasezgisel algoritmalar