How to cite: Sürücü M. Improvement of cnn network parameters in turkish music emotion recognition. Akıllı Sistemler ve Uygulamaları Dergisi (Journal of Intelligent Systems with Applications) 2022; 5(2): 126-131.
Full Text: PDF, in English.
Total number of downloads: 461
Title: Improvement of CNN Network Parameters in Turkish Music Emotion Recognition
Abstract: Music has been an integral part of humanity throughout history. People have conveyed their emotional expressions through music, and musical styles have evolved alongside communities. Despite the diversity of styles, music has always existed within an emotional context. Therefore, measuring the emotional expressions conveyed by music has given rise to a broad field of study encompassing art, science, history, and sociology. Additionally, with the proliferation of electronic music platforms, the ability to automatically identify the emotional genres of music has become a prominent feature sought after by end users. In this context, while numerous studies have been conducted in various languages, there is a scarcity of research specifically tailored to the Turkish language. For successful execution of processes that can be automated through machine learning, several factors need to be considered: the proper selection of data preprocessing methods, determination of the structure and complexity of the model to be trained, accurate selection of training and testing data, and more. Optimal performance cannot be achieved solely through the correct choice of a model, as flawed data preprocessing can hinder results, and conversely, accurate data preprocessing cannot compensate for a faulty model. This article aims to enhance the performance of a rare music emotion recognition study conducted in the Turkish language by constructing a "problem-specific network model." To achieve this goal, data subjected to various normalization techniques were analyzed using Convolutional Neural Network (CNN) models of different dimensions and complexities. The achievements were compared with two different classifiers to establish a reference point in comparison with previous studies. At the end of the study, it was observed that for data subjected to MinMax normalization, a success rate of 86.67% was achieved with the Softmax classifier and 80% with the SVM classifier. Similarly, with Z-Score normalization, success rates of 84.17% and 81.67% were obtained, respectively. These values are higher than the highest achievement value of 74.2% obtained for the same data group in the reference study. Furthermore, it is believed that applying the additional performance-enhancing procedures used in the reference study to the models in this study would lead to even higher achievements.
Keywords: CNN, model selecting, hyperparameters, normalization
Başlık: Türk Müziği Duygu Tanımasında CNN Ağ Parametrelerinin İyileştirilmesi
Özet: Müzik, tarih boyunca insanlığın ayrılmaz bir parçası olmuştur. İnsanlar duygusal ifadelerini müziğin aracılığıyla aktarmış ve topluluklarla birlikte müzik tarzları da evrimleşmiştir. Farklı tarzlarda olmalarına rağmen, müzik her zaman duygusal bir bağlamda var olmuştur. Bu nedenle, müziğin hangi duygusal ifadeleri taşıdığının ölçülmesi, sanattan bilime, tarihten sosyolojiye geniş bir çalışma alanı oluşturmuştur. Ayrıca, elektronik müzik platformlarının yaygınlaşmasıyla birlikte, müziğin duygusal türlerini otomatik olarak belirleyebilmek, son kullanıcıların aradığı özellikler arasında öne çıkmaktadır. Bu bağlamda, farklı dillerde bu konuda birçok çalışma yapılmış olsa da, Türkçe diline özgü çalışmalar oldukça sınırlıdır. Makine öğrenmesi sayesinde otomatikleştirilebilen işlemlerin başarılı bir şekilde gerçekleştirilebilmesi için, veri ön işleme yöntemlerinin doğru bir şekilde seçilmesi, eğitilecek modelin yapısının ve karmaşıklığının belirlenmesi, eğitim ve test verilerinin doğru bir şekilde seçilmesi gibi faktörler üzerinde çalışmak gerekmektedir. Doğru bir model seçimi ile hatalı veri ön işlemesi sonucunda en yüksek başarı elde edilemeyeceği gibi, tersi durumda doğru veri ön işlemesi ile hatalı bir model de başarılı sonuçlar üretemeyecektir. Bu makalede, Türkçe dilinde yapılan nadir müzik duygu tanıma çalışmalarından birine yönelik olarak, "problem özgü ağ modeli" oluşturarak başarımın arttırılması amaçlanmıştır. Bu amaç doğrultusunda, farklı veri normalizasyon yöntemlerine tabi tutulmuş veriler, farklı boyut ve karmaşıklıkta Evrişimli Sinir Ağı (CNN) modelleri kullanılarak analiz edilmiş ve önceki çalışma ile referans olması adına iki farklı sınıflandırıcı ile olan başarımları incelenmiştir. Çalışmanın sonucunda, MinMax normalleştirmeye tabi tutulmuş veriler için Softmax sınıflandırıcının %86,67 ve SVM sınıflandırıcının %80 başarı elde ettiği gözlenmiştir. Benzer şekilde, Z-Skor normalleştirme ile elde edilen sonuçlar ise %84,17 ile %81,67 olarak bulunmuştur. Bu değerler, referans çalışmasında aynı veri grubu için elde edilen en yüksek başarı değeri olan %74,2'den daha yüksektir. Ayrıca, referans çalışmasında kullanılan diğer performans artırıcı işlemlerin bu çalışmanın modellerine uygulanmasıyla daha yüksek başarılar elde edilebileceği düşünülmektedir.
Anahtar kelimeler: CNN, model seçimi, hiperparametre, normalleştirme