Автоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережами

Основний зміст сторінки статті

Yaroslav Yuriiovych Dorogyi
Vasyl Vasylovych Tsurkan
Oleksandr S Khapilin

Анотація

В статті розглядаються алгоритми для автоматичного розпізнавання музичних жанрів та пропонується використання глибоких згорткових нейронних мереж для цієї задачі. Спираючись на реальні дані, окреслено архітектуру мережі та оцінено її якість. Робота виконана з використанням дата-сету GTZAN. Було розглянуто задачу класифікації для чотирьох та десяти жанрів з використанням мел-кепстральних коефіцієнтів та аудіохвилі в якості ознак. Якість запропонованого алгоритму було протестовано на відкладених даних для чотирьох та десяти різних жанрів та порівняно з використанням обмеженої машини Больцмана для чотирьох жанрів.

Бібл. 11, рис. 3, табл. 2.

Блок інформації про статтю

Як цитувати
Dorogyi, Y. Y., Tsurkan, V. V., & Khapilin, O. S. (2018). Автоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережами. Електронна та Акустична Інженерія, 1(1), 45–50. https://doi.org/10.20535/2617-0965.2018.1.1.105159
Розділ
Телекомунікації та захист інформації
Біографії авторів

Yaroslav Yuriiovych Dorogyi, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри АУТС "КПІ ім. Ігоря Сікорського"

Vasyl Vasylovych Tsurkan, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

доцент кафедри ПСКЗ "КПІ ім. Ігоря Сікорського"

Oleksandr S Khapilin, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Магістр кафедри АУТС "КПІ ім. Ігоря Сікорського"

Посилання

H. Lee, P. Pham, Y. Largman, and A. Y. Ng, “Unsupervised feature learning for audio classification using convolutional deep belief networks,” in Advances in Neural Information Processing Systems 22, Curran Associates, Inc., 2009, pp. 1096–1104, URL: http://papers.nips.cc/paper/3674-unsupervised-feature-learning-for-audio-classification-using-convolutional-deep-belief-networks.pdf.

T. Feng, “Deep learning for music genre classification,” URL: https://courses.engr.illinois.edu/ece544na/fa2014/Tao_Feng.pdf.

M. Haggblade, Y. Hong, and K. Kao, “Music Genre Classification,” Stanfor, 2009, URL: https://cs229.stanford.edu/Fproj2011/HaggbladeHongKao-MusicGenreClassification.pdf&usg=AOvVaw1Nc3dcWm4P4rW6UsiLu712.

G. E. Hinton, S. Osindero, and Y.-W. Teh, “A Fast Learning Algorithm for Deep Belief Nets,” Neural Comput., vol. 18, no. 7, pp. 1527–1554, 2006, DOI: 10.1162/neco.2006.18.7.1527.

Y. Cai, D. Ji, and D. Cai, “A KNN Research Paper Classification Method Based on Shared Nearest Neighbor,” in NTCIR-8 Workshop Meeting, 2010, pp. 336–340.

T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D. Piatko, R. Silverman, and A. Y. Wu, “An efficient k-means clustering algorithm: analysis and implementation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 7, pp. 881–892, 2002, DOI: 10.1109/TPAMI.2002.1017616.

M. Mandel and D. Ellis, “Song-Level Features And Support Vector Machines For Music Classification,” in 6th International Conference on Music Information Retrieval, 2005, pp. 594–599, URL: http://ismir2005.ismir.net/proceedings/1106.pdf.

I. Goodfellow, Y. Bengio, and A. Courville, “Deep feedforward networks,” in Deep learning, The MIT Press, 2016, pp. 164–223, URL: http://worldcat.org/isbn/9780262035613.

G. Tzanetakis, G. Essl, and P. Cook, “Automatic Musical Genre Classification Of Audio Signals,” in 2nd Annual International Symposium on Music Information Retrieval 2001, 2001, URL: http://ismir2001.ismir.net/pdf/tzanetakis.pdf.

J. Leben, “Data Sets,” MARSYAS, 2001. [Online]. Available: http://marsyas.info/downloads/datasets.html.

A. van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” Sep. 2016, arXiv: 1609.03499v2.