Автоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережами
Основний зміст сторінки статті
Анотація
В статті розглядаються алгоритми для автоматичного розпізнавання музичних жанрів та пропонується використання глибоких згорткових нейронних мереж для цієї задачі. Спираючись на реальні дані, окреслено архітектуру мережі та оцінено її якість. Робота виконана з використанням дата-сету GTZAN. Було розглянуто задачу класифікації для чотирьох та десяти жанрів з використанням мел-кепстральних коефіцієнтів та аудіохвилі в якості ознак. Якість запропонованого алгоритму було протестовано на відкладених даних для чотирьох та десяти різних жанрів та порівняно з використанням обмеженої машини Больцмана для чотирьох жанрів.
Бібл. 11, рис. 3, табл. 2.
Блок інформації про статтю
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
Посилання
H. Lee, P. Pham, Y. Largman, and A. Y. Ng, “Unsupervised feature learning for audio classification using convolutional deep belief networks,” in Advances in Neural Information Processing Systems 22, Curran Associates, Inc., 2009, pp. 1096–1104, URL: http://papers.nips.cc/paper/3674-unsupervised-feature-learning-for-audio-classification-using-convolutional-deep-belief-networks.pdf.
T. Feng, “Deep learning for music genre classification,” URL: https://courses.engr.illinois.edu/ece544na/fa2014/Tao_Feng.pdf.
M. Haggblade, Y. Hong, and K. Kao, “Music Genre Classification,” Stanfor, 2009, URL: https://cs229.stanford.edu/Fproj2011/HaggbladeHongKao-MusicGenreClassification.pdf&usg=AOvVaw1Nc3dcWm4P4rW6UsiLu712.
G. E. Hinton, S. Osindero, and Y.-W. Teh, “A Fast Learning Algorithm for Deep Belief Nets,” Neural Comput., vol. 18, no. 7, pp. 1527–1554, 2006, DOI: 10.1162/neco.2006.18.7.1527.
Y. Cai, D. Ji, and D. Cai, “A KNN Research Paper Classification Method Based on Shared Nearest Neighbor,” in NTCIR-8 Workshop Meeting, 2010, pp. 336–340.
T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D. Piatko, R. Silverman, and A. Y. Wu, “An efficient k-means clustering algorithm: analysis and implementation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 7, pp. 881–892, 2002, DOI: 10.1109/TPAMI.2002.1017616.
M. Mandel and D. Ellis, “Song-Level Features And Support Vector Machines For Music Classification,” in 6th International Conference on Music Information Retrieval, 2005, pp. 594–599, URL: http://ismir2005.ismir.net/proceedings/1106.pdf.
I. Goodfellow, Y. Bengio, and A. Courville, “Deep feedforward networks,” in Deep learning, The MIT Press, 2016, pp. 164–223, URL: http://worldcat.org/isbn/9780262035613.
G. Tzanetakis, G. Essl, and P. Cook, “Automatic Musical Genre Classification Of Audio Signals,” in 2nd Annual International Symposium on Music Information Retrieval 2001, 2001, URL: http://ismir2001.ismir.net/pdf/tzanetakis.pdf.
J. Leben, “Data Sets,” MARSYAS, 2001. [Online]. Available: http://marsyas.info/downloads/datasets.html.
A. van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” Sep. 2016, arXiv: 1609.03499v2.