Специалисты Нижегородского отделения Высшей школы экономики разработали автоматическую систему определения эмоций по звуку голоса. Компьютер в 70% случаев распознает восемь различных интонаций.
Для того чтобы научить машину на слух определять злость, грусть, спокойствие, нейтральность, счастье, испуг, удивление или отвращение, трое ученых — Анастасия Попова, Александр Рассадин и Александр Пономаренко — сперва с помощью спектрограмм преобразовали звук в изображение. Это позволило компьютеру применять к цифровым аудиоданным те же методы обработки, которые используются для распознавания изображений. Анализ спектрографических данных выполняла сверточная нейронная сеть глубокого обучения с архитектурой VGG-16.
Как отмечают исследователи, успешнее всего система распознавала нейтральные и спокойные интонации, тогда как счастье нередко путала со страхом или печалью, а удивление — с отвращением, сообщает сайт Национального исследовательского университета ВШЭ.
По мнению ученых, эмоциональная составляющая высказывания, скрывающаяся в интонации, чаще всего упускается компьютером из виду, хотя с задачей преобразования слов в машинописный текст он уже научился неплохо справляться. Меняя интонацию, люди могут придать одной и той же фразе совершенно разные, подчас даже противоположные значения, и это необходимо учитывать.
Сварщик выиграл 1 млн рублей на чемпионате World Skills Hi-Tech
Технологии
В августе специалисты ВШЭ представили «электронный нос» — нейронную сеть, способную не только распознавать запахи, но и запоминать новые. Это исследование поможет службам безопасности или горнодобывающим компаниям точно анализировать смеси газов и вовремя выявлять опасные.