Российская нейронная сеть научилась распознавать эмоции по голосу

Для того чтобы научить машину на слух определять злость, грусть, спокойствие, нейтральность, счастье, испуг, удивление или отвращение, трое ученых — Анастасия Попова, Александр Рассадин и Александр Пономаренко — сперва с помощью спектрограмм преобразовали звук в изображение. Это позволило компьютеру применять к цифровым аудиоданным те же методы обработки, которые используются для распознавания изображений. Анализ спектрографических данных выполняла сверточная нейронная сеть глубокого обучения с архитектурой VGG-16.

Как отмечают исследователи, успешнее всего система распознавала нейтральные и спокойные интонации, тогда как счастье нередко путала со страхом или печалью, а удивление — с отвращением, сообщает сайт Национального исследовательского университета ВШЭ.

По мнению ученых, эмоциональная составляющая высказывания, скрывающаяся в интонации, чаще всего упускается компьютером из виду, хотя с задачей преобразования слов в машинописный текст он уже научился неплохо справляться. Меняя интонацию, люди могут придать одной и той же фразе совершенно разные, подчас даже противоположные значения, и это необходимо учитывать.

Сварщик выиграл 1 млн рублей на чемпионате World Skills Hi-Tech

Технологии

В августе специалисты ВШЭ представили «электронный нос» — нейронную сеть, способную не только распознавать запахи, но и запоминать новые. Это исследование поможет службам безопасности или горнодобывающим компаниям точно анализировать смеси газов и вовремя выявлять опасные.

Российская нейронная сеть научилась распознавать эмоции по голосу

Читайте «Хайтек» в