Эта модель, представленная в статье в Mobile Networks and Applications, была обучена распознавать эмоции в человеческой речи путем анализа различных соответствующих функций.
«Многоинформационная модель алгоритма совместного принятия решений создается посредством распознавания эмоций, — написали в своей статье Хань Тянь, Чжан Чжу и Сюй Цзин. — Модель используется для анализа репрезентативных данных об испытуемых и для помощи в диагностике депрессии у испытуемых».
Тиан и его коллеги обучили свою модель набору данных DAIC-WOZ, набору звуковых и трехмерных выражений лиц пациентов с диагнозом депрессивное расстройство и людей без депрессии. Эти аудиозаписи и мимика были собраны во время интервью, проводимых виртуальным агентом, который задавал различные вопросы о настроении и жизни интервьюируемого.
«На основе изучения речевых характеристик людей с депрессивным расстройством в этой статье проводится углубленное исследование диагностики депрессии с помощью речи на основе речевых данных из набора данных DAIC-WOZ, — написали Тянь, Чжу и Цзянь в своем исследовании. — Во-первых, речевая информация предварительно обрабатывается, включая предварительное выделение речевого сигнала, кадрирование, обнаружение конечной точки, шумоподавление и т. д. Во-вторых, OpenSmile используется для извлечения характеристик речевых сигналов, и речевые характеристики, которые могут отражать функции, изучены и проанализированы глубоко».
Чтобы извлечь важные функции из голосовых записей, модель команды использует OpenSmile (интерпретация речи и музыки с открытым исходным кодом путем извлечения большого пространства). Это набор инструментов, который часто используется учеными-компьютерщиками для извлечения признаков из аудиоклипов и классификации этих клипов.
Исследователи использовали этот инструмент для извлечения отдельных особенностей речи и их комбинаций, которые обычно встречаются в речи пациентов с диагнозом депрессия. Впоследствии они использовали технику, известную как анализ основных компонентов, чтобы сократить набор извлеченных признаков.
Тянь, Чжу и Цзянь оценили свою модель в серии тестов, в ходе которых они оценили ее способность обнаруживать депрессивных и недепрессивных людей по записям их голоса. Их схема дала замечательные результаты, выявляя депрессию с точностью 87% у пациентов мужского пола и 87,5% у пациентов женского пола.
В будущем алгоритм глубокого обучения, разработанный этой группой исследователей, может стать дополнительным вспомогательным инструментом для психиатров и врачей наряду с другими хорошо зарекомендовавшими себя диагностическими инструментами. Кроме того, это исследование может вдохновить на разработку аналогичных инструментов ИИ для выявления признаков психических расстройств по речи.
Читать далее:
Два фото Земли с разницей в 50 лет сравнили в НАСА: что нашли ученые
Ученые пересадили крысам «мозг» человека и рассказали, что получилось в итоге
ChatGPT прошел собеседование в Google для инженера с зарплатой $183 000