Искусственный интеллект (ИИ) компании Facebook научили определять до пять разных голосов в одном разговоре, переводить их в текст или разделить на пять разных дорожек. Команда утверждает, что новый метод превосходит все аналоги по качеству и быстроте разделения источников речи, подавлению шума и реверберации.
Facebook использовала новую рекуррентную нейронную сеть для создания нового класса алгоритмов, использующих внутреннее состояние, похожее на память, для обработки последовательностей входов переменных. При этом модель может автоматически определить говорящих и выбрать речевую модель.
Разделение речи является важнейшим шагом на пути к улучшению коммуникации в различных приложениях — при помощи голосовых сообщений или потокового аудио. Кроме того, методы разделения речи, предложенные исследователями, можно применить для подавления фонового шума, например, при записи музыкальных инструментов.
Ранее исследователи компании Facebook представили модель, которая умеет распознавать слова на 51 языках. На предварительных тестах инструмент показал рекордную точность, этот показатель будет улучшаться по мере обучения. Система, которая содержит около миллиарда параметров, повышает эффективность распознавания речи до 28,8%.
Читать также:
Комета NEOWISE видна в России. Где ее увидеть, куда смотреть и как сделать фото
Выяснилось, что заставило цивилизацию майя покинуть свои города
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком