В МТИ алгоритм научился понимать окружающие звуки по видеороликам

За последнее время технологии распознавания речи и звуков достигли больших высот. Проблема в том, что эти высоты им тяжело достаются. Чтобы обучить алгоритм распознавать что-либо, ему нужно предоставить огромную качественную выборку, в которой данным в ручную дана аннотация – долгий и дорогой процесс. В МТИ заявили, что  разработали алгоритм, который автоматически обучается на данных без аннотации.

Вместо ручной аннотации, система распознавания голоса учится на видео. На первом этапе система компьютерного зрения анализирует большое количество видеороликов и определяет их основные объекты и сцены. После этого новый алгоритм устанавливает корреляцию между визуальными объектами и звуками из реального мира.

Разработчики протестировали свою систему на двух стандартных базах аудиозаписей и результат получился на 13-15% выше предшествующих алгоритмов. На выборке, состоящей из 10 различных звуковых категорий, алгоритм показал точность 92%, на 50 категориях — 74%. У человека точность определения на тех же базах данных составляет 96% и 81% соответственно.

При этом собирать аудиоданные гораздо проще, чем изображения или видео, поэтому ученые пророчат широкое применение и еще большее развитие алгоритмам распознавания звуков. Когда системы научатся разбираться в окружающем шуме, то это повысит эффективность во многих смежных областях. Так автопилоты автомобилей, могут не увидеть технику экстренных служб, но они всегда слышат сирены — и предпримут нужные действия. Телефоны смогут разбираться окружающей среде и отключать звук в театрах. Автономные роботы станут чувствовать себя более естественно.

Ученые создали батарейку из ядерных отходов

При этом машинам теперь даже не обязательно слышать то, о чем говорит человек. Оксфордские ученые создали алгоритм, который умеет читать по губам с точностью 93%. Осталось дождаться, когда все эти технологии дойдут до конечного пользователя.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Уборка перестает быть мучением: обзор моющего пылесоса Trouver X4 Pro
Кейсы
Посмотрите на парового робота, который ползает и цепляется за ветки
Новости
На Юпитере «моросит дождь» из частиц: «Уэбб» раскрыл детали полярных сияний газового гиганта
Космос
В Сколтехе создали «фонарик» для исследования сосудов изнутри
Наука
Большой взрыв мог быть менее «ярким»: другие источники света нашли на заре Вселенной
Космос
В доме в Помпеях нашли следы попытки жителей спастись от катастрофы
Наука
Простое решение заставляет рой роботов двигаться вместе без ИИ и датчиков
Новости
Вот те Na+: пять плюсов ИБП на натриевых аккумуляторах
Технологии
Тайны древней звезды по соседству изучили, «подслушав ее песню»
Космос
Baidu делает ИИ для перевода звуков животных в человеческую речь
Наука
Оказалось, ИИ врет чаще при одном условии: как этого избежать
Новости
Суперкомпьютер Маска сжирает электричество как 300 000 домов: люди протестуют
Новости
Посмотрите, как робот стремительно отбивает подачи в настольном теннисе
Новости
Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото
Наука
Создано музыкальное приложение для реабилитации после инсульта
Наука
«Эффект аккордеона» превращает жесткий графен в эластичный материал
Наука
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости