В МТИ алгоритм научился понимать окружающие звуки по видеороликам

За последнее время технологии распознавания речи и звуков достигли больших высот. Проблема в том, что эти высоты им тяжело достаются. Чтобы обучить алгоритм распознавать что-либо, ему нужно предоставить огромную качественную выборку, в которой данным в ручную дана аннотация – долгий и дорогой процесс. В МТИ заявили, что  разработали алгоритм, который автоматически обучается на данных без аннотации.

Вместо ручной аннотации, система распознавания голоса учится на видео. На первом этапе система компьютерного зрения анализирует большое количество видеороликов и определяет их основные объекты и сцены. После этого новый алгоритм устанавливает корреляцию между визуальными объектами и звуками из реального мира.

Разработчики протестировали свою систему на двух стандартных базах аудиозаписей и результат получился на 13-15% выше предшествующих алгоритмов. На выборке, состоящей из 10 различных звуковых категорий, алгоритм показал точность 92%, на 50 категориях — 74%. У человека точность определения на тех же базах данных составляет 96% и 81% соответственно.

При этом собирать аудиоданные гораздо проще, чем изображения или видео, поэтому ученые пророчат широкое применение и еще большее развитие алгоритмам распознавания звуков. Когда системы научатся разбираться в окружающем шуме, то это повысит эффективность во многих смежных областях. Так автопилоты автомобилей, могут не увидеть технику экстренных служб, но они всегда слышат сирены — и предпримут нужные действия. Телефоны смогут разбираться окружающей среде и отключать звук в театрах. Автономные роботы станут чувствовать себя более естественно.

Ученые создали батарейку из ядерных отходов

При этом машинам теперь даже не обязательно слышать то, о чем говорит человек. Оксфордские ученые создали алгоритм, который умеет читать по губам с точностью 93%. Осталось дождаться, когда все эти технологии дойдут до конечного пользователя.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Первую операцию по имплантации нейростимулятора для лечения боли провели в России
Наука
GigaChat готовится к выходу в космос: нейросеть от Сбера станет ассистентом космонавтов на МКС
Космос
Млечный Путь может избежать столкновения с Андромедой: но есть нюанс
Космос
Россия развернет 886 спутников «Рассвет» для интернета до 2030 года
Космос
Юра Борисов может сыграть сооснователя OpenAI, разработавшей ChatGPT: что известно прямо сейчас
Новости
Физики создали «самую маленькую скрипку в мире»: она тоньше человеческого волоса
Новости
Воссоздан рецепт производства древнейшего красителя: его использовали в Древнем Египте
Наука
Конкурент Neuralink впервые испытал мозговой имплантат на человеке
Новости
Спутник показал гигантские волны, которые девять дней сотрясали Землю
Наука
Ученые раскрыли секрет памяти: как мозг запоминает и воспоминает информацию
Наука
Экспериментальные российские спутники связи выведут на орбиту уже в этом году: что о них известно
Наука
Подо льдами Антарктиды нашли следы затерянного мира
Наука
Физики поняли, что произошло в первые секунды Вселенной: это их удивило
Космос
Секретный ИИ-гаджет от OpenAI принесет миллионы вдове Джобса: о чем идет речь
Новости
Отец устал слушать сына и «сбагрил» его ChatGPT: что из этого вышло
Новости
Выяснилось, что влияет на самооценку мужчин на самом деле
Наука
Ютубер собрал из «мусора» ручной лазер, прожигающий алмазы
Новости
Физики придумали, как создать настольный ускоритель частиц с мощностью гигантских установок
Наука
Китайский робот научился готовить пельмени и пользоваться палочками
Новости
Цифровые лидеры нового времени: объявлены лауреаты ежегодной Премии Digital Leaders-2025
Новости