В МТИ алгоритм научился понимать окружающие звуки по видеороликам

За последнее время технологии распознавания речи и звуков достигли больших высот. Проблема в том, что эти высоты им тяжело достаются. Чтобы обучить алгоритм распознавать что-либо, ему нужно предоставить огромную качественную выборку, в которой данным в ручную дана аннотация – долгий и дорогой процесс. В МТИ заявили, что  разработали алгоритм, который автоматически обучается на данных без аннотации.

Вместо ручной аннотации, система распознавания голоса учится на видео. На первом этапе система компьютерного зрения анализирует большое количество видеороликов и определяет их основные объекты и сцены. После этого новый алгоритм устанавливает корреляцию между визуальными объектами и звуками из реального мира.

Разработчики протестировали свою систему на двух стандартных базах аудиозаписей и результат получился на 13-15% выше предшествующих алгоритмов. На выборке, состоящей из 10 различных звуковых категорий, алгоритм показал точность 92%, на 50 категориях — 74%. У человека точность определения на тех же базах данных составляет 96% и 81% соответственно.

При этом собирать аудиоданные гораздо проще, чем изображения или видео, поэтому ученые пророчат широкое применение и еще большее развитие алгоритмам распознавания звуков. Когда системы научатся разбираться в окружающем шуме, то это повысит эффективность во многих смежных областях. Так автопилоты автомобилей, могут не увидеть технику экстренных служб, но они всегда слышат сирены — и предпримут нужные действия. Телефоны смогут разбираться окружающей среде и отключать звук в театрах. Автономные роботы станут чувствовать себя более естественно.

Ученые создали батарейку из ядерных отходов

При этом машинам теперь даже не обязательно слышать то, о чем говорит человек. Оксфордские ученые создали алгоритм, который умеет читать по губам с точностью 93%. Осталось дождаться, когда все эти технологии дойдут до конечного пользователя.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Путин подписал закон против кибермошенничества: что изменится для россиян
Новости
Генератор изображений OpenAI теперь доступен бесплатно, но с ограничениями  
Новости
Apple готовит iOS 19: какие iPhone не получится обновить  
Новости
ЦЕРН представил проект нового коллайдера: что известно прямо сейчас
Наука
На «Госуслугах» запустили сервис для проверки сим-карт: как он работает  
Новости
В России введут маркировку электроники: это изменится для покупателей
Новости
Разработан мозговой имплант, который переводит мысли в речь почти мгновенно
Новости
«Хаббл» зафиксировал драматические сезонные изменения в атмосфере Урана
Космос
Физики МГУ придумали, как ускорить память компьютера терагерцовым излучением
Новости
Клетки жажды: нейробиологи выяснили, как мозг решает, когда нужно пить и есть
Наука
Разработчик ChatGPT анонсировал первую за пять лет модель с открытым кодом
Новости
«Казнить нельзя помиловать»: запятые и точки влияют на точность работы ИИ
Новости
Живые клетки обрабатывают информацию в миллиарды раз быстрее, чем считалось ранее
Наука
Яндекс опубликовал нейросеть YandexGPT 5 Lite в открытом доступе
Новости
Эксперты обсудили управление персоналом в эпоху цифровых технологий
Новости
Роспотребнадзор опроверг информацию о новом опасном вирусе в России
Новости
Последствия невесомости для скелета изучили на мышах-космонавтах
Космос
Томские химики создали экономичные катализаторы для зеленой промышленности
Наука
Ученые создали перчатку, с которой можно «ощущать» объекты в виртуальной реальности
Наука
Ученые в тупике: «Уэбб» засек невозможный свет в галактике
Космос