Очки с ИИ научили «читать по губам» без использования камеры

Инженеры создали систему распознавания речи на основе мимических движений, которая работает как минисонар (эхолокатор). Разработка будет представлена на международной конференции CHI в Германии.

Исследователи из Корнельского университета разработали интерфейс EchoSpeech для распознавания тихой речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 невокализованной команды на основе движений губ и рта. Обработка информации осуществляется локально на смартфоне, что обеспечивает конфиденциальность данных.

Очки EchoSpeech оснащены парой микрофонов и динамиков, размер которых меньше ластика на конце карандаша, и не используют камеру. Устройство отправляет и улавливает акустические волны, которые показывают изменения динамики лицевых мышц и рта. Алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%. 

Принцип работы EchoSpeech. Изображение: Ruidong Zhang et al.

Полученные данные передаются через Bluetooth в режиме реального времени на смартфон, обрабатываются и хранятся локально на устройстве. Разработчики сообщают, что EchoSpeech достаточно нескольких минут для обучения для конкретного пользователя.

Для людей, которые не могут говорить, эта технология безмолвной речи может стать отличным голосовым синтезатором. Она может вернуть пациентам их голос.

Жуйдун Чжан, соавтор разработки

Большинство технологий распознавания немой речи ограничены избранным набором предопределенных команд и требуют, чтобы пользователь и его собеседник смотрели в камеру или носили ее. Это существенно затрудняет возможности применения таких устройств. Кроме того, большой поток данных требует обработки в облаке, что нарушает конфиденциальность пользователей.

В своем нынешнем виде EchoSpeech можно использовать для общения с другими через смартфон в местах, где речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Бесшумный речевой интерфейс также можно использовать в паре со стилусом и программным обеспечением для проектирования, таким как САПР, практически исключая необходимость в клавиатуре и мыши, добавляют разработчики.


Читать далее:

Ученые выяснили природу странных радиосигналов с планеты, похожей на Землю

Красный ореол вспыхнул над Италией. Теперь его природу объяснили

«Уэбб» нашел самую старую черную дыру во Вселенной

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Найден способ сверхскоростной передачи тепла для быстрого охлаждения электроники
Наука
Условия жизни лошадей в Средневековом Новгороде восстановили по зубам
Наука
Под видом модов для Minecraft и других игр в Telegram распространяют вирусы
Новости
ИИ от создателей TikTok потеснил GPT-4o в рейтинге генераторов изображений
Новости
В России нашли минерал, который поможет изучить ядро Земли и космические тела
Космос
Анализ метеорита поставил под сомнение гипотезу о происхождении воды на Земле
Космос
«Яндекс» научил поиск решать задачи по алгебре для старшеклассников
Новости
Найдена недостающая часть Вселенной: где она скрывалась
Космос
VR в строительстве: как избежать ошибок на сотни миллионов
Мнения
44 планеты, похожие на Землю, нашли в Млечном Пути
Космос
Тайну космоса, которой больше 60 лет, наконец-то раскрыли
Космос
В «дубайском» шоколаде нашли опасные для жизни вещества
Наука
Хакеры атаковали пять оборонных предприятий России
Новости
Как ИИ повышает эффективность и снижает риски обогатительных предприятий
Мнения
«Джеймс Уэбб» изучил загадочные кольца погибшей звезды
Космос
Открыт прием заявок на ежегодную премию Digital Leaders 2025
Новости
GigaChat научился искать информацию в сети: Сбер обновил ИИ-помощника
Новости
Созданы очки с искусственным интеллектом для незрячих людей
Новости
Минобрнауки продолжит программу кешбэка для инвесторов университетских стартапов
Новости
OpenAI представила GPT-4.1: модель с улучшенными возможностями для программистов
Новости