Очки с ИИ научили «читать по губам» без использования камеры

Инженеры создали систему распознавания речи на основе мимических движений, которая работает как минисонар (эхолокатор). Разработка будет представлена на международной конференции CHI в Германии.

Исследователи из Корнельского университета разработали интерфейс EchoSpeech для распознавания тихой речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 невокализованной команды на основе движений губ и рта. Обработка информации осуществляется локально на смартфоне, что обеспечивает конфиденциальность данных.

Очки EchoSpeech оснащены парой микрофонов и динамиков, размер которых меньше ластика на конце карандаша, и не используют камеру. Устройство отправляет и улавливает акустические волны, которые показывают изменения динамики лицевых мышц и рта. Алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%. 

Принцип работы EchoSpeech. Изображение: Ruidong Zhang et al.

Полученные данные передаются через Bluetooth в режиме реального времени на смартфон, обрабатываются и хранятся локально на устройстве. Разработчики сообщают, что EchoSpeech достаточно нескольких минут для обучения для конкретного пользователя.

Для людей, которые не могут говорить, эта технология безмолвной речи может стать отличным голосовым синтезатором. Она может вернуть пациентам их голос.

Жуйдун Чжан, соавтор разработки

Большинство технологий распознавания немой речи ограничены избранным набором предопределенных команд и требуют, чтобы пользователь и его собеседник смотрели в камеру или носили ее. Это существенно затрудняет возможности применения таких устройств. Кроме того, большой поток данных требует обработки в облаке, что нарушает конфиденциальность пользователей.

В своем нынешнем виде EchoSpeech можно использовать для общения с другими через смартфон в местах, где речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Бесшумный речевой интерфейс также можно использовать в паре со стилусом и программным обеспечением для проектирования, таким как САПР, практически исключая необходимость в клавиатуре и мыши, добавляют разработчики.


Читать далее:

Ученые выяснили природу странных радиосигналов с планеты, похожей на Землю

Красный ореол вспыхнул над Италией. Теперь его природу объяснили

«Уэбб» нашел самую старую черную дыру во Вселенной

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Российский планшет Yadro поступил в продажу: известна его цена и планы на будущее
Новости
Стала известна цена первого российского электромобиля «Атом»
Новости
Опубликованы самые детальные фото поверхности Европы
Космос
Первую в мире водородную яхту спустили на воду: ее длина больше 100 м
Новости
Открытие ученых впервые подтвердило правоту Эйнштейна
Космос
У зонда летящего к Меркурию произошел сбой двигателя
Космос
Замороженная ткань мозга восстановилась после 18 месяцев криоконсервации
Наука
Редкий глубоководный кальмар попал на видео, напав на подводную камеру
Наука
Экспресс-тест обнаруживает инсульт менее чем за шесть часов после первых симптомов
Наука
Канадский фермер, возможно, нашел на поле обломок ракеты SpaceX
Космос
Квантовую связь создали с помощью обычного городского оптоволоконного кабеля
Новости
Частный спутник сфотографировал МКС с расстояния 70 км
Космос
Ученые сварили пиво с помощью пчел-убийц
Наука
В НАСА рассказали, что вызвало самую мощную геомагнитную бурю десятилетия
Космос
Суперноги от MIT помогут людям быстро вставать после падений на Луне
Космос
Первому в мире ребенку вылечили глухоту с помощью генной терапии
Наука
Ученые нашли семь звезд в Млечном Пути, рядом с которыми могут жить инопланетяне
Космос
Забота об экологии и цифровой мир: какой софт помогает заботиться об окружающей среде?
Мнения
«Уэбб» поймал самое старое слияние черных дыр: через 740 млн лет после Большого взрыва
Космос
Искусственный интеллект научили распознавать сарказм
Новости