Алгоритм чтения по губам LipNet распознает текст с точностью 93%

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер - система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Брайан Белендорф готовит вторую цифровую революцию

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Скорость потепления пересмотрели: мир на грани ограничений Парижских соглашений
Наука
Робот-хирург научился оперировать после просмотра видео
Новости
Найден «межзвездый туннель» от Солнечной системы к соседней звезде
Космос
Стартовал конкурс на открытие центра развития промышленной робототехники
Иннополис
Магнитные мышцы для роботов держат вес в 1000 раз больше собственного
Новости
LG показала гибкий дисплей: он растягивается на 50%, складывается и скручивается
Новости
Уран оказался не таким, как считали ученые
Космос
Ученые нашли новый идеал женской фигуры: дело не в 90-60-90
Наука
У GPT-4 нашли серьезный недостаток: из-за этого ИИ ошибается в ответах
Новости
Новая функция в iOS 18.2 поможет найти потерянный багаж
Новости
Биткоин побил исторический максимум после победы Трампа: что будет дальше
Новости
Шутер S.T.A.L.K.E.R. 2 могут запретить в России: в чем причина
Новости
Что будет после ИИ, обсудили на симпозиуме «Создавая будущее»
Новости
Эксперименты по поиску темной материи обнаружили «нейтринный туман»
Наука
Министр науки: в России создана платформа для развития университетского техпреда
Новости
Наскальные рисунки раскрывают детали рыбалки во время Ледникового периода
Наука
Установлен новый рекорд в поддержании термоядерного синтеза
Новости
Археологи-любители из Польши нашли военный клад, спрятанный в XVII веке
Наука
Визуализация показала, как меняется молекула, разрушающая озонный слой
Наука
Анализ ДНК денисовца указывает на многочисленные скрещивания древних людей
Наука