Алгоритм чтения по губам LipNet распознает текст с точностью 93%

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер - система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Брайан Белендорф готовит вторую цифровую революцию

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Климатологи объяснили формирование в Антарктиде полыньи размером с Чехию
Наука
Частые кризисы повысили способность человечества выживать
Наука
Физики наблюдали кота Шредингера — превращение атомов из частиц в волну
Наука
Найдена самая глубокая дыра в мире
Наука
«Вышка» заряжает карьеру в IT
Технологии
Ученые создали клей, который работает как паутина Человека-паука (почти)
Наука
Новый препарат может обратить диабет вспять
Наука
На Марсе участились полярные сияния: что это значит
Космос
Форма известной туманности оказалась совсем не такой, как считали ученые
Наука
Исламский «Экскалибур» нашли в Испании: ему больше 1000 лет
Наука
«Человеческие нейронные сети потребляют около 20 Вт, а искусственные — сотни ватт»
Технологии
Ученые преодолели одно из ключевых препятствий для термоядерной энергетики
Наука
Телескоп «Джеймс Уэбб» показал детали космической Конской Головы
Космос
Ученые выяснили, как парниковые газы влияют на распространение болезней
COVID-19
Найдены доказательства необычной силы магнитного поля Земли в прошлом
Наука
Посмотрите, как быстро робот-гуманоид управляется с домашними задачами
Новости
Ядро атома впервые возбудили лазером: это открывает сверхточные измерения времени
Наука
Чек-лист: как обеспечить информационную безопасность маркетплейса
Мнения
Экспериментальный лазер передал данные с зонда «Психея» на расстоянии 226 млн километров
Космос
Посмотрите на самое близкое фото обломка ракеты в космосе
Космос