Алгоритм чтения по губам LipNet распознает текст с точностью 93%

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер - система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Брайан Белендорф готовит вторую цифровую революцию

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Сильнейшая солнечная буря произошла в конце последнего ледникового периода
Космос
Пароль зашифровали внутри молекулы: это альтернатива для хранения данных
Наука
Орангутаны используют сложную структуру речи: считалось, что так могут только люди
Наука
Молодая звезда стремительно тяжелеет: набирает массу двух юпитеров ежегодно
Космос
Врачи с помощью CRISPR «переписали ДНК» ребенка с редким заболеванием
Наука
Разработан чип, похожий на мозг, который позволит роботам видеть и думать
Наука
Почему мы до сих пор не нашли инопланетян: ученые нашли объяснение
Космос
Этот грибок захватит планету к концу столетия: в зоне риска 10 млн человек
Наука
Посмотрите на космическую радугу в зодиакальном свете на небе
Космос
Ученые объяснили необычную активность в недрах Луны
Космос
Мошенники начали использовать схему с самозапретом на кредиты 
Новости
Дуров заплатит $50 000 за вирусный ролик о превосходстве Telegram над WhatsApp
Новости
НАСА починило двигатели «Вояджера-1», которые вышли из строя 21 год назад
Космос
ИИ-агенты формируют собственные социальные нормы без помощи человека
Наука
Мозг мышей увеличился на 6,5%, когда им ввели крошечную часть ДНК человека
Наука
Археологи нашли первую «тату-студию» майя в пещере в Белизе
Наука
Российский алгоритм оптимизирует пропускную способность дорог
Наука
Марсоход впервые наблюдал полярные сияния с поверхности другой планеты
Космос
Android 16 превращает ворованный смартфон в кирпич: нельзя обойти даже в настройках
Новости
Китай начал стоить дата-центр на базе ИИ прямо на орбите
Новости