Алгоритм чтения по губам LipNet распознает текст с точностью 93%

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер - система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Брайан Белендорф готовит вторую цифровую революцию

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Темные фабрики: будущее промышленности без человека
Мнения
Астрономы открыли рекордно далекую от звезды суперземлю
Космос
Датские ученые омолодили стволовые клетки, изменив их «диету»
Наука
Биологи описали стратегии любви у мышей: защищаться или «странствовать»
Наука
Якутские инженеры создали боевого «Скорпиона» для битвы роботов
Новости
Количество DDoS-атак удвоилось в первом квартале 2025 года
Новости
Сдвиг поверхности земли при землетрясении зафиксировали из космоса
Космос
Не так уж жарко: выяснилось, какая погода была на Марсе в прошлом
Космос
Целый океан исчез на Земле: как это изменило историю нашей планеты
Наука
Минцифры запускает эксперимент с ИИ на «Госуслугах»: что он будет делать
Новости
Сжигать жир можно с помощью мыслей: как это работает
Наука
Маркетплейсы превратили шопинг в зависимость: как не потратить свои деньги
Наука
ChatGPT научили материться, как сантехника Валеру из Омска
Новости
Написать научный труд в эпоху нейросетей: как сделать ИИ помощником?
Мнения
Следы «долгожданной» черной дыры нашли в соседней галактике
Космос
В Анапе испытали устройство для сбора мазута со дна моря
Наука
Филиппинские физики создали дешевые жидкие линзы из обычной воды
Наука
Perplexity вслед за OpenAI заявила в суде о желании приобрести Chrome
Новости
В МГУ разработали математическую модель для предотвращения давки
Наука
Посмотрите на самое подробное изображение Солнца, сделанное зондом Solar Orbiter
Космос