Сообщить об ошибке на сайте
URL
Ошибка
Идеи

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер — система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

«Робот берет вас на работу»: как искусственный интеллект, блокчейн и VR подбирают персонал
Мнения
Телемедицина, роботы и умные дома: каким через 5 лет будет «оцифрованный» город в России
Тренды
Мясная революция: как перейти от веганских заменителей к клеточным технологиям и биореакторам
Идеи
AI-выборы: как искусственный интеллект и голосовые помощники сделают демократию лучше
Тренды
Тупик для беспилотников: как мечты разработчиков разбиваются о неожиданности на дорогах
Идеи
Здесь нужен InsurTech: за какими стартапами будущее страхования
Мнения
Идеи
Вирус лженауки в Google: как поисковые системы распространяют опасные мифы о прививках
«Кто-то управляет моим домом»: как жертв домашнего насилия терроризируют с помощью умных устройств
Умный дом
Паскаль Фуа, EPFL, — о ключевых точках, глубоких нейросетях и эпиполярной геометрии
Мнения
Тренды
20 фильмов о кибербезопасности, взломах и цифровых преступлениях
Ян Лекун, Facebook: «Прогностические модели мира — решающее достижение в ИИ»
Мнения
Джианкарло Суччи: «Попытка спроектировать программу без багов — утопия»
Иннополис
Game out: Как видеоигры обучают детей-аутистов держать равновесие и узнавать людей
Тренды
Прослушка, контроль камеры и предсказание смерти пользователя: самые странные патенты Facebook
Кейсы
Цес Снук, QUVA: «Мы не хотим зависеть от крупных компаний, которые владеют всеми данными»
Мнения
Дмитрий Песков, АСИ: «В России традиционно долго запрягают, и в сфере IT мы только этим и занимаемся»
Иннополис
ДНК-тесты: как генетические компании обманывают людей и разрушают семьи
Мнения
Мануэль Маццара: «Для Facebook вы не покупатель, вы — продукт»
Иннополис
Тренды
Блокчейн, искусственное мясо и «смерть» смартфонов: что будет с технологиями через 10 лет
Витторио Феррари, Google: «Чтобы машина распознала книгу о Гарри Поттере нужна сложная математическая модель»
Мнения
7 медицинских технологий, которые скоро придут в российские больницы
Идеи
Руслан Зайдуллин, основатель Doc+, — о том, что делать Минздраву и о проблемах в российской медицине
Мнения
Ричард Вдовьяк, Philips: «В будущем диагностировать заболевания будут не только врачи, но и сами пациенты»
Тренды
Шедевры за биткоины: Как криптовалюта меняет рынок искусства
Блокчейн
Почему «московий» и «оганесон» устроили раскол между физиками и химиками?
Кейсы
Тренды
Сэр Харшад Бадехиа — о бронежилетах будущего, русских математиках и металлургии
«Надежнее золота»: блокчейн в цифрах
Блокчейн
Бас Лансдорп, Mars One: «Моя жена отдала бы все, чтобы не лететь на Марс»
Полет на Марс
Как big data, блокчейн и 3D-печать сделали пищу полезнее
Мнения
Томас Циммерман, IBM, — о том, как остановить конец света, спасая планктон
Тренды
Без Siri, Алисы и «Окей, Google»: как и зачем нас подслушивают собственные телефоны
Тренды
Шрада Агарвал, Outcome Health: «Когда человек знает о своей болезни, от этого выигрывает и он, и фарма»
Мнения
Тренды
«Дорогая, я ухожу от тебя к роботу!»: заменят ли секс-андроиды реальные отношения?
7 правил для начинающих и разумных блокчейн-инвесторов
ICO
Четвертая революция: как интернет вещей изменит промышленность и нефтедобычу
Тренды
Не витайте в «облаках»: как провайдеры обманывают доверчивых клиентов
Мнения
Тренды
Когда мы начнем летать на автомобилях в городе?
Как в Россию проникают технологии: интернет-рестораны, маникюр на дому и «умное» страхование
Кейсы
Гендиректор Uber Дара Хосровшахи: «Автомобили должны ездить в трех измерениях»
Мнения
Олег Бабкин: «Системных администраторов никто не обучает, обучают только разработчиков»
Мнения
«Чтобы создать новое лекарство, нужно 10–12 лет и миллиард долларов»
Мнения
Сооснователь «Евросети» Тимур Артемьев: «Мы будем летать из Лондона в Сидней через космос. Так ближе»
Тренды
Новый стандарт рекламного рынка: что нужно знать о programmatic, чтобы рекламироваться эффективно
Тренды
Иван Горшунов, Etcetera, — о мобильных приложениях, стартапах и «внутренней девятиэтажке», которая мешает заглянуть за горизонт
Мнения
Билетный IT: как построить технологическую платформу вокруг билетного бизнеса
Кейсы
Cognitive Technologies: как российское бездорожье поможет искусственному интеллекту водить машины лучше, чем люди
Кейсы
Кейсы
10 предпринимателей — о том, как им помогают новые технологии в жизни и бизнесе
Don’t open the doors: как сделать игру из пластилина в одиночку (и привлечь инвестора на следующий проект)
Кейсы
Софт, бот, нейросеть: айтишники объясняют, почему не боятся автоматизации, роботизации и ИИ
Кейсы