Сообщить об ошибке на сайте
URL
Ошибка
Идеи

Навыком чтения по губам владеют единицы, большинство людей распознает лишь одно слово из 10. Созданный оксфордскими учеными машинный алгоритм смог превзойти этот барьер — система LipNet практически в реальном времени расшифровывает текст с беззвучного видеоролика и делает это с высокой точностью. Однако говорить о революции в расшифровке беззвучной речи пока рано, так как система работает только со специфичным набором данных.

Ученые из Оксфордского университета при фондовой поддержке знаменитого стартапа DeepMind (создатели алгоритма для игры в го AlphaGo) разработали программу для чтения по губам на основе глубокого обучения. Алгоритм LipNet расшифровывает сказанное с точностью до 93,4%. Для сравнения средний показатель точности у профессионального чтеца по губам составляет 52,3%, а общий диапазон варьируется от 20% до 60%. В предыдущих экспериментах максимальная точность алгоритмов составляла 79,6%.

В отличие от других ИИ-систем для чтения по губам, LipNet не изучала отдельные визуальные фонемы, то есть внешний вид губ при произнесении конкретных звуков. Как пишет Quartz, разработка британских ученых обрабатывает предложения целиком и самостоятельно определяет, какая буква соответствует каким мимическим движениям.

Несмотря на внушительные показатели, главный недостаток системы — это ее ограниченность. Ученые использовали строго проработанный набор данных GRID. В этот набор входят 29 000 коротких видеороликов с субтитрами, записанных волонтерами. Они зачитывают бессмысленные предложения, выстроенные по структуре: командный глагол, цвет, предлог, буква, цифра и наречие. Например: «Установи синий к А четыре, пожалуйста» (set blue by A four please). При этом глаголов всего четыре, как и цветов.

Кроме того, люди на видео стоят в анфас под хорошим освещением, что делает процесс угадывания еще более простым. Отсюда можно сделать вывод, что прочитать по губам послание незнакомца с видеоролика на YouTube с почти 100%-ной точностью алгоритм, вероятнее всего, не сможет. С другой стороны, этот факт должен успокоить тех, кто опасается тотальной слежки.

Эксперт из организации OpenAI Джек Кларк считает, что для развития технологий чтения по губам необходимо использовать больше видеороликов с реалистичной обстановкой, обучать ИИ расшифровывать текст даже под углом, а также расширить диапазон доступных фраз. Кларк полагает, что алгоритмы, аналогичные LipNet, рано или поздно появятся и помогут глухонемым людям общаться с другими людьми, а также позволят мгновенно создавать точные субтитры к видеороликам.

Альтернативный подход недавно представили российские разработчики. Браслет uSEEband крепится на внутренней стороне ладони и с помощью встроенных сенсоров и программной нейросети распознает 32 буквы русского жестового языка. Таким образом, жесты автоматически преобразуются в текст на экране смартфона.

Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Кейсы
Астрономы нашли еще одно подтверждение наличия девятой планеты в Солнечной системе
Билет в электробус The Boring Company Илона Маска будет стоить всего $1
Тренды
Константин Носков возглавит новое министерство цифрового развития, связи и массовых коммуникаций
Тренды
Китайские ученые создали из картона наноматериал для очищения воды от тяжелых металлов
Экология
Давид Ян запустил сервис «умной» корпоративной аналитики Yva
Кейсы
В китайской школе используют систему распознавания лиц для слежки за отвлекающимися учениками
Кейсы
Apple запатентовала технологию распознавания человека по узору вен на лице
Распознавание лиц
Nissan представил собственную солнечную крышу
солнечные батареи
Инженеры выяснили, что роботы могут действовать совместно даже без создания специальных алгоритмов
Доброжелательные роботы
Идеи
Давление в протоне оказалось выше, чем в нейтронной звезде
Нейросеть научилась понимать, какой трек станет хитом этого лета
Кейсы
Инженеры представили камеру, с помощью которой можно мгновенно создать 3D-модель человека
Тренды
Робот в смартфоне: почему главным конкурентным преимуществом для чат-ботов станет эмоциональность
Мнения
Саратовские ученые создали аппарат, который сравнивает показатели здорового и больного сердца
Биотехнологии
Сверхтехнологичный военный конвертоплан совершил свой первый полет. Пока как самолет
Тренды
Из чего состоит вселенная
Астрономы нашли огромную черную дыру, которая поглощает по три звезды в неделю
Гендиректор Uber Дара Хосровшахи — о будущем, в котором автомобили будут летать
Тренды
FAQ: что такое ячеистые сети и как их применяют в умных домах?
Тренды
Хакеры могут захватить управление поездом, просто взломав сеть Wi-Fi
Киберпреступники
НАСА обнаружила водяные гейзеры на спутнике Юпитера — Европе
Есть ли жизнь на Марсе
Биологи создали биосовместимые импланты, которые смогут растворяться в организме
Биотехнологии
Кейсы
Сотрудники увольняются из Google — они не хотят делать искусственный интеллект для военных дронов Пентагона
Ведущие инженеры Google и Facebook расскажут в Москве о компьютерном зрении и машинном обучении
Компьютерное зрение
Посмотрите, каких роботов привезли разработчики на конференцию TechCrunch
Доброжелательные роботы
В России появятся автоматы по продаже сим-карт
Тренды
SpaceX запустила самую мощную свою ракету-носитель — Falcon 9 Block 5
Тренды
Facebook разрабатывает собственную криптовалюту
ICO
НАСА показала, как магнитное поле Земли защищает планету от солнечного ветра
Тренды
Море волнуется раз: как умнеет «морской бизнес» и где будущее уже наступило
Идеи
Хакеры смогли управлять сервисами Siri и Alexa с помощью неслышных для человека звуков
Тренды
Инженеры разработали метаматериал, заставляющий звуковые волны огибать объект
Тренды
Ярослав Холодов — о математике транспортных потоков, борьбе с пробками и транспорте будущего
Тренды
Доброжелательные роботы
Boston Dynamics показала своего бегающего робота Атлас
Посмотрите, как выглядит практически достроенный туннель Boring Company
Технологический прорыв
В Иннополисе откроется федеральный центр робототехники и мехатроники
Иннополис
Apple начала удалять приложения, которые передают данные о местоположении третьим лицам
Кейсы
Нейросеть сибирских ученых позволит медикам автоматизировать диагностику рака
Лекарство от рака
Кейсы
Ученые НАСА пришли к выводу, что лунный грунт опасен для клеток млекопитающих
Uber показал обновленную концепцию своего летающего такси
Летающее такси
В России прошли первые крупные испытания беспилотных автомобилей
Беспилотные автомобили
Компания Prisma Labs представила систему синхронизации AR-объектов на разных устройствах
Дополненная реальность
Ученые показали с помощью анимации, как вирус ВИЧ убивает клетки
Визуализация данных
Власти Калифорнии обяжут жителей устанавливать солнечные батареи на свои дома
солнечные батареи
Красноярские школьники собрали электронный логический конструктор для изучения информатики
Кейсы
Автомат, собранный из LEGO, научился делать вкусную яичницу с беконом
Что мы будем есть
Шведские биологи пришли к выводу, что растения общаются друг с другом корнями
Кейсы
Российские космонавты на МКС получили 25 литров питьевой воды из мочи
Частный космос
Кейсы
Художница рисует картины чистым CSS-кодом
Российский суд признал биткоины имуществом
криптовалюты