В Google придумали модель, которая может считывать язык жестов во время видеозвонков. ИИ может определять «активно говорящего», но игнорирует собеседника, если он просто двигает руками или головой.
Исследователи представили систему обнаружения языка жестов в реальном времени. Она может отличать, когда собеседник пытается сказать что-то или просто двигает телом, головой, руками. Ученые отмечают, что эта задача может показаться легкой для человека, однако ранее такой системы не было ни в одном из сервисов видеозвонков — все они реагируют на любой звук или жест человека.
Новая разработка исследователей Google способна делать это с большой эффективностью и небольшими задержками. Пока исследователи отмечают, что определение языка жестов приводят к задержке или ухудшению качества видео, однако эту проблему можно решить, а сама модель осталась легкой и надежной.
Сначала система прогоняет видео через модель под названием PoseNet, которая оценивает положение тела и конечностей в каждом кадре. Упрощенная визуальная информация посылается модели, обученной позиционированию данных из видео людей, использующих язык жестов, и сравнивает изображение с тем, как люди обычно показывают те или иные слова.
Модель правильно определяет слова и выражения с 80% точностью, а с дополнительной оптимизацией может достичь и 91,5%. Учитывая, что обнаружение «активного говорящего» в большинстве сервисов работает с задержками, исследователи считают, что это очень большие цифры.
Читайте также:
Создать термоядерный реактор на Земле реально. Какие будут последствия?
Ледник «Судного дня» оказался опаснее, чем думали ученые. Рассказываем главное
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком