Исследователи представили систему обнаружения языка жестов в реальном времени. Она может отличать, когда собеседник пытается сказать что-то или просто двигает телом, головой, руками. Ученые отмечают, что эта задача может показаться легкой для человека, однако ранее такой системы не было ни в одном из сервисов видеозвонков — все они реагируют на любой звук или жест человека.
Новая разработка исследователей Google способна делать это с большой эффективностью и небольшими задержками. Пока исследователи отмечают, что определение языка жестов приводят к задержке или ухудшению качества видео, однако эту проблему можно решить, а сама модель осталась легкой и надежной.
Сначала система прогоняет видео через модель под названием PoseNet, которая оценивает положение тела и конечностей в каждом кадре. Упрощенная визуальная информация посылается модели, обученной позиционированию данных из видео людей, использующих язык жестов, и сравнивает изображение с тем, как люди обычно показывают те или иные слова.
Модель правильно определяет слова и выражения с 80% точностью, а с дополнительной оптимизацией может достичь и 91,5%. Учитывая, что обнаружение «активного говорящего» в большинстве сервисов работает с задержками, исследователи считают, что это очень большие цифры.
Читайте также:
Создать термоядерный реактор на Земле реально. Какие будут последствия?
Ледник «Судного дня» оказался опаснее, чем думали ученые. Рассказываем главное
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком