Исследователи представили систему обнаружения языка жестов в реальном времени. Она может отличать, когда собеседник пытается сказать что-то или просто двигает телом, головой, руками. Ученые отмечают, что эта задача может показаться легкой для человека, однако ранее такой системы не было ни в одном из сервисов видеозвонков — все они реагируют на любой звук или жест человека.

Новая разработка исследователей Google способна делать это с большой эффективностью и небольшими задержками. Пока исследователи отмечают, что определение языка жестов приводят к задержке или ухудшению качества видео, однако эту проблему можно решить, а сама модель осталась легкой и надежной.

Сначала система прогоняет видео через модель под названием PoseNet, которая оценивает положение тела и конечностей в каждом кадре. Упрощенная визуальная информация посылается модели, обученной позиционированию данных из видео людей, использующих язык жестов, и сравнивает изображение с тем, как люди обычно показывают те или иные слова.

Модель правильно определяет слова и выражения с 80% точностью, а с дополнительной оптимизацией может достичь и 91,5%. Учитывая, что обнаружение «активного говорящего» в большинстве сервисов работает с задержками, исследователи считают, что это очень большие цифры.

Ледник «Судного дня» оказался опаснее, чем думали ученые. Рассказываем главное

На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком

В видеозвонках научились определять язык жестов