Сегодня много систем используют идентификацию пользователя по голосу, например, умные колонки «Яндекса» распознают голос владельца, а в свой аккаунт в WeChat можно войти, если сказать определенную фразу. Разработчики этих и других сервисов исходят из того, что голос человека уникален и это надежное средство для подтверждения свей личности.

Но системы синтезирования человеческого голоса быстро учатся. Авторы новой работы решили проверить, на сколько хорошо алгоритм подстраивается под определенный тембр и интонацию. Авторы исходили из ситуации, в которой у злоумышленника есть доступ к образцам голоса жертвы в виде публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с ним и записать речь.

Общая длина всей записи голоса — не более 5 минут. Далее на основе этих данных злоумышленник мог дообучить алгоритм до желаемого результата. Использовать при этом можно было только публично доступные алгоритмы, авторы выбрали два: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.

Во время тестирования успешнее всего показала себя модель SV2TTS и датасет VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4%, для Azure — 29,5 ± 32%.

Для тестирования WeChat и голосового помощника Alexa исследователи привлекли 14 добровольцев: сначала они обучали модель своему голосу, а затем проверяли систему на синтезированных записях. В итоге 9 из 14 человек удалось войти в WeChat, а Alexa рано или поздно смогли обмануть все.

Также при разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50%.

Читать далее

В американской пустыне вылупились «живые ископаемые». Они спали десятки лет

Посмотрите на цифровое искусство, которое сделали на основе анализа книг Айзека Азимова

Брэнсон, Безос и Пересильд: зачем известные люди летят в космос и что они там делают

Нейросеть синтезировала речь, которой смогла обмануть алгоритмы и других людей