Клонирование голоса — это когда компьютерная программа используется для создания синтетической адаптируемой копии голоса человека. На основе записи чьей-либо речи она может воспроизвести голос женщины или мужчины, произнося любые слова или предложения, которые оператор вводит на клавиатуре.
Как работает клонирование голоса?
Последние достижения в технологии привели к тому, что компьютерный звук становится невероятно точным. Программа может улавливать не только акцент человека, но и тембр, высоту звука, темп, ход речи и ваше дыхание.
А клонированный голос можно настроить для отображения любых требуемых эмоций, таких как гнев, страх, счастье, любовь или скука.
Это стало возможным благодаря достижениям в области машинного обучения. Раньше для создания наиболее реалистичных синтетических голосов требовалось присутствие актера. После записи, его речь разделяли на составляющие звуки и объединяли их вместе для формирования новых слов.
Теперь же нейронные сети можно обучить на несортированных данных целевого голоса. Вся необходимая информация загружается, сеть обучается, а после программа синтетическим голосом говорит, что требуется.
Как технологию применяют в наши дни?
В интервью «Би-би-си» Тим Хеллер, 29-летний актер озвучки и звукорежиссер из Техаса, рассказал, как использует клонирование голоса в своей работе. По его словам, недавно он воспользовался технологией, чтобы улучшить карьеру. Например, голосовой клон пригодится, если актера забронируют две разные студии на одно время или у него будет слишком много заказов. Чтобы клонировать свой голос, Хеллер обратился в компанию VocaliD. Ее основала Рупал Патель, профессор коммуникационных наук и расстройств в Северо-Восточном университете. Профессор Патель основала бизнес в 2014 году как продолжение своей клинической работы, когда она создавала искусственные голоса для пациентов. Они помогали общаться тем, кто не может говорить без посторонней помощи, например людям, которые потеряли голос после операции или болезни.
Патель говорит, что программное обеспечение с ИИ может учиться и адаптироваться само по себе. За счет этого технология значительно продвинулась вперед за последние несколько лет.
Что касается озвучки, клонирование голоса также может использоваться для перевода слов актера на разные языки. Правда, это плохая новость для актеров дубляжа. Так, у американских кинопроизводственных компаний отпадает необходимость нанимать людей актеров для дубляжа фильмов для дистрибуции за рубежом. Например, представители канадской компании Resemble AI заявляют, что теперь их ПО может преобразовывать клонированные английские голоса в 15 других языков. Её генеральный директор Зохайб Ахмед заявил, что для создания качественной копии чьего-то голоса программе требуется запись чьей-либо речи продолжительностью всего 10 минут.
В чем опасность технологии?
Несмотря на то, что у клонирования голоса есть очевидный коммерческий потенциал, технология вызывает опасения у экспертов по безопасности. Например, ее могут использовать киберпреступники. Так, эксперт по кибербезопасности Эдди Бобрицки подчеркивает, что синтетические голоса создают «огромный риск для безопасности».
«Люди уже привыкли не сильно доверять сообщениям, например, в соцсетях или отправленных по электронной почте. Много лет известно, что выдать себя за других довольно легко, используя этот формат общения, — объясняет руководитель израильской фирмы Minerva Labs. — До сих пор разговор по телефону с кем-то, кому ты доверяешь и хорошо знаешь, был одним из самых распространенных способов убедиться, что тебя не обманывают или разыгрывают».
Действительно, когда мы получаем сомнительные сообщения от знакомых, например, со срочной просьбой перевести денег, самая распространенная практика — перезвонить и убедиться, что тебя не обманывают.
Однако Бобрицкий заявляет, что сейчас ситуация меняется. «Например, если начальник звонит сотруднику с просьбой предоставить конфиденциальную информацию, и сотрудник узнает голос руководителя, он может мгновенно сделать то, а о чем его просили сделать то, о чем просили. Это путь к множеству киберпреступлений».
Мошенники уже использовали голосовые клоны, чтобы обманом заставить компании переводить деньги на счета преступников. Два года назад The Wall Street Journal сообщала, что исполнительного директора британской энергетической компании обманули и он перевел 200 тыс. евро венгерскому поставщику. Он был уверен, что получает инструкции от начальника. Но это было не так. Страховая компания энергетической компании Euler Hermes Group SA сообщила WSJ, что мошенник использовал ПО, оснащенное искусственным интеллектом, чтобы имитировать голос руководителя.
«Программа смогла имитировать голос, а также тональность, интонационную пунктуацию и немецкий акцент», — позже сообщил The Washington Post представитель Euler Hermes. Телефонный звонок сопровождался электронным письмом, и генеральный директор энергетической компании сделал, что от него требовали. Сами деньги пропали безвозвратно, их перевели через счета в Венгрии и Мексике.
Что в итоге?
Одно можно сказать наверняка: в будущем любой сможет создать свой голосовой клон ИИ, если захочет. Но сценарий, которому будет следовать этот «хор» цифровых голосов, еще не написан. Как и в случае с дипфейками лиц, закон и этические нормы не успевают за технологиями.
Читать далее
Археологи нашли скрытый район в древнем городе майя. Это оказалась особая цитадель
Судмедэксперты восстановили лица трех египетских мумий
Это был не взрыв: три главных мифа о том, как зародилась Вселенная