ИИ от OpenAI научился говорить с эмоциями и понимать акценты

OpenAI объявила о выпуске улучшенных моделей искусственного интеллекта (ИИ) для преобразования текста в речь и речи в текст.

Компания представила модель gpt-4o-mini-tts для синтеза речи из текста, которая, по заявлениям разработчиков, обеспечивает более естественное и реалистичное звучание по сравнению с предыдущими версиями. В модели можно тонко настраивать характеристики голоса, включая интонации, паузы и эмоциональную окраску. Разработчики могут давать простые инструкции, например, «говори как сумасшедший ученый» или «используй спокойный голос, как ментор».

По словам Джеффа Харриса, сотрудника отдела разработки продуктов OpenAI, компания стремилась предоставить контроль не только над содержанием, но и над способом передачи информации. «В реальных задачах вам не нужен просто плоский, монотонный голос. Если вы работаете в службе поддержки клиентов и хотите, чтобы голос извинялся, потому что он совершил ошибку, вы можете заставить ИИ передавать эту эмоцию», – пояснил Харрис.

Новая модель поддерживает русский язык, хотя при озвучивании текста иногда заметен небольшой акцент. Пользователи могут бесплатно протестировать технологию на сайте.

В веб-интерфейсе можно настраивать разные параметры голоса

Кроме того, OpenAI представила две модели для преобразования речи в текст: gpt-4o-transcribe и gpt-4o-mini-transcribe, которые призваны заменить существующую модель Whisper. Обученные на разнообразных аудиоданных, эти модели распознают речь с акцентом даже в условиях шума. Харрис говорит, что новые модели значительно реже «галлюцинируют», то есть меньше склонны фальсифицировать слова или целые отрывки в стенограммах.

Внутреннее тестирование показало, что точность транскрипции варьируется в зависимости от языка. Так, для индийских и дравидийских языков коэффициент ошибок может достигать 30%, что означает, что три из десяти слов могут отличаться от человеческой транскрипции. В популярных языках — английском, испанском, португальском — доля ошибок не превышает 5–10%.

Данные о доле ошибок для распознавания текстов на разных языках. Источник: OpenAI

Все представленные новинки уже доступны через API OpenAI, что позволяет разработчикам интегрировать передовые голосовые технологии в свои приложения и сервисы.


Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Загадочное явление в центре Млечного Пути может скрывать новый вид темной материи

Посмотрите на Антарктиду без льда: опубликована подробная карта южного континента

На обложке: designed by Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Тайны древней звезды по соседству изучили, «подслушав ее песню»
Космос
Baidu делает ИИ для перевода звуков животных в человеческую речь
Наука
Оказалось, ИИ врет чаще при одном условии: как этого избежать
Новости
Суперкомпьютер Маска сжирает электричество как 300 000 домов: люди протестуют
Новости
Посмотрите, как робот стремительно отбивает подачи в настольном теннисе
Новости
Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото
Наука
Создано музыкальное приложение для реабилитации после инсульта
Наука
«Эффект аккордеона» превращает жесткий графен в эластичный материал
Наука
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости
Ученые решили проблему, которая мешала запуску термоядерных реакторов почти 70 лет
Наука
Китайское «супероружие» для подводных диверсий оказалось не таким, как считалось
Новости
Отключение мобильного интернета в Москве: какие последствия для бизнеса
Новости
Киберполиция назвала новые схемы мошенников: как они воруют аккаунты на «Госуслугах»
Новости
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости