OpenAI запускает новую версию большой языковой модели GPT-4o. Обновленный ИИ «намного быстрее», улучшает возможности взаимодействия с помощью текста, аудио и визуальных данных и будет бесплатно доступен всем пользователям ChatGPT, заявила технический директор компании Мира Мурати во время презентации в прямом эфире. Серьезные изменения также ожидаются в пользовательском интерфейсе для работы с чат-ботом.
В блоге компании отмечается, что новые функции и другие изменения будут появляться постепенно в течение ближайших недель, а первые обновления для работы с текстом и изображениями стали доступным некоторым пользователям сразу после презентации.
В общедоступной версии по умолчанию будет использоваться GPT-4o с ограничением на количество сообщений, которое варьируется в зависимости от загрузки серверов. После исчерпания лимита пользователя автоматически переключат на старую версию GPT-3.5. По подписке можно отправить до 80 сообщений каждые 3 часа при использовании GPT-4o и до 40 сообщений — к GPT-4.
Генеральный директор OpenAI Сэм Альтман отметил, что модель «изначально мультимодальная», то есть может генерировать контент или понимать голосовые, текстовые или визуальные команды. Для разработчиков доступен API, который вдвое дешевле и в два раза быстрее, чем GPT-4 Turbo, добавил Альтман в своем блоге в социальной сети X.
audience request to act as a translator pic.twitter.com/E2qbfhyVmX
— Sam Altman (@sama) May 13, 2024
Особое внимание в презентации компании обращают на использование голосового режима, который превращает ChatGPT в альтернативу голосовому помощнику. Разработчики отмечают, что им удалось существенно ускорить время отклика, приблизив его к человеческой речи: средняя реакция для голосовых сообщений на английском языке составляет всего 323 мс. Всего модель поддерживает 50 языков, включая русский. Для сравнения в GPT-3.5 аналогичная задержка, связанная с обработкой данных, составляла 2,8 секунды, а в GPT-4 — 5,4 секунды. Данные для других языков не приводятся, но отмечается, что и для них речевой режим стал гораздо быстрее.
В демонстрационных видео, опубликованных в блоге компании, показаны некоторые варианты возможного использования новых голосовых возможностей и функций для работы с мультимедиа. Например, ChatGPT может выступать в роли синхронного переводчика, позволяя общаться на разных языках, анализировать окружение, помогая выбрать правильное направление, или даже петь. Кроме того, с помощью видео можно, например, показать, где вы застряли в решении сложной математической задачки, ИИ поможет с решением и объяснит правила.
and with video mode!! pic.twitter.com/cpjKokEGVd
— Sam Altman (@sama) May 13, 2024
Помимо обновленной веб-версии и мобильного приложения компания сообщила о запуске программы для ПК, в котором будут доступны все те же функции. Пока опубликована версия для MacOS, для компьютеров на базе других операционных систем приложение появится в ближайшее время. В приложении можно делиться скриншотами, фотографиями и документами, спрашивать ChatGPT о предыдущих разговорах, искать информацию в реальном времени и выполнять анализ данных, загружая диаграммы или код перед тем, как задавать вопросы.
Дебют ChatGPT в 2022 году положил начало серии решений в области генеративного ИИ, которая продолжается до сих пор, напоминая гонку вооружений. Релиз новой версии чат-бота состоялся накануне запланированной на вторник конференции Google, на которой, как ожидается, ИТ-гигант представит обновление своего ИИ Gemini. А в июне на Worldwide Developers Conference свою ставку в этой гонке сделает Apple.
Ранее сообщалось, что OpenAI планирует запустить собственную поисковую машину для конкуренции с Google, но, как сообщил Сэм Альтман, этого в ближайшее время не произойдет.
Читать далее:
Оказалось, в прошлом Марс был больше похож на Землю, чем все думали
Сибирские «врата в подземный мир» растут: что происходит в Батагайке
Недалеко от нас есть планета, где ветер дует быстрее пули
На обложке: Image by frimufilms on Freepik, сведения о лицензии