OpenAI представила бесплатную языковую модель GPT-4o. Разобрались, какие функции предлагает обновленный Chat GPT.
На недавней презентации OpenAI компания представила новинки и обновления для существующих продуктов. Основным событием стало анонсирование новой языковой модели GPT-4o ChatGPT. Доступ к ней открыт как для бесплатных, так и для платных пользователей. Платная версия предлагает более высокую скорость работы.
Модель GPT-4o способна анализировать и создавать звук, изображения и текст в реальном времени, при этом она стала лучше понимать голосовые интонации. Во всех проведенных тестах модель демонстрирует лучшие результаты, опережая своего основного конкурента, Google Gemini.
Развертывание GPT-4o начнется сегодня и будет происходить поэтапно.
Какие функции есть у GPT-4o?
На YouTube-канале OpenAI появились примеры использования GPT-4o в повседневной жизни:
— Модель объясняет школьнику, как решать задачу по математике. Не решает сама, а именно объясняет как решить!
— Выступает в роли языкового носителя, помогая выучить испанский язык;
— Рассказывает слепому человеку, что находится в его окружении;
— Легко переводит диалог на разных языках так, чтобы он был понятен обоим участникам;
— Подготовит к собеседованию на интересующую вас вакансию;
— Может участвовать в созвоне как полноценный участник.
Эти функции будут доступны всем пользователям.
Как работает GPT-4o?
Иван Оселедец, генеральный директор Института AIRI и профессор Сколтеха рассказал «Хайтеку» об особенностях работы обновленной языковой модели.
Особенно его заинтересовали продуктовые решения. Также Иван Оселедец отметил быстрое написание кода с помощью GPT-4o. В целом, инференс (непрерывная работа нейросети на конечном устройстве) модели ускорился. Появилась функция синтеза речи, имитации эмпатии и уточняющих вопросов. Вместо моментальных ответов на запрос пользователя бот будет уточнять требования более детально. По задумке это должно улучшить качество ответов. Модель будет доступна бесплатно, а также появится возможность подключения через API и десктопное приложение.
Однако профессор Сколтеха отметил, что по отдельности новые фишки «не настолько впечатляющие» — каждая из них реализуется различными компаниями и стартапами со всего мира. «Например, синтез речи от SunoAI звучит намного более естественно, а показанные примеры анализа видео можно решать с помощью анализа отдельных ключевых кадров в потоке, что снижает вычислительную сложность и не требует подробного анализа временной связности кадров», — добавил профессор Сколтеха.
Однако еще ни у кого не получилось хорошо «уместить» их все в одну модель. Именно это наиболее важное обновление связано с мультмодальностью. GPT4o — «омни» модель, натренированная на нескольких форматах данных одновременно. Ничего принципиально невозможного показано не было, но работа очень качественная и свидетельствует о том, что OpenAI старается держать марку лидеров отрасли, заключает эксперт.
Читать далее:
Оказалось, в прошлом Марс был больше похож на Землю, чем все думали
Сибирские «врата в подземный мир» растут: что происходит в Батагайке