Исследователи искусственного интеллекта из Apple Inc. и Корнелльского университета незаметно представили мультимодальную большую языковую модель (MLLM) с открытым исходным кодом, известную как Ferret. Она использует части изображений в качестве запросов.
По данным VentureBeat, выпуск Ferret на GitHub в октябре остался полностью незамеченным, без каких-либо объявлений. Однако с тех пор модель привлекла большое внимание исследователей ИИ. Барт Де Витт, управляющий некоммерческой организацией, занимающейся искусственным интеллектом с открытым исходным кодом в медицине, написал в X, что выпуск Ferret «укрепляет позиции Apple как лидера в сфере мультимодального искусственного интеллекта».
Принцип работы Ferret заключается в том, что модель анализирует указанный фрагмент изображения, определяет объекты на этом участке и выделяет их рамкой. Обнаруженные объекты на фрагменте изображения система рассматривает как часть запроса, на который предоставляется текстовый ответ. Например, пользователь может выделить на картинке изображение животного и попросить Ferret распознать его. Модель даст ответ, указывающий к какому виду относится это животное, и пользователь сможет задать дополнительные вопросы, уточнив информацию о других объектах или действиях в контексте.
Модель Ferret с открытым исходным кодом — это система, которая может «ссылаться и обосновывать что угодно, где угодно и с любой степенью детализации», — отметил исследователь Apple AI Чжэ Ган в посте на Х.
Исследователи искусственного интеллекта утверждают, что выпуск Ferret важен, поскольку он демонстрирует удивительную открытость Apple, что прямо контрастирует с обычным скрытным характером компании.
Однако по словам технического блогера Бена Диксона, инфраструктура Apple не предназначена для обслуживания LLM в больших масштабах. А, значит, компания не может рассчитывать на конкуренцию с такими моделями, как ChatGPT. Таким образом, Apple приходится выбирать между партнерством с облачным гипермасштабом в работе по искусственному интеллекту или поделиться работой с сообществом открытого исходного кода.
Читать далее:
Творение Вселенной объяснили по-новому: как это меняет физику
Момент творения: как физики объясняют строение Вселенной
Эпидемия «зомби» у оленей распространяется в США: ученые говорят о риске заражения людей
Обложка: результат генерации по запросу «Нейросеть», Kandinsky by Sber AI