Инженеры из Microsoft представили нейросеть, способную создавать сложные изображения по текстовому описанию, которая работает лучше алгоритмов, представленных до сих пор. Описание разработки опубликовано на arxiv.com.
Исследователи разработали генеративно-состязательную нейросеть, которая очень похожа на представленный ранее Microsoft алгоритм AttGAN. Отличие заключается в том, что новая нейросеть при создании изображений на основе текста ориентируется на объекты — другими словами, она анализирует нужный текст и раскладывает объекты из библиотеки на готовом изображении.
Алгоритм обучался на 328 тыс. объектах с текстовым описанием, собранных в датасете COCO.
В исследовании говорится, что представленная нейросеть лучше других алгоритмов справляется с созданием по текстовому описанию сложных объектов, в которых содержится множество мелких деталей.
Ранее лаборатория Facebook AI представила искусственный интеллект, который может по фотографиям еды сгенерировать собственный рецепт приготовления этого блюда.