Появилась инновационная ИИ-модель для генерации белковых молекул на латентной диффузии
Наука 4 сентября 2025

Появилась инновационная ИИ-модель для генерации белковых молекул на латентной диффузии

Далее

Модель в 100 раз компактнее аналогов, при этом превосходит их в эффективности.

Ученые из Института AIRI и немецкого Constructor University представили совместную работу, посвященную разработке инновационной модели для генерации искусственных белков — DiMA.

Одна из практических задач модели — генерация белков с заранее определенными характеристиками. Она способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов.

С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определенную структуру. Ее можно представить как набор координат всех атомов в трехмерном пространстве, или же — в развернутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». Таким образом формируется что-то вроде длинного слова или предложения, где каждая «буква» означает уникальные физико-химические свойства. Их последовательность определяет, как белок свернется, а следовательно — какие функции и характеристики будет иметь.

Для создания искусственных белков ученые уже применяли различные типы языковых моделей. Авторегрессионные модели работают подобно ChatGPT — генерируют белковые последовательности побуквенно. Дискретные диффузионные модели создают всю последовательность, «слово», сразу. Но оба эти подхода требуют большого размера модели и огромного количества данных для обучения.

Ученые предложили принципиально новый подход, основанный на непрерывной Гауссовой диффузии. Сначала DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. По сути, модель научилась понимать, как устроена вся «Вселенная белков», и может ее достоверно имитировать. На втором этапе исследователи дообучили систему генерировать белки только из определенных областей пространства, задавая соответствующие условия. Например, белки определенного семейства или белки с заданной трехмерной структурой. Такой подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.

«В естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако, эволюция показала нам лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. Теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей. DiMA способна напрямую генерировать белковые последовательности, которые никогда не встречались в природе, но точно соответствуют заданным исследователем критериям — например, определенной трехмерной укладке или функциональным свойствам», — отметил Павел Страшнов, ведущий научный сотрудник группы дизайна белков Центра ИИ-разработки новых лекарственных препаратов Института AIRI.

Результаты исследования представлены на 42-й Международной конференции по машинному обучению ICML 2025.

Читать далее:

Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?

Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете

Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»

Обложка: pikisuperstar