Предложенный метод позволяет текстом описать молекулу с определенными свойствами и получить подробную инструкцию, как ее синтезировать. Препринт с описанием технологии опубликован на портале arXiv.
Исследователи из Массачусетского технологического института и лаборатории IBM Watson разработали искусственный интеллект Llamole для проектирования лекарств и материалов с заданными свойствами. Система объединяет возможности больших языковых моделей и специализированных графовых нейросетей для проектирования молекул по текстовому запросу.
Большие языковые модели (LLM), как ChatGPT, отлично работают с текстовыми запросами, но плохо понимают химические структуры и связи. Специализированные графовые модели моделируют молекулярные связи, но не понимают текстовые запросы. Инженеры придумали, как объединить достоинства обоих подходов.
Llamole использует модель LLM в качестве посредника для анализа запроса пользователя: какую молекулу и с какими характеристиками нужно получить. Отдельный модуль использует модель диффузии графа для генерации молекулярной структуры, соответствующей требованиями. Другой — ищет точный набор шагов для создания молекулы из базовых строительных блоков.
Исследователи создали специальный триггерный токен, который сообщает LLM, когда активировать каждый модуль. Он помогает LLM понять, когда переключиться на модуль, который рисует молекулярную структуру, а когда — на модуль ретросинтетического планирования, который предсказывает шаги химической реакции. В конечном итоге Llamole выводит изображение молекулярной структуры, текстовое описание молекулы и пошаговый план ее синтеза.

Исследователи протестировали Llamole для синтеза молекул с заданными свойствами. Успешность ретросинтетического планирования увеличилась по сравнению с существующими моделями с 5 до 35%: система предлагала молекулы с простой структурой, дешевыми компонентами и доступными реакциями.
Самостоятельно LLM с трудом понимают, как синтезировать молекулы, поскольку это требует многоэтапного планирования. Наш метод позволяет генерировать лучшие молекулярные структуры, которые также легче синтезировать.
Ган Лю, аспирант Университета Нотр-Дам и соавтор исследования
Ограничение существующей модели — 10 молекулярных свойств, с которыми сейчас работает нейросеть. Ученые планируют обучить модель на других свойствах и улучшить графовые модули для повышения успешности синтеза. Результаты исследования представят на конференции International Conference on Learning Representations.
Читать далее:
Выяснилось, из чего состоит загадочная темная материя
Ученые в тупике: «Уэбб» засек невозможный свет в галактике
Названа главная опасность брака: оказалось, это приводит к деменции
На обложке: Изображение от freepik, сведения о лицензии