Кейсы 8 декабря 2021

Мегамозг: как новая нейросеть предсказывает десятки тысяч новых белков и делает лекарства за полчаса

Далее

Нейросеть AlphaFold от компании DeepMind называют разработкой, которая изменит науку. Она скомпоновала базу данных из более 350 000 белковых структур, принадлежащих Homo sapiens и еще 20 модельных организмов. Чтобы объяснить, почему эта технология — настоящий прорыв, «Хайтек» приводит адаптированный перевод материала издания Nature, а на примере конкретной области науки рассказывает, какие именно изменения произойдут с «революционным» подходом к разработке новых видов белка.

Бесконечный генератор всего

Геном человека содержит код для более чем 20 000 белков. Но экспериментально определить трехмерные структуры удалось только лишь для трети из них. Во многих случаях такие структуры известны лишь частично.

Инструмент искусственного интеллекта AlphaFold, разработанный лондонской компанией DeepMind, дочерней организацией Google, предсказал структуру почти всего человеческого протеома (полного набора белков, производимых организмом). Кроме того, программа воссоздала почти полные протеомы других организмов: от мышей и маиса (кукурузы) до малярийного паразита.

Общедоступная база данных содержит более 350 тыс. белковых структур разной степени точности. Исследователи утверждают, что этот ресурс, который к концу года вырастет до 130 млн структурных записей, способен произвести революцию в науке.

«С моей точки зрения, это настоящий прорыв. Зная конформации всех этих белков, можно понять их механизмы», — говорит Кристин Оренго, специалист по вычислительной биологии из Университетского колледжа Лондона (UCL).

«Это самый большой вклад системы искусственного интеллекта в развитие научных знаний на сегодняшний день. И я не преувеличиваю», — комментирует Демис Хассабис, соучредитель и исполнительный директор DeepMind.

Исследователи подчеркивают, что текущий банк данных — это только начало. Они планируют подтвердить компьютерные предсказания и, что еще важнее, применить их в экспериментах, которые раньше проводить было невозможно. «Обладание таким объемом данных в таком масштабе — это невероятный шаг», — говорит Дэвид Джонс, специалист по вычислительной биологии Калифорнийского университета, который консультировал DeepMind по предыдущей итерации AlphaFold.

Прогнозы, приносящие награды

В 2020 году компания DeepMind произвела фурор в медико-биологическом научном сообществе — обновленная версия AlphaFold победила в конкурсе по предсказанию структуры белков CASP (критическая оценка предсказаний белковых структур, Critical Assessment of Protein Structure Prediction). В этом длительном соревновании исследователи предсказывают структуры белков, которые открыли экспериментально, но пока не обнародовали.

Результаты некоторых предсказаний от AlphaFold оказались на одном уровне с очень хорошими экспериментальными моделями — после этого ученые заявили, что вклад инструмента в науку станет эпохальным. Компания DeepMind опубликовала исходный код последней версии AlphaFold и описание процесса ее разработки. Потом алгоритм оптимизировали для более эффективной работы. Некоторые из прогнозов для конкурса CASP занимали несколько дней, а обновленная версия AlphaFold может вычислять их за несколько часов или даже минут.

Оптимизация эффективности помогла команде DeepMind предсказать структуры почти всех известных белков, закодированных в геноме человека и 20 модельных организмов. Структуры доступны в базе данных, которую ведет EMBL-EBI, Европейский институт биоинформатики Европейской лаборатории молекулярной биологии в Кингстоне, Великобритания.

AlphaFold предсказывает структуры, которые точнее, чем экспериментальные результаты

Помимо предсказанных структур, которые охватывают 98,5% от известных белков человека и других организмов, AlphaFold создал оценку достоверности своих предсказаний. «Мы хотим дать экспериментаторам и биологам представление о том, на какие части предсказаний можно полагаться», — говорит Кэтрин Туньясувунакул, научный инженер DeepMind. По словам Туньясувунакул, 58% предсказаний расположения отдельных аминокислот человеческого протеома оказались достаточно достоверными, чтобы с уверенностью судить о форме складок белка. 36% — достаточно точно для детализации фолдинга, полезных для разработки лекарств, например, активного сайта фермента.

Но полезными могут оказаться и менее точные предсказания. «Многие белки просто болтаются в растворе без фиксированной структуры», — говорит ведущий исследователь AlphaFold Джон Джампер. Некоторые из областей, которые AlphaFold определила как обладающие низкой степенью достоверности, совпали с теми, которые, по мнению биологов, являются неупорядоченными, говорит Пушмит Кохли, руководитель отдела научного искусственного интеллекта DeepMind.

По мнению исследователей, одна из самых сложных задач для предсказаний AlphaFold — это определение способов взаимодействия отдельных белков с другими клеточными игроками. Для конкурса CASP большинство предсказаний касалось независимо складывающихся единиц белка, называемых доменами. Но протеом человека и других организмов содержит белки с несколькими доменами, которые складываются полунезависимо. Клетки человека также содержат молекулы, состоящие из нескольких цепочек взаимодействующих белков, например, рецепторы на клеточных мембранах.

Океан данных

По словам Самира Веланкара, специалиста по структурной биоинформатике из EMBL-EBI, 365 тыс. записей предсказанных структур к концу года должны разрастись до 130 млн — почти половины от всех известных белков. База данных будет обновляться по мере выявления новых белков и улучшения прогнозов.

Исследователи уже используют AlphaFold и другие инструменты, чтобы разобраться в экспериментальных данных, полученных с помощью рентгеновской кристаллографии и криоэлектронной микроскопии. К примеру, Марсело Соуза, биохимик из Университета Колорадо в Боулдере, использовал AlphaFold для создания моделей на основе рентгеновских данных белков — с их помощью бактерии обходят антибиотик колистин. Соуза отмечает, что части экспериментальной модели, которые отличались от предсказаний AlphaFold, оказались областями с низкой степенью достоверности. Это признак того, что AlphaFold точно определяет свои ограничения.

Тем не менее, по словам Венки Рамакришнана, структурного биолога Лаборатории молекулярной биологии MRC в Кембридже, ученые продолжат сравнивать предсказания с экспериментальными данными, чтобы лучше понять их надежность. «Мы должны иметь возможность доверять этим данным», — добавляет Оренго.

Джонс тоже впечатлен нейросетью. Он отмечает что многие из моделей, предсказанных AlphaFold, можно было получить с помощью более ранних программных разработок. «Для большинства белков этих результатов уже достаточно для дальнейших действий». Ученые, твердо решившие получить структуру какого-либо конкретного белка, вероятно, смогут добиться успеха, используя экспериментальные подходы.

Доступность такого количества белковых структур станет «сменой парадигмы» в биологии, говорит Мохаммед Аль-Кураиши, вычислительный биолог из Колумбийского университета Нью-Йорка, который работает над предсказанием белковых структур. Его отрасль потратила так много времени и энергии на предсказание точных белковых структур такого масштаба, что еще не решила, что делать с такими ресурсами.

Оренго надеется, что база данных поможет лучше понять структурные ограничения белков. Она разделила базу данных известных белков на около 5 000 «структурных семейств», но около половины белков из базы данных исключены, потому что для них не существует ничего другого с определенной структурой. Предсказания AlphaFold помогут открыть новые формы, говорит она.

Джонс ожидает, что AlphaFold вызовет много душевных терзаний среди биологов по поводу того, что делать с таким количеством структур — и легкостью создания еще большего количества. «Будут проводиться конференции. Теперь у нас есть 130 млн моделей, как это изменит наш взгляд на биологию? Может быть, не изменит вообще, однако я так не думаю».

примеры белков от AlphaFold

Как это изменит науку на примере фудтеха?

Такие сложные технологии трудно воспринимать в общем, поэтому лучше рассмотреть влияние нейросети на конкретную область. К примеру, свойства белков, применяющихся в пищевой промышленности, часто являются следствием их трехмерной структуры. Свойства — это вкус, аллергенность, текстура, физико-химические показатели, ферментативная активность.

«Пищевую индустрию изменит создание новых белков, не имеющих природных аналогов. В природе известно около 10 в 12-й степени белков, а количество теоретически возможных вариантов белка из 100 аминокислотных остатков несравнимо больше — 10 в 130-й степени», — отмечает управляющий партнер венчурного фонда Fuel for Growth, советник по инновациям ГК ЭФКО Андрей Зюзин.

Он объясняет, что новые белковые продукты создаются несколькими способами: подбором из природного репертуара белков, внесением случайных изменений со скринингом полученных вариантов на предмет улучшенных свойств. В редких случаях применяют вычислительные методы для внесения просчитанных изменений в структуру. Например, израильская компания Amai Proteins так модифицирует природный сладкий белок браззеин.

«Нейросеть AlphaFold DeepMind поможет разработчикам создать структуру нового белка еще до прихода в лабораторию. К примеру, нам нужен суперсладкий белок, в миллион раз слаще обычного сахара. Разработчики только приблизительно понимают, как воссоздать такие свойства, и могут экспериментально проверить свои теории, — добавляет Зюзин. — А нейросеть без экспериментов синтезирует структуру такого белка с достоверностью более 90%. Готовое решение нужно будет проверить в лаборатории, но программа уже сделала основную сложнейшую работу».

ИИ сможет создавать сладкие белки, белки с дополнительным содержанием аминокислот, которые не производятся в человеческом организме. У белка появляются особые свойства, которые нельзя смоделировать даже в лаборатории. Такие продукты появятся уже через два года. Раньше производителям приходилось проходить лабораторию много раз с большим количеством ошибок из-за неточного моделирования структуры продуктов.

Исследователь отмечает, что с внедрением нейросетей количество опытов вырастет, а количество ошибок — снизится. Появится больше синтезированных в электронном виде белков. Заказчики будут приходить в лаборатории с уже готовыми структурами и просто тестировать их.

Ученые говорят, что нейросеть еще нуждается в доработке, но ее потенциальное влияние на науку очевидно уже сейчас. К примеру, немецкие исследователи целое десятилетие пытались выяснить форму одного белка для разработки лекарств и не смогли это сделать. С помощью AlphaFold им удалось сделать всего за полчаса. Эти скорость и легкость исследований распространятся на десятки сфер науки, а ближайшие разработки появятся уже через несколько лет.


Читать далее:

Ученые выяснили, как выживает самый большой гриб в мире. Он весит больше 35 000 тонн

В Китае использовали ИИ, чтобы улучшить технику. Так появился самый мощный пистолет Гаусса

Это был удар молнии, а Дарвин — неправ: странные теории о происхождении жизни на Земле