Кейсы 9 августа 2021

Что ученые делают в облаках: от мониторинга Байкала до анализа генома

Далее

Ученые все чаще используют облачные технологии в своей исследовательской деятельности. Причин несколько: использование облака ускоряет разработку проектов, позволяет по требованию увеличивать вычислительные мощности и помогает делать эксперименты. Облака используются в самых разных научных сферах: как в неразрывно связанных с большим объемом вычислений (прежде всего, это математика и физика), так и в естественных (биология и медицина), и даже гуманитарных. О востребованных направлениях развития облачных технологий в науке рассказывает Алена Дробышевская, руководитель направления по машинному обучению Yandex.Cloud.

Облака для беспилотных болидов и анализа генома

Для проведения многих исследований вузам и научным организациям нужны довольно серьезные вычислительные мощности — и это первая причина, по которой они приходят к использованию облачных платформ. Облака становятся более гибкой и удобной (особенно для географически распределенных команд) альтернативой закупке или аренде необходимого оборудования.

Примеры:

Гоночная команда МГТУ им. Н. Э. Баумана (Bauman Racing Team) использовала облачные мощности для создания беспилотного гоночного болида. В систему автономного вождения заложен алгоритм, который распознает объекты на трассе в режиме реального времени. Благодаря этому автомобиль движется в правильном направлении. Для такого распознавания разработчики использовали сверточные нейросети, а обучение этих нейросетей происходило в облаке.

Команда Bauman Racing Team использовала сервис ML-разработки (Machine learning) Yandex DataSphere для обучения двух нейронных сетей, обрабатывающих изображения. Использование этого инструмента позволило значительно повысить скорость и удобство обучения алгоритмов: уже сейчас одна из нейронных сетей пропустила через себя 7 000 изображений, а вторая — 3 000.

Центр применения количественных методов в биологии при немецком Университете Тюбингена сотрудничает в своих проектах по исследованию генома с облачным сервисом корпорации Amazon — AWS. Немецкие ученые используют облако для анализа десятков тысяч генетических образцов и выявления различных закономерностей: например, различий в экспрессии генов между здоровой и больной тканью. Использование облака позволило на 50% уменьшить время исследования геномов и ускорить работу над проектом.


Экспрессия генов — процесс преобразования наследственной информации (последовательности нуклеотидов ДНК) в РНК или белок. Именно регуляция экспрессии генов дает клеткам возможность контролировать свою структуру. Контроль над характеристиками экспрессии генов влияет на функции других генов в целом организме.


Считать яблоки, искать рак и анализировать снимки черной дыры

Сегодня облачные провайдеры предоставляют удобные готовые инструменты для ML-разработки и работы с данными — и это вторая причина, по которой научные организации приходят к использованию облака.

К таким инструментам относятся прежде всего сервисы для машинного обучения: Yandex DataSphere, Google Cloud ML или Azure ML. Интерес для исследователей представляют сервисы для удобного просмотра и визуализации данных: например, Yandex DataLens или Microsoft Power BI. Есть и более специализированные инструменты, такие как AWS Panorama для технологий компьютерного зрения, Yandex SpeechKit для распознавания и синтеза речи или Google Vision AI для анализа изображений.

Примеры:

Биологический факультет МГУ вместе с ФНЦ имени Мичурина, Тамбовским государственным университетом и агроинженерным центром ВИМ использовали инструменты Yandex.Cloud для создания системы мониторинга садов. Она применяется для более точной оценки и прогнозирования объема урожая и более эффективного планирования дальнейшей логистической цепочки.

Ученые загружают в облачное хранилище Yandex.Cloud фотографии плодов и используют Yandex DataSphere для создания самообучающегося алгоритма: он распознает отдельные яблоки на деревьях и считает их количество, а также учится определять такие показатели, как интенсивность цветения, обилие урожая на гектар и качество самих плодов.

Американское онкологическое общество на базе Google Cloud анализировало различные снимки органов женщин, болеющих раком груди, и выявило закономерности возникновения и развития таких опухолей. Ученые использовали Cloud ML Engine: машинное обучение позволило проводить анализ в 12 раз быстрее. Кроме того, как отмечают авторы исследования, использование облака предоставляет ученым возможность масштабировать результаты работы и использовать полученные выводы в других аналогичных проектах.

Международный астрономический исследовательский проект Event Horizon Telescope использовал вычислительные мощности Google Cloud для создания первого изображения черной дыры. Для создания такого изображения были обработаны огромные объемы данных, поступающих с телескопов: в течение недели наблюдений ежедневно поступало в среднем 350 ТБ данных. Для обработки и анализа такого объема ученым нужны были значительные мощности, поэтому они и обратились к использованию облака.

Беречь Байкал, исследовать артефакты и искать тюленей

Важна и роль облака в переходе научных проектов на более современные методы работы: от устаревших методов анализа к использованию искусственного интеллекта. Здесь имеет значение все: и дополнительные мощности, которые есть в облаке, и уникальные сервисы, и общая экспертиза облачных провайдеров.

Примеры:

Один из наиболее наглядных примеров такой синергии — сотрудничество Yandex.Cloud с «Точкой № 1», самой длительной в России программы экологического мониторинга, которая на протяжении 75 лет следит за здоровьем Байкала. В последнее время проект находился под угрозой закрытия из-за недостатка ресурсов и сильно устаревших технологий анализа данных.

В рамках проекта команда Yandex.Cloud вместе с учеными создают интеллектуальную систему цифровой поддержки процесса анализа проб воды с использованием ИИ. Для обучения алгоритма, способного распознавать микроорганизмы в пробах байкальской воды, ученые предоставили более тысячи снимков каждого вида микроорганизмов. В будущем этот «цифровой ассистент» сможет определять до 400 видов планктона и распознавать до 99% проб автоматически.

Стэнфордский университет применил возможности облака от AWS для создания базы данных археологических находок: речь идет о находках, обнаруженных при раскопках городища Чатал-Хююк в Турции. Раньше создание и регулярное обновление базы данных, в которой содержалась вся информация о предмете с указанием точного места находки и других сведений о нем, требовало многочасового труда ученых — это занимало около 20 часов в неделю, причем нередко возникала путаница из-за вводимых разными людьми обновлений. Перевод базы данных в облако сделал процесс обновления информации намного более эффективным.

Еще один пример: Американское Национальное управление океанических и атмосферных исследований использовало облако от Microsoft Azure для того, чтобы создавать ИИ-инструменты, помогающие изучать и защищать полярных тюленей и белух на Аляске. Раньше биологи вручную изучали тысячи аэрофотоснимков и искали на них признаки исследуемых животных, причем информация за это время часто успевала устареть. Теперь для этого используются ИИ-инструменты, которые выполняют эту работу: обучение моделей искусственного интеллекта и обработка собранных учеными 20 ТБ данных происходят в облаке.

Заключать контракты и обеспечивать безопасность данных

Иногда препятствием для использования облака может стать недостаток экспертизы в облачных технологиях: наличие удобных инструментов и экспертизы у облачных провайдеров в значительной мере решает эту проблему. Некоторые университеты и другие государственные научные организации ошибочно считают, что они не могут заключать контракты на использование облачных технологий, что на самом деле не так.

В некоторых случаях у научных проектов не хватает финансовых ресурсов. Однако у многих крупных облачных сервисов есть программы по поддержке науки. В некоторых странах есть и общенациональные проекты, которые должны способствовать применению облака в науке. В прошлом году в США был запущен проект Национальное исследовательское облако, в нем принимают участие 22 университета, среди которых Стэнфордский университет и Университет Карнеги — Меллона, а также представители правительства и Конгресса США и технологические корпорации, в том числе Google, Microsoft, Amazon и IBM. Цель проекта — дать доступ к облачным мощностям исследователям и найти финансирование для подобных проектов.

В некоторых случаях ученых может беспокоить вопрос безопасности данных в облаке. На самом деле современные облачные платформы имеют ряд преимуществ по сравнению с собственной физической инфраструктурой: данные распределены по всему облаку, а дата-центры — территориально, так что в случае выхода из строя вашего дата-центра концепция облаков это нивелирует. Кроме того, проводится постоянный мониторинг безопасности облачной платформы.

Облако также упрощает процесс совместной работы над проектами и обмена знаниями: так, ML-инструменты (DataSphere) позволяют делиться результатами исследований через сохранение состояния, так что другие ученые при необходимости смогут повторить эксперимент.

Наука продолжит переходить в облако

Все проекты, авторы которых обращаются к облачным сервисам, объединяет прежде всего сам факт применения математических методов и связанный с этим рост требований к скорости и объемам обработки информации. Научные институты приходят в облако прежде всего за дополнительными вычислительными мощностями, а остаются благодаря наличию готовых инструментов и масштабируемых сервисов.


Читать далее:

Замедление вращения Земли вызвало выброс кислорода на планете

На Большом адронном коллайдере открыли новую частицу

Ученые нашли самый древний пример прикладной геометрии