События 2022 года дали мощный толчок в сфере аналитики и прогнозов: большинству компаний экстренно понадобились дата-сайентисты. На стыке быстрых изменений, нарастающей конкуренции в бизнесе и науке и большого количества данных появляются все более перспективные направления Data Science. Об областях, где сейчас активно применяют Data Science, расскажет Павел Думин, кандидат технических наук, преподаватель Elbrus Bootcamp.
Данные являются одним из ключевых компонентов любого бизнеса. Большинство компаний занимаются сбором и хранением большого количества данных, необходимых для принятия решений и улучшения бизнес-процессов. Но, чтобы получить доступ к этим данным и провести их анализ, необходимо использовать методы и инструменты Data Science.
Зачем нужен Data Driven
Data Science помогает компаниям не только увеличить свою эффективность, но и принести большой доход. Ситуация с большим объемом данных привела к формированию Data Driven — управленческого подхода к принятию решений, который основывается на использовании данных, а также их анализа с помощью специализированных инструментов и методов. При этом данные — главный источник информации и основа для принятия решений. Этот подход применяется в маркетинге, финансах и медицине и полезен для улучшения эффективности бизнес-процессов и принятия оптимальных решений.
Специалисты по Data Science — неотъемлемая часть Data Driven подхода. Они занимаются анализом больших объемов данных с целью извлечения полезной информации и использования ее для улучшения бизнес-процессов и принятия решений. Это включает в себя различные задачи, такие как сбор данных, их очистка и предобработка, построение моделей и алгоритмов для анализа данных, а также визуализация результатов и коммуникация инсайтов в бизнес-контексте.
Медицина, маркетинг, банки
Алгоритмы машинного обучения помогают врачам анализировать снимки, полученные с помощью компьютерной томографии или трехмерных рентгеновских снимков. На основе данных, моделируют эффекты от лекарств, выявляют заранее неэффективные и опасные комбинации веществ на базе их молекулярного состава.
Анализ и предсказание уровня продаж на различные товары в зависимости от цены, сезона или определенной цикличности спроса — классическая задача, которая решается всеми торговыми сетями в промышленных масштабах. Помимо предсказания спроса, таким организациям надо решать целый класс логистических задач.
Банковская сфера — одна из лидирующих в скорости внедрения подходов машинного обучения в процессы организации. Оценка максимальной суммы кредита, распознавание и сегментация документов, автоматическая классификация пользовательских обращений: в любой из этих задач машинное обучение помогает не только повысить качество принимаемых решений, но и существенно ускорить процесс.
Data Science в авиации
Однако существуют области, в которых применение машинного обучения помогает решать неочевидные задачи — например, авиация.
Ввиду сложившихся стандартов и правил эта область является крайне консервативной и требовательной к надежности разрабатываемых систем.
Известно, что значительную часть полета (при условии отсутствия экстремальных погодных явлений) самолет проводит в автоматическом режиме: основная нагрузка на пилотов ложится во время взлета и посадки судна. В компании Airbus занимаются разработкой системы ATTOL — системы автоматического взлета и посадки. Компания позиционирует продукт как первую автоматическую систему подобного рода, включающую в себя в том числе методы компьютерного зрения, помогающие системе анализировать состояние взлетно-посадочной полосы. Сложность разработки таких систем связана не только с минимизацией любых возможных ошибок алгоритмов машинного обучения, но еще и сложностями их интеграции в авионику самолета, обучения пилотов и дороговизной испытаний.
Другой пример использования машинного обучения в связанной с авиацией сфере — автоматизация предполетного контроля для пассажиров. Авиакомпания Delta в 2021 году представила систему, которая позволяла пассажирам внутренних рейсов в полностью автоматическом режиме проходить все предполетные процедуры. Пассажиру достаточно было зарегистрироваться в приложении и сфотографироваться. При посещении аэропорта пассажир просто подходит к специально установленной камере и система пропускает его на посадку. Автоматизация подобных процессов снижает нагрузку на персонал авиакомпании и избавляет пассажиров от очередей.
Агрегаторы авиабилетов часто сталкиваются с задачей рекомендации определенных направлений пассажирам. Анализируя историю покупок пользователей можно предполагать потенциальные даты и направления, которые могут заинтересовать клиентов. В зависимости от этих факторов можно не только удачно порекомендовать конкретные рейсы, но еще и сформировать определенную цену, которую пользователь будет готов заплатить. Динамическое ценообразование — распространенная задача, которая решается разработчиками в самых разных клиентских сервисах: онлайн-магазины, сервисы такси, авиабилеты. В подобных сервисах часто задействован целый комплекс алгоритмов: рекомендательные системы, анализ временных рядов, регрессионные алгоритмы.
Потребность в автоматизации проявляется не только в области пассажирской авиации. Грузовая авиация тоже находится в числе кандидатов на использование методов машинного обучения. В данном случае они могут помочь на нескольких этапах: оптимизация логистических цепочек помогает не только сократить расходы, но и снизить объемы потребляемого топлива, что положительно сказывается и на экологической составляющей. Внедрение методов компьютерного зрения помогает сделать шаг в сторону автоматизации всего полета: системы взлета и посадки, контроль полета и анализ окружающей среды — комплекс таких алгоритмов помогает снизить нагрузку на пилотов.
Data Science в сельском хозяйстве
Еще одна область применения подходов машинного обучения — сельскохозяйственная промышленность. Компания Cognitive Pilot активно занимается оснащением зерноуборочных комбайнов различных агропредприятий. Среди аппаратных компонентов автопилота присутствуют две камеры, которые фиксируют пространство перед машиной и передают сведения в нейронную сеть, принимающую решение о корректировке маршрута. Такой подход позволяет разгрузить управляющих комбайнами, позволяя им сосредоточиться на содержательной части уборочного процесса и повышать качество получаемого урожая.
Помимо автоматизаций на земле, алгоритмы машинного обучения активно внедряются в процессы космического мониторинга, которые помогают более масштабно оценивать состояние посевных земель. Увеличивающееся число спутников позволяет накапливать большие массивы данных, которые могут быть использованы для обучения различных математических моделей. В зависимости от собираемых данных алгоритмы могут помогать в анализе состояния почвы, фиксации дегенеративных процессов, состояния урожая — это лишь немногие задачи, в решении которых может помочь машинное обучение.
Комплексный подход в агротехнологиях называется точным (или прецизионным) земледелием. Идея подхода заключается в масштабном комплексном обеспечении сельскохозяйственных процессов. На полях применяются различные датчики, позволяющие фиксировать различные показатели: влажности, кислотности и так далее. Спутниковые фотографии или фиксации беспилотных аппаратов позволяют оценить состояние более масштабно и получить обобщенную информацию. Для агрегации этой информации активно используются методы Data Science, для получения рекомендаций по уходу и прогнозу урожайности используются и алгоритмы машинного обучения.
Область точного земледелия крайне активно изучается: в 2021 году вышел отчет Программы развития ООН, которая выделила сразу несколько ключевых направлений развития такого земледелия: мониторинг погоды и состояния почвы, наблюдение за динамикой насекомых вредителей и заболеваний растений, различные виды поливов растений. Среди аппаратных инструментов, которые можно использовать в этих процессах, буквально все: от смартфонов и беспилотников до компонентов интернета вещей.
Data Science в химии
Внедрение методов науки о данных происходит и в других областях знания. Одной из таких областей является медицинская химия, одно из направлений которой — разработка новых видов антибиотиков. Одна из крайне серьезных проблем, с которой столкнется человечество в ближайшем будущем, — резистивность бактерий к разработанным уже разработанным антибиотикам. Скорость создания новых лекарств, обладающих нужными свойствами, — крайне долгий, сложный и дорогой процесс, в котором ученым уже помогают методы машинного обучения и нейросетевое моделирование. В Массачусетском технологическом университете на кафедре биологической инженерии разработали платформу для анализа и разработки новых антибиотиков, которая в состоянии проверять миллионы химических соединений и отбирать потенциальные комбинации, подходящие для лечения бактериальных воспалений. Один из препаратов, разработанный с помощью данной платформы, показал хорошие результаты в борьбе с несколькими опасными для здоровья и устойчивыми к другим антибиотикам бактериями.
Помимо прямого результата — новых препаратов — подобные подходы могут «фильтровать» заведомо опасные или просто бесполезные вещества, таким образом ученые могут сконцентрироваться только на потенциально эффективных препаратах. Активное внедрение подобных методов и подходов может существенно повысить качество фармацевтических продуктов, а значит, и положительно повлиять на продолжительность жизни.
Data Science в гуманитарной области
Помимо научных и промышленных областей динамичное развитие может ожидаться в более привычных областях. Например, с развитием моделей, позволяющих генерировать изображения, может существенно измениться подход к разработке игровых вселенных в компьютерных играх. Имея небольшой набор данных определенной стилистики, художник или разработчик игры могут генерировать большое число потенциальных моделей персонажей или объектов для будущей компьютерной игры. Поклонники разных игр: Red Alert, Fall Out и других регулярно делятся своим творчеством, создавая изображения в духе любимых игр. Помимо графической составляющей разработчики игр также заявляют о необходимости применения моделей машинного обучения для анализа поведения игрока в многопользовательской игре для исключения вызывающего или токсичного поведения.
Современные модели могут не только помогать генерировать фантастических персонажей: большой простор открывается для специалистов в области моды и дизайнеров одежды. В создании новых можно использовать различные нейронные сети разными способами: получать по текстовому описанию нужную вещь, рисовать эскиз вещи и указать материалы, цвет — и получить готовый вариант. Другие алгоритмы машинного обучения могут помочь в виртуальной примерке — такие приложения уже есть в магазинах приложений большинства смартфонов.
Большой прогресс заметен в сфере разработки и применения текстовых моделей. Недавно вышедшая диалоговая модель ChatGPT от OpenAI демонстрирует потрясающие результаты в сфере генерации текста. Модель можно попросить написать эссе на заданную тему, реализовать какой-либо алгоритм на указанном языке программирования или решить логическую задачу. Модель в определенном смысле универсальна: она «понимает текст» и способна даже корректировать собственные результаты, если ей указать на ошибочные элементы в ее ответах. Пользователи современных моделей успешно комбинируют результаты их работы: например, получают текстовые результаты в виде описания какого-либо мира или ситуации, прогоняют результаты через графические модели и получают на выходе изображения.
Развитие науки о данных за последние годы кардинально изменило нашу жизнь: повседневные вещи, которые мы рассматриваем как данность, почти всегда являются продуктом того или иного алгоритма. Последние годы показали, что резкий скачок развития продемонстрировал и много проблем: текстовые модели, умеющие отвечать на вопросы или генерировать произвольные тексты по переданному им началу предложения, часто склонны к дискриминации разных форм, генеративные графические модели могут быть использованы для создания фейковых фотографий и пр. Однако Data Science как область будет играть важную роль в будущем в решении многих сложных проблем: климатические изменения, защита окружающей среды, обеспечение здорового образа жизни, создание новых технологий, инноваций.
В современных компаниях процесс сбора и анализа данных является одним из ключевых элементов, в связи с этим востребованность специалистов в этой области только увеличивается. Многие компании ищут не только высококлассных специалистов, имеющих профильное образование и опыт работы, но и начинающих сотрудников, прошедших курсы переподготовки и готовых продолжать развиваться в выбранной области.
Читать далее:
Гробницу «акушерки Иисуса» раскопали: ученые рассказали, что они там нашли
Эйнштейн снова не прав и его главную теорию переписали: как это меняет мир
Опубликовано видео испытаний первого в мире винта с 11 лопастями