Сегодня специалисты Data Science нужны уже практически во всех сферах бизнеса. Речь идет не только о финансовых или ИТ-компаниях. Дата-сайентисты востребованы в маркетинге, продажах, разработке продуктов, управленческих решениях, предсказаниях трафика и обеспечении безопасности сложных технологических систем.
Спрос на специалистов Data Science разной квалификации растет с каждым годом. По данным Академии больших данных MADE от Mail.ru Group и рекрутингового портала HeadHunter, в 2019 году вакансий в области анализа данных стало больше в 1,4 раза по сравнению с 2018 годом. А число вакансий в области машинного обучения выросло в 1,3 раза.
Растет и заработок дата-сайентистов. По данным HH.ru, даже джуниор в России получает порядка 120 тыс. рублей, тогда как бизнес-аналитик уже может рассчитывать на 170 тыс. рублей и выше, а аналитик big data — от 200 тыс. рублей.
Кто востребован и почему?
Чаще всего в России дата-сайентистов ищут финансовые и ИТ-компании. А самое распространенное требование к соискателям — знание языка программирования Python. Оно встречается в 45% вакансий специалистов по анализу данных и почти в половине вакансий (51%) в области машинного обучения.
Разумеется, количество дата-сайентистов тоже растет. Согласно данным HH.ru, ежемесячно свои резюме размещают 246 специалистов по анализу данных, 47 — по машинному обучению.
В список требований от соискателей также входят:
- знание SQL;
- владение интеллектуального анализа данных (Data Mining);
- уверенные знания в математической статистике;
- умение работать с большими данными;
- владение C++, Git, Linux.
При этом около 65% вакансий в сфере анализа данных и 50% вакансий специалистов в области машинного обучения приходится на Москву. Второе место по России занимает Петербург (15% и 18% соответственно). Разумеется, соискатели тоже в основном сконцентрированы в двух столицах. Но сегодня, чтобы проходить обучение, не обязательно куда-то переезжать, а работать в удаленном формате, на аутсорсе, уже становится новым форматом организации рабочего процесса.
Где учиться на дата-сайентиста и что для этого нужно?
Есть несколько подходов к обучению на дата-сайентиста. Один из них — более классический, поступить в вуз на ИТ-направления. В том числе это можно сделать и за рубежом. Например, учеба на магистра Data Science в американском вузе может обойтись вам в очень внушительную сумму: от $30 тыс. до $120 тыс. Даже онлайн-курсы при зарубежных вузах по этой специальности стоят как минимум в $9 тыс. Есть и те, кто не готов тратиться на свое обучение в таких масштабах, потому что подобные затраты нужно еще окупить, а произойдет это не сразу. Например, дата-сайентист Ребекка Викери, работающая в этой сфере уже на протяжении 10 лет, составила свою собственную программу, по которой она самостоятельно изучала Data Science. У такого подхода тоже есть свои минусы: отсутствие обратной связи и поддержки ментора или преподавателя, отдаленность от коллектива, работа в одиночестве и, наконец, многим такой процесс обучения кажется скучным.
Еще один вариант — онлайн-обучение в специализированных диджитал-школах, таких как SkillFactory. Студентов там не просто учат набору методик и приемов, но и учат учиться. Кроме того, у каждого учащегося будет ментор, оказывающий поддержку и помощь, а все работы, выполненные в процессе обучения, не только можно использовать в качестве портфолио. Еще будучи учащимся SkillFactory, будущий дата-сайентист входит в отраслевое комьюнити — это не только помогает найти работу, но и общаться с коллегами, обмениваться опытом. В онлайн-школе уверены, что недостаточно просто выучить новые технологии — требуется освоить новые подходы и новые способы мышления. И в одиночку с этим справиться сложно. Поэтому все студенты дают друг другу обратную связь, обмениваются кодом, помогают искать ошибки и делятся задачами и реальными кейсами.
Что должен уметь Junior Data Scientist:
- использовать основные алгоритмические конструкции и структуры данных Python для проектирования алгоритмов;
- визуализировать данные с помощью Pandas, Matplotlib, Seaborne;
- создавать модели промышленного качества с помощью классического машинного обучения и нейронных сетей для решения задач Data Science;
- оценивать качество модели (precision/recall);
- интегрировать решение в продакшн и в бизнес в целом;
- работать с хранилищами данных разных типов;
- работать с инструментами анализа больших данных;
- получать данные из веб-источников или по API;
- применять методы математического анализа, линейной алгебры, статистики и теории вероятности для обработки данных.
Если эти скиллы кажутся вам очень сложными, то можете пройти курсы Профессия Data Scientist.
Кто же такой дата-сайентист и что он должен уметь?
По своей сути Data Science — это следующий «эволюционный» шаг человечества в работе с данными. Раньше подобные задачи решали математики и статистики. Теперь с приходом искусственного интеллекта в методы анализа данных попала оптимизация и информатика, а значит, новый подход к поиску решений на основе данных стал намного эффективнее прежних «аналоговых» методов.
Работа дата-сайентиста начинается со сбора больших массивов данных: структурированных и нет. Затем их преобразуют в такой формат, который удобен для восприятия. Следующий этап: визуализация и работа со статистикой. В качестве аналитических методов используют машинное и глубокое обучение, вероятностный анализ, прогностические модели, нейронные сети.
Пять базисов для дата-сайентиста
- Искусственный интеллект (ИИ) — область, посвященная созданию интеллектуальных систем, работающих и действующих как люди. ИИ связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют очень узкие области применения. Например, программы, способные обыграть человека в шахматы, не могут отвечать на вопросы.
- Машинное обучение (Machine learning) — создание инструмента для извлечения знаний из данных. Модели ML обучаются на данных самостоятельно или поэтапно: обучение с учителем на подготовленных человеком данных и без учителя — работа со стихийными, зашумленными данными.
- Глубокое обучение (Deep learning) — создание многослойных нейронных сетей в областях, где требуется более продвинутый или быстрый анализ, и традиционное машинное обучение не справляется. «Глубина» обеспечивается некоторым количеством скрытых слоев нейронов в сети, которые проводят математические вычисления.
- Большие данные (Big Data) — работа с большим объемом часто неструктурированных данных. Специфика сферы — это инструменты и системы, способные выдерживать высокие нагрузки.
- Наука об анализе данных (Data Science) — в основе области лежит наделение смыслом массивов данных, визуализация, сбор идей и принятие решений на основе этих данных. Специалисты по анализу данных используют некоторые методы машинного обучения и Big Data: облачные вычисления, инструменты для создания виртуальной среды разработки и многое другое.
Как и любая другая профессия, освоение Data Science начинается с основ — изучения математики, линейной алгебры и, конечно же, статистики. Для серьезного понимания Data Science будущему специалисту потребуется настоящий вузовский курс по теории вероятностей (включая матанализ). К счастью, сегодня такие материалы легко найти в интернете или даже записаться на один семестр в лучшие университеты России на платформе «Открытое образование». Либо пройти полный курс Data Science в SkillFactory, где базовые знания станут первым этапом в освоении новой профессии. Математические знания прежде всего важны, чтобы анализировать результаты применения алгоритмов обработки данных. Разумеется, что сильные инженеры в машинном обучении без такого образования есть. Но это в основном редкие случаи.
Второй шаг в становлении дата-сайентиста — программирование. Достаточно выучить хотя бы один язык, освоив все нюансы его синтаксиса. Как говорилось выше, один из самых востребованных языков — Python.
Машинное обучение — третья составляющая профессии дата-сайентиста, когда ему уже не нужно писать инструкции для выполнения компьютерами определенных задач. ML состоит из трех основных форм: обучения с учителем, обучения без учителя и обучения с подкреплением. Подробнее о каждом виде обучения можно почитать в нашем большом материале с профессором Яном Лекуном.
И, наконец, последний шаг — Data Mining (анализ данных) и визуализация данных, представляющий собой важный исследовательский процесс и включающий в себя анализ скрытых моделей данных в соответствии с различными вариантами перевода в полезную информацию, которая собирается и формируется в хранилищах данных для облегчения принятия деловых решений, призванных сократить расходы и увеличить доход.
Несмотря на то, что образование можно получить в достаточно краткие сроки, подтверждать свою квалификацию дата-сайентисту нужно регулярно, проходя узкоспециализированные курсы, участвуя в хакатонах, открытых соревнованиях и при поиске на работе. Преимуществом станет независимое подтверждение вашей квалификации. Например, расширенный профиль на Kaggle, где есть система рангов. Вы можете пройти путь от новичка до гроссмейстера. За успешное участие в конкурсах, публикацию скриптов и обсуждения вы получаете баллы, которые увеличивают ваш рейтинг. Кроме того, на сайте отмечено, в каких соревнованиях вы участвовали и каковы ваши результаты.
Читайте также:
Посмотрите, где сейчас летит марсоход Perseverance
Симптомы коронавируса у детей. На что стоит обратить внимание?
Астрономы увидели, как черная дыра испускает мерцающее гамма-излучение