Партнерский материал 27 августа 2020

Кем работать в сфере Data Science и с чего лучше начать

Специалисты Data Science работают с большими массивами данных, извлекая из них полезную информацию. В качестве результата бизнес и наука решают глобальные задачи: от изменений климата до заключения выгодных сделок и производства фармы. Некоторые из них уже сегодня можно решать без участия человека: умные алгоритмы не только могут найти нужно информацию в массивах данных, но и представить ее в удобном для восприятия формате. Ожидаемо, что дата-сайентисты очень востребованы сегодня на рынке ИТ, а спрос на них не только не уменьшается, но и растет с каждым годом. «Хайтек» вместе с экспертами SkillFactory рассказал о карьерных возможностях дата-сайентистов, объяснил, как построено обучение и почему важно постоянно обновлять свои знания.

Сегодня специалисты Data Science нужны уже практически во всех сферах бизнеса. Речь идет не только о финансовых или ИТ-компаниях. Дата-сайентисты востребованы в маркетинге, продажах, разработке продуктов, управленческих решениях, предсказаниях трафика и обеспечении безопасности сложных технологических систем.

Спрос на специалистов Data Science разной квалификации растет с каждым годом. По данным Академии больших данных MADE от Mail.ru Group и рекрутингового портала HeadHunter, в 2019 году вакансий в области анализа данных стало больше в 1,4 раза по сравнению с 2018 годом. А число вакансий в области машинного обучения выросло в 1,3 раза.

Растет и заработок дата-сайентистов. По данным HH.ru, даже джуниор в России получает порядка 120 тыс. рублей, тогда как бизнес-аналитик уже может рассчитывать на 170 тыс. рублей и выше, а аналитик big data — от 200 тыс. рублей.

Кто востребован и почему?

Чаще всего в России дата-сайентистов ищут финансовые и ИТ-компании. А самое распространенное требование к соискателям — знание языка программирования Python. Оно встречается в 45% вакансий специалистов по анализу данных и почти в половине вакансий (51%) в области машинного обучения.

Разумеется, количество дата-сайентистов тоже растет. Согласно данным HH.ru, ежемесячно свои резюме размещают 246 специалистов по анализу данных, 47 — по машинному обучению.

В список требований от соискателей также входят:

  • знание SQL;
  • владение интеллектуального анализа данных (Data Mining);
  • уверенные знания в математической статистике;
  • умение работать с большими данными;
  • владение C++, Git, Linux.

При этом около 65% вакансий в сфере анализа данных и 50% вакансий специалистов в области машинного обучения приходится на Москву. Второе место по России занимает Петербург (15% и 18% соответственно). Разумеется, соискатели тоже в основном сконцентрированы в двух столицах. Но сегодня, чтобы проходить обучение, не обязательно куда-то переезжать, а работать в удаленном формате, на аутсорсе, уже становится новым форматом организации рабочего процесса.

Где учиться на дата-сайентиста и что для этого нужно?

Есть несколько подходов к обучению на дата-сайентиста. Один из них — более классический, поступить в вуз на ИТ-направления. В том числе это можно сделать и за рубежом. Например, учеба на магистра Data Science в американском вузе может обойтись вам в очень внушительную сумму: от $30 тыс. до $120 тыс. Даже онлайн-курсы при зарубежных вузах по этой специальности стоят как минимум в $9 тыс. Есть и те, кто не готов тратиться на свое обучение в таких масштабах, потому что подобные затраты нужно еще окупить, а произойдет это не сразу. Например, дата-сайентист Ребекка Викери, работающая в этой сфере уже на протяжении 10 лет, составила свою собственную программу, по которой она самостоятельно изучала Data Science. У такого подхода тоже есть свои минусы: отсутствие обратной связи и поддержки ментора или преподавателя, отдаленность от коллектива, работа в одиночестве и, наконец, многим такой процесс обучения кажется скучным.

Еще один вариант — онлайн-обучение в специализированных диджитал-школах, таких как SkillFactory. Студентов там не просто учат набору методик и приемов, но и учат учиться. Кроме того, у каждого учащегося будет ментор, оказывающий поддержку и помощь, а все работы, выполненные в процессе обучения, не только можно использовать в качестве портфолио. Еще будучи учащимся SkillFactory, будущий дата-сайентист входит в отраслевое комьюнити — это не только помогает найти работу, но и общаться с коллегами, обмениваться опытом. В онлайн-школе уверены, что недостаточно просто выучить новые технологии — требуется освоить новые подходы и новые способы мышления. И в одиночку с этим справиться сложно. Поэтому все студенты дают друг другу обратную связь, обмениваются кодом, помогают искать ошибки и делятся задачами и реальными кейсами.


Что должен уметь Junior Data Scientist:

  • использовать основные алгоритмические конструкции и структуры данных Python для проектирования алгоритмов;
  • визуализировать данные с помощью Pandas, Matplotlib, Seaborne;
  • создавать модели промышленного качества с помощью классического машинного обучения и нейронных сетей для решения задач Data Science;
  • оценивать качество модели (precision/recall);
  • интегрировать решение в продакшн и в бизнес в целом;
  • работать с хранилищами данных разных типов;
  • работать с инструментами анализа больших данных;
  • получать данные из веб-источников или по API;
  • применять методы математического анализа, линейной алгебры, статистики и теории вероятности для обработки данных.

Если эти скиллы кажутся вам очень сложными, то можете пройти курсы Профессия Data Scientist.


Кто же такой дата-сайентист и что он должен уметь?

По своей сути Data Sci­ence — это следующий «эволюционный» шаг человечества в работе с данными. Раньше подобные задачи решали математики и статистики. Теперь с приходом искусственного интеллекта в методы анализа данных попала оптимизация и информатика, а значит, новый подход к поиску решений на основе данных стал намного эффективнее прежних «аналоговых» методов.

Работа дата-сайентиста начинается со сбора больших массивов данных: структурированных и нет. Затем их преобразуют в такой формат, который удобен для восприятия. Следующий этап: визуализация и работа со статистикой. В качестве аналитических методов используют машинное и глубокое обучение, вероятностный анализ, прогностические модели, нейронные сети.


Пять базисов для дата-сайентиста

  • Ис­кус­ствен­ный ин­тел­лект (ИИ) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. ИИ связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют очень узкие области применения. Например, программы, способные обыграть человека в шахматы, не могут отвечать на вопросы.
  • Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.
  • Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.
  • Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.
  • На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Как и любая другая профессия, освоение Data Sci­ence начинается с основ — изучения математики, линейной алгебры и, конечно же, статистики. Для серьезного понимания Data Sci­ence будущему специалисту потребуется настоящий вузовский курс по теории вероятностей (включая матанализ). К счастью, сегодня такие материалы легко найти в интернете или даже записаться на один семестр в лучшие университеты России на платформе «Открытое образование». Либо пройти полный курс Data Sci­ence в SkillFactory, где базовые знания станут первым этапом в освоении новой профессии. Математические знания прежде всего важны, чтобы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Разумеется, что силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть. Но это в основном редкие случаи.

Второй шаг в становлении дата-сайентиста — программирование. Достаточно выучить хотя бы один язык, освоив все нюансы его синтаксиса. Как говорилось выше, один из самых востребованных языков — Python.

Ма­шин­ное обу­че­ние — третья составляющая профессии дата-сайентиста, когда ему уже не нужно писать инструкции для выполнения компьютерами определенных задач. ML состоит из трех основных форм: обучения с учителем, обучения без учителя и обучения с подкреплением. Подробнее о каждом виде обучения можно почитать в нашем большом материале с профессором Яном Лекуном.

И, наконец, последний шаг — Data Min­ing (ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных, представляющий собой важ­ный ис­сле­до­ва­тель­ский про­цесс и включающий в себя ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Несмотря на то, что образование можно получить в достаточно краткие сроки, подтверждать свою квалификацию дата-сайентисту нужно регулярно, проходя узкоспециализированные курсы, участвуя в хакатонах, открытых соревнованиях и при поиске на работе. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции. На­при­мер, рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.

Подать заявку

Читайте также:

Посмотрите, где сейчас летит марсоход Perseverance

Симптомы коронавируса у детей. На что стоит обратить внимание?

Астрономы увидели, как черная дыра испускает мерцающее гамма-излучение