Data Science — ИТ-направление, о котором сегодня слышал каждый. И одна из важных составляющих науки о данных — сами данные: важно знать, как их собирать, хранить и обрабатывать. С другой стороны, в индустрии пока еще нет наработанных best practices на тему того, как делать проекты Data Science, в чем отличия их от остального ИТ, и многим приходится действовать по наитию. «Хайтек» побывал на конференции IT Nights в Иннополисе и записал выступление директора по анализу данных в Commercial Lab Павла Мягких о том, что такое Data Science для бизнеса, как лучше автоматизировать процессы и начать искать решения проблем
Выбрать — деньги или опыт
Основная проблема любого Data Science проекта — понимание того, что именно тебе делать. У нас очень много фреймворков, технологий и подходов, выбрать что-либо очень сложно. Понимание, как делать, уже немного вторично. Да, нужно выбрать и разобраться как делать, но это не самая главная проблема.
Если сравнивать с компьютерными играми, то нередко между деньгами и опытом люди выбирают вначале опыт. Те, кто не очень опытен, как бы это парадоксально ни звучало, не понимают экономику игры. И только потом к ним приходит понимание, что всегда нужно брать деньги. То же самое происходит в Data Science. Мы обычно гонимся за технологиями, хотим глубокую нейронную сеть, какие-то гениальные пайплайны, выстраивать суперсложные системы, потому что хотим научиться делать какие-то суперкрутые вещи, после пойти на конференцию и рассказать о том, как мы сделали это или кому-то похвастать, что ты — супердата-сайентист. Но проблема в том, что когда мы работаем на реальный бизнес, всегда нужно выбирать деньги так же, как в игре, и это мало кто понимает.
Как выбрать из всего многообразия тот проект, который принесет деньги — эта история про автоматизацию процесса. Мы построили график и можем расставить все проекты, которые у нас есть, по шкале. Какие-то из них приносят больше дохода, а какие-то снижают расходы. Таким образом мы можем понять, чего же бизнес хочет на самом деле, в этот конкретный момент времени. Первый блок — это блок новых процессов, то есть классические примеры — рекомендательные сервисы. У вас нет рекомендательного сервиса на веб-сайте, вы его внедряете и зарабатываете чуть больше денег. Второй блок — это уже оптимизация. У нас есть какой-то реально существующий бизнес-процесс, и мы просто хотим его улучшить. Здесь мой любимый пример спроса. Технически прогнозирование спроса есть в любой компании, даже в шаурмечной за углом. Человек, который отвечает за закупки, должен знать, сколько ему нужно продуктов, чтобы обеспечить свой спрос.
Неоднозначное прогнозирование и как внедрять системы
Data Science — это инструмент для улучшения прогнозирования и процессов оптимизации. Мы можем закупить ровно столько, сколько нам нужно для покрытия спроса, чтобы никто не ушел голодным. С другой стороны, не придется покупать лишнее и потом терпеть убытки ввиду того, что продукты не были реализованы. В этом случае у нас есть и увеличение доходов, и снижение расходов, классический пример проекта оптимизации.
Классический пример Data Science, где мы берем бизнес-процессы и полностью их автоматизируем — это роботы для колл-центров. Мы взяли некую систему, которая может анализировать, придумывать правильные ответы и даже как-то пытаться оптимизировать конверсию. Таким образом, мы уволили 400 человек колл-центра, и у нас теперь есть робот «Люся» или «Игорь», и он выполняет все операции. В одном банке даже говорят, что это лучше, чем живые люди.
Всегда интереснее всего начинать с проектов оптимизации. Они все достаточно прозрачные. Прогноз спроса и планирование смен — для аналитика это все решенные задачи. У нас есть данные и мы знаем, какие подходы надо применять, как надо решать эти задачи. Именно тут огромное количество денег и возможностей в реальном бизнесе, потому что можно очень быстро что-то сделать и заработать деньги. Для примера: переброска товаров между магазинами, которая считалась невозможной потому, что это сложно, дорого и долго, показала окупаемость за два дня. Все, что взяли из магазинов и перебросили, было продано за два дня. Эти проекты сразу себя продают, если они получаются.
То, что мы делаем — не просто то, что заказчик хочет ускорить, получить больше прибыли или уволить людей. Например, мы делаем динамическое ценообразование — это один из наших проектов. Мы начали общаться с заказчиком, чтобы узнать, что он хочет и какие цели преследует. Его основная цель — увеличить прибыль. При этом он хочет меньше закупать, то есть хочет сократить свои расходы. Но сделать это при помощи реакции на спрос. Чтобы быстро увидеть, как и что продается, анализировать трафик каждую секунду и менять цены каждые 15 секунд, как Amazon. Еще заказчик хочет понимать самое главное — как это все происходит. Мы все это слушали где-то в течение четырех-пяти двухчасовых встреч. Никто не понимает, что нужно делать. У нас есть свое видение, а когда речь заходит об ИИ, у заказчика начинается полет фантазии: «А можно мне еще вот это, а можно мне то». Мы сформулировали довольно длинный тезис, что же он хочет на самом деле от нас, и зафиксировали на бумаге, выделив основные блоки. Из этого предложения мы уже смогли разработать некую систему, которую должны были внедрить. Выделили тот инструмент, который будем использовать, товар, которым будем управлять, направление деятельности — то есть быстрые реакции на спрос. И в отчетности указаны главные факторы, которые будем показывать — почему образуются такие цены на спрос. В таких проектах бывает очень сложно понять, что нужно сделать. Когда мы говорим про динамическое ценообразование, кажется, что это очень просто, но на самом деле оно несет перед собой большое количество вопросов. Когда говорим о прогнозировании спроса, будет примерно та же самая ситуация, потому что прогнозировать спрос можно в рублях, штуках, коробках, контейнерах, и всегда будут разные расчеты — на неделю, месяц или полгода. Когда говорим, что кто-то внедрил прогнозирование и добился восхитительных результатов, всегда нужно спрашивать, что именно за прогнозирование было использовано. Обычно там все не так, как кажется.
«Лучшая метрика — это деньги»
Метрики — это то, о чем любят говорить дата-сайентисты. Их очень долго и сложно выбирать. Только для прогнозирования спроса используется где-то пара десятков метрик. Проблема в том, что нам не нужен Data Science, чтобы оптимизировать эти методы. На самом деле это очень просто и никакое машинное обучение для этого не нужно. А необходим обычный Business Reaction (управленческие действия — «Хайтек»). Можно хорошо оптимизировать процессы какими-то завлекаловками, предложениями с купонами и так далее. Если у нас нет товара на складе, а есть всегда товар в магазине, то удаляем склад и радуемся. Но когда вы приходите и начинаете общаться, думаете не вы или заказчик, а люди, которые его окружают. Человек, отвечающий за сайт, или тот, кто занимается складом. Они думают, что ваши действия — это опасность. Они не мыслят метриками и какими-нибудь сложными методами, они думают: «А как можно хакнуть систему?». Поэтому основной темой всегда в выборе метрики будет всего лишь одна вещь. Как бы вы не оптимизировали модели, все, чего хотят от дата-сайентиста — от начинающего до консалтинговой компании, — только деньги. Они не смотрят ни на какие математические показатели.
Отчет убытков — это то, о чем обычно часто забывают дата-сайентисты в своей работе. Дата-сайентист или подрядчик компании — их появление автоматически увеличивает блок расходов. Некие расходы на телекоммуникацию и зарплаты всегда растут. Чтобы не быть уволенными через год-два, мы должны или увеличить доходы, или сократить расходы. Если у нас суммарный эффект этих зеленых стрелок не превышает воздействие красных, то все плохо, и эта большая проблема относится к выбору проекта, потому что очень часто хочется сделать то, что нравится, а не то, что надо. Я видел одну замечательную компанию в сфере фэшн-индустрии. У них все достаточно сложно, периодически встает склад, ошибки прогнозов по какому-то определенному юниту плавают от 30 до 40%, и мы с ними обсуждали, что делать. В магазинах отслеживают, имеются ли посетители, оценивают их эмоции, когда они подходят к вещам, и так мы понимаем, нравится ли им развеска вещей, что вызывает хорошие или отрицательные эмоции. Это все очень интересно и хочется так всегда делать, но оно, скорее всего, в краткосрочной перспективе никак не повлияет на наши зеленые стрелки. Вернемся к моему любимому примеру. Молоко — классный продукт, его часто употребляют, и он скоропортящийся. Если вы зайдете в магазин и не найдете там молока, то вы расстроитесь, но если привезут два контейнера молока, то расстроятся ребята из магазина, и им придется оптимизировать, сколько же его продать.
Очень важно понимать экономику процесса, тогда результат будет эффективнее вашей системы. Она будет прогнозировать то, что нужно, и выставлять правильные метрики, и максимизировать функции бизнеса. В таком случае не будет историй, когда ошибка 1%, но ничего не продается. Когда многие говорят на бумаге, что все хорошо, нередко бывает, что на самом деле все не так. Обычно это происходит из-за того, что люди не понимают ту систему, тот бизнес-процесс, который они пытаются автоматизировать. Вывод: самая лучшая метрика — это деньги. Нужно понять, как любая модель, инженерная система оптимизирует функцию именно денег. Все остальное вторично, это промежуточный этап.
Если у вас нет возможности взять сырые данные, логи продаж и самим все это пересчитать, то нет смысла это тестирование проводить. В таком случае вы ничего не контролируете. Поэтому основные тезисы следующие: нужно всегда понимать, как мы будем измерять. Если клиент настаивает на простом эксперименте, то стараться переубедить, что нужно сделать. Это сложно, не всегда бывает простое решение. Есть много вариантов, где сложные случаи, и простой тест не помогает или не работает в этой ситуации, или присутствуют сложные распределения. Во все это нужно вмешиваться и контролировать. Важный момент, что нужно всегда тестировать через свою систему, чтобы всегда иметь возможность смотреть, что происходит, и получать фидбек, кто покупает продукцию, кто как взаимодействует и прочее. Если же такой возможности нет, то хотя бы выгрузить данные и перепроверить результаты.
Black Box и креативные решения
Сейчас все клиенты, с которыми я работаю, хотят контролировать и понимать, что происходит. Где-то год назад я был сторонником Black Box, особенно в динамическом ценообразовании. Но клиент, видя хорошие результаты по отчетности, что тестирование показало хороший прирост, боится, что в один момент все перестанет эффективно работать или изменится рынок. И он всегда хочет, чтобы был некий человек, который мог бы посмотреть на цены и факторы, влияющие на определенные решения, который сказал бы, что все хорошо. Важно, чтобы были вычленнены факторы и люди были бы готовы отдать большие деньги за работу с такой штуковиной, а не с какой-то сложной, но абсолютно непрозрачной.
Глобальные тезисы: сделать вывод о проблемах любого дата-сайентиста и понять, что делать, какой проект выбрать и как подойти к процессу этого выбора. Не просто придумать что-то, чем мне было бы интересно заниматься. Важно исходить из реализма и тех условий в компании, в которой вы работаете. Если это ваша компания, то не нужно сразу пытаться внедрять Rocket Science. Начните с чего-то понятного и простого, но при этом приносящего деньги сегодня и завтра, а дальше эти деньги можно взять и инвестировать в себя же, только уже усложняя свои собственные процессы. Нельзя просто взять и сказать, что все выбирают этот способ для прогнозирования, и мы тоже выберем его. Это не правильно. Нужно понимать, что вы прогнозируете и как, какие деньги здесь и как все это взаимосвязано с нашими системами, и после этого принимать какие-то решения. Всякие квадратичные ошибки дико наказывают сильную ошибку, но не наказывают слабую. Наша система становится несбалансированной и чувствительной к выбросам.
Есть два типа и вида работы, которые выполняет дата-сайентист. Первый тип работы — Black Box. Это то, что ребята делают, например, в механике, промышленности или нефтянке. Суть в том, что у них должен быть некий алгоритм, который предсказывает прорыв трубы. И как он это предсказывает — вообще никого не волнует. Нужно, чтобы загоралась красная лампочка и вертолет вылетал на точку проверять. Никого не волнует, почему, а волнует, насколько часто попадает в цель и сколько топлива будет тратить этот вертолет. Если же мы говорим про какие-то вещи по типу маркетинга и промоакций, то в это вовлечены больше людей в процессе стандартного принятия решения, потому что промоакция у нас — стандартная тема, и ее делают все. Тут дата-сайентист выполняет больше рекомендательную роль, мы рассказываем, что, как и почему, а дальше уже сами как хотите. В первом случае это больше автоматизация, и Black Box подходит для нее. Раньше были обходчики, которые на машине проезжали вдоль трубы и искали пробоины, а мы их тут заменили на «черную коробку», которая высчитывает повреждения по давлению газа в трубе. В маркетинге так не получится, там есть много творческих людей, которые креативно принимают решения, но они тоже хотят, чтобы была какая-то система, которая бы их поддерживала, а дальше мы им говорим — лейте, допустим, трафика больше на этот канал. Они уже сами дальше красиво и творчески придумывают, как это сделать, и все довольны.