Справка: Анализ данных позволяет находить закономерности и взаимосвязи в потоке информации, а также осуществлять статистическое моделирование бизнес-процессов и действий пользователя. Сложность анализа данных зависит в том числе от нагрузки на ИТ-инфраструктуру компании. В число задач специалистов по анализу данных входят обеспечение стабильности корпоративной системы сбора и обработки данных, а также релевантность итоговых результатов анализа.

Какие практические задачи Data Science выполняет в сфере ритейла? Я понимаю, что в основном это прежде всего ассортиментная матрица, ценообразование? И на какие основные метрики влияет Data Science?

В области ритейла очень много есть задач и проектов, где Data Science помогает: прогноз спроса, прогноз промопродаж, клиентский маркетинг, работа с партнерами и, как вы справедливо заметили, ассортиментная матрица и ценообразование. Спектр задач сильно различается от компании к компании, и даже одни и те же задачи ставятся по-разному.

Я работала в Х5, который классический ритейлер, а сейчас я — часть команды «Купера» (ex-«Сбермаркет»), который сильно связан с ритейлом. В обеих компаниях занимаются прогнозом спроса, при этом каждая компания решает задачу с разными целями, из-за чего и различается постановка самой задачи.

Если мы говорим о классическом ритейле, как Х5, «Магнит», «Лента» и т. д., то компаниям важно понимать, сколько нужно привезти конкретной единицы SKU (Stock Keeping Unit, единица складского запаса) или PLU (Price Look Up Code, код поиска цены) в конкретную неделю в конкретную точку (магазин), чтобы, во-первых, удовлетворить спрос со стороны потребителей, а во-вторых, снизить свои списания и сократить затарку. Ключевые метрики, на которые влияет прогноз спроса, — это товарооборот, трафик (число чеков), объем списаний.

Моя команда в «Купере» также прогнозирует спрос, но в другом разрезе: считаем потенциальное количество заказов. «Купер» — это сервис, через который можно заказывать продукты и еду из ресторанов. Нам важно понимать, сколько будет заказов в определенный диапазон времени, за счет чего дальше мы выстраиваем уже работу с партнерами сервиса — курьерами и сборщиками. Например, из прогнозируемого числа заказов определяется, сколько понадобится курьеров и сборщиков, чтобы обеспечить весь спрос и доставить заказы пользователям. В этой задаче для нас важны GMV (Gross Merchandise Value), общий объем денег, и Burn, траты на работу сервиса. Хорошая модель спроса должна помогать растить GMV и сокращать Burn.

Получается, вы анализируете прежде всего внутренние данные компании?

Да, конечно! Большие компании накопили и накапливают огромный массив данных, и перечисленные мною задачи решаются в первую очередь за счет внутренних данных. Мы начали с обсуждения, где Data Science применяется в ритейле, и я назвала работу с клиентами в качестве одной из областей. Внутри клиентского домена прогнозируют число заказов со стороны пользователя, товарооборота на индивидуальном уровне, вероятность отклика на маркетинговые механики, вероятность оттока — все для того, чтобы точнее работать с клиентом во всем жизненном цикле. Основной источник данных для решения этих задач — данные покупок, детализации покупок, программы лояльности, истории экспериментов.

Безусловно, можно использовать и внешние данные, но они как вишенка на торте — элементы улучшения, которые могут увеличить предиктивную силу моделей. Например, ни одна из компаний, в которой я работала, не развивает свои погодные сервисы, а есть сильная гипотеза, что прогноз погоды, особенно краткосрочной, очень влияет на спрос: пользователи выбирают, идти в магазин «ножками», заказать или подождать лучшего периода.

Завершая разговор от метриках — есть ли еще какие-то параметры, на которые влияет Data Science в ритейле?

Любой проект по Data Science влияет на пучок метрик, а сам набор метрик сильно зависит от компании. В проектах, в которых работала я в классическом ритейлере, была важна связь с товарооборотом, валовым доходом, количеством чеков и средним чеком как на уровне сети, так и на уровне клиента. Например, в рамках их количество чеков или визитов клиентов в магазин. В логистических сервисах, взаимодействующих с ритейлерами, также важен общий объем товарооборота (GMV). Помимо GMV, смотрим, как наши проекты влияют на CPO (cost per order), OPH (orders per hour), CTE (click-to-eat) и т. д.

Расскажите, пожалуйста, об успехах вашей команды. Какими интересными кейсами вы можете поделиться?

Один из проектов, которым я восхищена, — это технология баланса спроса и предложения в «Купере», о которой мой коллега и один из авторов технологии Юрий Беляков рассказывал недавно на конференции. Ребята придумали и реализовали алгоритм, который управляет слотами доставки: оставить ли в базовых настройках, повысить стоимость доставки в них или закрыть слот в зависимости от нагрузки по заказам, сборки и планируемому времени вывоза заказа. Внутри алгоритма рассчитывается коэффициент нагрузки на сервис, за счет чего принимается решение, что делать со слотом доставки.

За этим проектом стоит прикладная математика в лучшем своем виде, с элементами машинного обучения. Алгоритм позволил автоматизировать то, что раньше происходило «вручную», с помощью большого числа людей. Команда как будто бы создала «пульт управления».

Второй проект, который мне симпатичен, был реализован в Х5. Команда занималась применением Data Science в клиентском маркетинге, мы обучали модели машинного обучения, чтобы сделать программу лояльности более эффективной. Помимо того, что хочется делать каждую кампанию персонализированной и эффективной, важна общая эффективность программы лояльности — иными словами, ROI инвестиций. Мы с коллегами долго и обстоятельно прорабатывали методологию оценки эффективности лояльности с помощью A/B-экспериментов. Нам удалось, и мы могли рассчитывать совокупный эффект всей программы.

И третий пример — классический и магический одновременно — прогноз заказов, который осуществляется в «Купере». Сделать хороший прогноз заказов — это сложно. Сложно не поставить саму задачу, наоборот, это самая легкая часть, а создать модель, которая хорошо решает поставленную задачу. Здесь тоже есть успехи. неплохо прогнозируем количество заказов на длительный диапазон времени — на месяц вперед. За счет этого прогноза работает цепочка долгосрочного планирования компании — заказы переводятся в потребность в партнерах (т. е. сколько нужно сборщиков и курьеров), и коллеги занимаются привлечением нужного числа партнеров в сервис.

Как фундаментальное образование помогает вам в работе?

Все мое высшее образование связано с прикладной математикой. Поэтому сейчас я буквально занимаюсь тем, чему меня обучали, — статистикой, построением математических моделей и их реализацией в виде программных продуктов. Из предметов особенно пригодилась теория вероятностей и математическая статистика и более продвинутые курсы по этому направлению. Также не могу не отметить, что помимо утилитарных знаний и умений, учеба научила меня учиться и ударно трудиться.

Расскажите, пожалуйста, о вашей мотивации в преподавании на факультете компьютерных наук ВШЭ.

Я люблю работать с людьми — даже в своей технической специальности. Кроме того, у преподавания очень короткий цикл обратной связи: ты провел лекцию или семинар, а слушатель за эти 1,5 часа вдохновился, а через еще неделю показывает, что он что-то умеет благодаря твоим усилиям.

Что еще важно: преподавание помогает оставаться «в тонусе» — во время подготовки к лекциям приходится повторять то, что ты уже изучал ранее, а также искать новую информацию, так как отрасль быстро развивается.

От редакции:

Если вам понравилось это интервью, запишитесь на программу «Специалист по Data Science» – Элен Теванян является ее академическим руководителем:

Записаться на программу «Специалист по Data Science»

Или на короткие курсы по отдельным предметам:

Python для автоматизации и анализа данных

Машинное обучение

Прикладная статистика для машинного обучения

Успей до 31 августа активировать скидку для читателей Хайтека 10% по промокоду:

ХАЙТЕК

^{Обложка — downloaded from Freepik.}

Реклама. Национальный исследовательский университет «Высшая школа экономики» ИНН 7714030726. Erid: 2VfnxxsjPon

Анализ данных в ритейле: важные метрики и интересные кейсы