Масштабируемость, исторические данные и big data
— Чем занимается ваш департамент?
— Мы были созданы в этом году. До этого аналитика в компании была, но делалась в командах, рассредоточенных по компании. Были команды аналитики внутри бизнес подразделений, внутри ИТ, в продуктовых командах.
Мы занимаемся полным процессом по извлечению пользы из данных и созданием продуктов на их основе. Обычно все начинается с того, что мы изучаем какое-то бизнес-явление, процесс, и то, какое он находит отражение в данных. Придумываем, что можно сделать с данными, чтобы что-то улучшить. Это могут быть абсолютно любые вещи — наш склад, служба доставки, поведение пользователя на сайте, маркетинг и так далее.
— Как собирали данные до создания вашего подразделения — изменилось ли сейчас что-то в методике сбора и разметки? И есть ли проблема, что вам сейчас не хватает исторических данных?
— Основная проблема заключалась в том, что каждая команда пользовалась теми технологиями, которыми она владела. Соответственно, были разные инструменты, они не всегда соответствовали самой оптимальной технологии для такого типа задач. Экспертиза по обработке больших данных появилась недавно. Соответственно, раньше использовали более традиционные технологии, которые были более дорогими или менее эффективными. Теперь у нас единая инфраструктура. Не то чтобы мы все перевели все на какую-то единую технологию. Но мы просто используем каждую технологию в соответствии с той целью, для которой она лучше подходит, в зависимости от требований конкретной задачи. Про отсутствие некоторых исторических данных — наверное, это в меньшей степени связано с объединением, но иногда такое есть. Когда мы о какой-то проблеме раньше не думали, — о том, что ее нужно решать, и какие-то данные не собирали. Такое иногда бывает.
Big data на страже здоровья: как и зачем медицинские организации собирают и хранят данные
Технологии
— Вы сказали, что традиционные технологии иногда бывают более дорогими, чем big data. Почему так?
— Основная вещь — это масштабируемость и устойчивость к разделению. Классические технологии баз данных зачастую не предполагают возможностей для распределенных вычислений с гарантией partition tolerance.В технологиях big data используется горизонтальное масштабирование (добавление аналогичных элементов) — оно просто намного дешевле, проще, устойчивее. Если один элемент выйдет из строя, то вся конструкция в целом не поломается
Аналитика как фундаментальное подтверждение гипотез
— Вы анализируете данные для разных департаментов. Что вы делаете с данными в маркетинге?
— В маркетинге основная задача с точки зрения аналитики — это определить эффективность: где мы эффективно потратили деньги, а где — нет. Это конечная задача. Следовательно, мы должны точно знать, сколько потратили и получили. Знать, сколько потратили, — обычно очень простая задача. Сколько получили — уже намного сложнее. Потому что пользователи взаимодействуют с разными каналами. То есть один человек мог видеть рекламу на YouTube, потом в контекстной рекламе, подписаться на емейл и так далее. Задача заключается в том, чтобы понять, какой в итоге канал внес вклад — и какой вклад — в создание заказа.
Как заново изобрести супермаркет: осознанность потребления, этика производства и роботы
Технологии
— Вы это научились хорошо делать in house?
— У нас и сам маркетинг тоже in house — у компании достаточно большая команда, большая экспертиза. И, наверное, на наших объемах это себя оправдывает. В этом однозначно есть смысл. Мы более гибкие в том, что делаем. И так как контролируем то, что происходит, можем в том числе проверять наших партнеров. В частности, в маркетинге это важно для CPA-сетей, в которых иногда встречается фрод, когда крадут последние клики.
CPA-сети (Cost Per Action, «оплата за действие») — партнерские программы, сети с оплатой за действие — рекламные системы-посредники, предлагающие рекламодателям оплачивать только целевые действия пользователей: покупки, регистрации, заполнения анкет.
Фрод — вид мошенничества в области ИТ, в частности, несанкционированные действия и неправомочное пользование ресурсами и услугами в сетях связи.
— Есть ли какие-то данные по тому, как увеличилась производительность рекламных кампаний после того, как вы начали это изучать?
— Наверное, у нас не было какого-то «степ-ченджа», в какой-то момент мы что-то сделали, у нас открылись глаза, и мы поняли, что делали что-то фундаментально неправильное.
— Вам просто стало легче работать?
— Скорее да. Я бы сказал так: во многом это более фундаментальное подтверждение каких-то гипотез. Если мы говорим про маркетинг, очень часто есть медийные каналы, которые дают охват, привлекают трафик, но достаточно редко клиент после первого же посещения с медийной рекламы делает покупку. Соответственно, классический метод атрибуции last click всегда таким каналам очень мало дает. Не нужно быть аналитиком, чтобы это понимать. Это нормально, что можно потратить на медийную рекламу побольше, и ничего страшного, что она не приносит заказов. Насколько больше? Вот для того, чтобы на этот вопрос ответить, уже нужна аналитика. Почти на все вопросы можно отвечать с помощью здравого смысла, если у людей есть голова на плечах. Но это обычно без какого-то подтверждения. А с помощью анализа можно производить более тонкую оптимизацию.
Last click, последний клик — правило распределения ценности конверсии по отдельным точкам взаимодействия в процессе достижения этой конверсии, когда самым эффективным считается маркетинговый канал, который этот клик принес.
Если пренебречь рядом факторов, такую модель можно представить следующим образом: было разослано письмо с купоном на скидку и прямо из письма по ссылке была совершена покупка уже известного пользователю товара. Ближе к реальности — активация купона, но в том случае, если это и есть макроцель.То есть существуют ситуации, когда она оправдана. Однако последний клик не отражает всего пути пользователя.
Модель по последнему клику позволяет определить источники, которые непосредственно подвели (побудили) клиента к осуществлению конверсии.
Понимание на уровне клиента
— Если говорить про customer service и попытки улучшения пользовательского опыта при взаимодействии с сервисом, как это меняет big data?
— У нас это в большей степени история про понимание клиентов через более качественные вещи и опросы. Ну, опросы как частный случай социологических исследований. То есть это про построение портрета клиента, понимание каких-то мотивов, желаний, болевых точек и так далее.
Каждый человек станет сам себе банком: цифровой мир отказывается от посредников между бизнесом и клиентом
Технологии
— И вы начали использовать данные социологических опросов с помощью big data?
— Это скорее параллельные процессы. Социологические методы позволяют получить некоторую общую картинку. Они дают возможность понять, кто наши клиенты, чего они хотят — в среднем либо на уровне каких-то сегментов. Мы знаем, что в аудитории есть разные сегменты. Для этого как раз социологические методы хорошо подходят — для изучения клиентского опыта. Чем здесь могут помочь технологии работы с данными? Пониманием чего-то нового на уровне конкретного клиента.
— Социология работает с сегментами, потому что она не сможет работать с каждым пользователем отдельно: это будет слишком сложно. Big data может работать с каждым. Что тогда происходит с персонализацией сайта, опытом покупки, когда у вас есть информация на каждого клиента?
— Персонализация — сам по себе термин достаточно широкий. Сам он не подразумевает персонализацию действительно один к одному. Это, наверное, для нас идеал, то, к чему мы стремимся: чтобы был полный портрет каждого клиента и каждый элемент взаимодействия максимально подстраивался под человека. Невозможно это сделать абсолютно везде, в каких-то местах мы идем на более простые модели, когда имеем дело с сегментами клиентов.
Банально, если мы будем понимать, кто зашел на сайт: мужчина или женщина, — пользователь увидит мужскую главную страницу сайта или женскую. Это тоже персонализация, но очень простая. На самом деле нужно делать и то, и другое, потому что невозможно абсолютно все сделать суперумно за адекватное количество времени.
— Каковы перспективы — улучшать и улучшать? Или с учетом данных может появиться что-то кардинально новое?
— Мы очень хорошо понимаем, что нам нужно сделать. Не могу сказать, что наш сайт очень персонализирован, а вообще взаимодействие с клиентом находится на уровне один к одному. И это однозначно одно из самых важных стратегических направлений для компании, потому что мы очень универсальный игрок.
Клиентская база большая и разнообразная. Мы не играем на каком-то узком рынке — хипстеры, только масс-маркет или только премиум. У нас есть Sela, «Твое», а есть Armani — и так далее. Это все живет на одной и той же платформе, с одними и теми же людьми. Очевидно для нашей конкретной бизнес-модели, что если не делать персонализацию, то вообще ничего не получится. Потому что люди, которые покупают «Твое», будут говорить, что у нас слишком дорого, если они будут видеть некоторые товары в выдаче. А люди, которые покупают премиум, будут говорить, что это барахолка.
Прайсинг, трекинг, скоринг, биллинг и другие технологии, которые двигают российский бизнес
Технологии
— Если заходит новый пользователь, как вы понимаете, какую показывать главную страницу: ту, где будет масс-маркет, или ту, где будет премиум?
— Принцип везде один и тот же. Мы всегда определяем какую-то метрику качества. Есть бизнес-процесс, что-то происходит, мы должны понимать: он успешно завершился или нет. Или степень его успешности. Это не обязательно какая-то бинарная штука. Предположим, если мы показали какой-то баннер клиенту, он на него кликнул или нет. Сделал ли он покупку, вернулся ли он когда-нибудь к нам. Это не важно. Главное, что у нас всегда есть некий способ оценить, молодцы мы или нет, завершился успехом какой-то этап или нет.
Далее у нас есть некий набор атрибутов клиентов, которые также находятся в разных контекстах. Заходя с разных устройств, в разное время дня и время года, люди хотят абсолютно разные вещи. И у нас есть товары, которые мы планируем показать. Принцип такой: мы выбираем, что показать этому клиенту, чтобы максимизировать нашу цель. То есть показать то, что пользователя с наибольшей вероятностью заинтересует.
— На основе каких данных?
— В зависимости от конкретного продукта, про который мы говорим. То есть конкретного элемента сайта. Например, есть информация, что где-то идет дождь. Мы показываем резиновые сапоги и зонтики. Самое простое, что может быть, — это платформа.
— Интересно не самое простое, а самое сложное.
— Тут история про то, чтобы из исторических данных определить предпочтения клиента. Это могут быть категории, бренды, атрибуты товара — цвета, материалы, и так далее. Понятно, что машинное обучение решает эту проблему. Но если человек задает конкретные правила, это работает не всегда. Не обязательно, если пользователь что-то купил в прошлом, он захочет купить это в будущем. Если человек купил очень дорогую шубу, скорее всего, ближайшие много лет ему не нужна будет еще одна. Поэтому на таких кейсах бизнес-правила, которые задаются экспертами, могут не всегда работать. Если это машинно-обученная модель, которая оптимизирует какую-то цель, то такого рода вещи не будут происходить. Если люди, которые покупали шубы, в будущем их массово не приобретали снова, то алгоритм не будет предлагать им шубы.
Важно разбираться в сути бизнеса, а не в моде
— Занимаетесь ли вы предиктивной аналитикой? Можете ли что-то говорить о трендах на основе имеющихся у вас данных? Трендах в моде, онлайн-покупках, индустрии.
— У нас есть коммерческая команда, которая непосредственно управляет нашим ассортиментом. Определяет, что мы покупаем. Для нее вводные о том, что сейчас модно и актуально, очень важны, потому что на основе этого планируется ассортимент. У команды есть большое количество разных неструктурированных источников, откуда она берет эту информацию. Сотрудники смотрят показы, они подписаны на кого-то в Instagram, еще что-то. Мы им помогаем, со своей стороны, какими-то структурированными данными. То есть по собственным данным, когда что-то происходит, мы можем показать какие-то тренды.
Самый банальный пример, который у нас был, — когда «Ленинград» выпустил песню «На лабутенах» («Экспонат»), люди начали искать «лабутены». У нас тогда не было соответствующего бренда, поиск на сайте не выдавал релевантные результаты. Мы это быстро поправили, чтобы при таком запросе пользователи видели другие туфли с красными подошвами. Это пример, когда какие-то тренды можно поймать в данных. Но на постоянной основе для наших коллег готовим информацию о том, что сейчас набирает популярность.
— И что сейчас набирает популярность?
— А я не знаю (смеется).
— Lamoda запустила технологию распознавания одежды по фото с Wide Eyes. Это станет важным сервисом или, скорее, игрушкой?
— Интерфейсы взаимодействия людей с сервисами и магазинами глобально очень сильно меняются. И компании, которая хочет, чтобы пользователю было комфортно, нужно иметь хороший поиск. Люди часто формулируют свои запросы в виде какого-то связного текста или слов, которые нужно уметь распознать, понять, что на самом деле человек имел в виду, и показать то, что он ожидает увидеть. На самом деле поиск по фото — это один из видов поиска, один из способов для пользователя сформулировать, что он хочет найти. Пока это не является основным способом во всем мире. Но есть потенциал, что в будущем этого будет становиться больше. Как и речевого поиска. И еще, может, какие-то нейроинтерфейсы появятся: например, достаточно будет только подумать, — и вот Lamoda уже предлагает, что купить.
— AR и VR в фэшн-ритейле, которому предрекают будущее, — насколько это перспективно, и собираетесь ли туда заходить?
— Потенциал 100-процентно есть. Он связан с тем, что у людей по-прежнему существует барьер перед дистанционными покупками. Несмотря на то, что мы очень сильно работаем над этим, у нас бесплатная доставка, есть возможность заказать много товаров перед покупкой, чтобы их примерить. Тем не менее, эти барьеры остаются. Соответственно, какие-то технологии, которые дают человеку лучше понять, что вещь на самом деле из себя представляет, точно имеют потенциал.
— Есть ли данные по тому, насколько увеличились покупки после введения новой системы персонализации?
— Нет смысла конкретные цифры называть. Каждый раз, когда мы делаем какое-то изменение, новую фичу, новый алгоритм — у нас идет значимый прирост конверсии и выручки.
— Как вы используете big data для ценообразования?
— На самом деле, очень похожая история. Есть некая цель, которую мы преследуем, когда делаем ценообразование продукта. Заработать деньги. В случае ритейла там довольно сложная история. Она связана с тем, что мы хотим и денег заработать побольше, и чтобы товары, которые плохо продаются, стали более заметными для пользователей и начали нормально уходить. То есть это совсем не та история, если бы мы, например, торговали играми, которых можно продать сколько угодно — у них нет стока на складе. Понимаем, какая у нас цель, и дальше есть в руках рычаг ценообразования. Можем менять цены для того, чтобы достичь максимального значения целевой метрики. Это все строится вокруг ценовой эластичности. Мы как раз на основании исторических данных понимаем, как те или иные изменения — либо цен, либо всяких промоакций — влияют на продажи.
— Если вообще говорить про машинное обучение, насколько его трудно внедрять в e-commerce?
— По моим ощущениям, безусловно, e-commerce изначально подразумевает какую-то технологичность компании. Поэтому компания однозначно намного более готова — культурно, ментально — к внедрению новых технологий. И нет многих барьеров, которые часто встречаются в традиционных компаниях, когда «мы сделаем эту работу лучше, чем машина». Мне кажется, что в e-commerce в среднем все понимают, что правильно обученная машина лучше справляется со стандартной задачей, чем человек.
— Насколько важно, чтобы вы сами, люди в команде понимали сферу моды и фэшн-ритейла? Или это все — просто алгоритмы, и успешные алгоритмы можно построить независимо от модели бизнеса?
— Мне кажется, что для аналитиков критично важно понимать суть бизнеса. Как он устроен, в какой момент возникает создание ценности. Потому что обычно большая часть работы в наших проектах и задачах происходит на этапе постановки задачи.
Допустим, мы хотим отранжировать товары в каталоге. Надо понять критерии качества: что такое хорошее ранжирование, плохое, по каким принципам мы должны это делать. Для того чтобы ответить на эти вопросы, нужно очень хорошо понимать, как работает ритейл и e-commerce. Понимать, что у нас есть закупка, у нас есть сезоны — Spring-Summer, Fall-Winter. Есть склад, товары со склада уезжают, они там могут сколько-то ездить, потом когда-то возвращаются. Все эти вещи аналитик точно должен понимать: иначе получится что-то не очень полезное для бизнеса. Я бы сказал, что это в меньшей степени про фэшн и тренды, но в большей — про суть бизнес-модели. Когда люди пытаются построить сложные системы, не разобравшись в сути процесса, обычно получается очень плохо.