Крупнейший кросс-доменный датасет для рекомендательных систем появился в открытом доступе
Новости 26 сентября 2025

Крупнейший кросс-доменный датасет для рекомендательных систем появился в открытом доступе

Далее

Центр ИИ группы «Т-Технологии» открыл доступ к T-ECD — одному из самых масштабных в мире синтетических датасетов для e-commerce. В нём собраны данные о действиях 44 млн пользователей, 30 млн товаров и более 135 млрд взаимодействий.

Группа «Т-Технологии» опубликовала датасет T-ECD (T-Tech E-commerce Cross-Domain Dataset), который может стать новым бенчмарком для исследований в области рекомендательных систем. Он собран на основе анонимизированных данных пользователей сервисов «Город: Шопинг» и «Супермаркеты», а также рекламной платформы Т-Банка.

Особенность T-ECD — кросс-доменность. В него вошли пять взаимосвязанных источников: транзакции и чеки, отзывы, данные о взаимодействии с рекомендациями FMCG и non-FMCG-товаров, а также истории активаций акций и кэшбэков. Эти наборы можно использовать отдельно или связывать по ключам пользователей, товаров и брендов, формируя полные профили поведения.

Датасет включает глубину от 1 года до 3,5 лет, что позволяет анализировать краткосрочные и долгосрочные предпочтения, сезонность и тренды. Помимо явной обратной связи (покупки, отзывы) в T-ECD есть данные о «просмотрах» и источниках рекомендаций — поиск, каталог или выдача системы. Это открывает возможность точнее оценивать реакцию пользователей на алгоритмы.

«Мы считаем важным вносить вклад в развитие открытых датасетов и моделей. T-ECD может стать новым бенчмарком и помочь сообществу улучшить качество персонализации и клиентского опыта», — отметила Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке.

В «Т-Технологиях» считают, что датасет снимает одну из ключевых проблем индустрии — большинство открытых наборов устарели и не отражают современное поведение пользователей. Теперь исследователи получают данные, максимально приближенные к реальности, что повышает ценность экспериментов с алгоритмами машинного обучения.

Датасет T-ECD доступен на платформе Hugging Face под лицензией Apache 2.0, разрешающей свободное использование и модификацию.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Обложка: freepik