Кейсы 15 января 2016

Yahoo собрала 13,5 ТБ данных о своих пользователях

Далее

В массиве данных, собранном специально для научных исследований, собрана информация о действиях пользователей на сервисах Yahoo. 20 млн человек, 110 млрд операций, 13,5 ТБ данных - компания проделала немалую работу, которая поможет усовершенствовать механизмы рекомендаций в интернете.

Yahoo переживает не лучшие времена, но ее сервисы продолжают работать. Миллионы людей по-прежнему заходят на сайт компании, чтобы почитать последние новости. На днях корпорация выпустила массив данных Yahoo News Feed dataset, в котором собрана анонимная информация об активности 20 миллионов пользователей. Данные собирались в период с февраля по март 2015 года на основе различных источников, в том числе стартовой страницы поисковика Yahoo, новостного сайта, а также Yahoo Спорт, Yahoo Финансы, Yahoo Кино и Yahoo Недвижимость.

Общий объем данных составил 13,5 ТБ. В нем зарегистрировано 110 миллиардов уникальных операций. По мнению компании, это самый крупный набор данных на основе машинного обучения, выпущенный когда-либо.

Yahoo выпустила эту подборку специально для ученых и исследователей, которые разрабатывают более эффективные алгоритмы рекомендаций в интернете. В данных представлена информация о заголовках статей, их кратком содержании и посещении тех или иных страниц (учитывают клики на статью). Также в базе есть анонимные демографические данные о 7 миллионах пользователей — возраст, пол, место проживания.

Усовершенствование механизмом рекомендаций в интернете с каждым годом становится все более необходимым. Сегодня многие сервисы полагаются на автоматизированные рекомендации и на их основе выбирают стратегию продвижения и генерирования контента.