Кейсы 9 февраля 2016

Ученые ускорили работу поисковых машин на 5 порядков

Далее

Аспирант Вэньлэй Се разработал алгоритм для поисковых систем, благодаря которому реакция на действия пользователя в сети происходит незамедлительно, в реальном времени. Технология может найти применение в социальных сетях, базах данных, рекомендательных системах и поисковых машинах.

Компьютеры научились запоминать наши запросы и предлагать нам то, чем мы интересовались на днях. «Если ты покупаешь что-то на Amazon сегодня, то завтра он покажет тебе нечто похожее», — объясняет Се. Но этот алгоритм работает не мгновенно. В отличие от алгоритма Се и его коллег из Университета Тиш.

Историю поиска в сети можно представить в виде графа — карты, в которой кружочки (узлы) представляют единицу информации, соединенную линиями (ребрами), которые представляют связи. Для того чтобы изучить историю ваших поисков, компьютер совершает «прогулку» по графу, пока не считает всю информацию. Ребра и узлы могут быть «весомыми» — узлы записывают, как часто вы посещаете тот или иной сайт. Ребра могут показывать важность отношений. В соцсетях, например, связь «супруг(а)» весомее, чем «сотрудник».

Считается, что вес ребра важнее веса узла. Исследователи Корнелльского университета утверждают, что в Twittere, например, общие интересы значит больше, чем тема, на которую пишет каждый отдельный пользователь.

«Мы как будто свернули миллион узлов в сотню виртуальных узлов».

Алгоритмы, оценивающие вес графов, уже существуют, но они работают медленно. Чтобы ускорить их, ученые сократили граф и убрали все лишнее. Теперь он ищет только соотнесенные узлы — представляющие общие интересы с сильными связями между ними . Абитуриент, выбирающий ВУЗ, посещает много сайтов университетов. Их можно объединить в один большой и важный узел упрощенного графа.

Команда Се протестировала свой метод на базе данных научных публикаций и поисковой системе блогов и обнаружила, что она работает на 5 порядков быстрее, чем современный поисковый механизм.

Но это еще не предел — ученые предполагают, что можно еще больше увеличить скорость, если пользователь загрузит приложение на свой компьютер, и программа произведет необходимые вычисления с его стороны.

За свое исследование Се получил премию «Лучшая студенческая работа» на 21 Конференции по обнаружению информации и поиску данных ACM SIGKDD.