В свое время компания создала Hadoop — платформу с открытым кодом для обработки данных, которой успешно пользовались Facebook, Twitter и целый ряд других компаний. Для обучения систем на основе искусственного интеллекта данные играют не меньшую роль, чем алгоритмы. И именно богатый набор данных — главное достоинство Yahoo и CaffeOnSpark.
CaffeOnSpark работает на основе глубокого обучения и позволяет с большей точностью искать фотографии на принадлежащем Yahoo сервисе Flickr. Механизм поиска использует не описания снимков и не ключевые слова, проставленные пользователями, а характеристики самих фотографий — их цветовую гамму, изображенные на них объекты и живые существа.
Все подобные системы постоянно обучаются и совершенствуются в зависимости от количества потребляемого ими контента — чем больше фотографий «видит» алгоритм, тем умнее он становится.
CaffeOnSpark состоит из алгоритма глубокого обучения Caffe и системы обработки данных Spark. Обе технологии могут работать на базе платформы Hadoop. То есть технологии Yahoo позволяют накладывать один механизм и использовать их группами. Это упрощает работу разработчикам ИИ и позволяет распределять процессы глубокого обучения на нескольких серверах. Такой возможности нет даже у TensorFlow от Google, поэтому доступ к открытому коду CaffeOnSpark — это хорошие новости для многих специалистов в области IT.