В свое время компания создала Hadoop — платформу с открытым кодом для обработки данных, которой успешно пользовались Facebook, Twitter и целый ряд других компаний. Для обучения систем на основе искусственного интеллекта данные играют не меньшую роль, чем алгоритмы. И именно богатый набор данных — главное достоинство Yahoo и CaffeOnSpark.

CaffeOnSpark работает на основе глубокого обучения и позволяет с большей точностью искать фотографии на принадлежащем Yahoo сервисе Flickr. Механизм поиска использует не описания снимков и не ключевые слова, проставленные пользователями, а характеристики самих фотографий — их цветовую гамму, изображенные на них объекты и живые существа.

Все подобные системы постоянно обучаются и совершенствуются в зависимости от количества потребляемого ими контента — чем больше фотографий «видит» алгоритм, тем умнее он становится.

На Flickr хранятся миллиарды фотографий и подвергать из глубокому изучению можно на тех же самых серверах, на той же самой инфраструктуре — и это еще один плюс Yahoo.

CaffeOnSpark состоит из алгоритма глубокого обучения Caffe и системы обработки данных Spark. Обе технологии могут работать на базе платформы Hadoop. То есть технологии Yahoo позволяют накладывать один механизм и использовать их группами. Это упрощает работу разработчикам ИИ и позволяет распределять процессы глубокого обучения на нескольких серверах. Такой возможности нет даже у TensorFlow от Google, поэтому доступ к открытому коду CaffeOnSpark — это хорошие новости для многих специалистов в области IT.

Yahoo открыла доступ к коду CaffeOnSpark для работы с ИИ