Кейсы 12 февраля 2016

Diffbot: «Проект Манхэттен» для искусственного интеллекта

Далее

Еще $10 млн собрала компания Diffbot. По словам директора Майка Туна, они хотят создать самую крупную в мире базу данных структурированной информации и стать незаменимыми для разработчиков независимых приложений искусственного интеллекта. Раунд возглавила крупнейшая китайская интернет-компания Tencent.

Компании вроде Google, Facebook и Baidu, работающие над созданием ИИ, обладают огромным преимуществом — гигантским объемом данных, который можно использовать для создания алгоритмов, понятных ИИ. У небольших компаний такой возможности нет, и они обращаются к Diffbot.

«Мы работали над этой технологией уже несколько лет. Лишь в прошлом году мы добились 90-95 % точности. И поворотным моментом стало то, что мы достигли рентабельности одними из первых среди всех стартапов, занимающихся ИИ», — рассказывает Тун.

Проблема с обучением компьютера заключается в том, что он не может обрабатывать данные, которые не прошли соответствующую структуризацию. Этим и занимается Diftbot.

В отличие от других проектов глубокого обучения ИИ, подход Diffbot основан исключительно на разработанных компанией алгоритмах, которые совершенствовались в течение нескольких лет.

В 2015 году компания стала прибыльной и смогла запустить свой движок сбора данных. Ее целью было собрать триллионы единиц данных для создания структурированной таксономии всего интернета (скромная цель). За год таксономия достигла 1,2 млрд объектов, и прибавляет по 10 млн объектов каждый день. (Для сравнения, Google недавно перешел рубеж в 1 млрд объектов.)

«Мы берем интернет и превращаем его в семантическое знание», — говорит Тун. А основной козырь компании, который помогает сократить расходы на обработку триллиона фактов, это собственная программа ИИ. Тун называет свое детище «Манхэттенским проектом», с той лишь разницей, что вместо ядерной бомбы он разрабатывает искусственный интеллект.