Компании вроде Google, Facebook и Baidu, работающие над созданием ИИ, обладают огромным преимуществом — гигантским объемом данных, который можно использовать для создания алгоритмов, понятных ИИ. У небольших компаний такой возможности нет, и они обращаются к Diffbot.
«Мы работали над этой технологией уже несколько лет. Лишь в прошлом году мы добились 90-95 % точности. И поворотным моментом стало то, что мы достигли рентабельности одними из первых среди всех стартапов, занимающихся ИИ», — рассказывает Тун.
В отличие от других проектов глубокого обучения ИИ, подход Diffbot основан исключительно на разработанных компанией алгоритмах, которые совершенствовались в течение нескольких лет.
В 2015 году компания стала прибыльной и смогла запустить свой движок сбора данных. Ее целью было собрать триллионы единиц данных для создания структурированной таксономии всего интернета (скромная цель). За год таксономия достигла 1,2 млрд объектов, и прибавляет по 10 млн объектов каждый день. (Для сравнения, Google недавно перешел рубеж в 1 млрд объектов.)
«Мы берем интернет и превращаем его в семантическое знание», — говорит Тун. А основной козырь компании, который помогает сократить расходы на обработку триллиона фактов, это собственная программа ИИ. Тун называет свое детище «Манхэттенским проектом», с той лишь разницей, что вместо ядерной бомбы он разрабатывает искусственный интеллект.