Разрыв между количеством данных и вычислительной мощностью процессоров компания SQream сократила революционным образом — с помощью графических процессоров. Гигантские объемы данных, доходящие до 1 ПБайт, базы данных нового поколения позволяют анализировать в сотни раз быстрее и определять тренды на основе исторической информации. «Хайтек» поговорил с CEO SQream Ами Галем на конференции «Big Data, Meet Big Brother», организованной Sistema_VC, о том, как развивался инновационный стартап, где применяются базы данных компании и о чем нужно задуматься странам и бизнесу в будущем.
SQream — израильская компания, основанная в 2010 году. Занимается разработкой базы данных SQream DB на основе графических процессоров (GPU) NVIDIA. Среди инвесторов компании — фонды Hanaco Venture Capital, World Trade Ventures и Silvertech Ventures. В 2018 году российский венчурный фонд Sistema_VC вместе с Alibaba Group и другими партнерами вложил $26,4 млн в компанию.
База данных SQream DB позволяет анализировать информацию до 20 раз большего объема, а также — в 100 раз быстрее, чем решения на базе микропроцессоров (CPU). Издержки на такую обработку на 10% ниже от привычного размера. Компания зарабатывает за счет подписки на сервис. Клиенты компании — таиландский AIS Mobile, индийский ACL Mobile, израильские Cellcom и Sheba Medical Center.
Новое поколение баз данных, которое было невозможным
— В чем была проблема с базами данных, когда вы создали компанию?
— Вычислительные мощности процессоров (CPU) уже давно развиваются иначе. Раньше каждый год мощности удваивались, следуя закону Мура, а сейчас они увеличиваются линейно и очень медленно. Кроме того, в последние десять лет количество данных растет в геометрической прогрессии. Это создало пропасть между данными, которые надо обрабатывать, и тем, что обрабатывают обычные процессоры. Мы хотели эту пропасть закрыть, создав базу данных на графических процессорах (GPU). У них могут быть тысячи ядер, и с их помощью информация обрабатывается намного быстрее — и дешевле. Длинные коридоры машин, занимающихся обработкой, должны уйти в прошлое.
— GPU созданы для обработки графической информации и видео. Почему вы обратились к ним и как заставили их работать с данными?
— Я пробовал это еще в 90-х, но скорость обработки была ниже нужной. Когда мы создали компанию в конце 2010 года, это считалось почти невозможным. А когда нам говорят, что это невозможно, — мы хотим решить эту проблему. Начались поиски инвестиций в Кремниевой долине. Один профессор математики, который проводил due diligence (процедура составления объективного представления об объекте инвестирования — «Хайтек»), даже доказал в своей диссертации невозможность обработки данных с GPU.
Через несколько лет уже мы доказали: на самом деле это возможно и может быть эффективным. Главная проблема — не столько обработка запросов на GPU, сколько огромное количество данных. Небольшие наборы данных сегодня обрабатываются при помощи баз данных, которые хранят информацию в оперативной памяти. Нашей миссией были большие данные. И это было действительно тяжело — ушло шесть лет на разработку продукта, который было бы не стыдно показать. Работоспособность нашей теории доказывают наши клиенты — мы де-факто создали новое поколение баз данных.
— Вы говорите о необходимости обработки большого количества данных, но что сейчас считается большим? Даже за те шесть лет, в течение которых вы создавали продукт, объемы изменились.
— Все постоянно меняется. Когда мы начинали, то держали в уме цифру в 1 ПБайт. И она еще релевантна — это все еще гигантское количество данных. Когда-то давно и 500 Гбайт считались большим набором данных. Сейчас мы считаем маленькими наборами данные от 500 Гбайт до 4 ТБайт. Обычно к таким данным не обращаются — с ними прекрасно справляются in-memory базы данных, для этого хватает оперативной памяти. У большинства наших клиентов от 20 до 500 ТБайт. Мы можем обрабатывать и визуализировать эти данные. Гигантские объемы — это от 500 ТБайт и дальше. И речь идет о структурных данных, не о видео или картинках. Совсем у немногих клиентов в мире есть более пары петабайт. У нашего самого крупного клиента — 1 ПБайт.
Цес Снук, QUVA: мы не хотим зависеть от крупных компаний, которые владеют всеми данными
Мнения
— Что это за данные?
— У нас есть клиенты, исследующие геном человека. И клиенты с данными вокруг IoT — интернета вещей — к примеру, данными с сенсоров. Данные приходят из умных автомобилей, датчиков, которые следят за загрязнением воздуха, кондиционированием помещений и так далее. Данные, которые приходят с ваших телефонов, тоже записываются. Не обязательно конкретно личная информация, чаще всего — это общие данные для построения трендов. Мы все, как вы знаете, сенсоры — и многие такие данные сделают нашу жизнь лучше.
Big data, анализ трендов и картина событий
— В чем главное отличие между in-memory базами данных и big data базами данных?
— Все, что машина анализирует в своей памяти, называется in-memory. Сегодня имеет смысл использовать такие машины для анализа данных до 4 ТБайт. После этого лимита вычисления становятся намного сложнее и дороже.
К примеру, телекоммуникационная компания хочет проанализировать свои вышки сотовой связи, потому что существуют проблемы. Для этого они берут все данные, поступающие с вышки в данный момент — это около 2 ТБайт — и анализируют их. Другой случай — они анализируют, как их клиенты перемещаются в течение последних шести месяцев. Где они бывают, в какое время суток и как долго. Например, они хотят узнать, где с 18 до 21 часа чаще всего находятся люди от 18 до 26 лет. Это пригодится для рекламы. И чтобы проанализировать данные за шесть месяцев, им необходимы сотни терабайт. Этот случай для нас.
«Чтобы создать новое лекарство, нужно 10–12 лет и миллиард долларов»
Мнения
Поэтому in-memory базы данных хороши для понимания текущей ситуации в режиме реального времени, а big data — для отображения и понимания трендов. Анализ в реальном времени тоже возможен, но это не наша экспертиза. Мы лучше всех тогда, когда нужно проанализировать пробки в определенном месте. Или загрязнение воздуха. Чтобы это сделать, анализируются все исторические данные, которые приходят из этого места. Мы показываем большую картину событий.
Мировой рынок систем управления базами данных (СУБД) составляет около $50 млрд в год, львиную долю зарабатывают универсальные решения, например, Oracle. По прогнозам аналитиков Gartner, активными игроками на рынке СУБД являются сервисы dbPaaS в области публичных облачных сервисов. Их мировой рынок в 2018 году составит $186,4 млрд, а сегмент dbPaaS к 2021-му достигнет $10 млрд.
— Где вы внедрили свои системы?
— Один пример — исследование рака. Крупная больница в Израиле использует наши базы данных в своем исследовательском центре. С помощью данных о ДНК человека и исторических данных о лечении рака они определяют лучший метод лечения для конкретного человека. То есть они могут предложить пациенту несколько методов лечения, но не знают, какой из них более успешный. Тогда они анализируют с помощью данных, как люди с похожими ДНК реагировали на разные методы лечения — и это автоматически сравнивается. Один из методов статистически будет более полезен для этого пациента. И они узнают это в течение нескольких минут вместо двух месяцев, как было раньше. Эта методика уже спасла жизни многим детям. Это один из кейсов, быть частью которого мне очень нравится. Конечно, это не мы делаем — я ничего не понимаю в генах или в раке, я просто парень, работающий с данными. Но мы помогаем врачам получить результат намного быстрее.
Ричард Вдовьяк, Philips: «В будущем диагностировать заболевания будут не только врачи, но и сами пациенты»
Технологии
Другой проект — это оптимизация дорожной ситуации в Бангкоке. Все думают, что там вечно будут пробки. Но они собирают большое количество данных — со светофоров, машин и так далее. С помощью наших систем они примерно за неделю проанализировали все данные и протестировали результаты. Это была коллаборация между правительством, телекоммуникационными компаниями и некоторыми производителями автомобилей. Без нас они бы анализировали эти данные больше года.
В мире сейчас гигантское количество подобных проблем. И мы стараемся помогать с их решением, работая с экспертами в разных сферах. Разработка новых лекарств может занимать годы из-за проверки всех возможных сочетаний и результатов. А с помощью данных мы можем сократить процесс до нескольких недель. Это сохраняет не только миллиарды долларов, но и жизни.
«Google делает мою жизнь проще»
— Есть ли у вас этические границы? С точки зрения выбора клиентов — есть кто-то, кому не будете продавать свой продукт?
— Обычно мы редко сотрудничаем с министерствами и службами внутренней безопасности — с ними работаем, но немного. Агрессивные проекты и компании, манипулирующие данными в интернете, тоже нам не подходят. Сейчас мы даже сотрудничаем с клиентами, которые борются с фейковыми новостями. В то же время мы не можем следить за всем, что клиенты делают с нашим продуктом.
— Согласны с тем, что сегодня у корпораций слишком много наших данных?
— Различные алгоритмы, которые сейчас применяются в искусственном интеллекте и машинном обучении, используются с 1970-х годов. И основное использование этих алгоритмов было направлено на то, чтобы заставить нас больше покупать в супермаркетах. Многое из того, что происходило раньше, было манипуляцией, на которую мы не обращали внимания. Но это меняется.
Во-первых, в последние годы данные уже используют для блага человечества — лучшего здравоохранения, разработки новых лекарств, умных городов. Не только для того, чтобы получить больше денег, но и чтобы сделать нашу жизнь лучше. И это новая тенденция — такого не было пять лет назад. По всему миру возникают проекты, которые пытаются действительно решить проблемы. Big data наконец работает и для нас, а не только против нас.
Во-вторых, появляются новые законы и регулирование работы с данными. Например, GDPR в Европе пытается обезопасить пользователей. И многие страны принимают похожие стандарты.
Гельмут Райзингер, Orange Business Services, — об IIoT, 5G и телеком-стартапах
Мнения
В-третьих, лично я не имею ничего против того, что Google что-то знает обо мне: это делает мою жизнь проще. Система помогает мне быть более эффективным. Многим это не нравится — и они могут этого избежать, прекратить пользоваться этими сервисами. Образование в этой сфере очень важно — людям надо объяснять, как они могут закрыть доступ к своим данным.
Как защититься от квантовых компьютеров
— Что думаете о будущем данных?
— За последние два года в мире собрали больше данных, чем за все время вместе взятое. Объем данных продолжает экспоненциально расти. Сегодня у нас много неразрешенных вопросов — мы до сих пор не знаем о всем, что можно сделать с помощью данных. Небольшие проблемы уже решаются с помощью big data, но есть и более серьезные проекты — те же исследования по лечению рака. И мне кажется, через несколько лет качественные сдвиги в таких исследованиях произойдут. Рак будет решенной проблемой. Болезнь Паркинсона будет решенной проблемой. И из-за количества собранных нами данных мы увидим, как находятся ответы на нерешенные вопросы.
Джейкоб Биамонте, Сколтех, — о том, что квантовые компьютеры могут уже сейчас
Мнения
Многое из того, что кажется невозможным сегодня, случится — благодаря анализу данных. В ближайшие десять лет мир радикально изменится — с точки зрения здравоохранения, пробок и так далее. Но появятся и новые угрозы. Часть данных будет в публичном доступе — и не ясно, кто и для чего будет их использовать.
Например, квантовый компьютер сегодня находится еще на очень ранней стадии, но через десять лет он точно будет работать. И кто-нибудь сможет купить себе квантовый компьютер — или определенный аналог. И использовать его для всего, чего угодно. На данный момент мы не защищены от этого. Возьмем пароли, которые сегодня используют люди. Чтобы их расшифровать и взломать, нужны очень мощные системы. Но квантовый компьютер, скорее всего, подберет нужный пароль очень быстро. Так что стартапам и даже странам нужно думать о том, как защитить нас от квантовых компьютеров.
— Какие планы у вашей компании?
— С точки зрения технологий — мы работаем над новым поколением продукта. Представьте суперкомпьютер размером с половину смартфона, который сможет обрабатывать большие данные. Например, он может находиться в машине, анализировать всю ситуацию и помогать водителю или автопилоту. Сейчас мы занимаемся разработкой программного обеспечения для такого устройства. И это существенно улучшит поездки в автомобиле.
Мы довольно быстро растем — за последние шесть месяцев наш штат увеличился в два раза, и скорее всего еще раз удвоится за следующие полгода. Мы расширились на Азию и Северную Америку, сейчас выходим на рынок России и Восточной Европы. Но как нам кажется, мы только начали.