Сообщить об ошибке на сайте
URL
Ошибка
Кейсы

Разрыв между количеством данных и вычислительной мощностью процессоров компания SQream сократила революционным образом — с помощью графических процессоров. Гигантские объемы данных, доходящие до 1 ПБайт, базы данных нового поколения позволяют анализировать в сотни раз быстрее и определять тренды на основе исторической информации. «Хайтек» поговорил с CEO SQream Ами Галем на конференции «Big Data, Meet Big Brother», организованной Sistema_VC, о том, как развивался инновационный стартап, где применяются базы данных компании и о чем нужно задуматься странам и бизнесу в будущем.


SQream — израильская компания, основанная в 2010 году. Занимается разработкой базы данных SQream DB на основе графических процессоров (GPU) NVIDIA. Среди инвесторов компании — фонды Hanaco Venture Capital, World Trade Ventures и Silvertech Ventures. В 2018 году российский венчурный фонд Sistema_VC вместе с Alibaba Group и другими партнерами вложил $26,4 млн в компанию.

База данных SQream DB позволяет анализировать информацию до 20 раз большего объема, а также — в 100 раз быстрее, чем решения на базе микропроцессоров (CPU). Издержки на такую обработку на 10% ниже от привычного размера. Компания зарабатывает за счет подписки на сервис. Клиенты компании — таиландский AIS Mobile, индийский ACL Mobile, израильские Cellcom и Sheba Medical Center.


Новое поколение баз данных, которое было невозможным

— В чем была проблема с базами данных, когда вы создали компанию?

— Вычислительные мощности процессоров (CPU) уже давно развиваются иначе. Раньше каждый год мощности удваивались, следуя закону Мура, а сейчас они увеличиваются линейно и очень медленно. Кроме того, в последние десять лет количество данных растет в геометрической прогрессии. Это создало пропасть между данными, которые надо обрабатывать, и тем, что обрабатывают обычные процессоры. Мы хотели эту пропасть закрыть, создав базу данных на графических процессорах (GPU). У них могут быть тысячи ядер, и с их помощью информация обрабатывается намного быстрее — и дешевле. Длинные коридоры машин, занимающихся обработкой, должны уйти в прошлое.

— GPU созданы для обработки графической информации и видео. Почему вы обратились к ним и как заставили их работать с данными?

— Я пробовал это еще в 90-х, но скорость обработки была ниже нужной. Когда мы создали компанию в конце 2010 года, это считалось почти невозможным. А когда нам говорят, что это невозможно, — мы хотим решить эту проблему. Начались поиски инвестиций в Кремниевой долине. Один профессор математики, который проводил due diligence (процедура составления объективного представления об объекте инвестирования — «Хайтек»), даже доказал в своей диссертации невозможность обработки данных с GPU.

Через несколько лет уже мы доказали: на самом деле это возможно и может быть эффективным. Главная проблема — не столько обработка запросов на GPU, сколько огромное количество данных. Небольшие наборы данных сегодня обрабатываются при помощи баз данных, которые хранят информацию в оперативной памяти. Нашей миссией были большие данные. И это было действительно тяжело — ушло шесть лет на разработку продукта, который было бы не стыдно показать. Работоспособность нашей теории доказывают наши клиенты — мы де-факто создали новое поколение баз данных.

— Вы говорите о необходимости обработки большого количества данных, но что сейчас считается большим? Даже за те шесть лет, в течение которых вы создавали продукт, объемы изменились.

— Все постоянно меняется. Когда мы начинали, то держали в уме цифру в 1 ПБайт. И она еще релевантна — это все еще гигантское количество данных. Когда-то давно и 500 Гбайт считались большим набором данных. Сейчас мы считаем маленькими наборами данные от 500 Гбайт до 4 ТБайт. Обычно к таким данным не обращаются — с ними прекрасно справляются in-memory базы данных, для этого хватает оперативной памяти. У большинства наших клиентов от 20 до 500 ТБайт. Мы можем обрабатывать и визуализировать эти данные. Гигантские объемы — это от 500 ТБайт и дальше. И речь идет о структурных данных, не о видео или картинках. Совсем у немногих клиентов в мире есть более пары петабайт. У нашего самого крупного клиента — 1 ПБайт.

— Что это за данные?

— У нас есть клиенты, исследующие геном человека. И клиенты с данными вокруг IoT — интернета вещей — к примеру, данными с сенсоров. Данные приходят из умных автомобилей, датчиков, которые следят за загрязнением воздуха, кондиционированием помещений и так далее. Данные, которые приходят с ваших телефонов, тоже записываются. Не обязательно конкретно личная информация, чаще всего — это общие данные для построения трендов. Мы все, как вы знаете, сенсоры — и многие такие данные сделают нашу жизнь лучше.

Фото предоставлено пресс-службой Sistema_VC

Big data, анализ трендов и картина событий

— В чем главное отличие между in-memory базами данных и big data базами данных?

— Все, что машина анализирует в своей памяти, называется in-memory. Сегодня имеет смысл использовать такие машины для анализа данных до 4 ТБайт. После этого лимита вычисления становятся намного сложнее и дороже.

К примеру, телекоммуникационная компания хочет проанализировать свои вышки сотовой связи, потому что существуют проблемы. Для этого они берут все данные, поступающие с вышки в данный момент — это около 2 ТБайт — и анализируют их. Другой случай — они анализируют, как их клиенты перемещаются в течение последних шести месяцев. Где они бывают, в какое время суток и как долго. Например, они хотят узнать, где с 18 до 21 часа чаще всего находятся люди от 18 до 26 лет. Это пригодится для рекламы. И чтобы проанализировать данные за шесть месяцев, им необходимы сотни терабайт. Этот случай для нас.

Поэтому in-memory базы данных хороши для понимания текущей ситуации в режиме реального времени, а big data — для отображения и понимания трендов. Анализ в реальном времени тоже возможен, но это не наша экспертиза. Мы лучше всех тогда, когда нужно проанализировать пробки в определенном месте. Или загрязнение воздуха. Чтобы это сделать, анализируются все исторические данные, которые приходят из этого места. Мы показываем большую картину событий.


Мировой рынок систем управления базами данных (СУБД) составляет около $50 млрд в год, львиную долю зарабатывают универсальные решения, например, Oracle. По прогнозам аналитиков Gartner, активными игроками на рынке СУБД являются сервисы dbPaaS в области публичных облачных сервисов. Их мировой рынок в 2018 году составит $186,4 млрд, а сегмент dbPaaS к 2021-му достигнет $10 млрд.


— Где вы внедрили свои системы?

— Один пример — исследование рака. Крупная больница в Израиле использует наши базы данных в своем исследовательском центре. С помощью данных о ДНК человека и исторических данных о лечении рака они определяют лучший метод лечения для конкретного человека. То есть они могут предложить пациенту несколько методов лечения, но не знают, какой из них более успешный. Тогда они анализируют с помощью данных, как люди с похожими ДНК реагировали на разные методы лечения — и это автоматически сравнивается. Один из методов статистически будет более полезен для этого пациента. И они узнают это в течение нескольких минут вместо двух месяцев, как было раньше. Эта методика уже спасла жизни многим детям. Это один из кейсов, быть частью которого мне очень нравится. Конечно, это не мы делаем — я ничего не понимаю в генах или в раке, я просто парень, работающий с данными. Но мы помогаем врачам получить результат намного быстрее.

Другой проект — это оптимизация дорожной ситуации в Бангкоке. Все думают, что там вечно будут пробки. Но они собирают большое количество данных — со светофоров, машин и так далее. С помощью наших систем они примерно за неделю проанализировали все данные и протестировали результаты. Это была коллаборация между правительством, телекоммуникационными компаниями и некоторыми производителями автомобилей. Без нас они бы анализировали эти данные больше года.

В мире сейчас гигантское количество подобных проблем. И мы стараемся помогать с их решением, работая с экспертами в разных сферах. Разработка новых лекарств может занимать годы из-за проверки всех возможных сочетаний и результатов. А с помощью данных мы можем сократить процесс до нескольких недель. Это сохраняет не только миллиарды долларов, но и жизни.

Фото предоставлено пресс-службой Sistema_VC

«Google делает мою жизнь проще»

— Есть ли у вас этические границы? С точки зрения выбора клиентов — есть кто-то, кому не будете продавать свой продукт?

— Обычно мы редко сотрудничаем с министерствами и службами внутренней безопасности — с ними работаем, но немного. Агрессивные проекты и компании, манипулирующие данными в интернете, тоже нам не подходят. Сейчас мы даже сотрудничаем с клиентами, которые борются с фейковыми новостями. В то же время мы не можем следить за всем, что клиенты делают с нашим продуктом.

— Согласны с тем, что сегодня у корпораций слишком много наших данных?

— Различные алгоритмы, которые сейчас применяются в искусственном интеллекте и машинном обучении, используются с 1970-х годов. И основное использование этих алгоритмов было направлено на то, чтобы заставить нас больше покупать в супермаркетах. Многое из того, что происходило раньше, было манипуляцией, на которую мы не обращали внимания. Но это меняется.

Во-первых, в последние годы данные уже используют для блага человечества — лучшего здравоохранения, разработки новых лекарств, умных городов. Не только для того, чтобы получить больше денег, но и чтобы сделать нашу жизнь лучше. И это новая тенденция — такого не было пять лет назад. По всему миру возникают проекты, которые пытаются действительно решить проблемы. Big data наконец работает и для нас, а не только против нас.

Во-вторых, появляются новые законы и регулирование работы с данными. Например, GDPR в Европе пытается обезопасить пользователей. И многие страны принимают похожие стандарты.

В-третьих, лично я не имею ничего против того, что Google что-то знает обо мне: это делает мою жизнь проще. Система помогает мне быть более эффективным. Многим это не нравится — и они могут этого избежать, прекратить пользоваться этими сервисами. Образование в этой сфере очень важно — людям надо объяснять, как они могут закрыть доступ к своим данным.

Как защититься от квантовых компьютеров

— Что думаете о будущем данных?

— За последние два года в мире собрали больше данных, чем за все время вместе взятое. Объем данных продолжает экспоненциально расти. Сегодня у нас много неразрешенных вопросов — мы до сих пор не знаем о всем, что можно сделать с помощью данных. Небольшие проблемы уже решаются с помощью big data, но есть и более серьезные проекты — те же исследования по лечению рака. И мне кажется, через несколько лет качественные сдвиги в таких исследованиях произойдут. Рак будет решенной проблемой. Болезнь Паркинсона будет решенной проблемой. И из-за количества собранных нами данных мы увидим, как находятся ответы на нерешенные вопросы.

Многое из того, что кажется невозможным сегодня, случится — благодаря анализу данных. В ближайшие десять лет мир радикально изменится — с точки зрения здравоохранения, пробок и так далее. Но появятся и новые угрозы. Часть данных будет в публичном доступе — и не ясно, кто и для чего будет их использовать.

Например, квантовый компьютер сегодня находится еще на очень ранней стадии, но через десять лет он точно будет работать. И кто-нибудь сможет купить себе квантовый компьютер — или определенный аналог. И использовать его для всего, чего угодно. На данный момент мы не защищены от этого. Возьмем пароли, которые сегодня используют люди. Чтобы их расшифровать и взломать, нужны очень мощные системы. Но квантовый компьютер, скорее всего, подберет нужный пароль очень быстро. Так что стартапам и даже странам нужно думать о том, как защитить нас от квантовых компьютеров.

Фото предоставлено пресс-службой Sistema_VC

— Какие планы у вашей компании?

— С точки зрения технологий — мы работаем над новым поколением продукта. Представьте суперкомпьютер размером с половину смартфона, который сможет обрабатывать большие данные. Например, он может находиться в машине, анализировать всю ситуацию и помогать водителю или автопилоту. Сейчас мы занимаемся разработкой программного обеспечения для такого устройства. И это существенно улучшит поездки в автомобиле.

Мы довольно быстро растем — за последние шесть месяцев наш штат увеличился в два раза, и скорее всего еще раз удвоится за следующие полгода. Мы расширились на Азию и Северную Америку, сейчас выходим на рынок России и Восточной Европы. Но как нам кажется, мы только начали.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Читайте также
    Биоценоз в фарме: зачем нужна альтернатива антибиотикам и как работают лекарства нового поколения
    Тренды
    Чарльз Адлер, co-founder Kickstarter: я — панк-рокер, который раздвигает границы
    Кейсы
    Как ИИ меняет медицину: личный помощник для врачей, маршрутизатор в клиниках и разработчик лекарств
    Кейсы
    Эдвин Диндер, Huawei Technologies: умный город — это ничто
    Мнения
    «Если изобретение с ИИ не приносит пользу, сам продукт никому не нужен»
    Мнения
    Feature engineering: шесть шагов для создания успешной модели машинного обучения
    Тренды
    Мнения
    Человек — это набор из пяти чисел: Игорь Волжанин, DataSine — о психотипировании с помощью big data
    Карло Ратти, Senseable City Laboratory (MIT) — о городах будущего, третьей коже человека и роболодках
    Тренды
    Что такое скрапинг: как Amazon, Walmart и другие ритейлеры используют ботов в борьбе с конкурентами
    Идеи
    Почему китайские подлодки-беспилотники станут самым опасным врагом под водой?
    Идеи
    Филипп Роуд, LSE Cities: самый кошмарный сценарий — беспилотники, ездящие по городу, чтобы не платить за парковку
    Мнения
    Юрий Корженевский — о том, как построить безопасные системы для банков на блокчейне
    Блокчейн
    Иннополис
    Russian Robot Olympiad: как дети строят роботов и решают реальные инженерные проблемы
    MyGenetics: ДНК-тесты, помогающие «взломать» организм, как компьютер
    Тренды
    Trade-to-Mine: как биржи привлекают трейдеров в условиях падения рынка
    Блокчейн
    Мнения
    Дмитрий Фадин, 3D Bioprinting Solutions — о будущем биопринтинга и печати органов в космосе
    IoT изменит все: какие умные технологии принесут бизнесу экономию, безопасность и инновации
    Тренды
    Как высокие технологии побуждают нас покупать билеты и туристические услуги
    Тренды
    Чем плоха Кремниевая долина для IT-стартапов из России: дорого, неудобно и нет транспорта
    Мнения
    Жить по-умному: как защитить свой дом и не бояться киберугроз
    Умный дом
    Андрей Синогейкин, Wonder Technologies, — об искусственных алмазах
    Тренды
    Никита Бокарев, ESforce, — о деньгах, киберспорте и его немаргинальности
    Тренды
    Тренды
    YouTube-депрессия: как создатели популярных каналов боятся потерять подписчиков и разум
    Гельмут Райзингер, Orange Business Services, — об IIoT, 5G и телеком-стартапах
    Мнения
    «Робот берет вас на работу»: как искусственный интеллект, блокчейн и VR подбирают персонал
    Мнения
    Телемедицина, роботы и умные дома: каким через 5 лет будет «оцифрованный» город в России
    Тренды
    Мясная революция: как перейти от веганских заменителей к клеточным технологиям и биореакторам
    Идеи
    AI-выборы: как искусственный интеллект и голосовые помощники сделают демократию лучше
    Тренды
    Идеи
    Тупик для беспилотников: как мечты разработчиков разбиваются о неожиданности на дорогах
    Здесь нужен InsurTech: за какими стартапами будущее страхования
    Мнения
    Вирус лженауки в Google: как поисковые системы распространяют опасные мифы о прививках
    Идеи
    «Кто-то управляет моим домом»: как жертв домашнего насилия терроризируют с помощью умных устройств
    Умный дом
    Паскаль Фуа, EPFL, — о ключевых точках, глубоких нейросетях и эпиполярной геометрии
    Мнения
    20 фильмов о кибербезопасности, взломах и цифровых преступлениях
    Тренды
    Ян Лекун, Facebook: прогностические модели мира — решающее достижение в ИИ
    Мнения
    Джианкарло Суччи: «Попытка спроектировать программу без багов — утопия»
    Иннополис
    Game out: Как видеоигры обучают детей-аутистов держать равновесие и узнавать людей
    Тренды
    Прослушка, контроль камеры и предсказание смерти пользователя: самые странные патенты Facebook
    Кейсы
    Цес Снук, QUVA: мы не хотим зависеть от крупных компаний, которые владеют всеми данными
    Мнения
    Дмитрий Песков, АСИ: «В России традиционно долго запрягают, и в сфере IT мы только этим и занимаемся»
    Иннополис
    Мнения
    ДНК-тесты: как генетические компании обманывают людей и разрушают семьи
    Мануэль Маццара: «Для Facebook вы не покупатель, вы — продукт»
    Иннополис
    Тренды
    Блокчейн, искусственное мясо и «смерть» смартфонов: что будет с технологиями через 10 лет
    Витторио Феррари, Google: «Чтобы машина распознала книгу о Гарри Поттере нужна сложная математическая модель»
    Мнения
    7 медицинских технологий, которые скоро придут в российские больницы
    Идеи
    Руслан Зайдуллин, основатель Doc+, — о том, что делать Минздраву и о проблемах в российской медицине
    Мнения
    Ричард Вдовьяк, Philips: «В будущем диагностировать заболевания будут не только врачи, но и сами пациенты»
    Тренды
    Шедевры за биткоины: Как криптовалюта меняет рынок искусства
    Блокчейн
    Почему «московий» и «оганесон» устроили раскол между физиками и химиками?
    Кейсы