Жизнь людей практически полностью переходит в цифровой мир. Премьер-министр Дмитрий Медведев заявил на саммите АСЕАН в ноябре 2019: «На наших глазах складывается абсолютно новый экономический уклад. Быстрыми темпами происходит цифровизация нашей жизни. И это цифровое будущее уже совсем рядом». Цифровизация порождает много данных: записи платежных транзакций, медицинские истории, история покупок в магазине и другие цифровые следы ежедневной жизнедеятельности человека. О том, как анализировать, хранить и использовать Big Data, «Хайтеку» рассказал Гай Вилнер, генеральный директор IXcellerate, оператора сети коммерческих дата-центров.
Гай Вилнер — соучредитель и генеральный директор IXcellerate, входит в топ-50 наиболее влиятельных персон в индустрии Big Data & Cloud в регионе ЕМЕА (рынок сбыта, включающему Европу, Ближний Восток и Африку).
IXcellerate — оператор сети коммерческих центров обработки данных. Компания предлагает решения по размещению серверного и телекоммуникационного оборудования и другие услуги по работе с большими данными.
Можно хранить больше мусора
— Как бороться в ИТ-индустрии с мусорными данными?
— Да, в отрасли есть избыточные данные. Некоторые призывают упростить программирование, потому что количество строк в коде иногда определяет требуемый объем вычислительной мощности. Это игнорировалось раньше, но теперь становится все более важным.
С другой стороны, мощность процессоров и скорость обработки постоянно растет, а стоимость среднего накопителя снижается. Это означает, что вы можете хранить намного больше. Так что пока вопрос мусора не так уж и важен. Если бы технологии хранения данных не менялись, то мы бы столкнулись с этой проблемой острее.
В среде специалистов обсуждается мнение, что накопленные массивы информации — просто мусор. Эти утверждения базируются на том, что анализ несистемных данных дает результат с ошибками. При загрузке в систему с ИИ «мусорных данных» получается тот же мусор, но уже просто в обработанном виде.
С другой стороны, сохраняется тренд на использование бизнесом Big Data, и способы анализа больших данных тоже продолжают свое развитие. По данным BCG, на 2019 год отрасль больших данных в России составляет 45 млрд рублей. С 2015-го рынок растет ежегодно на 12%.
— Как меняется технология хранения данных?
— Говоря простым языком, стоимость хранения данных ежегодно сокращается примерно на 50% благодаря совершенствованию технологий. Например, у вашего старого телефона было 64 Гб встроенной памяти, а на новом уже будет не менее 128 Гб. А еще год спустя вы получите 512 Гб. При этом стоимость телефона сильно не изменится — за те же деньги вы получаете больше места для хранения с каждым годом. Это значит, что, по сути, вы можете хранить больше мусора, поэтому «мусорная» программа вообще-то не так уж и важна.
У всех минимум два центра обработки данных
— Чтобы защитить данные от атак и других непредвиденных ситуаций, применяют резервное копирование. Решение о том, какую именно информацию дублировать, принимает человек?
— В любой крупной организации сегодня есть, как минимум, два центра обработки данных (ЦОД) — основной и резервный. У некоторых «цифровых» предприятий, таких как Google и Яндекс, их может быть более пяти и даже десяти. 15 лет назад у большинства банков имелся только один ЦОД, но в 2019 году такого уже нет. Физическая инфраструктура распределяется между несколькими дата-центрами. Данные делятся исходя из типологии цифровых сервисов и уровня их доступности для пользователей (например, насколько критичен простой), ИТ-архитектуры, скорости передачи и модели использования (через облако). Решение о том, где эти данные находятся в определенный момент, не обязательно принимается человеком.
— Зависит ли это решение от ценообразования на ЦОД?
— На решение влияют несколько факторов. Один из них — нормативная база. Это могут быть требования федерального закона о локализации персональных данных № 242-ФЗ, либо Европейский регламент по защите персональных данных (GDPR) или Закон о борьбе с терроризмом США (Patriot Act).
Это актуально, если рассматривать вопросы ценообразования с точки зрения того, в какой стране собирать и хранить данные. Например, если ваш бизнес ведется в рублевой экономике и вы хотите, чтобы ваши расходы на данные были именно в рублях, а не в евро. Это будет еще одним определяющим фактором по выбору ЦОД в конкретной стране.
Еще момент: если ваши данные находятся очень далеко от вычислительного центра, их трансфер и доставка пользователям будет слишком дорого стоить. Представьте, если бы главный аэропорт России находился во Франкфурте, и все самолеты приземлялись бы там, а оттуда вам бы приходилось садиться на автобус и ехать много часов до России. Это сделало бы вас очень бедным и несчастным, вы бы уставали и тратили очень много денег на «дорогу», ведь цена на билет в автобусе была бы очевидно выше, чем проезд в метро.
За утерю данных отвечает пользователь
— Существует ли юридическая и материальная ответственность участников рынка Big Data & Cloud за безвозвратно утерянные данные?
— Нет. По аналогии с ситуацией, когда много лет назад вы покупали пленку Kodak для фотоаппарата. На коробочке было указано: если пленка была дефектная и вы из-за этого потеряли все свои фотографии, компания Kodak несет ответственность за саму пленку. Но ответственность не распространяется на содержание пленки. Та же ситуация сегодня с данными. Четкое различие в том, что они хранятся во множестве мест, так что в наши дни довольно сложно их потерять.
Облачные сервисы сегодня предоставляют максимальный уровень защиты данных, в том числе резервное копирование. Тем не менее, пользователей предупреждают о возможных непредсказуемых технических сбоях.
Например, пользовательское соглашение сервиса «Яндекс.Диск» предупреждает, что возникновение такой поломки не будет являться основанием для применения к Яндексу мер ответственности. Если данные утеряны, ответственность за них компания не несет, но может предложить компенсацию в виде дополнительных объемов для хранения.
— То есть ответственность за утерянные данные лежит на том, кто разместил эти данные на облаке?
— Да, так и есть. Для определенных корпоративных заказчиков, я уверен, существуют пользовательские соглашения с облаками, которые учитывают специфику отрасли, будь то автомобили, страхование и здравоохранение. В таких случаях заключаются более конкретные соглашения, включающие вопрос о сохранности этих данных. Если эти данные утрачены, есть условные обязательства, но, полагаю, что они очень конкретно прописаны.
— Ждать ли в скором будущем грозных уведомлений: «Осторожно, вы сохраняете свои данные в облаке, они могут быть утеряны и использованы против вас»? Или это уже реальность?
— Думаю, это немного упрощенный подход. Похоже на решение правительства поставить знак у дома каждого жителя, прямо возле двери, с надписью «Осторожно! Если вы выйдете за дверь, вас могут сбить машины, поэтому внимательно смотрите на дорогу». Думаю, предупреждения такого рода лишние.
Сегодня у нас и так достаточно предупреждений в сети. Думаю, что люди довольно умны и поймут, что должны самостоятельно защищать свои данные. Уже сейчас Роскомнадзор проводит образовательные акции и выпускает видеоролики о защите персональных данных для детей и подростков. Это станет новой «гигиенической нормой».
— Как повысить информированность людей о процессах хранения данных? Может ли государство заставить компании рассылать подобные уведомления?
— Не знаю. Я думаю, сложность с регулированием заключается в том, что оно всегда приводит к непредвиденным последствиям. Рынок, несомненно, найдет решения. Есть проблема социальных сетей, которые продают личные данные пользователей. Возможно, через несколько лет молодое поколение будет готово заплатить пару долларов в месяц за пользование той соцсетью, которая гарантирует, что не будет делится данными.
Данные нельзя уничтожить
— Какую информацию нельзя утратить ни в коем случае — алгоритмы кодирования и сжатия, языки программирования, протоколы передачи данных или что-то иное?
— Не знаю, будут ли когда-то утрачены хоть какие-то данные. Что интересно, данные могут быть недоступны в течение какого-то времени из-за сбоя на сервере или сбоя в сети, но они всё равно останутся. И это ставит другой весьма любопытный вопрос. Каковы последствия того, что данные никогда не будут утрачены?
— Вы хотите сказать, что любые данные, когда-либо созданные человеком, доступны во все времена в разных видах и в разной форме?
— Не во все времена. Но эти данные можно где-то восстановить. Потому что не существует утраченных данных, особенно в наши дни. Подавляющее большинство информации нельзя просто уничтожить.
— Чем больше данных мы создаем, тем больше данных хранится, тем больше нам приходится обрабатывать. Этот процесс также будет неким образом управляться?
— Не знаю, будет ли он управляться кем-то. То, что вы описываете, больше похоже на сюжет из книги «1984» или книги Евгения Замятина (Вилнер имеет в виду книгу «Мы» — «Хайтек»). Не думаю, что это хороший сценарий. Я полагаю, в действительности может произойти следующее: через несколько лет нам, возможно, будет всё равно, как много данных мы создаем, потому что хранение может стать относительно неограниченным.
Решение остается за человеком
— ИИ будет архивировать, распределять, индексировать данные по своим принципам, о которых человек может и не догадываться?
— Не уверен, что так будет. Вы можете зайти в систему и убрать ИИ. Вы делегируете только принятие сложных решений. Вы могли бы использовать суперкомпьютер для того, чтобы оценить вероятность дождя. Но вы также можете просто посмотреть на небо и подумать, ощущаете ли вы, что скоро будет дождь.
— Может ли ИИ обучать себя? Или может человек научить ИИ формировать более сложные задания?
— Конечно. Машины позволяют людям принимать стратегические решения, а не эмоциональные. Поэтому у вас есть система ИИ, управляющая системой подземных перевозок в городе. Решения принимаются компьютерами, а не людьми. Это очевидно.
— Вы думаете, что решение будет всегда за человеком: какие данные он хочет хранить, к каким данным он хочет иметь доступ?
— Да, мы будем использовать искусственный интеллект, чтобы отсортировать простые вещи, представить их в более понятном виде. ИИ станет очень большой и важной частью нашей жизни, по сути, такой же, как компьютеры сегодня. Но в итоге именно людям придется решать, чего они хотят, именно они будут интерпретировать информацию.