Гай Вилнер, IXcellerate — о цифровом мусоре, ответственности за потерю данных и невозможности уничтожить информацию навсегда

Жизнь людей практически полностью переходит в цифровой мир. Премьер-министр Дмитрий Медведев заявил на саммите АСЕАН в ноябре 2019: «На наших глазах складывается абсолютно новый экономический уклад. Быстрыми темпами происходит цифровизация нашей жизни. И это цифровое будущее уже совсем рядом». Цифровизация порождает много данных: записи платежных транзакций, медицинские истории, история покупок в магазине и другие цифровые следы ежедневной жизнедеятельности человека. О том, как  анализировать, хранить и использовать Big Data, «Хайтеку» рассказал Гай Вилнер, генеральный директор IXcellerate, оператора сети коммерческих дата-центров.

Гай Вилнер — соучредитель и генеральный директор IXcellerate, входит в топ-50 наиболее влиятельных персон в индустрии Big Data & Cloud в регионе ЕМЕА (рынок сбыта, включающему Европу, Ближний Восток и Африку).

IXcellerate — оператор сети коммерческих центров обработки данных. Компания предлагает решения по размещению серверного и телекоммуникационного оборудования и другие услуги по работе с большими данными.


Можно хранить больше мусора

— Как бороться в ИТ-индустрии с мусорными данными?

— Да, в отрасли есть избыточные данные. Некоторые призывают упростить программирование, потому что количество строк в коде иногда определяет требуемый объем вычислительной мощности. Это игнорировалось раньше, но теперь становится все более важным.

С другой стороны, мощность процессоров и скорость обработки постоянно растет, а стоимость среднего накопителя снижается. Это означает, что вы можете хранить намного больше. Так что пока вопрос мусора не так уж и важен. Если бы технологии хранения данных не менялись, то мы бы столкнулись с этой проблемой острее.


В среде специалистов обсуждается мнение, что накопленные массивы информации — просто мусор. Эти утверждения базируются на том, что анализ несистемных данных дает результат с ошибками. При загрузке в систему с ИИ «мусорных данных» получается тот же мусор, но уже просто в обработанном виде.

С другой стороны, сохраняется тренд на использование бизнесом Big Data, и способы анализа больших данных тоже продолжают свое развитие. По данным BCG, на 2019 год отрасль больших данных в России составляет 45 млрд рублей. С 2015-го рынок растет ежегодно на 12%.


— Как меняется технология хранения данных?

— Говоря простым языком, стоимость хранения данных ежегодно сокращается примерно на 50% благодаря совершенствованию технологий. Например, у вашего старого телефона было 64 Гб встроенной памяти, а на новом уже будет не менее 128 Гб. А еще год спустя вы получите 512 Гб. При этом стоимость телефона сильно не изменится — за те же деньги вы получаете больше места для хранения с каждым годом. Это значит, что, по сути, вы можете хранить больше мусора, поэтому «мусорная» программа вообще-то не так уж и важна.

Источник: исследование BlackBlaze

У всех минимум два центра обработки данных

— Чтобы защитить данные от атак и других непредвиденных ситуаций, применяют резервное копирование. Решение о том, какую именно информацию дублировать, принимает человек?

— В любой крупной организации сегодня есть, как минимум, два центра обработки данных (ЦОД) — основной и резервный. У некоторых «цифровых» предприятий, таких как Google и Яндекс, их может быть более пяти и даже десяти. 15 лет назад у большинства банков имелся только один ЦОД, но в 2019 году такого уже нет. Физическая инфраструктура распределяется между несколькими дата-центрами. Данные делятся исходя из типологии цифровых сервисов и уровня их доступности для пользователей (например, насколько критичен простой), ИТ-архитектуры, скорости передачи и модели использования (через облако). Решение о том, где эти данные находятся в определенный момент, не обязательно принимается человеком.

— Зависит ли это решение от ценообразования на ЦОД?

— На решение влияют несколько факторов. Один из них — нормативная база. Это могут быть требования федерального закона о локализации персональных данных № 242-ФЗ, либо Европейский регламент по защите персональных данных (GDPR) или Закон о борьбе с терроризмом США (Patriot Act).

Это актуально, если рассматривать вопросы ценообразования с точки зрения того, в какой стране собирать и хранить данные. Например, если ваш бизнес ведется в рублевой экономике и вы хотите, чтобы ваши расходы на данные были именно в рублях, а не в евро. Это будет еще одним определяющим фактором по выбору ЦОД в конкретной стране.

Еще момент: если ваши данные находятся очень далеко от вычислительного центра, их трансфер и доставка пользователям будет слишком дорого стоить. Представьте, если бы главный аэропорт России находился во Франкфурте, и все самолеты приземлялись бы там, а оттуда вам бы приходилось садиться на автобус и ехать много часов до России. Это сделало бы вас очень бедным и несчастным, вы бы уставали и тратили очень много денег на «дорогу», ведь цена на билет в автобусе была бы очевидно выше, чем проезд в метро.

За утерю данных отвечает пользователь

— Существует ли юридическая и материальная ответственность участников рынка Big Data & Cloud за безвозвратно утерянные данные?

— Нет. По аналогии с ситуацией, когда много лет назад вы покупали пленку Kodak для фотоаппарата. На коробочке было указано: если пленка была дефектная и вы из-за этого потеряли все свои фотографии, компания Kodak несет ответственность за саму пленку. Но ответственность не распространяется на содержание пленки. Та же ситуация сегодня с данными. Четкое различие в том, что они хранятся во множестве мест, так что в наши дни довольно сложно их потерять.


Облачные сервисы сегодня предоставляют максимальный уровень защиты данных, в том числе резервное копирование. Тем не менее, пользователей предупреждают о возможных непредсказуемых технических сбоях.

Например, пользовательское соглашение сервиса «Яндекс.Диск» предупреждает, что возникновение такой поломки не будет являться основанием для применения к Яндексу мер ответственности. Если данные утеряны, ответственность за них компания не несет, но может предложить компенсацию в виде дополнительных объемов для хранения.


— То есть ответственность за утерянные данные лежит на том, кто разместил эти данные на облаке?

— Да, так и есть. Для определенных корпоративных заказчиков, я уверен, существуют пользовательские соглашения с облаками, которые учитывают специфику отрасли, будь то автомобили, страхование и здравоохранение. В таких случаях заключаются более конкретные соглашения, включающие вопрос о сохранности этих данных. Если эти данные утрачены, есть условные обязательства, но, полагаю, что они очень конкретно прописаны.

— Ждать ли в скором будущем грозных уведомлений: «Осторожно, вы сохраняете свои данные в облаке, они могут быть утеряны и использованы против вас»? Или это уже реальность?

— Думаю, это немного упрощенный подход. Похоже на решение правительства поставить знак у дома каждого жителя, прямо возле двери, с надписью «Осторожно! Если вы выйдете за дверь, вас могут сбить машины, поэтому внимательно смотрите на дорогу». Думаю, предупреждения такого рода лишние.

Сегодня у нас и так достаточно предупреждений в сети. Думаю, что люди довольно умны и поймут, что должны самостоятельно защищать свои данные. Уже сейчас Роскомнадзор проводит образовательные акции и выпускает видеоролики о защите персональных данных для детей и подростков. Это станет новой «гигиенической нормой».

— Как повысить информированность людей о процессах хранения данных? Может ли государство заставить компании рассылать подобные уведомления?

— Не знаю. Я думаю, сложность с регулированием заключается в том, что оно всегда приводит к непредвиденным последствиям. Рынок, несомненно, найдет решения. Есть проблема социальных сетей, которые продают личные данные пользователей. Возможно, через несколько лет молодое поколение будет готово заплатить пару долларов в месяц за пользование той соцсетью, которая гарантирует, что не будет делится данными.

Данные нельзя уничтожить

— Какую информацию нельзя утратить ни в коем случае — алгоритмы кодирования и сжатия, языки программирования, протоколы передачи данных или что-то иное?

— Не знаю, будут ли когда-то утрачены хоть какие-то данные. Что интересно, данные могут быть недоступны в течение какого-то времени из-за сбоя на сервере или сбоя в сети, но они всё равно останутся. И это ставит другой весьма любопытный вопрос. Каковы последствия того, что данные никогда не будут утрачены?

— Вы хотите сказать, что любые данные, когда-либо созданные человеком, доступны во все времена в разных видах и в разной форме?

— Не во все времена. Но эти данные можно где-то восстановить. Потому что не существует утраченных данных, особенно в наши дни. Подавляющее большинство информации нельзя просто уничтожить.

— Чем больше данных мы создаем, тем больше данных хранится, тем больше нам приходится обрабатывать. Этот процесс также будет неким образом управляться?

— Не знаю, будет ли он управляться кем-то. То, что вы описываете, больше похоже на сюжет из книги «1984» или книги Евгения Замятина (Вилнер имеет в виду книгу «Мы» — «Хайтек»). Не думаю, что это хороший сценарий. Я полагаю, в действительности может произойти следующее: через несколько лет нам, возможно, будет всё равно, как много данных мы создаем, потому что хранение может стать относительно неограниченным.

Решение остается за человеком

— ИИ будет архивировать, распределять, индексировать данные по своим принципам, о которых человек может и не догадываться?

— Не уверен, что так будет. Вы можете зайти в систему и убрать ИИ. Вы делегируете только принятие сложных решений. Вы могли бы использовать суперкомпьютер для того, чтобы оценить вероятность дождя. Но вы также можете просто посмотреть на небо и подумать, ощущаете ли вы, что скоро будет дождь.

— Может ли ИИ обучать себя? Или может человек научить ИИ формировать более сложные задания?

— Конечно. Машины позволяют людям принимать стратегические решения, а не эмоциональные. Поэтому у вас есть система ИИ, управляющая системой подземных перевозок в городе. Решения принимаются компьютерами, а не людьми. Это очевидно.

— Вы думаете, что решение будет всегда за человеком: какие данные он хочет хранить, к каким данным он хочет иметь доступ?

— Да, мы будем использовать искусственный интеллект, чтобы отсортировать простые вещи, представить их в более понятном виде. ИИ станет очень большой и важной частью нашей жизни, по сути, такой же, как компьютеры сегодня. Но в итоге именно людям придется решать, чего они хотят, именно они будут интерпретировать информацию.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Из перовскита создали датчик изображения, который улавливает в три раза больше света
Новости
ИИ научили предсказывать риск провала технологических новинок
Новости
Разработан нанопластырь с микроиглами, который может заменить биопсию
Наука
В глубинах Тихого океана обнаружили пауков, питающихся бактериями
Наука
Открыт белок, который восстанавливает ДНК, препятствуя старению мозга
Наука
Рассуждающая модель от китайской MiniMax потребляет меньше ресурсов, чем DeepSeek
Новости
Под Волгоградом обнаружили краску, которую использовали неандертальцы
Наука
Человеческую мочу преобразовали в материал для зубных имплантатов
Наука
Инженер-любитель спроектировал eVTOL: он может пролететь более 200 км за три часа
Новости
Из личинок мухи создали антисептик для борьбы с супербактериями
Наука
В мессенджере WhatsApp скоро появится официальная реклама
Новости
По 319 млн рублей выделят на создание центров промышленной робототехники в России
Иннополис
Инженеры создали дрон с рукой, напоминающей хобот слона
Новости
Спутники устроили искусственное затмение для изучения короны Солнца
Космос
На Кузбассе обнаружили останки флоры и фауны эпохи динозавров
Наука
Кудиты вместо кубитов: физики написали инструкцию для создания кудитных квантовых процессоров
Новости
Астрономы нашли «потерянную» половину материи во Вселенной
Космос
Микробы оказались каннибалами: голодные бактерии поедают соседей, чтобы выжить
Наука
Математики прочитают открытые лекции по оптимизации в Университете Иннополис
Иннополис
Solar Orbiter впервые сфотографировал полярную область на Солнце
Космос