Ян Кунигк — главный технический директор по эксплуатации в компании Cloudera. Начал свою карьеру с работы над распределенными системами в компании IBM в 2005 году. Занимался вопросами оптимизации больших потоков данных (Tera). В 2013 году руководил внедрением услуг хостинга Hadoop в T-Systems, а в 2014 году присоединился к Cloudera.
Cloudera — американская ИТ-компания, созданная в 2008 году. Предоставляет корпоративное облако для работы с любыми данными и решения различных задач: от периферийных вычислений до искусственного интеллекта.
Цифровая трансформация в современном мире
— Сегодня цифровая трансформация является неотъемлемой частью ИТ-стратегии бизнеса. Как думаете, через какое время все предприятия приступят к этим изменениям?
— Цифровая трансформация распространена повсюду, но всё же потребуется время, чтобы это новое превратилось во что-то привычное. Распределение и управление данными играют большую роль в ее развитии. Даже незначительные вещи, такие как подписка на облачные службы для внутренней коммуникации между бизнесами, выступают доказательством того, что идет непрекращающаяся цифровая коммуникация. Но она используется на мировой сцене только на 15%.
— Организации активно переходят в облачную среду, но сталкиваются с большими расходами. Как можно их сократить?
— Облачная инфраструктура обеспечивает возможность сократить использование пакетов, но расходы — это проблема. Лучший способ контролировать её — поддерживать альтернативы среди облачных сервисов. Когда нет никакого выхода из ситуации, только провайдер определяет стоимость. Большинство предприятий не перемещают все свои ИТ на одно облако, поскольку хотят сохранить возможность выбора.
С помощью Cloudera Data Platform мы поддерживаем сочетание облачных серверов и используем платформу разных производителей. Мы перенесли большинство нашей вычислительной инфраструктуры в Kubernetes — сервис ряда главных облачных провайдеров. К тому же мы поддерживаем все основные общественные облачные хранилища.
Организации переходят от ИТ-инфраструктуры на облачную, потому что это позволяет им экономить время. При пользовании ИТ-инфраструктурой много времени отнимают отладка оборудования, создание резервных копий и другие рутинные задачи, к тому же много средств тратится на закупку оборудования, приобретение лицензий на ПО, есть амортизационные издержки. Облачная инфраструктура избавляет от рутинных задач и помогает сосредоточиться на прямых обязанностях компании. Плата за облачную систему — регулярно повторяющиеся расходы, так называемые операционные издержки, которые можно сокращать по собственному желанию и без привязки к серверам или ПО.
Однако переход на облачную инфраструктуру часто связан с большими тратами и не позволяет экономить средства. Особенно много средств расходуется на построение собственного облака организации.
— В 2008 году Sun Microsystem приобрела MySQL за $1 млрд — и это считалось потолком для компаний с исходным кодом. Какой сейчас предел у таких компаний и актуален ли потолок Левина?
— Я человек, который ближе к компьютерам, чем к финансам. Я не думаю об этом, употребляя термин «потолок». Если подумать, как много было создано инноваций в компьютерных технологиях за последние 10 лет, то сразу понятно, как ценность технологий с открытым исходным кодом увеличилась для предприятий во всем мире. Недавнее приобретение RedHat, огромной компании с открытым исходным кодом, компанией IBM за $34 млрд, показывает, что потолок для компаний с открытым исходным кодом выше, чем ожидалось.
Питер Левин — партнер венчурной фирмы Andreessen Horowitz, которая поддержала Facebook, Skype, Twitter и другие известные ресурсы в начале их пути. Считал, что бизнес-модель компании с открытым исходным кодом бесперспективна, потому что приложение в бесплатном доступе не приносит достаточного дохода за обслуживание и поддержку. Левин говорил, что у таких компаний есть проблема инвестирования в инновации, поэтому они зависимы от сообщества с открытым исходным кодом.
Индивидуальная свобода в цифровую эпоху
— В Калифорнии приняли новый закон о защите прав потребителей. Создаст ли этот закон конфликт между ИТ и бизнесом?
— Закон Калифорнии о конфиденциальности данных (California Consumer Privacy Act, CCPA — «Хайтек») в значительной степени использует в качестве прообраза «Общий регламент по защите данных» Европейского союза (GDPR — «Хайтек»). Очевидно, что такие положения для США и Калифорнии не новы. ИТ и разные сферы бизнеса давно столкнулись с этим, поэтому приходится просто приспосабливаться.
Оба этих положения важны. Они гарантируют индивидуальную свободу в такие времена, когда данные имеют огромное влияние на наш мир. Поэтому требуется придумывать новые решения. Мелкозернистое кодирование, маскировка данных и анонимизация — такие технологии должны функционировать и существовать для петафлопсного набора данных или любой инфраструктуры: будь это общественное облако или локальные ЦОДы. С платформой CDP у нас появились некоторые варианты, как справиться с новой ситуацией, в которой фигурируют CCPA и GDPR.
Закон Калифорнии о конфиденциальности данных вступил в силу 1 января 2020 года. Каждый интернет-пользователь, согласно этому документу, имеет право отправить запрос и получить информацию, которую собрала о нем та или иная компания (любая компания, обрабатывающая персональные данные), потребовать удалить данные о нем с серверов компании и третьих лиц, запросить цели сбора персональных данных и их источники и отказаться передавать данные о себе третьим лицам. К персональным данным относятся любые данные, по которым можно идентифицировать человека: паспортные данные, геолокация, биометрия, история активности в интернете. За потерю или кражу данных предусмотрен штраф от $100 до $750.
— Cloudera заявила о масштабном внедрении ИТ в здравоохранение, которое поможет ускорить поиск нужных лекарств и снизить стоимость медицинского обслуживания. Как будут достигнуты эти цели?
— Cloudera с давних пор инвестирует в поиск провайдеров здравоохранения и исследователей данных. К примеру, мы объединились с Институтом Броуд, где наши коллеги значительно способствовали таким программам, как Spark, улучшить секвенирование геномов. Мы стали первой компанией, которая достигла соответствия требованиям по акту HIPAA (акт о мобильности и подотчетности медицинского страхования — «Хайтек»). На сегодняшний день 9 из 10 самых крупных фармацевтических компаний сотрудничают с Cloudera, и мы продолжаем направлять их в области ИТ, обеспечивать поддержку в решении проблем с данными, используя нашу технологию. Они тоже помогают нам — дают советы, как улучшить наш продукт.
HIPAA — Health Insurance Portability and Accountability Act — акт о мобильности и подотчетности медицинского страхования, принятый в 1996 году в США. Описывает правила обработки медицинских данных для защиты персональных данных пациента. Согласно HIPAA, охраняемой информацией о здоровье считаются данные о физическом и психическом состоянии человека в любой отрезок его жизни, о предоставлении ему медицинской помощи, об оплате им медицинских услуг и данные, идентифицирующие личность: имя, фамилия, адрес, телефон, электронная почта, номера счетов. Медицинские организации обязаны обеспечивать конфиденциальность всех этих данных.
Управляя жизненным циклом компании
— Какую роль сейчас облачные решения играют в жизни бизнеса?
— Мы помогаем предприятиям управлять жизненным циклом данных на высокой скорости над любой инфраструктурой. Для этого у нас должно быть хранилище данных корпоративного уровня EDC (Enterprise Data Cloud) и категория, которую создали наши клиенты, а затем мы определяем остальное с помощью нашей платформы данных CPD (Cloudera Data Platform).
Enterprise Data Cloud — созданное совместно Hortonworks и Cloudera облако корпоративных данных. Получило название Cloudera Data Platform (CDP). Изначально поставлялось как общедоступная облачная служба, а затем стало поставляться с использованием центра обработки данных (ЦОД). Включает в себя сервисы хранилища данных и машинного обучения, унифицированную плоскость для управления инфраструктурой и гибридных и облачных средах, управление и контроль, обеспечивающие конфиденциальность данных. Имеет открытый исходный код.
— Недавно была представлена CML — ваша новая модель облачного сервиса для совместного машинного обучения на корпоративной платформе Cloudera Data Science Workbench (CDSW). Оправдала ли надежды новая технология?
— CDSW можно рассматривать как версию «голого железа» CML. Обе технологии устраивают как инженеров по данным, так и специалистов по машинному обучению. В то время как CDSW может быть установлена прямо в ЦОДе (где обычно установлен также графический процессор), то CML — это часть опыта взаимодействия, которая работает на собственных ресурсах, или кластере Kubernetes, или вообще на общественном облаке. Ценность обоих технологий заключается в следующем: инженеры получают CI/CD, где они контролируют разработку и взаимодействие контейнеров, делясь ими с большими организациями с использованием SCM или же напрямую размещая их в виде веб-сайта.
CDSW (Cloudera Data Science Workbench) — корпоративная информационная платформа данных для машинного обучения.
CML (Cloudera Machine Learning) — облачный сервис, который дает возможность группам специалистов по данным развертывать рабочие среды для совместного машинного обучения с защищенным, самообслуживаемым доступом к корпоративным данным.
CI/CD, от англ. continuous integration/continuous delivery — «непрерывная интеграция/непрерывное развертывание» — методология разработки ПО, при которой после каждого изменения кода происходят его автоматическое тестирование и развертка после интеграции.
SCM, от англ. Software Configuration Management — «конфигурационное управление» — система методов, направленных на постоянный учет изменений, вносимых разработчиками при создании программного продукта, предотвращение нежелательных результатов.
Kubernetes — портативная платформа с открытым исходным кодом, предназначенная для развертывания, масштабирования контейнерных приложений и управления ими.
Читайте также:
Годовая миссия в Арктике закончилась, и данные неутешительны. Что ждет человечество?
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком
Ученые выяснили, почему дети являются самыми опасными переносчиками COVID-19