Город 27 декабря 2018

Хочу быть как Ада Лавлейс: победительница Secur’IT Cup 2018 — о девушках в ИТ, гомоморфном шифровании и гранте в $10 тысяч

Далее

Студентка 4-го курса Университета Иннополис Алиса Газизуллина и Владислав Виноградов из EORA Data Lab стали первыми в истории победителями турнира Secur'IT Cup из России. Их проект находится на стыке гомоморфного шифрования и видеоаналитики и решает важные вопросы, которые сейчас стоят перед обществом — кибербезопасность и приватность. «Хайтек» узнал у Алисы, почему она пошла в ИТ,  и как к ней относятся парни-айтишники, какие задачи решает гомоморфное шифрования, и почему для корректной работы ИИ нужно больше данных.


Турнир Secur’IT Cup проводится Лабораторией Касперского для студентов, увлекающихся информационной безопасностью. Участники представляют идеи своих проектов по трем направлениям:

  • подключенная медицина — как защитить людей, пользующихся умными медицинскими приборами;
  • интернет вещей — как повысить безопасность подключенных устройств: от удаленного управления бытовыми приборами до элементов критической инфраструктуры, например, контроллеров на электростанциях;
  • персональная безопасность — методы защиты личных данных в сети и за ее пределами от кражи и преступного использования.

Было ощущение, что нашу идею не поняли

— Какие эмоции испытали, когда победили? Первое, что пришло в голову?

— Сначала было очень неожиданно. Потому что мы уже сдались. Гомоморфное шифрование — достаточно узкое понятие, знакомое только специалистам. Но это направление быстро развивается сегодня. И когда мы представляли проект, было мало специфических вопросов по шифрованию — как это работает, как мы добились не такого большого роста шифротекстов. В основном жюри спрашивали по трекингу — каким образом мы следим за людьми, и как распознаем лица. То есть — об алгоритмах компьютерного зрения. После выступления было ощущение, что идею просто не поняли.

Мы изначально знали, что наш проект достоин победы, что именно такая комбинация гомоморфного шифрования и ИИ сегодня выигрышна. И у нас уже было готовое решение, а не какой-нибудь прототип. Это и давало надежду.

— Часто ли побеждают в этом турнире именно российские участники?

— Мы стали первыми. До этого победу одерживали только британцы и немцы.

— А с кем пришлось конкурировать?

— У соперников было много интересных идей, но по словам жюри чье-то решение было не имело практического применения к конкретной области, а кто-то недостаточно проработал бизнес-план или же не представил заметных модификаций существующих решений.

В целом все работы были достойными. Например, исследователь из Университета Технологий в Сиднее представил свою систему под названием Fog Robotics. Данная роботизированная система эффективно распределяет вычисления и память между периферийными, межсетевыми и облачными устройствами для обеспечения конфиденциальности и безопасности. Третье место заняло решение по аутентификации пароля в мобильных приложениях, основанное на динамике нажатия на клавиши — keystroke dynamics.

Алиса Газизуллина и Владислав Виноградов на церемонии награждения победителей Secur’IT Cup 2018

— Вы получили грант в размере $10 тысяч. Его можно потратить на реализацию вашего проекта или куда хочется?

— Вообще, мы можем распоряжаться грантом как хотим. Но я и мой коллега по проекту Владислав Виноградов все-таки загорелись нашей идеей — сейчас это горячий топик, технология быстро развивается. Нужно в этой области двигаться дальше.

Еще до турнира у меня было желание развиваться в сфере гомоморфного шифрования. Но я не знала, куда это можно приложить. А Влад, он тоже думал, но о безопасности, и не знал какую конкретно безопасность применить. То есть он даже не имел представления, что существует такая область, позволяющая проводить операции над зашифрованными данными. Такой подход решает вопросы с заказчиками, требующими приватность и нераскрываемость их данных. Поэтому грант мы потратим на развитие нашей идеи.

— А кто потенциальные заказчики вашего проекта? Они уже выходили на вас?

— Нашу идею можно применить практически везде. Это касается не только видеоаналитики лиц человека. Нами активно интересуется ритейл. Например, фотографии чеков с конфиденциальной информацией нельзя хранить на облаке. Поэтому мы берем фотографии, шифруем их у себя на устройстве и отправляем на облако, где чеки хранятся уже в зашифрованном виде.

Аналогичные проблемы встают и перед другими средствами — например, обработчиком изображений. Много различных средств, которые интегрировались бы с облаком, не могут этого сделать по вопросам безопасности. А наше решение позволяет работать с изображениями в облаке прямо в зашифрованном виде.

Девушки часто считают себя глупыми для ИТ

— А с чего все началось — почему вы решили для себя: мое направление — это гомоморфное шифрование?

— Сначала я поступила в Университет Иннополис, а затем после первого курса увлеклась тенденциями в гомоморфном шифровании. Тогда проводилась Летняя школа, организованная профессором Тормасовым. И в эту школу пригласили профессора из НГУ — Сергея Кренделева. Он и посвятил меня в этот топик. Вместе с ним мы проводили исследование по гомоморфному шифрованию, результаты которого опубликовали в этом году.

— А какое направление выбрали в университете?

— Направление сначала было общее, но на втором курсе — я решила пойти на data science. Потому что комбинация гомоморфного шифрования и data science — наиболее перспективна сегодня.

— Почему?

— Да, конечно, это называется data science — но на самом деле имеется в виду ИИ и все, что с ним связано. По сути, это все смежные топики. А развитие ИИ как раз и порождает проблемы безопасности. Так как алгоритмы анализа данных требуют много персональных данных человека, чтобы давать условно персональные советы. Вычисления зачастую происходят на сторонних сервисах. И эти данные мы не можем раскрывать. А как производить вычисления над открытыми данными — тогда возникает вопрос: можно ли как-то зашифровать их и потом производить вычисления, не видя эти данные. Эта идея меня заинтересовала, поэтому ИИ и стал моим выбором.

— Почему вы изначально пошли в ИТ? Даже сейчас не так много девушек в этом направлении.

— У меня был самый банальный выбор в школе — гуманитарные науки или техническое образование. Я сдавала два предмета — английский язык и информатику, и сделала это одинаково успешно. Но гуманитарные предметы мне всегда давались слишком легко. А математика меня очень интересовала и подпитывала, особенно если я сидела и решала задачи. Это вдохновляет, когда тратишь время, и получаешь конкретный результат — несколько решенных задач. В этот момент я буквально ощущаю работу своего мозга. И без этого жить уже не могу. Так я и поняла, что мне больше подходит техническое направление, нежели гуманитарное.

— Немного странный будет вопрос, но без сексизма — каково быть девушкой в ИТ?

— Вообще — просто. Действительно, я замечаю, что очень мало девушек на моем направлении, правда за границей, где я училась — в Турции и во Франции, немного больше,чем в России. Но парни все равно доминируют.

— Так а почему так — не интересно или сложно? В чем причина такого гендерного перекоса?

— Меня часто спрашивают девочки с других направлений: «Ой, как ты туда пошла?!». Их очень удивляет мой выбор. Но сами многие говорят, что тоже хотели стать айтишниками. А на мой вопрос, почему же не пошли, отвечают, что считают себя глупыми для этого. Скорее всего они побоялись выбрать ИТ, потому что опасались сложностей во время учебы — большой нагрузки и множества требований. Хотя это не всегда оправданно, и вообще мне кажется, главное, чтобы было желание.

Сейчас, обучаясь во Франции, я общаюсь со многими девушками на курсах французского и других гуманитарных предметов в магистратуре. И они все интересуются программированием, сами изучают его. Но это все студенты — не коренные французы, а те, кто закончил бакалавриат в своей стране. Они спрашивают, как войти в ИТ, как долго я все изучала, и сами как свитчеры — хотят перейти из одной области в другую. Когда люди достигают определенного возраста, не только девушки, но и парни, они решают, что уже достаточно умны, чтобы погрузиться в ИТ.

Показать, на что ты способна

— Сталкивались со снисходительным отношением — когда парни говорят: «Ну, ты же девушка, иди, гуляй…»?

— Скорее, наоборот. Например, сложно найти себе команду, когда парни тебя не знают, как хорошего специалиста. А в новом коллективе это особенно проблематично. Ты подходишь к парням, а они могут тебя отмести только потому, что ты — девушка. Могут посчитать тебя несерьезной. Просто нужно показать, на что ты способна.

— И как же показать — прийти, ударить себя в грудь и сказать: «Я — офигенный айтишник»?

— Если говорить про лекции, то — выступать, задавать профессору умные вопросы. Еще они (парни) часто смотрят на шкалу оценок — какое место ты занимаешь в рейтинге, чтобы оценить твои знания (смеется).

— Это у нас в России такое отношение или за рубежом тоже?

— И там, и там.

— То есть мальчики везде одинаковые?

— Ага (смеется), я столкнулась с таким в магистратуре. Когда парни увидели мою итоговую оценку, отношение сразу изменилось — стало более доверительное. Хотя в магистратуре люди уже более серьезные и понимают, что девушка или нет, какая разница, главное, что хороший специалист. И от пола ничего не зависит. И все равно, если видят хорошую оценку, начинают подходить с проектами и предложениями. Понимают, что человек интересуется в этой области, не просто берет этот курс ради галочки.

— Сейчас количество девушек в ИТ все равно больше, нежели лет 5–7 назад. Что изменилось — воспитание, внутренние установки или размылись границы?

— Скорее, это развитие медиа. Сегодня ИТ более открыты для людей, видны успехи женщин в этой области. А мужчины преуспевают в противоположных направлениях — искусстве, моде и дизайне. Границы действительно размываются, и как следствие мы видим все больше женщин в ИТ и инженерных областях.

— А у вас есть кумир в своей сфере?

— Когда я только начинала заниматься программированием, то это была Ада Лавлейс, потому что она — первая девушка-программист в истории человечества. Лавлейс развивалась в той области, в которой в принципе было не очень много исследований и людей, кто этим интересовался. Она двигала свои собственные идеи. Меня это поразило и вдохновило.


Ада Лавлейс — английский математик 19-го века. Известна, прежде всего, созданием описания вычислительной машины, проект которой был разработан Чарльзом Бэббиджем. Составила первую в мире программу (для этой машины). Ввела в употребление термины «цикл» и «рабочая ячейка», считается первым программистом в истории.


Портрет Ады Лавлейс

Гомоморфное шифрование и видеоаналитика

— Вы выиграли турнир Secur’IT Cup 2018 благодаря проекту, основанному на гомоморфном шифровании. В чем его суть и значение в криптографии?

— Гомоморфное шифрование позволяет проводить вычисления над зашифрованными данными. То есть клиент шифрует свои данные и отправляет на сервер, где мы их уже не можем расшифровывать. Сервер никогда не видит эти данные в оригинальном виде. А мы можем выполнять различные операции над ними без раскрытия. После того как мы, например, сложили два шифротекста и получили третий шифротекст как результат, отправили его на сервер, можно расшифровать его и получить результат настоящего сложения оригинальных чисел.

— Но в вашем проекте кроме гомоморфного шифрования есть еще и распознавание лиц на видео — как это работает и дополняет друга друга?

— В последнее время все чаще возникает вопрос — можем ли мы хранить на сервере биометрические данные в открытом виде — те же фотографии или их математическое представление. И компании отказываются интегрировать разработки, которые нарушают политику защиты персональных данных GDPR. А видеоаналитика, в свою очередь, развивается все быстрее и быстрее и находит свое применение в различных областях. И требует хранение изображений лиц, которые мы распознаем для видеоаналитики, во временных буферах. А как проводить видеоаналитику на данных, которые мы не можем хранить в открытом виде. Если будем их шифровать, то не сможем выполнять операции над ними без расшифровки. А гомоморфное шифрование как раз разрешает это противоречие.

Мы берем человеческую фотографию, описываем с помощью алгоритмов лицо. Представляем его в виде вектора чисел и зашифровываем. А над этим зашифрованным вектором можем проводить операции без промежуточной расшифровки. Например, это необходимо для приватного поиска лиц в базе данных. Заказчик может не беспокоиться, что его данные передаются третьей стороне, которая совершает эту видеоаналитику.

Гомоморфное шифрование используется не только для изображений и видео, но и просто для чисел. Например, для электронного голосования.

— К примеру, если человека засекли на улице с помощью видеокамер, то его личность можно установить благодаря такому поиску в базе данных?

— Да, мы как рассматривали на турнире такой кейс — инспектор берет фотографию подозреваемого и хочет узнать, в каких местах тот был замечен. Тогда он отправляет этот снимок в нашу систему, облако его получает, превращает в шифротекст и ищет по базе шифротекстов совпадение — похожие дискрипторы, вектора. После того, как они найдены, мы получаем результат — видеозаписи с разных камер, где этот человек был распознан нашей системой. И поиск, таким образом, проходит по зашифрованным представлениям видео — в виде последовательности фреймов. Шифротексты хранятся у нас в базе, а изображения человека также шифруются, поэтому мы видим на нашем сервере только зашифрованные вещи. И нет никакого раскрытия данных.

На любой ИИ в руках хакеров, найдется ИИ, который борется с этим

— Эксперты сегодня обсуждают этические проблемы ИИ. Хакеры могут в буквальном смысле заставить ИИ принимать некорректные решения. А средством борьбы с киберпреступностью называют «прозрачность» алгоритмов. В связи с этим вопрос — реально ли добиться этой прозрачности?

— Прозрачность машинных алгоритмов действительно позволит узнать, как именно они принимают решения, какая последовательность выводов. Над этим ведется большая работа, основанная на раскрытии «черного ящика» нейронных сетей. И есть определенные успехи — например, исследования о визуализации внутренней структуры нейронных сетей. Это даст понимание, на какие конкретные паттерны обращала внимание сеть на определенных слоях. А значит, можно определить, что сеть задетектила, почему она решила, что фотография кошки — это змея, например. Оказывается, что на заднем фоне был ковер с изображением змей.

— А что насчет безопасности?

— На любое использование ИИ в корыстных целях можно ответить противоположным ИИ, который как раз борется с этим. Есть такое понятие adversarial attacks — состязательные атаки — когда злоумышленник подает на вход специально подстроенные данные, чтобы алгоритм понимал их как нечто обычное и совершал действия, которые не должен был производить. Например, некорректное распознавание дорожного знака автопилотом. С данными атаками можно тоже бороться, используя ИИ.

Сегодня алгоритмы если и работают не так, как надо, то только за счет непонимания их внутренней структуры. Люди удивляются, почему алгоритм, распознающий какие-то определенные вещи, начал делать это неверно. Происходят подобные сбои из-за недостаточного понимания, почему алгоритм выдает хорошие результаты в задачах, под которые он был заточен. Когда мы обучаем алгоритм, то выдаем ему только необходимые объекты. Тогда как в реальной жизни он обращает внимание не только на них.

— А что делать с предвзятостью ИИ — когда условно говоря я, русский, и некий американец получим разную информацию, только потому что алгоритм знает о нашей принадлежности к той или иной стране?

— На данный момент предвзятость возникает только тогда, когда заказчик этого требует. Если он хочет персонализированный контент для определенной группы людей, то это больше относится к маркетингу, нежели к ИИ. Если же это возникает случайно, то нельзя сказать, что алгоритмы живут каким-то своим собственным образом. Их в любом случае можно настроить, чтобы они выдавали корректные результаты. И это уже работа дата-сайентиста и самого эксперта. По сути, просто нужно больше данных.

— Но в США, например, ИИ и машинные алгоритмы используют для определения лиц во время преступлений и помощи судьям в решении административных дел. И решения выносят с предубеждениям к чернокожему населению.

— Это происходит как раз потому, что алгоритмы смотрят на конкретный дата-сет, который к ним поступает — то есть на историю. И сеть рассматривает определенную зависимость. Например, сеть знает, что чернокожим вынесли больше обвинительных приговоров в прошлом. И она устанавливает сразу же определенную зависимость. Так что это уже прайер, и от него многое зависит. То есть сети опять же нужно дать больше информации, чтобы она основывалась не только на фотографии или расе, — характеристики человека, его доход, пол, возраст, работа, увлечения, образование и т.п.

Правильно быть многофункциональным специалистом

— Какие сейчас тренды в кибербезопасности?

— Сегодня эксперты по безопасности используют алгоритмы машинного обучения для анализа подозрительного трафика. Но это уже происходит давно, так что это уже долгая история. В ответ на это развиваются состязательные атаки, позволяющие злоумышленнику проходить файерволы, за счет специальных стратегий запросов в сеть. И это главная на сегодня проблема, порожденная комбинацией ИИ и машинного обучения.

— И что должен уметь специалист по кибербезопасности?

— Любой специалист должен разбираться в нюансах той сферы, в которой он разрабатывает решения. Если это банкинг, e-goverment или промышленность — специфика данных будет разной, а значит эксперт должен углубиться в эти особенности. Конечно, правильно быть многофункциональным специалистом и разбираться не только в криптографии, разработке сетей, но и других сферах ИТ, следить за трендами и публикациями, а также исследованиями в области ИИ.

— Вы учились в России и за рубежом, в чем основное отличие в образовании?

— Я с первого курса учусь в Университете Иннополис, и у нас там тоже европейская система образования. И мне показалось, что в европейских классических вузах, где я обучаюсь сейчас, образование даже ближе к нашему российскому образованию. Мне что в Иннополисе, что во Франции обучаться легко — дается свобода выбирать области, которые мне интересны. Нет никакого контроля, и я не изучаю то, что мне самой не интересно. Но я во Франции студент по обмену, тогда как остальных заставляют брать уроки по спорту, и многих это смущает.

Но в Европе уделяется больше внимания к практическому применению знаний и навыков — например, есть специализированные курсы по освоению определенных технологий. В России, напротив, в центре фундаментальные математические знания. Когда я говорю, что приехала из России, то все отвечают: «О, значит, ты очень хорошо знаешь математику. Русские именно этим известны».

Умение переключаться между задачами

— У вас в сфере интересов и data science, и когнитивная психология, и компьютерное зрение. Чем обусловлена эта не самая простая комбинация?

— При выборе своего профессионального развития я всегда следую своим личным интересам. А потом понимаю, если было интересно, то это можно как-то связать между собой. И всестороннее развитие помогает находить новые и неожиданные решения на стыке различных областей, приносит больший ресурс для генерации идей. А если есть интерес, и умеешь переключаться от одной задачи к другой, то обучаться чему-то новому гораздо легче.

— Ваш дипломный проект «Распознавание спонтанных эмоций по видео и EGG» — как это работает и есть ли уже реальные кейсы такого решения?

— Распознавание эмоций сегодня широко применяется в медицине для предотвращения и помощи при борьбе с депрессией и другими психическим заболеваниями, в умных домах — для контроля эмоционального состояния человека, путем изменения температуры, интенсивности освещения. Дом может включить тебе любимую мелодию, если поймет, что ты грустишь. Кроме того, подобное решение используется в рекомендательных системах для выдачи пользователю контента на основании его текущего эмоционального состояния.

В нашем исследовании мы используем видеозаписи людей, которые просматривают музыкальные клипы, и распознаем их эмоции на основании выражения лиц, следим за тем, как одна эмоция изменяет другую. Затем мы формируем временную зависимость между комбинациями гримас человека и эмоциями. И на базе этих данных строим предсказания эмоционального состояния человека. Дата-сет, который мы используем, дает нам доступ к EGG (электроэнцефалограмма, ЭЭГ — «Хайтек») с активностью мозга. Но у многих возникает вопрос, относительно практического применения такого подхода сегодня. Мы не можем носить шлемы EGG сейчас, а значит и использовать эту информацию для предсказания. Но в будущем вполне вероятно, что такие решения, получающие информацию об активности мозга, появятся в удобном виде и будут применяться в повседневной жизни.

Еще существует каталог — экшен кодинг. Он был вручную размечен и сообщает о том, что комбинация гримас отвечает за конкретную эмоцию. Но мы на этом не ограничиваемся. Мы берем определенный патч, соответствующий определенной человеческой эмоции. Человек за очень короткий промежуток времени может испытать итоговую эмоцию, но ей может предшествовать много других эмоций. И мы пытаемся отследить эту зависимость. А сама эмоция определяется тремя параметрами в 3D-плоскости.

Распознавание эмоций применяется не первый год, особенно в медицине. Но очень сложно найти алгоритмы, которые будут работать с большей точностью, поэтому широкого применения пока нет.