Город 20 августа 2019

Сергей Петренко, Университет Иннополис — об искусственных иммунных системах, когноморфных компьютерах и отказе от архитектуры фон Неймана

Далее

Будущее наступило с появлением технологий ИИ. В автономном режиме «некто» контролирует наши задачи и является личным виртуальным помощником во всех делах. С каждым днем это все более впечатляет. Дроны-хранители, помогающие в поиске пропавших, бары с искусственным интеллектом, умные дома и машины. «Хайтек» побывал на конференции IT Nights и записал выступление директора Центра по информационной безопасности в Университете Иннополис Сергея Петренко об искусственном интеллекте, программировании и суперкомпьютерах.

Как развивался ИИ

С 2016 года все активно заговорили о развитии ИИ. Давайте напомним самые интересные факты. У нас существуют сквозные технологии. Летом 2018 года принята государственная программа «Цифровая экономика РФ». В ее рамках идет развитие пяти основных технологий. Это обработка больших данных — Big Data. Вопросы, связанные с ИИ, причем, как правило, его ставят либо на первую либо на вторую позицию, но не на последнюю. Дальше — дополненная реальность. Затем идут вопросы, связанные с облачными и мобильными технологиями. Обычно в конце говорят о квантовых технологиях. Если посмотреть на предысторию, то получается, что чисто исторически уже происходит четвертая эволюция ИИ. Как ни странно, все началось еще в 1948 году.

Существуют четыре стиля программирования. Так вот собрались специалисты, которые были не удовлетворены структурным программированием, и стали говорить о том, что было бы неплохо, чтобы появились еще две новые технологии программирования. Тогда не знали, как они будут звучать, но в конечном счете речь шла о функциональном программировании, о Lisp и о логическом языке программирования Prolog. Кто не знает или не программировал на них, то я вам советую ради эксперимента, поскольку сейчас много обучающих курсов можно посмотреть на Python для построения своей собственной нейронной сети. Есть различные руководства и практические рекомендации для построения экспертных систем, и там вы увидите причудливые и интересные направления, связанные с функциональным программированием — с Lisp и Prolog. В первом случае речь идет о том, что программирование сводится к свертке суперпозиций и композиций функций. Все выполнение программы — это функциональное преобразование, результатом которого является суперпозиция или композиция, то есть свертка. Функция, аргументами которой являются функции. Это основа функционального программирования. В логическом программировании речь идет о доказательстве. Мы получаем истину или ложь, когда рассматриваем те или иные логические утверждения. В этом основа стиля логического программирования.


Lisp — семейство языков программирования, программы и данные в которых представляются системами линейных списков символов. Был создан Джоном Маккарти для работ по ИИ и до сих пор остается одним из основных инструментальных средств в данной области.

Prolog — язык и система логического программирования, основанные на языке предикатов математической логики дизъюнктов Хорна, представляющей собой подмножество логики предикатов первого порядка.


Практики шутят, что любую задачу можно представить в четырех классических стилях программирования и в пятом, который сейчас активно используется для разработки цифровых платформ. Начало было положено в 1950 году, потом идет бурный рост, а следом затишье. Историю развития ИИ в России я рекомендую изучать по книге Эдуарда Попова «Экспертные системы». Это наш российский классик, который предложил свой концепт развития экспертных систем, и, по сути дела, первого этапа создания ИИ. Второй этап вы тоже так или иначе помните, так как в прессе его называют революцией пятого поколения. Инициировали его в Японии в 1970–1990 годах. Там достигли существенных результатов в области построения и космической техники, и автомобильной, и атомной. Они никогда не претендовали на первые позиции в области программирования, но неожиданно для всех заявили, что будут являться пионерами в ближайшие 5–10 лет в области построения систем ИИ. Тем самым был инициирован второй этап, и он завершился построением супер-ЭВМ конвейерной или так называемой функциональной архитектуры. И опять на несколько лет возникло молчание. Молчание было связано с тем, что ожидания не оправдались с конечным результатом. Прошло еще 10–15 лет, и когда был дан старт нейронных сетей в 2005–2007 годах, снова произошло небольшое затишье. И, наконец, в 2016 году самый настоящий бум произошел, когда было получено три основных открытия в области ИИ, о которых я бы хотел рассказать поподробнее.

Фото: IT Nights

IBM Watson — суперкомпьютеры

Первое, что произошло в последнее время, если говорить об ИИ, то 80% того, что вы найдете в интернете, посвящено IBM Watson. В 2011-2012 годах IBM заявили о том, что начался новый этап развития не-фон-неймановской архитектуры и IBM сосредоточились на разработке принципиально нового решения. Они назвали его супер-ЭВМ — когнитивный компьютер. Речь шла о том, чтобы к 2019-2020 годам создать его. Они хотели создать вычислительную архитектуру с производительностью 1–10 эксафлопсов. Сейчас сильнейшие решения публикуются в перечне топ-500 супер-ЭВМ. Россия там представлена тремя компьютерами, один из них — это «Ломоносов-1». «Ломоносов-2» находится где-то, начиная с сотой позиции, немного ниже. Впереди лидирует американская разработка под названием Titan, созданная в 2017-2018 году, и разработка Китая, которая в 2016-2017 году поднялась на первое место. В то время сравнялось количество супер-ЭВМ Китая и Америки — примерно 169–170 суперкомпьютеров, но никто из них так и не достиг того, чего они хотели — производительности 10 эксафлопсов в секунду. Но появились новая архитектура и незнакомые слова, такие как нейрочипы, мемристоры, так называемый новый вид памяти, первые образцы когнитивного компьютера, но фактически все это плавно трансформировалось в некую облачную структуру наподобие Amazon и Azure. После появилось решение под названием Watson. И сейчас это не что иное, как облачное решение экспертной системы, которая работает в различных предметных областях, таких как медицина, математика, банковский сектор.

В 2017 году произошли такие интересные вещи, что компьютер впервые победил в игре GO. Эта игра по переборной задаче на несколько порядков больше шахмат. Потом произошло то, что Watson получил три диплома: в области ИТ, юриспруденции и медицины. При этом никто не знал, что тесты сдает компьютер. Так или иначе тема Watson всплывает и постоянно об этом говорят в различных представлениях.

Изменения в информационной безопасности, или что произошло на самом деле

С точки зрения информационной безопасности произошли существенные изменения. Это было очень неожиданно для всех журналистов, когда, выступая на саммите в США, Евгений Касперский в 2016 году объявил о том, что количество атак его суперсовременными антивирусными средствами, а также других ключевых производителей, составляет примерно 45–50%. Это был неожиданный вброс, когда все начали думать и говорить: «А как же остальные?». И тут с удивлением для себя выяснили, что остальные 55% — не то, что против них есть меры, а их даже не могут обнаружить. Конечно, это чревато инцидентами, и статистика не заставила себя долго ждать.

Статистика говорит о том, что ущерб составляет от 2 до 4 трлн рублей ежегодно для России и примерно от $8 до $12 трлн для всего мира в целом. Это колоссальные средства. Если вы сравните их с бюджетом, в том числе России, то вы поймете, что это существенный ущерб, с которым нужно бороться. Чтобы бороться, нужны новые технологии, и одна из них, которую представили безопасникам, — использование технологии ИИ. В 2017-2018 годах, если вы обратили внимание, появился целый ряд подобных решений, например, у «Касперского». Появились классификация и типизация кибератак. На сегодняшний день их насчитывается 2 500 типов, и в каждом таком типе от сотни и более разновидностей. Существует каталог Сноудена — 85 тыс. вредоносных захватов. Достаточно большой и интересный арсенал у злоумышленников может быть. В результате задачей стало каким-то образом создать системы и первое, к чему пришли, что неплохо использовать из арсенала ИИ нейронные сети, в основе которых лежит глубокое обучение.

Фото: IT Nights

Существует много разновидностей, но, как правило, используются два основных алгоритма — алгоритм отрицательной селекции и метод бустинга. Так называемый метод быстрого спуска. Стоит классическая задача распознавания образов и определения сигнатуры, паттернов ранее неизвестного вредоносного ПО, после этого сделать отлучение системы безопасности. В дальнейшем система безопасности должна справляться с этим неизвестным видом, а в случае возникновения новых неизвестных видов должна адаптироваться и уметь бороться с этим новым типом.

Кто-то может вспомнить Ника Бострома с его стратегическим вопросом: не приближается ли к нам «Скайнет» из терминатора? Нет ли у нас уже враждебных прообразов и поглотит ли ИИ все технологическое развитие? Конечно, при этом за бортом остаются наиболее интересные части, связанные с ИИ. Например, если вы посмотрите прямо сейчас и наберете в интернете «Николенко, методы машинного обучения», то сразу увидите прекрасную фишку 2017 года, в которой описаны ни много ни мало примерно 800 методов машинного обучения и примерно 200–300 моделей методов, посвященных нейросетям. И если начнете копать дальше, то выйдете на так называемые искусственные иммунные системы, а это направление сейчас, на мой взгляд, развивается еще лучше, чем нейронные сети, но оно менее оглашается. Дальше найдете информацию о создании нейросетей, моделирующих деятельность человеческого мозга, и их использование в так называемых различных системах безопасности прогнозного типа или, как говорят, предвидение, предубеждение, то есть не работа по последствиям, как работает сейчас большинство систем безопасности, а на упреждение как известных, так и неизвестных вредоносных видов.

Еще с чем вы столкнетесь — это тема, которую ученые называют методом комплексирования. Когда речь идет о том, что выстраивается классификация, и строится суперпозиция или композиция этих классификаторов. В качестве классификаторов могут быть и нейронные сети, и иммунные системы, и когноморфные компьютеры. Весь арсенал и багаж современного ИИ.

Сейчас, как ни странно, большинство открытий и нобелевских наград получают в какой области — Computer Science или в каких-то других областях? Последняя Нобелевская премия 2019 года была вручена трем ученым из разных континентов: японец, американец и европеец. Последние лет пять премии дают иммунологам, тем, кто занимается иммунологией, борется с инфекциями, против которых нет «противоядия» на сегодняшний день. Это все сложные типы рака, в том числе безнадежные, ВИЧ, гепатиты и так далее. В иммунологии вредоносные воздействия — то, что мы называем атаками — называются патоген или антиген. И для того, чтобы с ними бороться, иммунная система живого организма включает два механизма, которые до сих пор не исследованы до конца — механизм врожденного иммунитета и приобретаемого.

Изучение того, как работает человеческий иммунитет, важно для развития типических систем, в том числе систем в области кибербезопасности. Врожденный иммунитет — это защита, с которой живой организм рождается. Вы родились, и у вас уже есть определенная информация: генетическая и логическая, которая позволяет справляться с различными видами инфекции. Примерно в начале 2000-х годов специалисты из Computer Science и компьютерной безопасности подумали: «А неплохо было бы создать искусственную иммунную систему, которая будет каким-то образом копировать врожденный и приобретенный иммунитет и бороться против неизвестных видов различных вредоносных кибератак». У них это получилось, появились первые проекты c 2005 по 2012 годы. Вышло несколько интересных книг. Например, если говорить о российских, их не так много, но в Университете Иннополис в 2018 году появилась книга, которую мы с гордостью назвали «Искусственные иммунные системы 2.0». Мы показали, как освоили эту тему, и предложили новые интересные решения.

Была попытка создания принципиально новых систем, которые позволяют бороться. В Швеции развивалась теория опасности. Это классификация «свой-чужой» для определения нормального и аномального состояния вычислительной сети. Американцы и австралийцы независимо друг от друга открыли несколько принципиально новых алгоритмов, смешали их с алгоритмами нейронных сетей и получили так называемый гибридный классификатор. И в конечном счете сейчас эта тема по праву входит в такой ствол развития ИИ и Computer Science в России.

В начале 2019 года произошла перезагрузка в области нейронных сетей. Что такое нейрокомпьютер и нейрочип, вы представляете. В свое время мы глубоко копнули эту тему, и нам понадобилось создать супер-ЭВМ, который мог бы работать и решать задачи. Вычисления заменялись на обучение. Естественно, перебирали множество решений. Сейчас, например, в Университете Иннополис есть свой нейровычислитель. С удивлением мы увидели, что неплохие результаты получили сибиряки в свое время. Новосибирск и Красноярск лидировали. Обычно термин «программируемые сети» называют неким ноухау ведущих игроков — Cisco, Huawei и так далее. Нет, на самом деле этот термин был введен в 1986 году, и он был придуман российскими специалистами. При том, что придумали его в кластере новосибирского академгородка. Отсюда растут ноги создания программируемых сетей и адаптивных систем кибербезопасности. Далее мы увидели, что есть интересные результаты в классической школе академика Каляева, он создает уникальную архитектуру супер-ЭВМ, которая по своим масштабам и потребляемой мощности выигрывает значительно у основных классических поставщиков. Например, таких как T-Systems. Они собирают на лучших модификациях и линейках Intel. Каляев получил интересные результаты, построив супер-ЭВМ по производительности такой же, как «Ломоносов-1» и «Ломоносов-2», вместе взятых в МГУ. Но если в МГУ этот комплекс занимает примерно четыре футбольных поля, то супер-ЭВМ Каляева — это полторы-две комнаты, в которой мы сейчас находимся. Он уплотнил и получил достаточно интересную архитектуру для решения задач. Кто-то из вас скажет: «А зачем нам такие решения?». И ответ простой: вы можете пользоваться уже готовыми решениями и использовать различные облака Azure от Microsoft, IBM и тому подобное, а можете разворачивать свое собственное гибридное облако, то так или иначе этот вопрос у вас возникнет, и вы будете им заниматься.

Фото: IT Nights

Сначала HP, потом IBM показали на широкую публику первый нейрокомпьютер, или, как они его назвали, когноморфный. Разница в том, что «нейро» — это имитация нервной системы, а «когно» — имитация деятельности человеческого мозга.

Все стремятся к тому, чтобы получить некий универсальный классификатор, который в ходе обучения наиболее максимально настраивался на классификацию распознавания «свой-чужой». Например, банковская область активно использует этот механизм для выявления различных схем мошенничества, пытаясь классифицировать аномальную ситуацию и штатную ситуацию. Запускает механизм, анализируя, каким образом происходят процессы. В банке делают срезы нормального и аномального поведения и всегда получают возможность в случае возникновения необычной ситуации распознать и понять, что там происходит. Если нужно бить тревогу, то включить ее. Не разбираясь глубоко в этих вопросах, они используют эти библиотеки и могут настроить классификаторы. И хорошо, потому что это значит, что технологии шагнули в массы, и пусть это будут несовершенные проекты, но это все равно проекты и развитие, которое идет.

Новый процесс и попытки определить новые принципы архитектуры

Классическая архитектура с 1945 года пять раз изменялась от супер-ЭВМ первого поколения до пятого. В 2016 году сказали, что нужна новая архитектура. И что-то новое — это как раз создание нейромодулей, нейрочипов, нейрокомпьютеров и так далее. Что с архитектурой фон Неймана не так и почему она на данный момент не устраивает? Выдающиеся достижения сейчас делаются в физике, в создании новых наноматериалов для создания электроники, потому что традиционное проектирование на больших схемах, помимо ограничений в плотности, имеют ограничения в эффекте, то есть потребляемой мощности и ожидаемого результата. Закон Мура, согласно которому идет увеличение в два раза, на самом деле, начиная с 2012 года, перестал работать. Мы потихоньку подошли к барьеру, после которого технологию можно использовать, но она будет нас тормозить в плане технологического прогресса. Но не это главное. Если вы вспомните архитектуру фон Неймана и ознакомитесь с современными библиотеками программирования, то увидите,что дальше вам не шагнуть. Например, если вы создаете различные перехватчики, то задача преодолеть порог в 1 Гбит/с мало решений имеет на сегодняшний день. А при этом скорость корпоративного ядра у любого оператора связи составляет 400 Гбит/с. Эти ограничения связаны с тем, что классическая архитектура фон Неймана, где есть вычислительный процессор, вход/выход, и, самое главное, — шина, она одна, и даже если ее увеличить, поднимая плотность, то все равно у нас есть один вход и один выход. На смену идут новые парадигмы не фон Неймана, где рассматриваются уже поточные параллельные вычисления, и где получаются матричные преобразования информации. В конечном счете эти новые элементы трансформируются в создание новых архитектур.

В Университете Иннополис есть специальная лаборатория суперпроизводительных вычислений, где мы рассматриваем задачи с точки зрения математики и программирования и с точки зрения создания новых вычислительных структур. Ну и здесь первое, что было сделано, — подписано соглашение в рамках программы «Цифровая экономика», где мы занимаемся в том числе разработкой новых архитектур на основе ИИ. Интересен такой момент, что если вы наберете в любом поисковике «приоритетные направления развития ИИ», то попадете на ссылки сообществ передовых университетов и там указано 12 основных направлений. Если вы внимательно начнете их анализировать, то, к сожалению, увидите, что вроде бы поднимаются вопросы на тему ИИ, но почему-то из 12 направлений всего шесть связаны с Big Data, то есть со сбором и обработкой сфер больших данных. И это не случайно, потому что на самом деле произошло следующее. Если раньше рассматривались какие-то одиночные источники информации, то благодаря развитию промышленности и интернету количество полевых сенсоров и устройств выросло в разы. Например, операторы связи любят говорить такие цифры, что у каждого оператора связи в его базе находятся примерно 50–60 млн пользователей. И тут же кто-то стоит из интернета в 2019 или в 2020 году и говорит, что количество таких сенсоров составляет не миллионы, а 65 млрд устройств. Причем эти устройства начинают обмениваться информацией, минуя человека. Эти системы взаимодействуют друг с другом. И не случайно эта особенность внедряется в развитие ИИ. Благодаря этому изменяется модель вычислений, полевых устройств становится больше, различных типов неструктурированной информации тоже, нужны механизмы для сбора и обработки большого сложного массива информации на новых моделях ИИ.

Я сделал свою собственную классификацию и выделил пять крупнейших стартапов, которые сейчас лидируют и пытаются занять нишу в области кибербезопасности. Мне удалось это сделать, и два очень интересных проекта мы сейчас реализуем. Первый проект реализуется на инфраструктуре Республики Татарстан. Проект называется «Создание систем раннего предупреждения ранее неизвестных атак на новых технологиях, в том числе технологиях ИИ и нейронных классификаторов». Он уже у нас реализуется, проект трехгодичный и на данный момент уже находится на второй стадии. Второй проект, который мы реализуем уже в практической плоскости, — это создание для индустрии 4.0. Для них мы создаем проект создания искусственной иммунной системы. Задача ее заключается в том, чтобы поднять процент с 45 до 98% устранения угроз. Мы не говорим о 100%, потому что, скорее всего, это невозможно, но подняться до 98% реально.

Мы также реализуем несколько любопытных проектов с Казанским медицинским университетом. Он недавно провел такую потрясающую и интересную конференцию. На ней неожиданно для меня задали вопрос: «У нас очень сильная кафедра психологии и психиатрии, мы моделируем деятельность человеческого мозга и хотели бы на выходе получить некое программно-аппаратное вычислительное решение, которое работает на основе подобия машинного мозга». Меня это так поразило, что, казалось бы, от техники они достаточно далеки, но задают такие интересные вопросы. Уже сейчас реализуются два уникальных проекта. Один проект реализуется как раз с кафедрой общей психологии и психотерапии. Не знаю, сталкивались вы с этим или нет, но обычно, если вы поступаете на госслужбу, вам предписано сдавать анализы и проходить психотерапевта, который определяет вашу общую готовность и дает разрешение к работе с государственной тайной. На текущий момент, как в 1920–1930 годы, это происходит так: вы заходите, там сидит радостный доктор и задает вам вопросы по типу «Как ваше самочувствие? Что вы сегодня делали?». Он аккуратно и осторожно пытается понять, уравновешенный ли вы человек психически или у вас есть какие-то проблемы, нервная дрожь, конечности трясутся и так далее. Но понятно, что это такой визуальный вербальный метод обследования. Он, мягко говоря, недостаточно параметрический, это не инженерный подход, поэтому они задали интересный вопрос: «Можем ли мы создать такую комнату, в которой будут бесконтактные датчики, следящие за пульсом, температурой, за движением и мимикой лица, эмоциями, за тем, как человек сидит и двигается?». Причем наблюдение будет происходить не с момента, как он зашел в комнату, а будет производиться, как только вошел в вестибюль медицинского учреждения. Интересная задача? Они выделили бюджет для этого, и сейчас в рамках этой концепции мы развиваем эту комнату. Она будет использоваться для операторов или, например, летчиков. Это необходимо для того, чтобы понимать, кому можно доверять свою жизнь. Эта комната так же важна для определения общего психологического выгорания. Если вы посмотрите, то очень много эпизодов нехороших, когда юрист компании, к примеру, пришел как обычно на работу, у него перед этим были проблемы, о которых никто не знал, проблемы семейного плана. В результате произошел у него сдвиг по фазе, и он пронес ружье, спустился вниз на склад и положил несколько человек. Вот эти все вещи можно спрогнозировать и с определенной вероятностью понизить. В плане технической безопасности — это так называемые системы метрополитена и системы диагностики, банковской безопасности и так далее.

Сейчас пытаются, добившись определенных успехов в разных науках, путем обобщения получить так называемый синергетический эффект. Путем комбинирования и гибридизации различных моделей и подходов создать принципиально новые решения. Это, естественно, проявляется и в области кибербезопасности, и в области ИИ. В частности, если говорить об ИИ, то сейчас каждая вторая статья посвящена гибридным или комплексным методам. Если вы откроете и посмотрите, это комбинация этих вот классификаторов.