Анима Анандкумар — профессор в Калифорнийском технологическом институте и директор по исследованиям в области машинного обучения в NVIDIA. Ранее была главным научным сотрудником Amazon Web Services. Получила несколько наград, среди которых — стипендия имени Альфреда П. Слоана, премия за карьеру NSF, награды молодых исследователей от Министерства обороны и стипендии преподавателей от Microsoft, Google и Adobe. Является членом экспертного совета Всемирного экономического форума. Увлечена разработкой алгоритмов ИИ и их применением в междисциплинарных приложениях. Ее исследования сосредоточены на неконтролируемом искусственном интеллекте, оптимизации и тензорных методах.

«Ситуация с коронавирусом показывает, что люди намного опережают ИИ»

Как началась революция искусственного интеллекта? Уже несколько десятилетий появляются интересные открытия в этой области. Для человека нет ничего обыденнее, чем распознавать изображения на экране. Но для ИИ это крайне тяжелая задача, потому что он не рождается с уже заданными способностями к этому. Перед учеными стояла задача «научить» машинный мозг идентифицировать увиденное. В самом начале исследований один из профессоров Стэнфорда начал подписывать изображения, чтобы компьютеру было легче их классифицировать. Именно маркированные картинки стали началом революции глубинного нейронного обучения.

Выход на новый уровень разработки ИИ начался с закладывания в программу миллиардов параметров, которые позволят ему узнать конкретный объект. Сложность задачи в том, чтобы глубинная нейросеть в условиях инвариантности распознала, например, собаку независимо от различия поз, окраски, породы и так далее. Обучение искусственного разума означает, что во время процессинга изображения в иерархическом порядке рассматривается целый ряд слоев кадра. Так, на базовом уровне видны лишь линии под разными углами друг к другу. Потом они соединяются и составляют более сложные формы, допустим, морду собаки в цвете. Различимы уже форма, цвет и другие отдельные характеристики. Именно этап, когда мы научились подразделять процесс на части, на уровни, стал огромным шагом вперед.

Для дальнейшего развития нужны не только глубинные нейронные сети, но и огромные вычислительные мощности. На протяжении последних десятилетий мы видели замедление роста возможностей наших компьютеров, когда больше не увеличивается в два раза скорость однопоточных вычислений. Но при этом сейчас мы можем параллельно производить расчет огромных по объему и сложности операций. Современный уровень развития глубинных сетей привел к тому, что сейчас в них могут происходить миллиарды процессов одновременно. И цель их лишь одна: определить, что же изображено на фотографии. Эта процедура осуществляется с помощью матриксных мультипликационных процессов и других технологий. И здесь, конечно, всё зависит от мощности видеокарт.

К 2014 году глубинные нейросети смогли лучше людей распознавать изображения, а значит, сегодня они стали еще более совершенными. Это произошло благодаря объединению трех факторов: возможностей маркированных данных, гибкости существующих алгоритмов глубинных нейросетей и огромных возможностей компьютеров. Есть много прекрасных примеров того, какие высоты уже брал машинный мозг, например, глубинное обучение с подкреплением помогло ИИ победить человека в игре го. Этот игрок был одним из лучших, но он проиграл. Кроме того, сейчас искусственный интеллект способен генерировать фотографии людей настолько реалистичные, что эта технология уже прошла тест Тьюринга. Человек уже не может понять, какое изображение реально, а какое было создано машиной. Это отличные примеры успехов ИИ, но, наверняка, на этом прогресс не остановится.

Однако есть целый ряд примеров, где ИИ не оправдал ожиданий. Допустим, ситуации, где ключевым аспектом является безопасность. Уже несколько десятилетий мы видим усиление технологий, которые используются в автономных автомобилях, но, к сожалению, их недостаточное совершенство всё равно приводит к авариям. Также машина не может заменить человека в том, что касается создания контента и его редактирования. И нынешняя ситуация с коронавирусом показывает, что люди намного опережают ИИ.

Чем мы будем заниматься в будущем, развивая искусственный интеллект и технологии глубинных нейросетей? На данный момент активно развивается робототехника: например, у одной компании есть робот, который умеет делать сальто назад. Но его нельзя даже сравнить с собакой. Этот робот неловкий, постоянно падает, но животное, падая, учится, как в следующий раз сделать то или иное движение, не упав. А робот на это не способен, он не обучен. Здесь возникает вопрос, возможно ли сделать ИИ, который будет готов самостоятельно обучаться и решать проблемы?

«Понимание алгоритмов находится за пределами наших возможностей»

Алгоритм искусственного интеллекта — это совокупность заранее заложенной информации и очень четкого задания. Мы определяем, какие данные и предварительно заданные параметры должны использоваться, а также как реализовать процесс принятия решений. Для создания и поддержания алгоритма ИИ нужны огромные объемы данных. Это сложно, потому что данных становится всё больше и больше, например, при распознавании видеопотока количество распознаваемых кадров очень велико. Проблематично проводить маркирование, потому что люди присваивают названия миллионам видеороликов, а значит, и объектам на экране.

Что касается заранее закладываемых параметров, то опять приходится сталкиваться с тем, что всё делается вручную. Сейчас легко обмануть ИИ. Например, если у нас есть знак «Стоп» и мы поместим на него несколько блоков, то искусственный интеллект уже не поймет его значения. И автомобиль, двигающийся без помощи водителя, уже не распознает этот знак как призыв остановиться. Наш, человеческий интеллект совершенно другой. Может быть, мы сможем перенести образ нашего мышления в компьютер, но пока мы этого не смогли сделать. Что касается указаний, приказов и инструкций, то приходится действовать очень просто: мы даём одну задачу — распознать, что изображено на этой картинке. А что касается параметров оценки успеха либо неэффективности работы алгоритма, то здесь мы очень ограничены.

Мы иногда не можем понять, насколько успешен действующий алгоритм, потому что это находится за пределами нашего понимания. Кроме того, есть несколько проблем, связанных с тем, что данные, которые у нас есть, в основном касаются мужчин со светлой кожей. По этой причине ИИ неправильно определяет темнокожих женщин. Имеются и другие ошибки в распознавании лиц. Проблема возникает из-за того, что оценка эффективности искусственного интеллекта крайне ограничена. Не нужно забывать о парадигме, которая гласит, что нам нужны огромные объемы данных, и все они должны быть маркированы. Заранее заложенные параметры должны быть понятны алгоритму, а само задание должно быть простым и логичным.

Вначале нужно добиться отсутствия необходимости маркировать данные. ИИ должен работать без помощи человека, чтобы компьютер сам находил концепты, формировал идеи, понимал особенности того или иного изображения. Сложно ли это? Да, очень, но ведь люди это делают, причем с легкостью. Что касается заранее закладываемых данных, здесь нужно создавать очень четкие образы, показывать, что есть что из тех данных, которые мы «скармливаем» системе. И здесь можно многому научиться у мозга человека. Ну и, наконец, задания, которые мы даём алгоритму. ИИ должен быть более адаптивным, потому что сейчас мы каждый раз с нуля обучаем нашу систему, а нужно сделать так, чтобы она могла адаптироваться и меняться, выполнять разные задания. Так что сейчас мы тренируемся, чтобы сделать искусственный интеллект гибким.

Как понять, что перед нами кошка?

Мы узнаем кошку, даже если это размытая картинка, потому что наш мозг постоянно пытается размытому изображению придать определенную резкость для дальнейшего анализа. Есть много теорий, и одна из известнейших говорит, что мы не только смотрим на какой-то объект, но и одновременно мозг подбирает варианты того, чем он может быть. Этим же занимаются и глубинные нейронные сети. У нас есть априорные данные о том, как должна выглядеть кошка. И мы пытаемся сопоставлять эту картинку с представлением о том, как выглядят коты. Это важно понимать при разработке, чтобы было постоянство идентификации изображений.

Как нам прийти к стабильности в идентификации объектов искусственными сетями? Естественным образом это происходит из-за повторяемости. Мы берем какую-то внешнюю картинку и смотрим на нее, а сигнал поступает в мозг. Есть также и нисходящая обратная связь. Используя информацию о том, как выглядит кошка, мозг формирует определенное восприятие. Как сделать так, чтобы эти сложнейшие процессы нашего мозга реализовывались ИИ? Необходимо совместить хороший классификатор для понятия «кошка», который будут «скармливать» нейронной сети, с отличным генератором этих изображений. Одновременно будет происходить классификация понятия и обучение нейронной сети. Будет получена обратная связь для стандартных нейронных сетей. И эта связь даст возможность получать генеративную обратную связь. Другими словами, при попытке обработать входящий сигнал человек пытается маркировать изображение. И тогда возникает обратная связь, когда мы пытаемся сгенерировать восприятие на основе того, что видим. Эти два процесса должны быть взаимосвязаны.

Стандартная нейросеть, как правило, не может распознать нечеткие картинки, но наша модель благодаря механизму обратной связи делает образы более четкими и затем сможет их распознать. Мы видим, что такая схема доказала свою действенность, поэтому можем вдохновляться тем, как видит человек, при создании компьютерного зрения. На основе уже разработанных моделей можно создавать более совершенные алгоритмы, которые будут отличаться высокой производительностью. Но также нужна эффективная инфраструктура, которая будет обрабатывать процессы ИИ в большом масштабе. Мы работаем с алгоритмами не по отдельности. Вы берете какие-то данные и их нужно визуализировать, что является очень сложным процессом. Поэтому нужен мощный процессор, способный обрабатывать внушительные объемы информации. Кроме того, мы используем определенные фреймворки (CLARA) для разных приложений, в том числе и для медицины. Сейчас с учетом пандемии COVID-19 появилась потребность в том, чтобы тренировать модели машинного обучения в больших масштабах. Целью этого является разработка вакцин и лекарств от вируса. Инструмент CLARA может работать с объемными структурами и различными алгоритмами, являясь по сути координатором их работы.

Еще одна возможность обучения ИИ заключается в использовании не реальных, а стимулированных данных. У нас есть ряд роботов, которые могут стать шеф-поварами на наших кухнях. Такие машины способны открыть и закрыть ящик, взять какой-то предмет, что-то смешать или взбить. Эти простые для человека операции очень сложны для роботов, так как обучить их этому проблематично. Но с помощью процессов моделирования мы сможем открывать несуществующие, запрограммированные ящики. И таким образом робот учится подобным операциям. Программы позволяют делать это параллельно и в больших масштабах, что позволяет преодолеть ограничения, которые накладывают на нас данные. Но такая система обучения означает, что нужно разработать очень сложные алгоритмы, которые переведут машину из мира симуляции в реальный мир, открывая совершенно новые, захватывающие перспективы работы с ИИ. Есть программа, которая позволяет добавлять симуляцию к тем моделям, когда искусственный интеллект обучается на реальных данных. Это еще один пример того, что у нас есть хорошая инфраструктура и мы можем работать с очень сложными проблемами. Появилась возможность создавать новые алгоритмы и модели, а также тестировать их гораздо быстрее, чем это делалось ранее.

Будущее ИИ должно быть всеобъемлющим и находить свое воплощение в разных сферах, чтобы у нас был высокоадаптивный, постоянно обучающийся инструмент. Для этого сейчас нужно переосмыслить подходы к глубокому обучению. Самостоятельное обучение является ключом к успеху, поэтому нужно находить способы встраивать программы неконтролируемого обучения в системы. И если говорить о сверточных нейросетях, система обратной связи делает их более устойчивым. А это первый шаг к тому, чтобы создать реальную базу для ИИ нового поколения.

Метеорный поток Персеиды — 2020: где его увидеть, куда смотреть и как сделать фото

Посмотрите на 3D-карту Вселенной: ее составляли 20 лет и она уже удивила ученых

Анима Анандкумар, NVIDIA — о технологиях обучения ИИ, его адаптивности и проблемах

«Ситуация с коронавирусом показывает, что люди намного опережают ИИ»

«Понимание алгоритмов находится за пределами наших возможностей»

Как понять, что перед нами кошка?