Мнения 16 февраля 2016

Skynet ищет врагов США и находит

Далее

Алгоритм машинного обучения, лежащий в основе американской программы спутникового слежения Skynet, был создан, чтобы вычислять террористов и ликвидировать угрозу с помощью дронов или отрядов специального назначения. Обкатка программы уже несколько лет идет на жителях Пакистана. Согласно новым исследованиям опубликованных Эдвардом Сноуденом документов, этот алгоритм мог стать причиной гибели множества ни в чем не виновных пакистанцев.

Skynet работает как обычное бизнес-приложение по обработке больших данных — собирает метаданные и хранит их на облачном сервере, выделяет релевантную информацию и использует машинное обучение, чтобы находить целевые группы. За одним исключением: вместо того, чтобы продать целевой группе какой-то товар или услугу, программа дает наводку силовым структурам — ЦРУ или Пентагону. А те приводят в исполнение стратегию «Find-Fix-Finish» (найти, установить контакт, уничтожить) с помощью дронов Predator и мобильных отрядов смерти.

В дополнении к данным сотовой связи (время, продолжительность, адресат звонка и т. п.), Skynet собирает сведения о местоположении пользователя, что позволяет составить подробный план перемещений человека.

Выключение мобильника считается попыткой уйти от наблюдения.

Те, кто меняет SIM-карты, наивно полагая, что это помешает их найти, тоже отмечаются (благодаря кодам ESN/MEID/IMEI, вшитым в сам аппарат).

Даже смена мобильного телефона попадает в фокус внимания. Можно предположить, что подозрение вызывает наличие других метаданных при отсутствии звонков, например, местонахождение и активность в социальных сетях.

В результате в базе накапливаются самые разнообразные данные, и Skynet постепенно объединяет в группы тех, кто так или иначе знаком, проводит друг с другом время, вместе путешествует, посещает другие страны. Всего алгоритм использует более 80 различных критериев оценки потенциальной причастности конкретного человека к террористическим группировкам.

В Пакистане проживает 192 млн. человек, из них — 120 млн пользуются мобильными телефонами. Считается, что АНБ анализирует данные с 55 млн. телефонов только в этой стране.

Вся эта программа основана на предположении, что поведение террориста существенно отличается от поведения законопослушного гражданина.

Однако, разоблачительный материал новостного агентства The Intercept показал, что крайне подозрительным и потенциально опасным, согласно критериям Skynet, является Ахмад Зайдан, руководитель отделения телекомпании Аль-Джазира в Стамбуле, который по долгу службы часто ездит по региону и общается с мятежниками.

Обучение машины требует большого количества примеров. Так, если речь идет о спам-фильтре, мы должны отметить письма, которые точно не спам, и те, которые точно спам. К сожалению, эта же тактика не работает в случае с террористами, потому что известных террористов слишком мало, а настоящие едва ли захотят отвечать на вопросы анкетирования.

Алгоритм классификации Skynet анализирует метаданные и выдает каждому субъекту балл — чем он выше, тем больше вероятность террористической деятельности. Для этого используется известный алгоритм Random Forest. Затем Skynet устанавливает пороговое значение, выше которого субъект считается «террористом».

Однако, и выше этого порога могут быть «ложно положительные» террористы.

«Они делают так по потому, — объясняет аналитик и исполнительный директор Human Rights Data Analysis Group Патрик Болл, — что чем меньше у них будет „ложно отрицательных“, тем с неизбежностью будет больше „ложно положительных“. Это соотношение не симметрично: есть так много „истинно отрицательных“, что понижение порога для сокращения числа „ложно отрицательных“ на 1 означает увеличение количества „ложно положительных“ на несколько тысяч человек».

По словам представителя АНБ, «статистические алгоритмы были бы способны найти агентов террористических ячеек при очень низком уровне ложной тревоги, если бы нам было позволено упускать половину из них».

Проблема, по словам Болла, в том, что АНБ обучает алгоритмы Skynet на основании 100 000 случайно выбранных людей и известной группы из семи террористов. Шесть из них объективно идентифицированы разведкой как террористы. Машина должна изучить этих шестерых и самостоятельно на основе гигантского массива данных найти седьмого.

Выбрав всего 100 тысяч случайных человек, невозможно добиться правильных результатов, считает Болл, потому что их меньше, чем 0,1 % от всего населения страны. Плотность социального графа значительно сокращена, тогда как кластер «террористов» остался тесно связанным. Чтобы алгоритм был научно верным, АНБ должно было перемешать террористов с населением до случайной выборки — но это непрактично ввиду их малого числа.

Проблема кажется чисто математической, но Болл утверждает, что она портит качество результатов и снижает точность идентификации человека как террориста.

Оптимисты из АНБ уверяют, что число «ложных положительных» результатов идентификации непричастных людей как террористов не превышает 0,008 процента. Много это или мало в применении к тем, кого Skynet считает потенциальными террористами, знает только АНБ. Правозащитники считают, что речь идет об ошибке, которая в масштабах только одного Пакистана может стоить жизни десяткам и даже сотням непричастных к террористической деятельности.