Сообщить об ошибке на сайте
URL
Ошибка
Тренды

Борьба с навязчивой рекламой в интернете приобрела характер гонки вооружений. Рекламщики и порталы, пренебрегающие стандартами размещения коммерческих материалов, разрабатывают скрипты и технологичные способы обхода блокировок. В свою очередь, борцы с рекламой подключают искусственный интеллект и машинное обучение к алгоритмам, закрывающим показ рекламы в процессе загрузки страницы. Олександр Параска, разработчик Eyeo и Adblock Plus, рассказал о передовых методах борьбы с рекламой, использовании ИИ и будущем этого противостояния.

Человек, как правило, за доли секунды может отличить рекламный контент от нерекламного. Ведь он должен помечаться специальными лейблами «Реклама» или «Спонсорский/партнерский материал». Все, что человек может сделать менее чем за секунду, в теории способен освоить и искусственный интеллект.

На сегодняшний день применять его для блокировки рекламы можно в двух направлениях. Во-первых, для аналитики. Анализ данных — это то, с чем ИИ уже отлично справляется. Именно грамотная аналитика помогает лучше блокировать навязчивый контент. Во-вторых, с помощью ИИ процесс блокировки можно полностью автоматизировать — чтобы реклама блокировалась прямо в браузере без применения каких-либо фильтров.

Первое — уже реальность, второе — наше будущее, причем ближайшее.

Заблокировать рекламу — половина дела

Сегодня компьютерное зрение — одна из самых хорошо исследованных областей ИИ. И эта задача уже считается отчасти решенной: отличать картинки кошек от собак ИИ умеет. В этой области существует много готовых алгоритмов, применяемых для решения смежных задач. В том числе и для блокировки рекламы.

В начале лета вышла бета-версия Sentinel — первого алгоритма по блокировке рекламы на основе нейросетей. Он использует механизмы компьютерного зрения и работает с изображениями: способен вычислить рекламный контент по скриншоту страницы, а не по ее коду.

Пока Sentinel — это главным образом проект по сбору данных и формированию базы рекламы. Через бот в Facebook пользователи могут присылать скриншоты страниц с навязчивой рекламой в соцсети. На их основе алгоритм тренируется различать рекламный и нерекламный контент. Получается вполне успешно. Эта технология будет использоваться для внутренних процессов. Например, для ежедневного мониторинга сайтов на предмет того, имеет ли там контент соответствующую маркировку «На правах рекламы».

Сегодня фильтры рекламы работают по такому принципу: часть элементов, которые распознаются как нежелательные, блокируются еще на этапе загрузки страницы; другие, уже загруженные, просто прячутся от пользователя. Сделать алгоритм, который заблокирует рекламу, несложно, но это решит только половину проблемы. Многие элементы просто невозможно заблокировать на уровне сети, их нужно скрывать от пользователя, а научить ИИ этому — намного сложнее.

Обучение ИИ

С 2019 года технологию задействуют и для других процессов, в том числе для непосредственной блокировки рекламы. Планируется, что в перспективе ИИ будет анализировать скриншоты с навязчивым контентом не только на Facebook, но и за пределами соцсети. На них алгоритм сможет продолжить свои тренировки. Разумеется, перед этим у пользователей спросят, готовы ли они делиться данными для обучения ИИ.

Класс сверточных нейросетей (ConvNet) применяется главным образом для анализа изображений, но подходит для решения многих задач. Такие модели хорошо распознают определенные паттерны в изображениях. То есть, например, для блокировки рекламы можно научить ее распознавать на странице лейблы со словом «Реклама» еще на этапе загрузки страницы.

Дополнительная верификация с помощью подобного алгоритма поможет в борьбе с технологиями, которые сегодня применяются для обхода стандартных фильтров блокировки навязчивой рекламы. В дальнейшем для развития этой технологии и полной автоматизации блокировки можно задействовать не только компьютерное зрение.

Распознать путь каждого элемента

Прежде чем появиться на интернет-странице, каждый ее элемент преодолевает сложный путь: начиная от сетевого запроса и заканчивая скриптом, который добавляет элемент на страницу. Описание этого пути называется графом — именно он отображает, как элемент появился на странице. С помощью анализа такой поведенческой информации можно понять, являются элементы графа рекламой или нет.

Однако проблема заключается в том, что графы достаточно сложно вычленить из браузера. Можно узнать, какие запросы браузер делает в сеть и какие элементы появляются на странице, но соединить эти данные воедино и составить на их основе граф очень сложно.

Если в перспективе удастся разработать механизм вычленения графов, этот метод можно применить для автоматической блокировки навязчивой рекламы.


Graph-based models — графовая вероятностная модель — вероятностная модель, в которой зависимости между случайными величинами представлены в виде графа. Вершины графа соответствуют случайным переменным, а ребра — непосредственным вероятностным взаимосвязям между случайными величинами.

Графовые модели используются в задачах извлечения информации, распознавания речи, компьютерного зрения, декодирования и диагностике болезней.


Игра для алгоритмов

В методе обучения с подкреплением (Reinforcement Learning — «Хайтек») задача блокировки рекламы предстает в виде игры. Агенту — искусственному интеллекту — необходимо заблокировать рекламу и не заблокировать ничего больше. Если он сумел это сделать, то выигрывает, если нет — пробует еще раз.

Основная сложность заключается в том, чтобы понять, где реклама, а где — нет. Алгоритму нужно обучаться на каких-то примерах. Для этого используются уже имеющиеся фильтры, написанные людьми. Если результаты агента совпадают с результатами этих фильтров, то ИИ выиграл — справился с задачей. Чтобы научиться, алгоритму нужна очень большая база таких примеров, и эти данные можно генерировать из браузера практически бесконечно. Однако другая проблема состоит в том, что уже после загрузки страницы на ней зачастую работают скрипты и происходят какие-то изменения. То есть необходимо, чтобы ИИ каждый раз принимал решение о блокировке, когда что-то меняется на странице. Добиться этого уже сложнее.

Индивидуальный подход без личных данных

Именно метод федеративного обучения применяют для индивидуального обучения клавиатуры подсказкам. Вы печатаете часть слова и алгоритм уже подсказывает вам несколько вариантов его окончания, причем основываясь на вашем опыте. Чем больше вы пользуетесь этой функцией, тем лучше она знает ваши запросы и дает более точные подсказки.

Если у вас есть какие-то индивидуальные рекламные фильтры, которые используете только вы, то ИИ обучается индивидуально под ваши потребности. Важно, что приватные данные пользователей никак не задействованы в процессе. Алгоритм получает лишь набор чисел, который не раскрывает информацию, на каких сайтах сидят люди, однако вычисляет, как можно наиболее эффективно блокировать рекламу.

Федеративное обучение уже вовсю применяется в digital-клавиатурах, но настроить его для работы блокировщиков рекламы и проверить, насколько эффективно он может работать с этой задачей, еще предстоит.


Federated learning — федеративное обучение — инновационный подход к машинному обучению, предложенный учеными из Google Research. Позволяет всем устройствам, участвующим в машинном обучении, делить на всех единую модель для прогнозирования, но при этом не делиться первичными данными для обучения модели.


Перевести на другой язык

Блокировка рекламы отчасти напоминает задачу перевода с одного человеческого языка на другой, например, с русского на немецкий. Только в случае с рекламой, чтобы распознать и спрятать нежелательные элементы на странице, нужно перевести HTML-код страницы в CSS.

Такой метод машинного перевода (Machine Translation, или Sequence-to-Sequence learning — последовательное обучение — «Хайтек») пока еще не испробован. Однако в теории позволяет блокировать рекламу быстрее всего. Ведь на странице каждую секунду появляется несколько сотен новых элементов. И если решать задачу блокировки другими способами, когда что-то новое появляется на странице, нужно каждый раз запускать модель, чтобы решить, блокировать этот элемент или нет. Это требует больших вычислительных ресурсов и может негативно влиять на скорость загрузки страницы. Перевод же из HTML в CSS позволяет этого избежать.

Гонка вооружений

Сегодня рынок интернет-рекламы отчасти напоминает поле боя: рекламщики борются с блокировщиками. Порталы, которые не хотят соблюдать разработанные сообществом стандарты рекламы, внедряют скрипты для обхода блокировки. Блокировщики же постепенно совершенствуют свои фильтры, закрывая эти «лазейки». Впрочем, этот процесс будто бы не имеет конечной точки.

Внедрение ИИ для блокировщиков рекламы — эффективный способ борьбы с обходом блокировки. Вместо того, чтобы раз за разом писать новые фильтры, процесс можно будет автоматизировать, запустив самообучающийся алгоритм. Его внедрение, конечно, существенно упростит жизнь, однако вряд ли поставит точку в этой борьбе рекламщиков и блокировщиков. Скорее, выведет ее на новый уровень. Война скриптов попросту перейдет в войну с использованием ИИ. То есть фактически — в войну ресурсов, ведь для успешного функционирования алгоритмов ИИ нужны главным образом огромные вычислительные мощности, а значит, и немалые вложения.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Big data на страже здоровья: как и зачем медицинские организации собирают и хранят данные
Тренды
Николь Миллс, Booking.com — об инновациях, agile-подходе и индустрии впечатлений
Кейсы
Слишком опасный нанопластик: как одноразовые пакеты превращаются в частицы-убийцы
Тренды
Здесь может быть ваша реклама: НАСА планирует заработать на космосе миллионы
Тренды
Идеи
Человек и квантовая теория: существует ли то, что мы не наблюдаем
Опасный криптотрейдинг: как киберпреступники угрожают виртуальным сбережениям и биржам
Тренды
Как через 20 лет будет выглядеть армия будущего
Тренды
5 финансовых инструментов, которые помогут инвесторам даже после падения криптовалюты
Тренды
Александр Лямин, Qrator Labs: наша задача — выработать у людей цифровую гигиену, чтобы они «не ели с помойки»
Кейсы
Эдуард Фош Вильяронга: люди видят в роботе только внешность, забывая, что он следит за ними
Тренды
Доктор Куэй Во-Райнард, HIT Foundation: если страна требует суверенитета данных, мы построим для нее отдельный блокчейн
Кейсы
Идеи
«Хакинтош»: как собрать свой собственный Mac лучше, чем у Apple
Роботы против мигрантов: какой вклад в ксенофобию и расизм делают технологии ИИ
Тренды
Как заново изобрести супермаркет: осознанность потребления, этика производства и роботы
Тренды
Каждый человек станет сам себе банком: цифровой мир отказывается от посредников между бизнесом и клиентом
Тренды
Архитектор вычислительной инфраструктуры «Платона» Александр Варламов — о будущем ИТ-индустрии в России, стартапах и разработке
Кейсы
Дмитрий Богданов, капитан сборной России по CS:GO — о стиле жизни киберспортсмена, тренировках и блокировках РКН
Тренды
Прайсинг, трекинг, скоринг, биллинг и другие технологии, которые двигают российский бизнес
Тренды
Идеи
Космос — наш дом: что осталось решить ученым, чтобы поселить человека за пределами Земли
«Педиатр 24/7»: как телемед-стартап подарил родителям спокойствие, а врачам — работу
Кейсы
Вас снова обманули: как человечество учит компьютеры определять фейки в интернете
Тренды
БиСи Бирман, Heavy Projects: ИИ должен иметь несовершенства — это элемент случая
Мнения
Артем Геллер, lab.ag: делая сервис для государства, ты помогаешь своей бабушке
Мнения
Акселераторы и инкубаторы: что выбрать стартапу на раннем этапе развития
Мнения
Вопрос доверия: как и почему изменилось отношение к телемедицине в России
Тренды
Правительственные криптопесочницы: как освободить финтех от давления закона и защитить потребителей
Тренды
Кейсы
Роман Нестер, Segmento: я верю корпорациям больше, чем маленьким компаниям
Суперагенты в недвижимости: как блокчейн и большие данные заменяют риелторов
Тренды
СМИ будущего: вертикальные видео, новости по запросу и смерть сайтов
Тренды
Тренды
Колонизация отменяется: почему терраформирование невозможно на Марсе
Сет Стивенс-Давидовиц: у людей гораздо больше непристойных и скверных мыслей, чем мы думали
Мнения
Умные города подвергают своих жителей опасности из-за датчиков освещения и радиации
Тренды
Геронтолог Обри ди Грей: жизнь длиной в тысячу лет — это побочный эффект поиска вечного здоровья
Мнения
Биоценоз в фарме: зачем нужна альтернатива антибиотикам и как работают лекарства нового поколения
Тренды
Чарльз Адлер, co-founder Kickstarter: я — панк-рокер, который раздвигает границы
Кейсы
Как ИИ меняет медицину: личный помощник для врачей, маршрутизатор в клиниках и разработчик лекарств
Кейсы
Эдвин Диндер, Huawei Technologies: умный город — это ничто
Мнения
«Если изобретение с ИИ не приносит пользу, сам продукт никому не нужен»
Мнения
Feature engineering: шесть шагов для создания успешной модели машинного обучения
Тренды
Мнения
Человек — это набор из пяти чисел: Игорь Волжанин, DataSine — о психотипировании с помощью big data
Карло Ратти, Senseable City Laboratory (MIT) — о городах будущего, третьей коже человека и роболодках
Тренды
Мы все — сенсоры: CEO SQream Ами Галь — о том, как обрабатывают big data
Кейсы
Что такое скрапинг: как Amazon, Walmart и другие ритейлеры используют ботов в борьбе с конкурентами
Идеи
Почему китайские подлодки-беспилотники станут самым опасным врагом под водой?
Идеи
Филипп Роуд, LSE Cities: самый кошмарный сценарий — беспилотники, ездящие по городу, чтобы не платить за парковку
Мнения
Юрий Корженевский — о том, как построить безопасные системы для банков на блокчейне
Блокчейн
Иннополис
Russian Robot Olympiad: как дети строят роботов и решают реальные инженерные проблемы
MyGenetics: ДНК-тесты, помогающие «взломать» организм, как компьютер
Тренды
Trade-to-Mine: как биржи привлекают трейдеров в условиях падения рынка
Блокчейн