ИИ помогает агентству Reuters собирать новости

Новостные агентства, чтобы выжить в эпоху интернета, стараются внедрять последние технологии написания заметок и поиска информации с помощью искусственного интеллекта. Так, служба новостей в Associated Press использует программу, которая сообщает о событиях, вставляя заголовки в заранее подготовленные шаблоны, вроде: «Компания X о прибыли в размере Y в Z квартале».

Однако Reuters пошло дальше. Недавно агентство внедрило ИИ под названием Tracer, который должен полностью автоматизировать подбор новостей и заодно проверять их на подлинность. Это не значит, что журналисты перестанут быть востребованными — скорее, программа поможет им «переварить» растущий с каждым днем информационный поток.

Над Tracer работают программисты из отдела Reuters Research and Development совместно с Alibaba. Ежедневно ИИ анализирует около 12 млн твитов, что составляет примерно 2% от общего числа постов. Половина из них отбирается совершенно случайно, остальные берутся из списка учетных записей Twitter, отобранных журналистами Reuters. К ним относятся другие новостные организации, крупные компании, влиятельные люди в индустриях, знаменитости и так далее.

Графен может стать источником бесконечной чистой энергии

Идеи

На следующем этапе Tracer должен определить, когда произошло событие. С точки зрения алгоритма, — это время, когда о событии начинают говорить несколько человек сразу. Поэтому для этого используются кластерные алгоритмы машинного обучения. Безусловно, помимо реальных новостей в эти кластеры попадает всякий спам, реклама и обычный чат. Поэтому Tracer должен сделать дополнительный отсев.

Для этого он должен определить тему разговора, после чего сравнивает ее с базой данных тем, собранных журналистами из «официальных» аккаунтов, таких как @CNN, @BBCBreaking, @nytimes, @BreakingNews. На этом этапе алгоритм также определяет местоположение события, используя базу данных городов и ключевые слова.

В США отменят сетевой нейтралитет 14 декабря

Кейсы

Как только разговор или слух потенциально идентифицируется программой как новость, важно выяснить, не является ли она «уткой». Для этого Tracer ищет источник, проверяя ссылки с самого раннего твита в разговоре. Затем «пробивает» их по базе данных «фейковых СМИ», вроде National Report или The Onion.

Наконец, система пишет заголовок с кратким описанием, и распространяет новость по всей международной редакции Reuters.

По словам разработчиков, Tracer оказался довольно точным. Из 12 млн твитов, которые он анализирует, примерно 80% — это «шум». Остальные разделяются на 6 тысяч кластеров, которые классифицируются как отдельные типы новостных событий. Все вычисления проводятся на 13 серверах, использующих 10 различных алгоритмов.

25 главных изобретений 2017 года

Мнения

Журналист The New York Times Фархад Манджу отправился к Марку Цукербергу — в штаб-квартиру Facebook. Цукерберг рассказал ему, что признает опасную сторону «социальной революции», которую сам и запустил. Это показали прошедшие в США выборы — благодаря умному алгоритму выстраивания новостной ленты, соцсеть активно использовалась для распространения «облака дезинформации» — «вирусного» контента и фейковых новостей.

ИИ помогает агентству Reuters собирать новости

Читайте «Хайтек» в