Программисты из Южной Кореи разработали DarkBERT — языковую модель, обученную на основе информации из даркнета. ИИ можно использовать для поиска и индексации информации, распространяемой в «скрытом» сегменте интернета.

Даркнет — это часть Интернета, которая остается скрытой и недоступной через стандартные веб-браузеры. Здесь распространены анонимные веб-сайты и торговые площадки, которые способствуют незаконной деятельности. Среди них — сайты по торговле наркотиками, оружием продаже украденных данных.

Недавние исследования показали, что существуют явные различия в языке, используемом в даркнете, по сравнению с языком основного интернета. Поэтому существующие языковые модели плохо справляются с анализом данных в теневом сегменте интернета. Программисты подключили свою модель к сети Tor, популярной системы, используемой для анонимизации в интернете. Им удалось собрать необработанные данные даркнета для создания базы и обучения ИИ.

Исследователи считают, что DarkBERT можно использовать для различных целей кибербезопасности, включая выявление веб-сайтов, которые продают программы-вымогатели или публикуют конфиденциальные данные. Кроме того, он может ежедневно просматривать регулярно обновляемые форумы даркнета и следить за любым незаконным обменом информацией.

Программисты протестировали эффективность работы свой модели по сравнению с популярными ИИ и программой RoBERTa, которую исследователи разработали еще в 2019 году для поиска «намеренно скрытых участков текста в неаннотированном языке». Анализ показал, что DarkBERT превосходит известные аналоги в качестве поиска и классификации информации в даркнете.

Читать далее:

Оказалось, современные люди возникли после скрещивания двух разных групп в Африке

Последнее извержение вулкана Йеллоустоун отличалось от остальных

НАСА заметило необычные волны на Земле из космоса: что это значит для планеты

_{На обложке: Изображение от Racool_studio на Freepik}

ИИ обучили мониторить даркнет для борьбы с киберпреступностью