Программисты из Южной Кореи разработали DarkBERT — языковую модель, обученную на основе информации из даркнета. ИИ можно использовать для поиска и индексации информации, распространяемой в «скрытом» сегменте интернета.
Даркнет — это часть Интернета, которая остается скрытой и недоступной через стандартные веб-браузеры. Здесь распространены анонимные веб-сайты и торговые площадки, которые способствуют незаконной деятельности. Среди них — сайты по торговле наркотиками, оружием продаже украденных данных.
Недавние исследования показали, что существуют явные различия в языке, используемом в даркнете, по сравнению с языком основного интернета. Поэтому существующие языковые модели плохо справляются с анализом данных в теневом сегменте интернета. Программисты подключили свою модель к сети Tor, популярной системы, используемой для анонимизации в интернете. Им удалось собрать необработанные данные даркнета для создания базы и обучения ИИ.
Исследователи считают, что DarkBERT можно использовать для различных целей кибербезопасности, включая выявление веб-сайтов, которые продают программы-вымогатели или публикуют конфиденциальные данные. Кроме того, он может ежедневно просматривать регулярно обновляемые форумы даркнета и следить за любым незаконным обменом информацией.
Программисты протестировали эффективность работы свой модели по сравнению с популярными ИИ и программой RoBERTa, которую исследователи разработали еще в 2019 году для поиска «намеренно скрытых участков текста в неаннотированном языке». Анализ показал, что DarkBERT превосходит известные аналоги в качестве поиска и классификации информации в даркнете.
Читать далее:
Оказалось, современные люди возникли после скрещивания двух разных групп в Африке
Последнее извержение вулкана Йеллоустоун отличалось от остальных
НАСА заметило необычные волны на Земле из космоса: что это значит для планеты
На обложке: Изображение от Racool_studio на Freepik