Оказалось, что такие системы легко находят порнографию и насилие, но недостаточно хорошо понимают смысл текста, чтобы определить хотя бы минимально зашифрованные оскорбления.
Группа исследователей из Университета Аалто и Падуанского университета протестировала семь моделей, которые определяют грубые высказывания в интернете. Все они не смогли распознать нецензурную лексику, когда в нее внесли небольшие изменения.
Примеры выражений, с помощью которых тестировали ИИ, создавались автоматически — они специально были написаны неправильно, в некоторых случаях буквы заменялись на символы, в случайных местах ставились пробелы или в выражение добавлялось безобидное слово — например, «любовь».
В таких случаях модели оказывались малоэффективными и не находили эти высказывания оскорбительными. Ученые обнаружили только то, что ИИ оказался эффективным в случае, когда он должен был определить грубые выражения, на которых обучался.
Facebook разоблачит интернет-троллей с помощью почтовых открыток
Кейсы
«Они работают хорошо только при встрече с типом данных, на котором были обучены. Основываясь на этих результатах, мы утверждаем, что для успешного обнаружения языка ненависти архитектура модели менее важна, чем тип данных и критерии маркировки. Мы также показываем, что все предлагаемые методы обнаружения хрупки против противников, которые могут вставлять опечатки, изменять границы слов или добавлять безобидные слова к оригинальной речи о ненависти», — отмечается в выводах ученых.