Исследователи представили алгоритм, который определяет «оскорбительные» материалы для машинного обучения

Система будет следить за тем, чтобы ИИ не продолжил транслировать стереотипы из материала, на котором он обучался.

В статье «Каковы предубеждения во встраивании слов?», опубликованной на сервере препринтов arXiv.org, ученые из Microsoft Research, Карнеги — Меллон и Университета Мэриленда описывают алгоритм, который может выявить «оскорбительные ассоциации», связанные с деликатными вопросами — такими как гендер и раса.

Их работа основана на исследовании Калифорнийского университета, в котором подробно описывается учебное решение, способное «сохранять [гендерную информацию]» в словарных векторах, «заставляя другие аспекты быть свободными от гендерного влияния».

«Мы рассматриваем проблему подсчета неконтролируемого смещения (UBE), автоматически обнаруживая смещения смысла, — пишут исследователи. — Существует множество причин, по которым можно использовать такой алгоритм. Во-первых, социологи могут использовать его в качестве инструмента для изучения предвзятости человека. Во-вторых, выявление предвзятости является естественным шагом в «искажении» представлений. Наконец, это может помочь избежать систем, которые увековечивают эти предубеждения — мы бы не хотели исправлять их во множестве систем, которые позже окажутся на рынке».

«Невозможно вручную написать всевозможные тесты, чтобы проверить нейтральность материала для машинного обучения. Специалисты по предметным областям обычно создают такие тесты, и нецелесообразно ожидать, что они охватят все возможные группы, особенно если они не знают, какие группы представлены в их данных», — отмечают исследователи.

Чтобы протестировать систему, ученые взяли наборы слов из базы данных Администрации социального обеспечения (SSA), стараясь удалить из них слова, которые обладают сразу несколькими значениями. После того, как ИИ проверил нейтральность выражений, их повторно отсмотрели вручную. Оказалось, что алгоритм смог определить более 90% выражений, контекст которых был смещен и мог быть оскорбительным.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
«Фабрику» железного века по производству краски нашли в Израиле: она проработала 500 лет
Наука
В Японии испытали летающие молниеотводы: дроны, которые привлекают молнии
Новости
Шимпанзе впервые попали на видео во время «вечеринки» с алкоголем
Наука
В Госдуме хотят проверять владельцев российских сайтов через Госуслуги
Новости
Физики разработали кубиты с увеличенным временем жизни для квантовых устройств
Наука
Астрономы подтвердили открытие первой «одинокой» черной дыры
Космос
Создан металл, который не теряет прочности при самых экстремальных температурах
Наука
Сколько яиц и кулича можно съесть на Пасху: врачи назвали допустимую норму
Наука
Открыт новый цвет: его невозможно увидеть в обычных условиях
Наука
OpenAI признала, что новые модели o3 и o4-mini стали «галлюцинировать»
Новости
Первый полумарафон с участием роботов-гуманоидов и людей прошел в Китае
Новости
Необычные куличи для космонавтов на орбите приготовили ученые
Космос
На спутнике Сатурна обнаружили аномалию: реки Титана не образуют дельт
Космос
Марсоход обнаружил крупные углеродные отложения на Марсе
Космос
Посмотрите на детальные 3D-модели остатков от взрывов сверхновых
Космос
Крошечные спутники НАСА наблюдали солнечную корону и солнечный ветер
Космос
Хирурги провели пересадку, при которой сердце не переставало биться
Наука
Найдены странные материалы, которые нарушают законы термодинамики
Наука
VR-приложение для снижения тревожности сделали студенты из Чечни
Наука
1 Гб за 3 секунды: китайцы представили флеш-память, которая быстрее оперативки
Новости