Хотя источники предвзятости в системах ИИ разнообразны, одной из ее основных причин являются стереотипные изображения, содержащиеся в больших наборах данных, собранных из онлайн-источников, которые инженеры используют для развития компьютерного зрения. Это ветвь ИИ, которая позволяет компьютерам распознавать людей, объекты и действия. Поскольку фундамент компьютерного зрения строится на этих наборах данных, изображения, отражающие социальные стереотипы и предубеждения, могут непреднамеренно влиять на модели компьютерного зрения.
Чтобы помочь устранить эту проблему в ее первоисточнике, исследователи из Princeton Visual AI Lab разработали инструмент с открытым исходным кодом, который автоматически обнаруживает потенциальные искажения в наборах визуальных данных. Инструмент позволяет создателям наборов данных и пользователям исправлять проблемы недопредставленности или стереотипного изображения до того, как коллекции изображений будут использоваться для обучения моделей компьютерного зрения. В соответствующей работе члены Visual AI Lab опубликовали сравнение существующих методов предотвращения предвзятости в самих моделях компьютерного зрения и предложили новый, более эффективный подход к снижению предвзятости .
Первый инструмент, называемый REVISE, использует статистические методы для проверки набора данных на предмет потенциальных предубеждений или проблем недопредставленности по трем измерениям: объектному, гендерному и географическому.
REVISE оценивает содержимое набора данных, используя существующие аннотации к изображениям и такие измерения, как количество объектов, совместное присутствие объектов и людей, а также страны происхождения изображений. Среди этих измерений инструмент выявляет закономерности, которые отличаются от медианного распределения.
Например, в одном из протестированных наборов данных REVISE показал, что изображения, включающие людей и цветы, различались у мужчин и женщин: мужчины чаще появлялись с цветами на церемониях или встречах, а женщины, как правило, появлялись в постановочных декорациях или картинах.
Как только инструмент выявляет такого рода несоответствия, «возникает вопрос, является ли это совершенно безобидным фактом или происходит нечто более важное, и это очень трудно автоматизировать», — объясняет Ольга Русаковская, доцент кафедры информатики и главный исследователь Visual AI Lab.
«Практика сбора наборов данных в компьютерных науках до недавнего времени не изучалась так тщательно», — заключает соавтор исследования Анджелина Ван, аспирантка в области компьютерных наук. Она объясняет, что изображения в основном «берутся из Интернета, и люди не всегда понимают, что их изображения используются [в наборах данных]. Мы должны собирать изображения от более разных групп людей и делаем это уважительно».
Читать также:
Создать термоядерный реактор на Земле реально. Какие будут последствия?
Ледник «Судного дня» оказался опаснее, чем думали ученые. Рассказываем главное
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком