Инструмент помогает избавиться от предвзятости компьютерного зрения


Исследователи из Принстонского университета разработали инструмент, который выявляет потенциальные искажения в наборах изображений, используемых для обучения систем искусственного интеллекта (ИИ). Работа является частью более масштабных усилий по исправлению и предотвращению предубеждений, проникших в системы искусственного интеллекта и влияющих на все, от кредитных услуг до программ вынесения приговоров в зале суда.

Хотя источники предвзятости в системах ИИ разнообразны, одной из основных причин являются стереотипные изображения, содержащиеся в больших наборах изображений, собранных из онлайн-источников, которые инженеры используют для разработки компьютерного зрения — ветви ИИ, которая позволяет компьютерам распознавать людей и объекты. и действия. Поскольку основы компьютерного зрения строятся на этих наборах данных, изображения, отражающие социальные стереотипы и предубеждения, могут непреднамеренно влиять на модели компьютерного зрения.

Чтобы помочь устранить эту проблему в ее первоисточнике, исследователи из Princeton Visual AI Lab разработали инструмент с открытым исходным кодом, который автоматически обнаруживает потенциальные искажения в наборах визуальных данных. Инструмент позволяет создателям наборов данных и пользователям исправлять проблемы недопредставленности или стереотипного изображения до того, как коллекции изображений будут использоваться для обучения моделей компьютерного зрения. В соответствующей работе члены Visual AI Lab опубликовали сравнение существующих методов предотвращения предвзятости в самих моделях компьютерного зрения и предложили новый, более эффективный подход к снижению предвзятости.

Первый инструмент, называемый REVISE (Выявление визуальных биений), использует статистические методы для проверки набора данных на предмет потенциальных предубеждений или проблем недопредставленности по трем параметрам: объектному, гендерному и географическому. Полностью автоматизированный инструмент REVISE основан на более ранней работе, которая включала фильтрацию и балансировку изображений набора данных таким образом, чтобы от пользователя требовалось больше указаний. Исследование было представлено 24 августа на виртуальной европейской конференции по компьютерному зрению.

REVISE анализирует содержимое набора данных, используя существующие аннотации к изображениям и измерения, такие как количество объектов, совместное присутствие объектов и людей, а также страны происхождения изображений. Среди этих измерений инструмент выявляет закономерности, которые отличаются от медианного распределения.

Например, в одном из протестированных наборов данных REVISE показал, что изображения, включающие людей и цветы, различались у мужчин и женщин: мужчины чаще появлялись с цветами на церемониях или собраниях, а женщины, как правило, появлялись в постановках или картинах. . (Анализ ограничивался аннотациями, отражающими воспринимаемый бинарный пол людей, появляющихся на изображениях.)

Как только инструмент выявляет такого рода несоответствия, «возникает вопрос, является ли это совершенно безобидным фактом или происходит нечто более глубокое, и это очень сложно автоматизировать», — сказала Ольга Русаковская, доцент кафедры компьютерных наук. научный сотрудник и главный исследователь Visual AI Lab. Русаковский является соавтором статьи с аспирантом Ангелиной Ван и Арвиндом Нараянан, доцентом кафедры информатики.

Например, REVISE выявил, что объекты, включая самолеты, кровати и пиццу, с большей вероятностью будут большими на изображениях, включая их, чем типичный объект в одном из наборов данных. Такая проблема может не увековечить социальные стереотипы, но может стать проблемой для обучения моделей компьютерного зрения. В качестве лекарства исследователи предлагают собирать изображения самолетов, на которых также есть надписи «гора», «пустыня» или «небо».

Недостаточная представленность регионов земного шара в наборах данных компьютерного зрения, вероятно, приведет к предвзятости в алгоритмах искусственного интеллекта. В соответствии с предыдущим анализом исследователи обнаружили, что для стран происхождения изображений (нормализованных по численности населения) США и европейские страны были значительно перепредставлены в наборах данных. Помимо этого, REVISE показал, что для изображений из других частей мира подписи к изображениям часто были не на местном языке, что позволяет предположить, что многие из них были сняты туристами и потенциально могут привести к искаженному представлению о стране.

Исследователи, занимающиеся обнаружением объектов, могут упускать из виду вопросы справедливости компьютерного зрения, сказал Русаковский. «Однако этот географический анализ показывает, что распознавание объектов по-прежнему может быть весьма предвзятым и исключающим, и может неодинаково влиять на разные регионы и людей», — сказала она.

«Практика сбора наборов данных в компьютерных науках до недавнего времени не изучалась так тщательно», — сказала соавтор Анджелина Ван, аспирантка в области компьютерных наук. По ее словам, изображения в основном «извлекаются из Интернета, и люди не всегда понимают, что их изображения используются [в наборах данных]. Мы должны собирать изображения от более разных групп людей, но когда мы это делаем, мы должны быть осторожны. что мы получаем изображения уважительно «.

«Инструменты и тесты — важный шаг … они позволяют нам зафиксировать эти предубеждения на ранних этапах разработки и переосмыслить нашу постановку задачи и предположения, а также методы сбора данных», — сказал Висенте Ордонез-Роман, доцент кафедры информатика в Университете Вирджинии, который не участвовал в исследованиях. «В компьютерном зрении есть некоторые специфические проблемы, связанные с репрезентацией и распространением стереотипов. Такие работы, как работы Princeton Visual AI Lab, помогают прояснить и привлечь внимание сообщества компьютерного зрения к некоторым из этих проблем и предложить стратегии их смягчения. «

В аналогичном исследовании Visual AI Lab были изучены подходы к предотвращению обучения моделей компьютерного зрения ложным корреляциям, которые могут отражать предубеждения, такие как завышенное прогнозирование таких действий, как приготовление пищи в изображениях женщин или компьютерное программирование в изображениях мужчин. Визуальные подсказки, такие как тот факт, что зебры черно-белые или баскетболисты часто носят футболки, способствуют точности моделей, поэтому разработка эффективных моделей, избегая при этом проблемных корреляций, является серьезной проблемой в этой области.

В исследовании, представленном в июне на виртуальной Международной конференции по компьютерному зрению и распознаванию образов, аспирант-электротехник Зею Ван и его коллеги сравнили четыре различных метода уменьшения предвзятости в моделях компьютерного зрения.

Они обнаружили, что популярная методика, известная как состязательное обучение, или «справедливость через слепоту», вредит общей производительности моделей распознавания изображений. В состязательном обучении модель не может учитывать информацию о защищенной переменной — в исследовании исследователи использовали пол в качестве тестового примера. Другой подход, известный как обучение, не зависящее от предметной области, или «справедливость через осведомленность», показал гораздо лучшие результаты при анализе команды.

«По сути, это говорит о том, что у нас будет разная частота занятий для разных полов, и да, это предсказание будет зависеть от пола, поэтому мы просто примем это», — сказал Русаковский. / p>

Техника, описанная в документе, снижает потенциальную предвзятость, рассматривая защищенный атрибут отдельно от других визуальных сигналов.

«Как мы действительно решаем проблему предвзятости — это более глубокая проблема, потому что, конечно, мы можем видеть это в самих данных», — сказал Зею Ван. «Но в реальном мире люди по-прежнему могут делать верные суждения, зная о наших предубеждениях» — и модели компьютерного зрения могут быть настроены для работы аналогичным образом, — сказал он.


Добавить комментарий