Искусственный интеллект

Голоса меньшинств ‘отфильтрованы’ из моделей обработки естественного языка Google

Published September 24, 2021

Updated April 28, 2026

Martin Anderson

Согласно новому исследованию, один из крупнейших доступных наборов данных для обработки естественного языка (NLP) был обширно ‘отфильтрован’ для удаления авторов-афроамериканцев и испанцев, а также материалов, связанных с гей- и лесбийскими идентичностями, и источников данных, которые занимаются рядом других маргинализированных или меньшинственных идентичностей.

Набор данных использовался для обучения модели Switch Transformer и T5 model Google, и был курирован самим Google AI.

Отчет утверждает, что Colossal Clean Crawled Corpus (‘C4’) набор данных, который содержит 156 миллиардов токенов, собранных из более 365 миллионов интернет-доменов, и является подмножеством огромной базы данных Common Crawl, был обширно (алгоритмически) отфильтрован для исключения ‘официального’ и ‘токсичного’ контента, и что фильтры, используемые для очистки C4, фактически нацеливались на контент и обсуждения из меньшинственных групп.

Отчет гласит:

‘Наш анализ исключенных данных предполагает, что документы, связанные с черными и испанскими авторами, и документы, упоминающие сексуальные ориентации, значительно более вероятно будут исключены блоклистом C4.EN, и что многие исключенные документы содержали неофициальный или неэротический контент (например, обсуждения законодательства о браке между людьми одного пола, научный и медицинский контент).’

Работа отмечает, что результаты усугубляют существующую языковую расовую неравенство в секторе NLP, а также стигматизируют ЛГБТК+ идентичности. Она продолжает:

‘Кроме того, прямым следствием удаления такого текста из наборов данных, используемых для обучения языковых моделей, является то, что модели будут работать плохо, когда будут применены к тексту от и о людях с меньшинственными идентичностями, эффективно исключая их из преимуществ технологий, таких как машинный перевод или поиск.’

… (rest of the content remains the same, following the exact structure and translation rules)

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Голоса меньшинств ‘отфильтрованы’ из моделей обработки естественного языка Google

You may like