stub CLIP-д суурилсан зургийн синтезийн системд зориулсан "Арьс өнгөөр ​​​​ангилах" сорилт - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

CLIP-д суурилсан зургийн синтезийн системд зориулсан "Арьс өнгөөр ​​​​ангилах" сорилт

mm
шинэчлэгдсэн on

АНУ-аас хийсэн шинэ судалгаагаар хамгийн алдартай DALL-E цувралын ард байгаа компьютерийн харааны загваруудын нэг, түүнчлэн бусад олон зураг үүсгэх, ангилах загварууд нь ийм хандлагатай байгааг харуулж байна. гиподесцент – уралдааныг ангилах дүрэм (мөн гэж нэрлэдэг "нэг дусал" дүрэм) бага ч гэсэн "холимог" (өөрөөр хэлбэл Кавказ биш) удамшлын удам угсаатай хүнийг бүхэлд нь "цөөнхийн" арьс өнгөний ангилалд ангилдаг.

Гиподесентээс хойш шинж чанартай Хүн төрөлхтний түүхэн дэх хамгийн муухай бүлгүүдийн заримыг нь авч үзвэл, компьютерийн харааны судалгаа, хэрэгжилтийн ийм хандлагад илүү их анхаарал хандуулах хэрэгтэй гэж шинэ нийтлэлийн зохиогчид санал болгож байна, учир нь энэ нь сард бараг сая удаа татагддаг дэмжлэгийн хүрээг цаашид түгээх боломжтой учраас бус харин. арьс өнгөөр ​​ялгаварлан гадуурхах үзлийг доод урсгалын хүрээнд сурталчлах.

Шинэ бүтээлд судалж буй архитектур нь Ялгаатай хэлний зургийн өмнөх бэлтгэл (CLIP), интернетээс авсан зураг/гарчигны хос дээр сургах замаар семантик холбоог сурдаг олон загварт машин сургалтын загвар нь шошгоны ихээхэн зардлыг бууруулдаг, гэхдээ энэ нь хүмүүсийн хэвийх үзлийг тусгах магадлалтай хагас хяналттай арга юм. тайлбаруудыг үүсгэсэн.

Цаас:

"Бидний үр дүн CLIP суулгасан орон зайд гиподесент байгааг нотолсон бөгөөд энэ нь эмэгтэйчүүдийн зураг дээр илүү хүчтэй хэрэглэгддэг. Үр дүнгээс харахад CLIP нь зургийг цагаанаас хазайлтад үндэслэсэн арьс өнгө, үндэстний шошготой холбодог бөгөөд өгөгдмөл нь Цагаан өнгөтэй байна.

Уг нийтлэлд дүрсний валентын хамаарал ("сайн" эсвэл "муу" зүйлтэй холбоотой байх хандлага нь Кавказын шошготой харьцуулахад "цөөнхийн" арьс өнгөний шошго нь илүү өндөр байдаг ба CLIP-ийн хэвийсэн хандлага нь АНУ-д төвлөрсөн корпусыг тусгаж байгааг харуулж байна. хүрээнд бэлтгэгдсэн уран зохиолын (Англи хэл Wikipedia).

CLIP-ийн гиподесентийг илт дэмжиж байгаагийн үр дагаварын талаар зохиогчид тайлбар хийхдээ:

CLIP-ийн анхны хэрэглээ бол XNUMX зураг авалтын загварыг сургах явдал байв SLAB. Сургалтанд CLIP архитектурын илүү том, нийтийн бус хувилбарыг ашигласан DALL-E2. DALL-E 2 загварын картанд тодорхойлсон Эрсдэл ба Хязгаарлалтууд нь одоогийн судалгааны үр дүнтэй тохирч байна. тэмдэглэл Энэ нь "Цагаан өнгөрч буй хүмүүсийг хэт төлөөлөх хандлагатай дүр төрхийг бий болгодог".

"Ийм хэрэглээ нь CLIP-ийн сурсан хэвийсэн ойлголтууд нь загварын оршуулгын зайнаас цааш тархах боломжтойг харуулж байна, учир нь түүний онцлог шинж чанарууд нь бусад орчин үеийн хиймэл оюун ухааны загваруудад семантикийг бий болгоход чиглэгддэг.

Түүгээр ч барахгүй CLIP болон үүнтэй төстэй загваруудын гаргасан дэвшлийн ачаар зураг, текстийг тэг зураг авалтын горимд холбоход зориулж мультимодаль архитектурууд бий болсон. тайлбарласан хайлтын систем зэрэг өргөн хэрэглэгддэг интернетийн хэрэглээний ирээдүйн үндэс суурь болно.

"Бидний үр дүнгээс харахад ийм загварууд байгалийн хэлний хяналтаас юу сурдаг талаар нэмэлт анхаарал хандуулах нь зүйтэй гэдгийг харуулж байна."

The цаасан гэсэн гарчигтай Visual Semantic AI дахь гиподесцентийн нотолгоо, мөн Вашингтоны их сургууль, Харвардын их сургуулийн гурван судлаачаас гаралтай.

CLIP ба муу нөлөө

Судлаачид тэдний ажил нь CLIP дахь гиподесентийн анхны дүн шинжилгээ гэдгийг баталж байгаа ч өмнөх ажлууд нь CLIP-ийн ажлын урсгал нь ихэвчлэн хяналтгүй сургалтаас хамаардаг болохыг харуулсан. дутуу боловсруулсан вэбээс гаралтай өгөгдөл, эмэгтэйчүүдийг дутуу төлөөлдөг, үйлдвэрлэх боломжтой доромжилсон агуулга, мөн харуулж чадна семантик хазайлт (Лалын шашинтнуудын эсрэг үзэл гэх мэт) дүрс кодлогчдоо.

CLIP-ийг танилцуулсан анхны баримт бичигт CLIP нь 58.3 цохилтын нөхцөлд цагаан арьстны шошготой хүмүүсийн зөвхөн XNUMX% -ийг холбодог гэж хүлээн зөвшөөрсөн. FairFace өгөгдлийн багц. Амазон Механик Туркийн ажилчид FairFace-ийг гажуудуулж болзошгүй гэж тэмдэглэсэн болохыг ажиглаж, шинэ нийтлэлийн зохиогчид "Бусад хүмүүс Цагаан гэж ойлгодог хүмүүсийн цөөнх нь CLIP-ээр Цагаанаас өөр арьстай холбоотой байдаг" гэж тэмдэглэжээ.

Тэд үргэлжлүүлэн:

"FairFace мэдээллийн багц дахь арьс өнгө, үндэстний бусад шошготой хүмүүс CLIP-ээр эдгээр шошготой холбоотой байдаг тул урвуу нь үнэн биш бололтой. Энэхүү үр дүн нь CLIP нь нийгмийн эрдэмтдийн тодорхойлсон "гиподесент" гэсэн дүрмийг сурсан байж болзошгүйг харуулж байна: олон үндэстэн угсаа гарал үүсэлтэй хүмүүсийг хууль ёсны олонхоос илүү цөөнх эсвэл бага давуу талтай эцэг эхийн бүлэгт харьяалагддаг гэж ойлгож, ангилах магадлал өндөр байдаг. эсвэл давуу талтай эцэг эхийн бүлэг.

'Өөрөөр хэлбэл, хар цагаан эцэг эхийн хүүхдийг цагаан гэхээсээ илүү хар гэж ойлгодог; Ази, цагаан арьст эцэг эхийн хүүхдийг цагаан арьстнаас илүү ази гэж ойлгодог.'

Уг баримт бичигт гурван гол дүгнэлт бий: CLIP нь олон үндэстний онцлогтой хүмүүсийг тэдэнд хамаарах арьс өнгөөр ​​ялгаварлан гадуурхах цөөнхийн ангилалд "малжуулах" замаар дутуу үзэлтэй болохыг нотолж байна; 'Цагаан бол CLIP-ийн анхдагч уралдаан' бөгөөд өрсөлдөж буй уралдаанууд нь Цагаан ангилалаас "хазайлтаар" тодорхойлогддог; мөн тэр валентын хазайлт ("муу" үзэл баримтлалтай холбоо) нь тухайн хүнийг арьс өнгөөр ​​​​ялгаварлан гадуурхах цөөнх гэж ангилдагтай холбоотой.

Арга ба өгөгдөл

CLIP нь олон үндэстний сэдвүүдэд хэрхэн ханддагийг тодорхойлохын тулд судлаачид a өмнө нь хүлээн авсан хувь хүмүүсийн дүр төрхийг өөрчлөх техник. Гэрэл зургуудыг тус газраас авсан Чикагогийн нүүрний мэдээллийн сан, арьс өнгөний талаархи сэтгэлзүйн судалгаанд зориулж боловсруулсан багц.

Шинэ нийтлэлийн нэмэлт материалд тусгагдсан арьс өнгөөр ​​​​ялгаварласан CFD зургуудын жишээ. Эх сурвалж: https://arxiv.org/pdf/2205.10764.pdf

Шинэ нийтлэлийн нэмэлт материалд тусгагдсан арьс өнгөөр ​​​​ялгаварласан CFD зургуудын жишээ. Сманай сайт: https://arxiv.org/pdf/2205.10764.pdf

Судлаачид өмнөх ажилтай нийцтэй байхын тулд өгөгдлийн багцаас зөвхөн "төвийг сахисан илэрхийлэл" зургийг сонгосон. Тэд Generative Adversarial Network-ийг ашигласан StyleGAN2-ADA (дээр бэлтгэл хийсэн FFHQ) нүүрний дүрсийг арьсны өнгөөр ​​сольж, нэг уралдаанаас нөгөө уралдаан руу шилжиж байгааг харуулсан завсрын зургуудыг бүтээх (дээрх жишээ зургуудыг үзнэ үү).

Өмнөх ажлын дагуу судлаачид өгөгдлийн багцад өөрсдийгөө хар, ази, латин гэж тодорхойлсон хүмүүсийн царайг цагаан гэж тэмдэглэсэн хүмүүсийн царай болгон хувиргасан. Арван есөн завсрын үе шатыг процесст үйлдвэрлэдэг. Төсөлд зориулж нийтдээ 21,000 1024x1024px зургийг энэ аргаар бүтээсэн.

Дараа нь судлаачид арьсны өнгөний багц тус бүрийн нийт 21 зураг тус бүрд CLIP-д зориулсан төсөөлсөн дүрсийг олж авсан. Үүний дараа тэд CLIP-ээс зураг бүрт шошго авахыг хүссэн: 'олон үндэстэн', 'biracial', 'холимог арьстан', 'хүн' (сүүлийн шошго нь уралдааныг орхигдуулсан).

CLIP-ийн ашигласан хувилбар нь CLIP-ViT-Base-Patch32 хэрэгжилт. Зохиогчид энэ загвар нь судалгаагаа бичихээс өмнө нэг сарын дотор сая гаруй удаа татагдсан бөгөөд CLIP загвараас татан авалтын 98 хувийг эзэлдэг гэж тэмдэглэжээ. Transformers номын сан.

Туршилт

Судлаачид CLIP-ийн гиподесент хандлагатай эсэхийг шалгахын тулд хувь хүн бүрийн хувиргасан зургийн градиент дахь зураг бүрт CLIP-ээс өгсөн уралдааны шошгыг тэмдэглэжээ.

Судалгааны үр дүнгээс харахад CLIP нь 50%-ийн шилжилтийн түвшинд хүмүүсийг “цөөнхийн” ангилалд оруулах хандлагатай байдаг.

CLIP нь ижил төрлийн гарал үүсэл/зорилтот арьстай холилдсон 50%-ийн харьцаатай үед CLIP нь 1000 эмэгтэй дүрсийг Ази (89.1%), Латин (75.8%) болон Хар (69.7%) шошготой ижил төстэй шошготой холбодог. Цагаан шошго.

CLIP нь ижил төрлийн гарал үүсэл/зорилтот арьстай холилдсон 50%-ийн харьцаатай үед CLIP нь 1000 эмэгтэй дүрсийг Ази (89.1%), Латин (75.8%) болон Хар (69.7%) шошготой ижил төстэй шошготой холбодог. Цагаан шошго.

Судалгааны үр дүнгээс харахад эмэгтэй хүмүүс CLIP-ийн дор гиподесентэд эрэгтэйчүүдээс илүү өртөмтгий байдаг хэдий ч зохиогчид энэ нь эмэгтэй хүний ​​дүр төрхийг тодорхойлдог вэбээс гаралтай, хатгаагүй шошго нь эрэгтэйчүүдийнхээс илүү сэдвийн гадаад төрхийг онцолж байгаатай холбоотой гэж таамаглаж байна. мөн энэ нь хазайх нөлөөтэй байж магадгүй юм.

Ази-Цагаан эрэгтэй эсвэл Латин-Цагаан эрэгтэй морфийн цувралын хувьд арьс өнгөний шилжилтийн 50% -ийн гиподесент ажиглагдаагүй бол CLIP тохиолдлын 67.5% -д 55% холих харьцаатай хар шошготой косинустай ижил төстэй байдлыг тогтоосон.

Multiracial, Biracial, Mixed Race шошгоны дундаж косинус ижил төстэй байдал. Үр дүнгээс үзэхэд CLIP нь арьс өнгөний хольцын янз бүрийн хувь хэмжээгээр "усны хагалбар" ангиллыг хэрэгжүүлдэг бөгөөд уг үндэстний угсаа гарал гэхээсээ илүүтэй Уайт (туршилтын үндэслэлээр "хүн")-д ийм арьс өнгөний хольцыг оноодог. зураг.

Multiracial, Biracial, Mixed Race шошгоны дундаж косинус ижил төстэй байдал. Үр дүнгээс үзэхэд CLIP нь арьс өнгөний хольцын янз бүрийн хувь хэмжээгээр "усны хагалбар" ангиллыг хэрэгжүүлдэг бөгөөд уг үндэстний угсаа гарал гэхээсээ илүүтэй Уайт (туршилтын үндэслэлээр "хүн")-д ийм арьс өнгөний хольцыг оноодог. зураг.

Уг баримтад дурдсанаар бол хамгийн тохиромжтой зорилго бол CLIP нь тухайн сэдэв нь ихэвчлэн цагаан бус шошго руу шилждэг "хөгцлийн цэг"-ийг тодорхойлохын оронд завсрын арьс өнгөний холимогийг "холимог арьстан" гэж үнэн зөв ангилах явдал юм.

Тодорхой хэмжээгээр CLIP нь Холимог уралдаанд завсрын морфийн алхмуудыг хуваарилдаг (дээрх графикийг харна уу), гэхдээ эцэст нь субьектүүдийг цөөнхийн хувь нэмэр оруулдаг уралдаан гэж ангилахыг илүүд үздэг.

Валентын хувьд зохиогчид CLIP-ийн буруу дүгнэлтийг тэмдэглэж байна:

'[Дундаж] валентын хамаарал (муу эсвэл тааламжгүй, сайн эсвэл тааламжтай гэсэн холбоо) нь Хар-Цагаан эрэгтэй морфийн цувралын холих харьцаанаас хамаарч өөр өөр байдаг тул CLIP нь CFD сайн дурынхантай хамгийн төстэй царайны тааламжгүй байдлын холбоог кодчилдог. -Хар гэж тодорхойлох.'

Валентын үр дүн – туршилтууд нь цөөнхийн бүлгүүд Цагаан шошготой субьектүүдээс илүү зураг/хос архитектурын сөрөг ойлголттой илүү холбоотой болохыг харуулж байна. Зохиогчид зурагны таагүй байдлын хамаарал нь загвар өмсөгч нь зургийг Хар шошготой холбох магадлалыг нэмэгдүүлдэг гэж үздэг.

Валентын үр дүн – туршилтууд нь цөөнхийн бүлгүүд Цагаан шошготой субьектүүдээс илүү зураг/хос архитектурын сөрөг ойлголттой илүү холбоотой болохыг харуулж байна. Зохиогчид зурагны таагүй байдлын хамаарал нь загвар өмсөгч нь зургийг Хар шошготой холбох магадлалыг нэмэгдүүлдэг гэж үздэг.

Цаасан дээр:

Зургийн валент нь арьс өнгөний [холбоо]-той хамааралтай болохыг нотлох баримтууд харуулж байна. Илүү тодорхой хэлбэл, загвар нь хар арьст хүнийг тусгаж байгаа загвар нь илүү тодорхой байх тусам зураг нь тааламжгүй шигтгэх орон зайтай илүү холбоотой болохыг бидний үр дүн харуулж байна.'

Гэсэн хэдий ч үр дүн нь Азийн царайны хувьд сөрөг хамааралтай байгааг харуулж байна. Энэ нь Азийн ард түмэн, нийгэмлэгүүдийн талаарх АНУ-ын соёлын эерэг ойлголтыг дамжуулж (вэбээс авсан мэдээллээр) дамжуулж байгаатай холбоотой гэж зохиогчид үзэж байна. Зохиогчид*:

"Азийн бичвэрийн шошгоны тааламжтай байдал, магадлалын хоорондын хамаарлыг ажиглах нь "загвар цөөнхийн" хэвшмэл ойлголттой тохирч магадгүй бөгөөд энэ нь Азийн өвөг дээдсийн хүмүүс дээшээ хөдөлж, Америкийн соёлд ууссан гэдгээрээ магтагддаг. "сайн зантай" холбоотой.'

CLIP-ийн үүднээс Цагаан өнгө нь "үндсэн таних тэмдэг" мөн эсэхийг шалгах эцсийн зорилгын тухайд, үр дүн нь агуулагдсан туйлшралыг харуулж байгаа бөгөөд энэ архитектурын дагуу "бага зэрэг цагаан" байх нь нэлээд хэцүү болохыг харуулж байна.

Туршилтанд зориулан бүтээсэн 21,000 зургийн косинус ижил төстэй байдал.

Туршилтанд зориулан бүтээсэн 21,000 зургийн косинус ижил төстэй байдал.

Зохиогчид тайлбар:

CLIP нь цагаан өнгийг анхдагч уралдаан гэж кодлодог болохыг нотлох баримт харуулж байна. Энэ нь бусад арьсны өнгө, угсаатны бүлгээс илүү цагаан косинусын ижил төстэй байдал ба хүний ​​косинусын ижил төстэй байдлын хоорондын илүү хүчтэй хамаарлаар батлагддаг.'

 

*Зохиогчдын ишлэлийг гипер холбоос болгон хөрвүүлсэн нь.

Анх 24 оны тавдугаар сарын 2022-нд нийтлэгдсэн.