stub Зургийн синтезийн салбар алдаатай хэмжигдэхүүнийг баталсан, судалгааны нэхэмжлэл - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Зургийн синтезийн салбар алдаатай хэмжигдэхүүнийг баталсан байна, судалгааны нэхэмжлэл

mm
шинэчлэгдсэн on

2021 он бол дүрсийг нэгтгэх салбарт урьд өмнө хэзээ ч байгаагүй ахиц дэвшил, хэвлэн нийтлэх хурдацтай жил байлаа. Энэ нь хүний ​​хувийн шинж чанарыг хуулбарлах чадвартай технологид олон шинэ шинэчлэл, сайжруулалтыг санал болгож байна. мэдрэлийн дүрслэл, deepfakes болон олон тооны шинэ хандлага.

Гэсэн хэдий ч Германы судлаачид синтетик зургийн бодит байдлыг автоматаар шүүдэг стандарт нь үнэхээр алдаатай гэж мэдэгджээ. Хүнд суурилсан үр дүнгийн үнэлгээний өртөг өндөртэй зардлыг бууруулахын тулд дэлхийн өнцөг булан бүрээс хэдэн зуун, бүр мянга мянган судлаачид мухар гудамж руу явж магадгүй юм.

Стандартыг хэрхэн харуулж байгааг харуулахын тулд Fréchet эхлэх зай (FID), дүрсийг үнэлэх хүний ​​стандартад нийцэхгүй байгаа тул судлаачид FID (одоо нийтлэг хэмжигдэхүүн) болгон оновчтой болгосон өөрсдийн GAN-уудыг суурилуулсан. Тэд FID нь зургийн нийлэгжилтээс тэс өөр үүрэг даалгаврыг агуулсан үндсэн код дээр үндэслэн өөрийн хүсэл тэмүүллийг дагадаг бөгөөд "хүний" ялган таних стандартад байнга хүрч чаддаггүй болохыг олж мэдэв.

Стандарт өгөгдлийн багц болон архитектурыг ашиглан янз бүрийн загвараар үүсгэсэн зургуудын FID оноо (бага нь илүү сайн). Шинэ нийтлэлийн судлаачид "Та эдгээр зэрэглэлтэй санал нийлэх үү?" Гэсэн асуултыг тавьж байна. Эх сурвалж: https://openreview.net/pdf?id=mLG96UpmbYz

Стандарт өгөгдлийн багц болон архитектурыг ашиглан янз бүрийн загвараар үүсгэсэн зургуудын FID оноо (бага нь илүү сайн). Шинэ нийтлэлийн судлаачид "Та эдгээр зэрэглэлтэй санал нийлэх үү?" Гэсэн асуултыг тавьж байна. Эх сурвалж: https://openreview.net/pdf?id=mLG96UpmbYz

FID нь зорилгодоо тохирохгүй гэсэн нотолгооноос гадна дотоод хөдөлгүүрийг өрсөлдөгч хөдөлгүүрүүдэд солих гэх мэт "илэрхий" арга замууд нь нэг хэвийх утгыг нөгөөгөөр солих болно. Зохиогчид нийлэг аргаар бүтээгдсэн гэрэл зургийн "жинхэнэ байдлыг" үнэлэхийн тулд илүү сайн хэмжүүрүүдийг боловсруулах шинэ судалгааны санаачилгад орсон гэж үзэж байна.

The цаасан гэсэн гарчигтай Фречетийн эхлэлийн зайн доторх хэвийсэн хандлагаСаарланд дахь Макс Планкийн нэрэмжит Мэдээлэл зүйн хүрээлэнгийн Стеффен Юнг, Сигений их сургуулийн харааны тооцооллын профессор Маргрет Кеупер нараас гаралтай.

Зургийн синтезийн онооны системийг хайх

Шинэ судалгаанд тэмдэглэснээр, GAN болон кодлогч/декодерын архитектур зэрэг зургийн синтезийн хүрээн дэх ахиц дэвшил нь ийм системийн үр дүнг шүүж болох аргуудаас давсан байна. Эдгээр системийн гаралтын хүний ​​үнэлгээ нь өндөр өртөгтэй тул масштаблахад хэцүү байхаас гадна эмпирик, давтагдах боломжтой үнэлгээний аргыг санал болгодоггүй.

Тиймээс хэд хэдэн хэмжигдэхүүнүүд бий болсон, үүнд Эхлэх оноо (IS), 2016 онд гарсан цаасан GAN-г сургах сайжруулсан техник, ГАН-тай хамтран бичсэн зохион бүтээгч, Иан Гудфеллоу.

Олон GAN сүлжээнд өргөн хэрэглэгддэг хэмжүүр болох IS оноог гутаан доромжилж байна 2018 нь GAN зургийн синтезийн нийгэмлэгт FID-ийг өргөнөөр нэвтрүүлэхэд хүргэсэн. Гэсэн хэдий ч, Inception Score-ийн нэгэн адил FID нь Google-ийн үнэлгээнд суурилдаг Inception v3 дүрс ангилах сүлжээ (IV3).

Шинэ нийтлэлийн зохиогчид Fréchet Inception Distance нь IV3-д хор хөнөөлтэй хэвийх үзлийг түгээж, зургийн чанарыг найдваргүй ангилахад хүргэдэг гэж үзэж байна.

FID нь машин сургалтын тогтолцоонд ялгаварлагч (GAN сайн ажиллаж байгаа эсэх, эсвэл "дахин оролдох" эсэхийг шийддэг "шүүгч") байдлаар оруулж болох тул энэ нь хүний ​​үнэлгээ хийхдээ хэрэглэх стандартуудыг үнэн зөв илэрхийлэх шаардлагатай. зургууд.

Fréchet эхлэх зай

FID нь GAN (эсвэл ижил төстэй функц) загварыг бий болгоход ашигладаг сургалтын өгөгдлийн багцад онцлог шинж чанарууд хэрхэн тархаж байгаа болон уг системийн үр дүнг харьцуулдаг.

Тиймээс, хэрэв GAN хүрээг (жишээлбэл) алдартнуудын 10,000 зураг дээр сургасан бол FID анхны (бодит) зургуудыг GAN-ийн үйлдвэрлэсэн хуурамч зургуудтай харьцуулдаг. FID-ийн оноо бага байх тусам GAN нь FID-ийн шалгуурын дагуу "фотореалист" зураг руу ойртдог.

Уг баримтаас үзэхэд NVIDIA-ийн маш алдартай FFHQ мэдээллийн багцын нэг хэсэг болох FFHQ64 дээр бэлтгэгдсэн GAN-ийн үр дүн. Энд хэдийгээр FID оноо гайхалтай бага 5.38 байгаа ч үр дүн нь дундаж хүний ​​хувьд тийм ч таатай, итгэл үнэмшилтэй биш байна.

Цааснаас үзэхэд NVIDIA-ийн маш алдартай дэд хэсэг болох FFHQ64 дээр бэлтгэгдсэн GAN-ийн үр дүн. FFHQ мэдээллийн багц. Энд хэдийгээр FID оноо гайхалтай бага 5.38 байгаа ч үр дүн нь дундаж хүний ​​хувьд тийм ч таатай, итгэл үнэмшилтэй биш байна.

Асуудал нь Fréchet Inception Distance-ийг хүчирхэгжүүлдэг Inception v3 нь зөв газраа хайж чадахгүй байна гэж зохиогчид үзэж байна.

Inception V3 нь дээр бэлтгэгдсэн ImageNet объект таних сорилт, сүүлийн жилүүдэд дүрсний синтезийн зорилго хувьсан өөрчлөгдөж байгаатай зөрчилдөж байгаа ажил. IV3 нь өгөгдлийг нэмэгдүүлэх замаар загварын бат бөх байдлыг сорьдог: энэ нь зургийг санамсаргүй байдлаар эргүүлж, 8-100% хооронд санамсаргүй масштабаар тайрч, харьцааг өөрчилдөг (3/4-ээс 4/3 хүртэл), санамсаргүй байдлаар оруулдаг. тод байдал, ханасан байдал, тодосгогчтой холбоотой өнгөний гажуудал.

ХБНГУ-д суурилсан судлаачид IV3 нь өнгө, эрчмийн мэдээллээс илүүтэйгээр ирмэг ба бүтэцийг гаргаж авахыг илүүд үздэг бөгөөд энэ нь синтетик зургийн жинхэнэ байдлын илүү утга учиртай индекс байх болно; мөн объект илрүүлэх анхны зорилго нь тохиромжгүй ажилд зориулагдаагүй байна. Зохиогчид*:

'[Эхлэл v3] нь өнгө, эрчмийн мэдээллээс илүү ирмэг ба бүтэц дээр суурилсан онцлогуудыг задлах хандлагатай байдаг. Энэ нь өнгөний гажуудлыг бий болгодог, гэхдээ өндөр давтамжийн мэдээллийг хэвээр хадгалдаг (жишээ нь, Гауссын бүдэгрэлтийн тусламжтайгаар нэмэгдүүлэхээс ялгаатай) түүний өргөтгөлийн шугамтай нийцдэг.

"Иймээс FID нь энэ хэвшмэл байдлыг өвлөн авдаг. Эрэмбэлэх хэмжигдэхүүн болгон ашиглах үед өнгөний хуваарилалтыг сайн гаргадаг загвараас илүү бүтэцтэй загваруудыг илүүд үзэж болно..'

Өгөгдөл ба арга

Тэдний таамаглалыг шалгахын тулд зохиогчид хоёр GAN архитектурыг сургасан. DCGAN болон СГАН, NVIDIA дээр FFHQ хүний ​​нүүрний мэдээллийн багц, 64 хүртэл түүвэрлэсэн2 FFHQ64 нэртэй өгөгдлийн багц бүхий зургийн нягтрал.

GAN G+D, стандарт гэсэн гурван GAN сургалтын журмыг хэрэгжүүлсэн ялгаварлагч дээр суурилсан сүлжээ; GAN FID|G+D, энд FID нь нэмэлт ялгаварлагчийн үүргийг гүйцэтгэдэг; ба ГАН ФИД|Г. GAN нь бүхэлдээ FID оноогоор тэжээгддэг.

Техникийн хувьд, зохиогчид FID алдагдал нь сургалтыг тогтворжуулах, тэр ч байтугай боломжтой байх ёстой гэж тэмдэглэжээ бүрэн орлуулах ялгаварлагч (энэ нь №3, GAN FID|G-д байдаг шиг), хүний ​​сэтгэлд нийцсэн үр дүнг гаргахын зэрэгцээ.

Практикт үр дүн нь арай өөр бөгөөд зохиогчдын таамаглаж буйгаар FID-ийн тусламжтай загварууд буруу хэмжигдэхүүн дээр "хэт таарч" байна. Судлаачид тэмдэглэж байна:

"Бид генератор сургалтын өгөгдлийн хуваарилалтад тохирохгүй функцуудыг гаргаж сурдаг гэж таамаглаж байна. [GAN FID|G] тохиолдолд энэ ажиглалт илүү ноцтой болдог. Энд бид алга болсон ялгаварлагч нь орон зайн уялдаа холбоогүй шинж чанаруудын хуваарилалтад хүргэдэг болохыг бид анзаарч байна. Жишээ нь, [SNGAN FID|G] нь ихэвчлэн ганц нүдийг нэмж, нүүрний онцлогийг гайхалтай байдлаар тэгшилдэг.'

SNGAN FID|G үйлдвэрлэсэн нүүрний жишээ.

SNGAN FID|G үйлдвэрлэсэн нүүрний жишээ.

Зохиогчид дүгнэж байна*:

"Хүний аннотаторууд SNGAN D+G-ийн бүтээсэн зургуудыг SNGAN FID|G-ээс илүүд үздэг ч (өгөгдлийн үнэнч байдлыг урлагаас илүүд үздэг тохиолдолд) үүнийг FID тусгадаггүйг бид харж байна. Тиймээс FID нь хүний ​​ойлголттой нийцдэггүй.

"Зургийг ангилах сүлжээнүүдийн ялгах шинж чанарууд нь утга учиртай хэмжигдэхүүнийг үндэс болгоход хангалтгүй гэж бид үзэж байна."

Хялбар хувилбар байхгүй

Зохиогчид Inception V3-ийг ижил төстэй хөдөлгүүрээр солих нь асуудлыг хөнгөвчлөхгүй гэдгийг олж мэдсэн. IV3-ийг "өөр өөр ангиллын сүлжээнүүдийн өргөн сонголттой"-оор орлуулахдаа эдгээрийг туршиж үзсэн. ImageNet-C (Зургийн синтезийн хүрээний гаралтын зургуудын нийтлэг үүсгэсэн эвдрэл, гажуудлыг харьцуулах зорилготой ImageNet-ийн дэд хэсэг) судлаачид үр дүнгээ дорвитой сайжруулж чадаагүй байна:

"[Хэвийн санаа] Inception v3-д байгаа нь бусад ангиллын сүлжээнүүдэд өргөн хэрэглэгддэг. Нэмж хэлэхэд, өөр өөр сүлжээнүүд авлигын төрлүүдийн хооронд өөр өөр зэрэглэл гаргах болно гэдгийг бид харж байна.'

Зохиогчид үргэлжлүүлэн судалгаа хийснээр дүрс үүсгэгч архитектурт илүү шударга эрэмбийг тогтоох чадвартай "хүнд нийцсэн, шударга бус хэмжигдэхүүн"-ийг хөгжүүлнэ гэж найдаж байна.

 

* Зохиогчийн онцлох зүйл.


Анх 2 оны 2021-р сарын 1-ны GMT+2 цагийн XNUMX цагт нийтлэгдсэн.