stub Хүмүүсийн зургийг илүү "сайхан" болгож чадах хиймэл оюун ухааны систем - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Хүмүүсийн зургийг илүү "сайхан" болгож чадах хиймэл оюун ухааны систем

mm
шинэчлэгдсэн on
Суурь зураг: DALL-E 2 'Дэлхийн хамгийн үзэсгэлэнтэй Кавказын загварын тайзны шагналт 8К зураг' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Суурь зураг: DALL-E 2 'Дэлхийн хамгийн үзэсгэлэнтэй Кавказын загварын тайзны шагналт 8К зураг' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Хятадын судлаачид сурган хүмүүжүүлэх шинэ арга барилд тулгуурлан хүний ​​дүрсийг илүү "үзэсгэлэнтэй" болгох чадвартай хиймэл оюун ухаанд суурилсан дүрс сайжруулах шинэ системийг бүтээжээ.

Энэхүү шинэ арга нь "нүүрний гоо сайхныг урьдчилан таамаглах сүлжээ"-ийг ашигладаг бөгөөд "гэрэлтүүлэг" болон нүдний байрлал зэрэг нь чухал хүчин зүйл байж болох хэд хэдэн хүчин зүйл дээр үндэслэн зураг дээрх өөрчлөлтийг давтдаг. Энд анхны эх сурвалжууд (багана бүрийн зүүн талд) EigenGAN системээс, шинэ үр дүнгүүдийн баруун талд байна. Эх сурвалж: https://arxiv.org/pdf/2208.04517.pdf

Энэхүү шинэ арга нь "нүүрний гоо сайхныг урьдчилан таамаглах сүлжээ"-ийг ашигладаг бөгөөд "гэрэлтүүлэг" болон нүдний байрлал зэрэг нь чухал хүчин зүйл байж болох хэд хэдэн хүчин зүйл дээр үндэслэн зураг дээрх өөрчлөлтийг давтдаг. Энд анхны эх сурвалжууд (багана бүрийн зүүн талд) EigenGAN системээс, шинэ үр дүнгүүдийн баруун талд байна. Эх сурвалж: https://arxiv.org/pdf/2208.04517.pdf

Энэхүү техник нь олсон шинэлэг зүйлд тулгуурладаг EigenGAN генератор, Хятадын өөр нэг төсөл нь 2021 оноос эхлэн олон төрлийн амьтдыг тодорхойлж, хяналтаа тогтооход мэдэгдэхүйц ахиц дэвшил гаргасан. семантик шинж чанарууд Generative Adversarial Networks (GANs) далд орон зайд.

2021 оны EigenGAN генератор нь үүсгэгч сөрөг сүлжээний далд орон зайд "үсний өнгө" гэх мэт өндөр түвшний ойлголтуудыг тусгаж чадсан. Энэхүү шинэ ажил нь эх зургийг "гоёх" боломжтой боловч танигдахуйц таних тэмдгийг өөрчлөхгүйгээр системийг хүргэх энэхүү шинэлэг хэрэгсэл дээр суурилж байгаа нь өмнөх арга барилд тулгарч байсан асуудал юм. Эх сурвалж: https://arxiv.org/pdf/2104.12476.pdf

2021 оны EigenGAN генератор нь үүсгэгч сөрөг сүлжээний далд орон зайд "үсний өнгө" гэх мэт өндөр түвшний ойлголтуудыг тусгаж чадсан. Энэхүү шинэ ажил нь эх зургийг "гоёх" боломжтой боловч танигдахуйц таних тэмдгийг өөрчлөхгүйгээр системийг хүргэх энэхүү шинэлэг хэрэгсэл дээр суурилж байгаа нь өмнөх арга барилд тулгарч байсан асуудал юм. Эх сурвалж: https://arxiv.org/pdf/2104.12476.pdf

Уг систем нь "гоо зүйн онооны сүлжээ"-ийг ашигладаг SCUT-FBP5500 (SCUT), Гуанжоу дахь Өмнөд Хятадын Технологийн Их Сургуулийн нүүрний гоо сайхныг урьдчилан таамаглах 2018 оны жишиг мэдээллийн багц.

2018 оны 'SCUT-FBP5500: Олон парадигмын нүүрний гоо сайхны таамаглалд зориулсан олон төрлийн жишиг өгөгдлийн багц' нийтлэлээс "Нүүрний гоо сайхныг урьдчилан таамаглах" (FBP) сүлжээг санал болгосон бөгөөд энэ нь царайг хүлээн зөвшөөрөгдсөн дур булаам байдлаар нь эрэмблэх чадвартай боловч бодит байдал дээр хувиргах боломжгүй юм. эсвэл "шинэчилсэн" царай. Эх сурвалж: https://arxiv.org/pdf/1801.06345.pdf

2018 оны 'SCUT-FBP5500: Олон парадигмын нүүрний гоо сайхны таамаглалд зориулсан олон төрлийн жишиг өгөгдлийн багц' нийтлэлээс "Нүүрний гоо сайхныг урьдчилан таамаглах" (FBP) сүлжээг санал болгосон бөгөөд энэ нь царайг хүлээн зөвшөөрөгдсөн дур булаам байдлаар нь эрэмблэх чадвартай боловч бодит байдал дээр хувиргах боломжгүй юм. эсвэл "шинэчилсэн" царай.  Эх сурвалж: https://arxiv.org/pdf/1801.06345.pdf

Шинэ ажлаас ялгаатай нь 2018 оны төсөл нь өөрчлөлтийг бодитоор гүйцэтгэх боломжгүй боловч 5,500 холимог хүйсийн шошгологчоор хангагдсан 60 нүүрэнд зориулсан алгоритмын үнэлгээг агуулсан (50/50 хуваах). Эдгээрийг үр дүнтэй гэж шинэ системд оруулсан ялгаварлагч, дүрсний "сэтгэл татам байдлыг" нэмэгдүүлэх магадлалтай өөрчлөлтүүдийг мэдээлэх.

Сонирхолтой нь шинэ цаас гэсэн гарчигтай Гоо зүйд тулгуурласан бататгах сургалтаар удирдаж болохуйц үзэсгэлэнтэй Кавказ царайг бий болгох. Кавказаас бусад бүх үндэстнийг системээс хассан шалтгаан нь (судлаачид өөрсдөө Хятад гэдгийг ч бас бодоорой) SCUT-ийн эх сурвалжийн мэдээллүүд нь Азийн эх сурвалжид (4000 тэгш хуваагдсан ази эмэгтэй/эрэгтэй, 1500 жигд хуваагдсан кавказ эмэгтэй) хазайсантай холбоотой юм. /эрэгтэй), энэ мэдээллийн багц дахь "дундаж хүн"-ийг бор үстэй, бор нүдтэй болгодог.

Тиймээс, ядаж нэг уралдааны хүрээнд будгийн өөрчлөлтийг зохицуулахын тулд анхны өгөгдлөөс Азийн бүрэлдэхүүн хэсгүүдийг хасах, эс тэгвээс өгөгдлөө сэргээн засварлахад ихээхэн зардал гаргах шаардлагатай байсан бөгөөд энэ нь шийдэгдээгүй байж магадгүй юм. Нэмж хэлэхэд, гоо сайхны талаарх соёлын ойлголтын өөрчлөлт Энэ нь "сэтгэл татам байдал" гэж юу болох талаар ийм системд газарзүйн тодорхой тохиргоо хэрэгтэй болно гэсэн үг юм.

Холбогдох шинж чанарууд

Судлаачид хүний ​​"сэтгэл татам" гэрэл зургийн үндсэн хүчин зүйлийг тодорхойлохын тулд зураг дээрх янз бүрийн өөрчлөлтийн үр нөлөөг туршиж үзсэн бөгөөд энэ нь "гоо үзэсгэлэн" гэсэн алгоритмын ойлголтыг хэрхэн сайжруулж байгааг судалжээ. Тэд сайн генетикээс илүү сайн гэрэл зураг авахад дор хаяж нэг тал нь чухал болохыг олж мэдэв.

Гэрэлтүүлгээс гадна гоо сайхны оноонд хамгийн их нөлөөлсөн талууд нь үсний үс (эрэгтэйчүүдийн хувьд ихэвчлэн бүтэн толгойтой тэнцэх боломжтой), биеийн байрлал, нүдний байрлал (харилцаж байх үед) байв. камерын харах өнцөг нь сэтгэл татам байдлыг илэрхийлдэг).

("Уруулын будгийн өнгө"-ийн тухайд, эрэгтэй, эмэгтэй хүйсийн танилцуулгад үр дүнтэй ажиллах боломжтой шинэ систем нь хүйсийн гадаад төрхийг ялгаж салгахгүй, харин энэ тал дээр "шүүлтүүр" болох шинэ ялгаварлагч системд тулгуурладаг)

арга

Шинэ систем дэх бататгах сургалтын механизм дахь урамшууллын функц нь нүүрний гоо сайхны таамаглалыг гаргадаг SCUT өгөгдөл дээр шууд регрессээр ажилладаг.

Сургалтын систем нь өгөгдөл оруулах зургуудыг давтдаг (доорх схемийн зүүн доод талд). Эхэндээ урьдчилан бэлтгэсэн ResNet18 загвар (сургагдсан IMAGEnet) таван ижил ('y') зургаас онцлогуудыг гаргаж авдаг. Дараа нь, боломжит хувиргах үйлдлийг a-ийн далд төлөвөөс гаргаж авна бүрэн холбогдсон давхарга (GRUCell, доорх зурган дээр) болон хувиргасан өөрчлөлтүүд нь гоо зүйн онооны сүлжээнд орсон таван өөрчлөгдсөн зургийг гаргахад хүргэсэн бөгөөд Дарвин маягийн зэрэглэл нь ямар өөрчлөлтийг боловсруулж, аль нь устгахыг тодорхойлох болно.

Шинэ системийн ажлын явцын өргөн хүрээний дүрслэл.

Шинэ системийн ажлын явцын зураглал.

Гоо зүйн онооны сүлжээ нь үр ашигтай сувгийн анхаарлыг ашигладаг (ECA) модуль, харин урьдчилан бэлтгэгдсэн жишээ нь дасан зохицох EfficientNet-B4 зураг бүрээс 1,792 шинж чанарыг гаргаж авах үүрэгтэй.

Агаар дамжуулан хэвийн болсны дараа ReLU идэвхжүүлэх функц, 4 хэмжээст векторыг ECA модулиас буцаан авч, дараа нь идэвхжүүлсний дараа нэг хэмжээст вектор болгон хавтгайруулна. дасан зохицох дундаж нэгдэл. Эцэст нь, үр дүн нь хооллож байна регрессийн сүлжээ, энэ нь гоо зүйн оноог олж авдаг.

Системээс гарах бүтээгдэхүүний чанарын харьцуулалт. Доод эгнээнд бид EigenGAN аргаар тодорхойлж, дараа нь сайжруулсан бүх бие даасан талуудын нэгтгэсэн нийлбэрийг харж байна. Зургийн дундаж FID оноо нь зургийн эгнээний зүүн талд байна (өндөр байвал сайн).

Системээс гарах бүтээгдэхүүний чанарын харьцуулалт. Доод эгнээнд бид EigenGAN аргаар тодорхойлж, дараа нь сайжруулсан бүх бие даасан талуудын нэгтгэсэн нийлбэрийг харж байна. Зургийн дундаж FID оноо нь зургийн эгнээний зүүн талд байна (өндөр байвал сайн).

Туршилт ба хэрэглэгчийн судалгаа

Санал болгож буй аргын таван хувилбарыг алгоритмын дагуу үнэлэв (дээрх зургийг үз), Фречетийн эхлэлийн зай (FID, зарим хэсэгт маргаантай) системээр дамжуулсан нийт 1000 зурагт оноогдсон оноо.

Судлаачид гэрэлтүүлгийг сайжруулснаар зураг дээрх объектуудын сэтгэл татам байдлын оноог бусад хэд хэдэн "тодорхой" өөрчлөлтөөс (өөрөөр хэлбэл дүрслэгдсэн хүний ​​бодит дүр төрх) хийсэн гэж тэмдэглэжээ.

Тодорхой хэмжээгээр системийг ийм байдлаар турших нь SCUT-ийн өгөгдлийн хазайлтаар хязгаарлагддаг бөгөөд энэ нь "тод инээмсэглэл"-тэй байдаггүй бөгөөд энэ нь илүү ердийн "оньсого" дүр төрхийг хэтрүүлж болзошгүй гэж зохиогчид үзэж байна. өгөгдлүүд нь зорилтот эцсийн хэрэглэгчдийн боломжит сонголттой харьцуулахад (энэ тохиолдолд барууны зах зээл байж магадгүй).

Гэсэн хэдий ч бүхэл бүтэн систем нь ердөө 60 хүний ​​дундаж дундаж саналд тулгуурладаг (EigenGAN баримт бичигт) бөгөөд судалж буй чанар нь эмпирикээс хол байгаа тул процедур нь өгөгдлийн багцаас илүү найдвартай гэж маргаж болно.

Уг нийтлэлд үүнийг маш товчоор авч үзсэн ч EigenGAN-ийн зургууд болон системийн өөрийн таван хувилбарыг мөн хязгаарлагдмал хэрэглэгчийн судалгаанд (найман оролцогч) үзүүлсэн бөгөөд тэднээс "хамгийн сайн зураг"-ыг ("сэтгэл татам" гэсэн үг) сонгохыг хүссэн. зайлсхийсэн).

Дээрх, GUI жижиг судалгааны бүлэгт танилцуулсан; доор, үр дүн.

Дээрх, GUI жижиг судалгааны бүлэгт танилцуулсан; доор, үр дүн.

Үр дүн нь шинэ системийн гаралт оролцогчдын дунд хамгийн өндөр сонгон шалгаруулалтад хүрсэн болохыг харуулж байна (дээрх зураг дээрх 'MAES').

(Зорилгогүй юу?) Гоо сайхны эрэл хайгуул

Ийм системийн ашиг тусыг бий болгоход хэцүү байдаг хэдий ч a тэмдэглүүштэй байршил of хүчин чармайлт in Хятад улс эдгээр зорилгын төлөө. Шинэ хэвлэлд аль нь ч тоймгүй байна.

Өмнөх EigenGAN баримт бичигт* гоо сайхныг таних системийг нүүрний арьсанд ашиглаж болохыг санал болгосон бүрдүүлэгч синтезийн зөвлөмжийн системүүд, гоо зүйн мэс засал, нүүр гоо сайхан, эсвэл агуулгад суурилсан зураг хайх.

Ийм аргыг эцсийн хэрэглэгчид болзох сайтуудад ашиглаж, хуучирсан зураг, зургийг ашиглахын оронд өөрсдийн профайлын зургийг баталгаатай "азын зураг" болгон "сайжруулж" болох юм. бусад хүмүүсийн.

Үүний нэгэн адил, болзооны сайтууд өөрсдөө үйлчлүүлэгчдээ "оноо" авч, үнэлгээ өгөх боломжтой хязгаарлагдмал хандалтын түвшин, гэхдээ энэ нь илгээсэн зургуудаас илүүтэйгээр зөвхөн амьд байдлыг баталгаажуулах аргаар ажиллах болно (хэрэв энэ арга нь түгээмэл болох юм бол үйлчлүүлэгчид мөн адил "сайжруулах" боломжтой).

Зар сурталчилгаанд гоо сайхныг үнэлэх алгоритмын арга (шинжлэх ухааны зөгнөлт зохиолч Майкл Кричтон 1982 онд кино театрт гарахдаа таамаглаж байсан технологи) Хараач) нь зорилтот үзэгчдийн анхаарлыг татахуйц сайжруулаагүй бүтээлч бүтээлийг сонгоход ашиглагдаж болох бөгөөд нүүрний зургийн гоо зүйн нөлөөллийг бодитоор нь гүнзгийрүүлэхгүйгээр дарж бичих чадвар нь аль хэдийн төлөвлөсөн үр дүнтэй зургуудыг нэмэгдүүлэх боломжтой. олон нийтийн сонирхлыг татах.

Шинэ ажлыг Хятадын Үндэсний Байгалийн Шинжлэх Ухааны Сан, Цогц системийн удирдлага, хяналтын улсын гол лабораторийн нээлттэй сангийн төсөл, Хятадын Боловсролын яамны Философи, нийгмийн шинжлэх ухааны судалгааны төсөл зэрэг бусад дэмжигчид дэмжиж байна.

 

* EigenGAN баримт бичгийн ихэнх зөвлөмжүүд нь эрдэм шинжилгээний эх сурвалжаас илүүтэйгээр 2016 онд худалдаанд гарсан "Нүүрний гоо сайхны шинжилгээнд зориулсан компьютерийн загварууд" нэртэй номыг чиглүүлдэг.

Анх 11 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.