stub Гүнзгий суралцах загварууд хиймэл оюун ухаанаар бий болсон зургийг танихад бэрхшээлтэй байж магадгүй - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Гүнзгий суралцах загварууд хиймэл оюун ухаанаар бүтээгдсэн зургийг таньж мэдэхэд бэрхшээлтэй байж магадгүй

mm
шинэчлэгдсэн on

Шинэ баримт бичгийн үр дүнгээс үзэхэд орчин үеийн хиймэл оюун ухаан нь хиймэл оюун ухаанаар нийлэгжүүлсэн зургийг таних, тайлбарлах чадвар нь хүмүүсийг бодвол хамаагүй бага байгааг харуулж байгаа бөгөөд энэ нь машин сургалтын загваруудыг синтетик өгөгдөлд сургаж сургаж буй ойрын цаг уурын хувьд санаа зовоож магадгүй юм. мөн өгөгдөл нь "бодит" эсэх нь мэдэгдэхгүй байх болно.

Энд бид resnext101_32x8d_wsl таамаглах загварыг "багель" ангилалд өрсөлдөж байгааг харж байна. Туршилтын үеэр таамагласан эхний таван үр дүнд гол зорилтот үг (энэ тохиолдолд 'bagel') ороогүй бол таних алдаа гарсан гэж үзсэн. Эх сурвалж: https://arxiv.org/pdf/2208.10760.pdf

Энд бид resnext101_32x8d_wsl таамаглах загварыг "багель" ангилалд өрсөлдөж байгааг харж байна. Туршилтын үеэр таамагласан эхний таван үр дүнд гол зорилтот үг (энэ тохиолдолд 'bagel') ороогүй бол таних алдаа гарсан гэж үзсэн. Эх сурвалж: https://arxiv.org/pdf/2208.10760.pdf

Шинэ судалгаагаар компьютерийн хараанд суурилсан таних тогтолцооны хоёр ангиллыг туршиж үзсэн: объектыг таних, харааны асуултанд хариулах (VQA).

Зүүн талд, объект таних системээс гарсан амжилт, бүтэлгүйтлийн дүгнэлт; баруун талд, үзэгдэл, дүрсийн талаарх хиймэл оюун ухааны ойлголтыг илүү эрэл хайгуул, ач холбогдолтой байдлаар шалгах зорилготой VQA даалгаврууд. Эх сурвалж: https://arxiv.org/pdf/2105.05312.pdf болон https://arxiv.org/pdf/1505.00468.pdf

Зүүн талд, объект таних системээс гарсан амжилт, бүтэлгүйтлийн дүгнэлт; баруун талд, үзэгдэл, дүрсийн талаарх хиймэл оюун ухааны ойлголтыг илүү эрэл хайгуул, ач холбогдолтой байдлаар шалгах зорилготой VQA даалгаврууд. Эх сурвалж: https://arxiv.org/pdf/2105.05312.pdf болон https://arxiv.org/pdf/1505.00468.pdf

Зургийн синтезийн хүрээгээр үүсгэсэн өгөгдлийн багц дээр туршсан хамгийн сүүлийн үеийн арван загвараас DALL-E2 болон Замын дунд, хамгийн сайн гүйцэтгэлтэй загвар нь зөвхөн 60% ба 80% -ийн шилдэг 5-ын нарийвчлалыг хоёр төрлийн туршилтаар хангаж чадсан бол ImageNeСинтетик бус, бодит өгөгдөл дээр сургагдсан t нь ижил ангилалд тус бүр 91% ба 99% хүрч чаддаг бол хүний ​​гүйцэтгэл нь ихэвчлэн мэдэгдэхүйц өндөр байдаг.

Эргэн тойрон дахь асуудлыг шийдвэрлэх түгээлтийн шилжилт ("Model Drift" буюу "Загвар Дрифт" гэдэг нь сургалтын өгөгдлөөс "бодит" өгөгдөл рүү шилжихэд урьдчилан таамаглах загварууд нь таамаглах чадвараа бууруулдаг) гэж уг баримт бичигт дурджээ.

'Хүмүүс бүтээсэн зургуудыг таньж, түүн дээрх асуултуудад амархан хариулж чаддаг. Бид a) гүнзгий загварууд үүсгэсэн агуулгыг ойлгоход бэрхшээлтэй байдаг бөгөөд нарийн тохируулсны дараа илүү сайн ажиллах боломжтой, б) үүсгэсэн зураг болон бодит гэрэл зургийн хооронд их хэмжээний тархалтын өөрчлөлт гардаг гэж бид дүгнэж байна. Түгээлтийн шилжилт нь категориос хамааралтай байх шиг байна.'

Өнгөрсөн долоо хоногийн дараа интернетэд аль хэдийн үерлэсэн синтетик зургуудын хэмжээг харгалзан үзвэл сенсаацтай нээлттэй эх сурвалж хүчирхэг хүмүүсийн Тогтвортой тархалт далд тархалтын синтезийн загвар нь "хуурамч" зургууд зэрэг салбарын стандарт мэдээллийн багц руу орох магадлал аяндаа үүсдэг. Нийтлэг мөлхөгч, олон жилийн нарийвчлалын өөрчлөлтөд "бодит бус" зургууд ихээхэн нөлөөлж болзошгүй.

Хэдийгээр синтетик өгөгдөл байсан илгээгдсэн Өгөгдлийн хомсдолд нэрвэгдсэн компьютерийн харааны судалгааны салбарын боломжит аврагчийн хувьд хэт масштабтай болгоход ихэвчлэн нөөц, төсөв хомс байдаг тул Тогтвортой тархалттай зургуудын шинэ урсгал (үүхэнд гарч ирснээс хойш синтетик зургууд ерөнхийдөө өссөн. арилжааны of DALL-E2) нь бүгдэд нь "хуурамч" гэж ялгах хэрэгтэй шошго, тэмдэглэгээ, хэштегүүд байх магадлал багатай тул шуналтай машины харааны систем тэднийг интернетээс устгадаг.

Нээлттэй эхийн зургийн синтезийн хүрээг хөгжүүлэх хурд нь эдгээр системүүдийн зургийг ангилах чадвараас ихээхэн давж гарсан. 'хуурамч зураг' илрүүлэх сонирхол нэмэгдэж байна системтэй төстэй гүн хуурамч илрүүлэлт системүүд, гэхдээ бүхэл бүтэн зургийг үнэлэх үүрэг хүлээсэн нүүрний хэсгүүд.

The шинэ цаас гэсэн гарчигтай Үүсгэсэн зургуудыг ойлгоход гүн гүнзгий загварууд хэр сайн байдаг вэ??, мөн Сан Францискогийн машин сургалтын Quintic AI стартапын Али Боржигаас гаралтай.

Өгөгдөл

Энэхүү судалгаа нь Stable Diffusion хувилбар гарахаас өмнө хийгдсэн бөгөөд туршилтууд нь DALL-E 2 болон Midjourney-ийн үүсгэсэн өгөгдлийг 17 ангилалд ашигладаг. заан, мөөг, пицца, урьдын адил, трактор болон туулай.

Хамгийн чухал гол ойлголтыг тодорхойлохын тулд шалгасан таних болон VQA системийг сорьсон зургуудын жишээ.

Хамгийн чухал гол ойлголтыг тодорхойлохын тулд шалгасан таних болон VQA системийг сорьсон зургуудын жишээ.

Зургийг вэб хайлт болон Twitter-ээр дамжуулан DALL-E 2-ын бодлогын дагуу (наад зах нь, тэр үед), хүний ​​царайг харуулсан ямар ч зураг оруулаагүй. Зөвхөн хүмүүст танигдах сайн чанарын зургуудыг сонгосон.

Объект таних болон VQA даалгавруудад зориулж тус бүр нэгийг нь хоёр багц зургийг сонгосон.

Объект танихын тулд шалгасан ангилал бүрт байгаа зургийн тоо.

Объект танихын тулд шалгасан ангилал бүрт байгаа зургийн тоо.

Объектыг таних туршилт

Объект таних тестийн хувьд ImageNet дээр сургагдсан арван загварыг туршсан. AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Эхлэл_V3, ДейтБолон ResNext_WSL.

Туршилтанд хамрагдсан системүүдийн зарим ангиуд бусдаасаа илүү нарийн ширхэгтэй байсан тул дундаж арга барилыг ашиглах шаардлагатай болсон. Жишээлбэл, ImageNet нь "цаг"-д хамаарах гурван ангиллыг агуулдаг бөгөөд ямар нэгэн төрлийн "цаг"-ыг ямар ч зургийн шилдэг таван шошгонд оруулах нь амжилттай гэж үзсэн арбитрын хэмжүүрийг тодорхойлох шаардлагатай байв. тэр тохиолдолд.

17 ангиллын загвар бүрийн гүйцэтгэл.

17 ангиллын загвар бүрийн гүйцэтгэл.

Энэ тойргийн хамгийн сайн гүйцэтгэлтэй загвар нь resnext101_32x8d_ws байсан бөгөөд эхний 60-д бараг 1% (өөрөөр хэлбэл, таван таамаглалаас илүүд үзсэн таамаглал нь зураг дээр тусгагдсан зөв үзэл баримтлал байсан үе), эхний тавд 80% ( өөрөөр хэлбэл хүссэн үзэл баримтлал нь зургийн талаархи таван таамаглалд дор хаяж хаа нэгтээ жагсаасан байсан).

Зохиогч энэ загвар нь сайн гүйцэтгэлтэй байгаа нь олон нийтийн мэдээллийн хэрэгслийн платформ дахь hashtags-ийн таамаглалыг сул хяналтанд байлгахад бэлтгэгдсэнтэй холбоотой гэж үзэж байна. Гэсэн хэдий ч эдгээр тэргүүлэх үр дүн нь ImageNet-ийн бодит өгөгдөл дээр хүрч чадах хэмжээнээс доогуур буюу 91% ба 99% байна гэж зохиогч тэмдэглэв. Энэ нь ImageNet зураг (мөн вэбээс хасагдсан) болон үүсгэсэн зургуудын тархалтын хоорондох томоохон ялгаанаас үүдэлтэй гэж тэр үзэж байна.

Системийн хувьд хамгийн хэцүү таван ангилал нь хүндрэлийн дарааллаар байв цаасан шувуу, яст мэлхий, хэрэм, нарны шилнүүдийг болон малгай. Уг сонинд тэмдэглэсэн байна цаасан шувуу анги гэж ихэвчлэн андуурдаг бөмбөлөг, шүхэр болон дээвэрГэсэн хэдий ч эдгээр ялгааг ажиглагчид ялгахад хялбар байдаг.

Зарим ангилал, үүнд цаасан шувуу болон яст мэлхий, бүх загварт нийтээрээ бүтэлгүйтэхэд хүргэсэн бол бусад нь (ялангуяа урьдын адил болон трактор) туршсан загварууд дээр бараг бүх нийтийн амжилтанд хүрсэн.

Туйлшруулсан категориуд: Сонгосон зорилтот категориудын зарим нь бүх загварт нийцсэн, эсвэл бүх загварт танихад хялбар байсан.

Туйлшруулсан категориуд: Сонгосон зорилтот категориудын зарим нь бүх загварт нийцсэн, эсвэл бүх загварт танихад хялбар байсан.

Зохиогчид эдгээр олдворууд нь объектыг таних бүх загварууд ижил төстэй давуу болон сул талуудтай байж болохыг харуулж байна гэж таамаглаж байна.

Визуал асуултын хариултыг шалгах

Дараа нь зохиогч хоёртын асуулттай (өөрөөр хэлбэл зөвхөн "тийм" эсвэл "үгүй" гэсэн хариулт байж болох асуултууд) нээлттэй ба чөлөөт хэлбэрийн VQA дээр VQA загваруудыг туршиж үзсэн. Сүүлийн үеийн хамгийн сүүлийн үеийн VQA загварууд нь 95% нарийвчлалтай байх боломжтой гэж уг баримт бичжээ. VQA-v2 өгөгдлийн багц.

Туршилтын энэ үе шатанд зохиогч 50 зургийг сонгож, тэдгээрийн эргэн тойронд 241 асуултыг томъёолсны 132 нь эерэг, 109 нь сөрөг хариулттай байв. Асуултын дундаж урт 5.12 үг байв.

Энэ тойрог ашигласан OFA загвар, даалгаврын иж бүрэн байдлыг шалгах зорилгоор даалгавар-агностик болон горим-агностик тогтолцоог ашигласан бөгөөд саяхан онооны тэргүүлэгч болсон. VQA-v2 тест-std багц. VQA-v77.27 тест-std багц дахь өөрийн 94.7% оноотой харьцуулахад OFA нь үүсгэсэн зураг дээр 2% нарийвчлалтай оноо авсан.

Тестийн VQA хэсгийн жишээ асуултууд болон үр дүн. "GT" нь "Газар үнэн" буюу зөв хариулт юм.

Тестийн VQA хэсгийн жишээ асуултууд болон үр дүн. "GT" нь "Газар үнэн" буюу зөв хариулт юм.

Үүсгэсэн зургууд нь VQA-v2 өгөгдлийн багцад байхгүй семантик ойлголтуудыг агуулж байгаатай холбоотой байж болох ба VQA тестэнд зориулж бичсэн асуултууд нь VQA-v2 асуултуудын ерөнхий стандартад илүү төвөгтэй байж магадгүй гэж нийтлэлийн зохиогч үзэж байна. өмнөх шалтгаан нь илүү магадлалтай гэж үздэг.

Өгөгдлийн урсгал дахь LSD?

Санал Байгальд байхгүй үндсэн ухагдахууны агшин зуурын холболт, хийсвэрлэлийг харуулж чадах хиймэл оюун ухаанаар нийлэгжүүлсэн зураглал шинээр олширч, уламжлалт аргаар бүтээхэд маш их цаг хугацаа шаардагддаг нь хяналт муутай өгөгдөлд тодорхой бэрхшээл учруулж болзошгүй юм. цуглуулах системүүд нь маш сайн бүтэлгүйтэх боломжгүй байдаг нь ихэвчлэн өндөр эзэлхүүнтэй, шошгогүй синтетик өгөгдлийг боловсруулахад зориулагдаагүй учраас.

Ийм тохиолдолд эдгээр системүүд нь "хачирхалтай" нийлэг зургуудын тодорхой хувийг буруу ангилалд оруулах эрсдэлтэй байж болно, учир нь эдгээр зургууд нь хоорондоо огт хамааралгүй ялгаатай объектуудыг агуулдаг.

"Морь унаж буй сансрын нисгэгч" нь шинэ үеийн дүрсний синтезийн системийн хувьд хамгийн бэлгэ тэмдэг болсон байж магадгүй ч эдгээр "бодит бус" харилцаа нь анхаарал хандуулахгүй бол бодит илрүүлэх системд нэвтэрч магадгүй юм. Эх сурвалж: https://twitter.com/openai/status/1511714545529614338?lang=en

"Морь унаж буй сансрын нисгэгч" нь магадгүй шинэ үеийн дүрсний синтезийн системийн хувьд хамгийн бэлгэ тэмдэг болсон дүрслэл болсон ч анхаарал болгоомжтой хандахгүй бол эдгээр "бодит бус" харилцаа нь бодит илрүүлэх системд нэвтэрч магадгүй юм. Эх сурвалж: https://twitter.com/openai/status/1511714545529614338?lang=en

Сургалтын өмнөх бэлтгэлийн үе шатанд үүнийг урьдчилан сэргийлэх боломжгүй бол ийм автоматжуулсан дамжуулах хоолой нь машин сургалтын системд сургах боломжгүй эсвэл бүр бүдүүлэг холбоог бий болгож, тэдгээрийн үр нөлөөг бууруулж, дээд түвшний холбоог доод систем, дэд ангиудад шилжүүлэх эрсдэлтэй болно. болон ангилал.

Өөрөөр хэлбэл, салангид нийлэг зургууд нь хожмын системийн нарийвчлалд "хөргөх нөлөө" үзүүлж магадгүй бөгөөд ингэснээр шинэ эсвэл өөрчилсөн архитектурууд гарч ирэх бөгөөд эдгээрийг тооцоолох оролдлого хийх болно. Ad hoc нийлэг зураглал, хэт өргөн торыг цутгах.

Аль ч тохиолдолд Тогтвортой тархалтын дараах эрин үеийн синтетик зураглал нь эдгээр хачирхалтай бүтээлүүд, чадавхийг бий болгосон компьютерийн харааны судалгааны салбарын хувьд толгойны өвчин болж магадгүй юм. эцэст нь одоогийнхоос хамаагүй илүү автоматжуулж, зардал багатай, цаг хугацаа их шаарддаг.

 

Анх 1 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.