tunggul Misahkeun Manusa 'Fused' dina Visi Komputer - Unite.AI
Connect with kami

Kacerdasan buatan

Misahkeun Manusa 'Fused' dina Visi Komputer

mm
diropéa on

Makalah anyar ti Pusat Inovasi Grup Hyundai Motor di Singapura nawiskeun metode pikeun misahkeun manusa anu 'menyatu' dina visi komputer - kasus dimana kerangka pangenal obyék mendakan manusa anu dina sababaraha cara 'deukeut teuing' ka manusa sanés (sapertos). salaku lampah 'ngarangkul', atawa 'nangtung di tukang' pose), sarta teu bisa ngarecah dua jalma digambarkeun, ngabingungkeun aranjeunna pikeun hiji jalma atawa éntitas.

Dua janten hiji, tapi éta sanés hal anu saé dina ségméntasi semantik. Di dieu urang ningali sistem anyar kertas urang ngahontal hasil state-of-nu-seni on individualation jalma intertwined dina gambar kompléks jeung nangtang. Sumber: https://arxiv.org/pdf/2210.03686.pdf

Dua janten hiji, tapi éta sanés hal anu saé dina ségméntasi semantik. Di dieu urang ningali sistem anyar kertas urang ngahontal hasil state-of-nu-seni on individualation jalma intertwined dina gambar kompléks jeung nangtang. Sumber: https://arxiv.org/pdf/2210.03686.pdf

Ieu masalah kasohor anu geus narima deal gede perhatian dina komunitas panalungtikan dina taun panganyarna. Ngarengsekeunana tanpa biaya hyperscale anu jelas tapi biasana teu mampuh, panyiri khusus anu dipimpin manusa pamustunganana tiasa ngaktifkeun perbaikan individuasi manusa dina sistem téks-ka-gambar sapertos Difusi Stabil, nu remen 'ngalembereh' jalma babarengan dimana hiji pose ditanya merlukeun sababaraha jalma pikeun jadi deukeut ka silih.

Nangkeup horor - modél téks-ka-gambar sapertos DALL-E 2 sareng Stable Diffusion (duanana diulas di luhur) berjuang pikeun ngagambarkeun jalma anu caket pisan.

Nangkeup horor - modél téks-ka-gambar sapertos DALL-E 2 sareng Stable Diffusion (duanana diulas di luhur) berjuang pikeun ngagambarkeun jalma anu caket pisan.

Sanaos modél generatif sapertos DALL-E 2 sareng Stable Diffusion henteu (sajauhna terang saha waé, dina kasus sumber tertutup DALL-E 2) ayeuna nganggo ségméntasi semantik atanapi pangakuan obyék, portmanteaus manusa anu aneh ieu henteu tiasa. ayeuna tiasa diubaran ku cara nerapkeun metode hulu sapertos kitu - sabab kaayaan perpustakaan sareng sumber pangenalan objék seni henteu langkung saé pikeun ngabéréskeun jalma tibatan KLIPworkflows basis model difusi laten.

Pikeun ngajawab masalah ieu, nu kertas anyar – dijudulan Manusa teu kedah labél langkung seueur manusa: Occlusion Copy & Paste for Occluded Instance Instance Segmentation- nyaluyukeun sareng ningkatkeun pendekatan 'potong sareng témpél' panganyarna pikeun data semi-sintétik pikeun ngahontal kalungguhan SOTA énggal dina tugas, bahkan ngalawan bahan sumber anu paling nangtang:

Metodologi Occlusion Copy & Paste anyar ayeuna nuju di lapangan sanajan ngalawan kerangka kerja sareng pendekatan sateuacana anu ngarengsekeun tantangan ku cara anu rumit sareng langkung khusus, sapertos modél khusus pikeun occlusion.

Metodologi Occlusion Copy & Paste anyar ayeuna nuju di lapangan sanajan ngalawan kerangka kerja sareng pendekatan sateuacana anu ngarengsekeun tantangan ku cara anu rumit sareng langkung khusus, sapertos modél khusus pikeun occlusion.

Potong Éta Out!

Metodeu dirobah - judulna Occlusion Salin & Témpél - diturunkeun tina 2021 Salin-témpél basajan kertas, dipingpin ku Google Research, nu ngusulkeun yén superimposing objék sasari jeung jalma diantara rupa-rupa gambar latihan sumber bisa ngaronjatkeun kamampuh hiji sistem pangakuan gambar discretize unggal conto kapanggih dina gambar:

Tina makalah anu dipimpin ku Panaliti Google 2021 'Salin-Tempél Basajan nyaéta Métode Ngagedékeun Data anu Kuat pikeun Segméntasi Instance', urang ningali unsur-unsur tina hiji poto 'migrasi' ka poto anu sanés, kalayan tujuan ngalatih modél pangenalan gambar anu langkung saé sareng langkung acuitive. . Sumber: https://arxiv.org/pdf/2012.07177.pdf

Tina makalah anu dipimpin Panaliti Google 2021 'Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation', urang ningali unsur-unsur tina hiji poto 'migrasi' ka poto anu sanés, kalayan tujuan ngalatih modél pangenalan gambar anu langkung saé. Sumber: https://arxiv.org/pdf/2012.07177.pdf

Versi anyar nambihan watesan sareng parameter kana 'repasting' otomatis sareng algoritmik ieu, ngaanalogikeun prosés kana 'karinjang' gambar anu pinuh ku calon poténsial pikeun 'mindahkeun' ka gambar sanés, dumasar kana sababaraha faktor konci.

Aliran kerja konseptual pikeun OC&P.

Aliran kerja konseptual pikeun OC&P.

Ngadalikeun Unsur

Éta faktor ngawatesan ngawengku kamungkinan tina hiji cut jeung némpelkeun kajadian, nu ensures yén prosés teu ngan lumangsung sepanjang waktos, nu bakal ngahontal éfék 'jenuh' nu bakal ngaruksak augmentation data; éta sajumlah gambar nu karinjang bakal boga iraha wae, dimana sajumlah badag 'segmén' bisa ngaronjatkeun rupa instansi, tapi nambahan waktu pre-processing; jeung jajaran, anu nangtukeun jumlah gambar anu bakal ditempelkeun kana gambar 'host'.

Ngeunaan anu terakhir, catetan kertas 'Urang kudu cukup occlusion lumangsung, acan teu loba teuing sabab bisa over-clutter gambar, nu bisa jadi detrimental ka learning.'

Dua inovasi séjén pikeun OC&P nyaéta némpelkeun sasaran jeung augmented conto pasting.

Sasaran pasting ensures yén hiji gambar apposite lemahna deukeut hiji conto aya dina gambar target. Dina pendekatan saméméhna, ti karya saméméhna, unsur anyar ieu ngan konstrain dina wates gambar, tanpa tinimbangan konteks.

Sanaos 'témpél' ieu, kalayan témpél anu dituju, écés ku panon manusa, boh OC&P sareng anu miheulaanna parantos mendakan yén paningkatan kaaslian visual henteu penting, bahkan tiasa janten tanggung jawab (tingali 'Reality Bites' di handap).

Sanaos 'témpél' ieu, kalayan témpél anu dituju, écés ku panon manusa, boh OC&P sareng miheulaan na parantos mendakan yén paningkatan kaaslian visual henteu penting, bahkan tiasa janten tanggung jawab (tingali 'Reality Bites' di handap).

Témpél conto tambahan, di sisi anu sanésna, mastikeun yén instansi anu ditempelkeun henteu nunjukkeun 'penampilan anu béda' anu tiasa digolongkeun ku sistem dina sababaraha cara, anu tiasa nyababkeun pangaluaran atanapi 'perlakuan khusus' anu tiasa ngahalangan generalisasi sareng aplikasi. . némpelkeun Augmented modulates faktor visual kayaning kacaangan jeung seukeutna gambar, skala jeung rotasi, sarta jenuh - diantara faktor séjén.

Tina bahan tambahan pikeun makalah anyar: nambihan OC&P kana kerangka pangakuan anu tos aya cukup sepele, sareng nyababkeun individuasi unggul jalma dina wates anu caket pisan. Sumber: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

Tina bahan tambahan pikeun makalah anyar: nambihan OC&P kana kerangka pangakuan anu tos aya cukup sepele, sareng nyababkeun individuasi unggul jalma dina wates anu caket pisan. Sumber: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

Salaku tambahan, OC&P ngatur a ukuran minimum pikeun sagala conto pastes. Contona, meureun mungkin nimba hiji gambar hiji jalma tina pamandangan riungan masif, nu bisa ditempelkeun kana gambar sejen - tapi bisi kitu, sajumlah leutik piksel kalibet moal dipikaresep mantuan pangakuan. Ku alatan éta, sistem nerapkeun skala minimum dumasar kana babandingan panjang sisi equalized pikeun gambar target.

Salajengna, OC & P institutes skala-sadar némpelkeun, dimana, salian ti neangan kaluar subjék sarupa salaku subjék némpelkeun, éta nyokot akun tina ukuran buleud wates dina gambar target. Sanajan kitu, ieu teu ngakibatkeun gambar komposit yen jalma bakal dianggap janten masuk akal atawa realistis (tingali gambar di handap), tapi assembles elemen semantically apposite deukeut ka silih ku cara anu mantuan salila latihan.

Kanyata Ngegelé

Boh karya saméméhna anu dumasar kana OC&P, sareng palaksanaan ayeuna, nempatkeun premium anu rendah dina kaaslian, atanapi 'photoreality' tina gambar 'montaged' ahir. Padahal éta penting yén assembly final teu turun sagemblengna kana Dadaisme (Salainna, panyebaran dunya nyata tina sistem anu dilatih henteu kantos ngarep-ngarep pikeun mendakan unsur-unsur dina pamandangan sapertos anu dilatih), duanana inisiatif mendakan yén paningkatan anu signifikan dina 'kredibilitas visual' henteu ngan ukur nambihan waktos pra-prosés, tapi yén 'peningkatan realisme' sapertos kitu sigana leres-leres kontra-produktif.

Tina bahan tambahan kertas anyar: conto gambar anu ditambahan sareng 'campuran acak'. Sanajan adegan ieu bisa kasampak hallucinogenic ka hiji jalma, aranjeunna tetep mibanda subjék sarupa dialungkeun babarengan; sanajan occlusions anu fantastis pikeun panon manusa, alam potensi occlusion teu bisa dipikawanoh sateuacanna, sarta mustahil pikeun ngalatih pikeun - ku kituna, aneh sapertos 'cut off' bentuk cukup pikeun maksa sistem dilatih pikeun neangan. kaluar jeung ngakuan subjék targét parsial, tanpa perlu ngamekarkeun metodologi Photoshop-gaya elaborate sangkan adegan leuwih masuk akal.

Tina bahan tambahan kertas anyar: conto gambar anu ditambahan sareng 'campuran acak'. Sanajan adegan ieu bisa kasampak hallucinogenic ka hiji jalma, aranjeunna tetep mibanda subjék sarupa dialungkeun babarengan; sanajan occlusions anu fantastis pikeun panon manusa, alam potensi occlusion teu bisa dipikawanoh sateuacanna, sarta mustahil pikeun ngalatih pikeun - ku kituna, aneh sapertos 'cut off' bentuk cukup pikeun maksa sistem dilatih pikeun neangan. kaluar jeung ngakuan subjék targét parsial, tanpa perlu ngamekarkeun metodologi Photoshop-gaya elaborate sangkan adegan leuwih masuk akal.

Data jeung Tés

Pikeun fase nguji, sistem ieu dilatih dina jelema kelas tina MS COCO set data, nampilkeun 262,465 conto manusa dina 64,115 gambar. Nanging, pikeun kéngingkeun masker kualitas anu langkung saé tibatan MS COCO, gambar-gambar éta ogé nampi LVIS annotations topeng.

Dirilis dina 2019, LVIS, tina riset Facebook, mangrupikeun set data anu ageung pikeun Segmentasi Instance Vocabulary ageung. Sumber: https://arxiv.org/pdf/1908.03195.pdf

Dirilis dina 2019, LVIS, tina riset Facebook, mangrupikeun set data anu ageung pikeun Segmentasi Instance Vocabulary ageung. Sumber: https://arxiv.org/pdf/1908.03195.pdf

Pikeun meunteun kumaha sistem anu digedékeun tiasa bersaing ngalawan sajumlah ageung gambar manusa anu terhalang, panalungtik nyetél OC&P ngalawan OCHuman (Occluded Manusa) patokan.

Conto tina susunan data OCHuman, diwanohkeun pikeun ngadukung proyék deteksi Pose2Seg di 2018. Inisiatif ieu narékahan pikeun nurunkeun segmentasi semantis jalma-jalma ku cara ngagunakeun jurus sareng pose salaku pembatas semantis dimana piksel anu ngagambarkeun awakna kamungkinan bakal mungkas Sumber: https://github.com/liruilong940607/OCHumanApi

Conto tina dataset OCHuman, diwanohkeun dina ngarojong proyék deteksi Pose2Seg di 2018. Inisiatif ieu narékahan pikeun nurunkeun segmentasi semantis ningkat jalma ku ngagunakeun jurus maranéhanana sarta pasang aksi salaku delimiter semantik pikeun piksel ngalambangkeun awakna.  Sumber: https://github.com/liruilong940607/OCHumanApi

Kusabab patokan OCHuman henteu dijelaskeun sacara lengkep, panalungtik makalah anyar nyiptakeun sawaréh ngan ukur conto anu dilabélan lengkep, anu judulna OCHumanFL. Ieu ngurangan jumlah jelema instansi ka 2,240 sakuliah 1,113 gambar pikeun validasi, sarta 1,923 instansi sakuliah 951 sabenerna gambar dipaké pikeun nguji. Boh set asli sareng anu énggal-énggal diuji, nganggo Mean Average Precision (mAP) salaku métrik inti.

Pikeun konsistensi, arsitéktur diwangun tina Topeng R-CNN kalawan ResNet-50 tulang tonggong jeung a fitur piramida jaringan, dimungkinkeun nyadiakeun hiji kompromi ditarima antara akurasi jeung speed latihan.

Kalawan peneliti geus nyatet pangaruh deleterious hulu IMAGEnet pangaruh dina kaayaan sarupa, sakabeh sistem dilatih ti scratch on 4 NVIDIA V100 GPUs, pikeun 75 epochs, nuturkeun parameter initialization tina release 2021 Facebook. Detéktor 2.

Results

Salian hasil di luhur-disebutkeun, hasil dasar ngalawan MMDeteksi (sareng tilu model anu aya hubunganana) pikeun tés nunjukkeun kalungguhan anu jelas pikeun OC&P dina kamampuan pikeun milih manusa tina pose anu berbelit-belit.

Di sagigireun outperforming PoSeg jeung Pose2Seg, Panginten salah sahiji prestasi anu paling pinunjul dina makalah éta nyaéta sistem éta tiasa sacara umum diterapkeun kana kerangka anu aya, kalebet anu diadu ngalawan éta dina uji coba (tingali kalayan / tanpa babandingan dina kotak hasil munggaran, caket awal artikel).

Makalah nyimpulkeun:

'Kauntungan konci tina pendekatan kami nyaéta gampang diterapkeun sareng modél atanapi perbaikan modél-centric anu sanés. Dibikeun kagancangan dina widang diajar anu jero, éta kauntungan pikeun sadayana gaduh pendekatan anu tiasa dioperasikeun sareng unggal aspék pelatihan anu sanés. Urang ninggalkeun salaku karya hareup pikeun ngahijikeun ieu kalawan perbaikan model-centric pikeun éféktif ngajawab occluded jalma conto segmentation.'

Poténsial pikeun Ngaronjatkeun Sintésis Téks-ka-Gambar

Panulis utama Evan Ling niténan, dina email ka kami *, yén kauntungan utama OC&P nyaéta yén éta tiasa nahan labél topéng asli sareng kéngingkeun nilai énggal ti aranjeunna 'gratis' dina kontéks novel - nyaéta, gambar-gambar anu aranjeunna parantos didamel. ditempelkeun kana.

Sanaos ségméntasi semantik manusa sigana raket patalina sareng kasusah anu aya dina modél sapertos Stable Diffusion dina ngaindividuasi jalma (tinimbang 'ngahijikeun aranjeunna', sakumaha anu sering dilakukeun), pangaruh naon waé anu tiasa dipiboga ku budaya panyiri semantik sareng manusa ngalamun. renders yén SD na DALL-E 2 mindeng kaluaran pisan, jauh pisan hulu.

The milyaran tina LAION 5B gambar subset nu populate kakuatan generatif Stable Difusi urang teu ngandung labél obyék-tingkat kayaning buleud wates jeung masker conto, sanajan arsitektur CLIP nu nyusun renders tina gambar jeung eusi database mungkin geus benefited di sawatara titik tina instantiation misalna; rada, gambar LAION anu dilabélan pikeun 'gratis', saprak labél maranéhanana anu diturunkeun tina metadata jeung captions lingkungan, jsb, nu pakait sareng gambar nalika aranjeunna scraped tina web kana dataset nu.

'Tapi éta kumisan,' Ling ngawartoskeun kami. 'Sababaraha jinis paningkatan anu sami sareng OC&P urang tiasa dianggo nalika palatihan modél generatif téks-to-gambar. Tapi kuring bakal nganggap realisme gambar latihan anu digedékeun tiasa janten masalah.

'Dina karya urang, urang némbongkeun yén realisme 'sampurna' umumna teu diperlukeun pikeun segmentation conto diawasan, tapi Kaula teu yakin teuing lamun kacindekan sarua bisa digambar keur téks-to-gambar latihan model generative (utamana lamun outputs maranéhanana). dipiharep realistis pisan). Dina hal ieu, leuwih karya bisa jadi perlu dipigawé dina watesan 'nyempurnakeun' realisme tina gambar augmented.'

CLIP nyaeta geus dipaké salaku alat multimodal mungkin pikeun segmentasi semantik, nunjukkeun yén ningkat pangakuan jalma sareng sistem individuasi sapertos OC&P pamustunganana tiasa dikembangkeun janten saringan atanapi klasifikasi in-sistem anu sawenang-wenang nolak perwakilan manusa anu 'lebur' sareng menyimpang - tugas anu sesah dihontal. ayeuna kalayan Difusi Stabil, sabab boga pangabisa kawates ngartos dimana eta erred (lamun miboga kamampuh saperti, eta bakal meureun moal geus nyieun kasalahan di tempat munggaran).

Ngan salah sahiji sajumlah proyék anu ayeuna ngagunakeun kerangka CLIP OpenAI - jantung DALL-E 2 sareng Stable Diffusion - pikeun ségméntasi semantik. Sumber: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

Ngan salah sahiji sajumlah proyék anu ayeuna ngagunakeun kerangka CLIP OpenAI - jantung DALL-E 2 sareng Stable Diffusion - pikeun ségméntasi semantik. Sumber: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

'Patarosan anu sanés,' Ling nunjukkeun. 'ngan saukur bakal nyoco model generative ieu gambar manusa occluded salila latihan latihan, tanpa model pelengkap desain arsitektur pikeun mitigate isu "manusa fusing"? Éta meureun patarosan anu hese dijawab off-hand. Pasti bakal jadi istiméwa ningali kumaha urang bisa imbue sababaraha nurun conto-tingkat hidayah (via conto-tingkat labél kawas conto topeng) salila téks-to-gambar latihan model generative.'

 

* 10 Oktober 2022

Mimiti diterbitkeun 10 Oktober 2022.