Kacerdasan buatan
Misahkeun Manusa 'Fused' dina Visi Komputer
Makalah anyar ti Pusat Inovasi Grup Hyundai Motor di Singapura nawiskeun metode pikeun misahkeun manusa anu 'menyatu' dina visi komputer - kasus dimana kerangka pangenal obyék mendakan manusa anu dina sababaraha cara 'deukeut teuing' ka manusa sanés (sapertos). salaku lampah 'ngarangkul', atawa 'nangtung di tukang' pose), sarta teu bisa ngarecah dua jalma digambarkeun, ngabingungkeun aranjeunna pikeun hiji jalma atawa éntitas.
Ieu masalah kasohor anu geus narima deal gede perhatian dina komunitas panalungtikan dina taun panganyarna. Ngarengsekeunana tanpa biaya hyperscale anu jelas tapi biasana teu mampuh, panyiri khusus anu dipimpin manusa pamustunganana tiasa ngaktifkeun perbaikan individuasi manusa dina sistem téks-ka-gambar sapertos Difusi Stabil, nu remen 'ngalembereh' jalma babarengan dimana hiji pose ditanya merlukeun sababaraha jalma pikeun jadi deukeut ka silih.
Sanaos modél generatif sapertos DALL-E 2 sareng Stable Diffusion henteu (sajauhna terang saha waé, dina kasus sumber tertutup DALL-E 2) ayeuna nganggo ségméntasi semantik atanapi pangakuan obyék, portmanteaus manusa anu aneh ieu henteu tiasa. ayeuna tiasa diubaran ku cara nerapkeun metode hulu sapertos kitu - sabab kaayaan perpustakaan sareng sumber pangenalan objék seni henteu langkung saé pikeun ngabéréskeun jalma tibatan KLIPworkflows basis model difusi laten.
Pikeun ngajawab masalah ieu, nu kertas anyar – dijudulan Manusa teu kedah labél langkung seueur manusa: Occlusion Copy & Paste for Occluded Instance Instance Segmentation- nyaluyukeun sareng ningkatkeun pendekatan 'potong sareng témpél' panganyarna pikeun data semi-sintétik pikeun ngahontal kalungguhan SOTA énggal dina tugas, bahkan ngalawan bahan sumber anu paling nangtang:
Potong Éta Out!
Metodeu dirobah - judulna Occlusion Salin & Témpél - diturunkeun tina 2021 Salin-témpél basajan kertas, dipingpin ku Google Research, nu ngusulkeun yén superimposing objék sasari jeung jalma diantara rupa-rupa gambar latihan sumber bisa ngaronjatkeun kamampuh hiji sistem pangakuan gambar discretize unggal conto kapanggih dina gambar:
Versi anyar nambihan watesan sareng parameter kana 'repasting' otomatis sareng algoritmik ieu, ngaanalogikeun prosés kana 'karinjang' gambar anu pinuh ku calon poténsial pikeun 'mindahkeun' ka gambar sanés, dumasar kana sababaraha faktor konci.
Ngadalikeun Unsur
Éta faktor ngawatesan ngawengku kamungkinan tina hiji cut jeung némpelkeun kajadian, nu ensures yén prosés teu ngan lumangsung sepanjang waktos, nu bakal ngahontal éfék 'jenuh' nu bakal ngaruksak augmentation data; éta sajumlah gambar nu karinjang bakal boga iraha wae, dimana sajumlah badag 'segmén' bisa ngaronjatkeun rupa instansi, tapi nambahan waktu pre-processing; jeung jajaran, anu nangtukeun jumlah gambar anu bakal ditempelkeun kana gambar 'host'.
Ngeunaan anu terakhir, catetan kertas 'Urang kudu cukup occlusion lumangsung, acan teu loba teuing sabab bisa over-clutter gambar, nu bisa jadi detrimental ka learning.'
Dua inovasi séjén pikeun OC&P nyaéta némpelkeun sasaran jeung augmented conto pasting.
Sasaran pasting ensures yén hiji gambar apposite lemahna deukeut hiji conto aya dina gambar target. Dina pendekatan saméméhna, ti karya saméméhna, unsur anyar ieu ngan konstrain dina wates gambar, tanpa tinimbangan konteks.
Témpél conto tambahan, di sisi anu sanésna, mastikeun yén instansi anu ditempelkeun henteu nunjukkeun 'penampilan anu béda' anu tiasa digolongkeun ku sistem dina sababaraha cara, anu tiasa nyababkeun pangaluaran atanapi 'perlakuan khusus' anu tiasa ngahalangan generalisasi sareng aplikasi. . némpelkeun Augmented modulates faktor visual kayaning kacaangan jeung seukeutna gambar, skala jeung rotasi, sarta jenuh - diantara faktor séjén.
Salaku tambahan, OC&P ngatur a ukuran minimum pikeun sagala conto pastes. Contona, meureun mungkin nimba hiji gambar hiji jalma tina pamandangan riungan masif, nu bisa ditempelkeun kana gambar sejen - tapi bisi kitu, sajumlah leutik piksel kalibet moal dipikaresep mantuan pangakuan. Ku alatan éta, sistem nerapkeun skala minimum dumasar kana babandingan panjang sisi equalized pikeun gambar target.
Salajengna, OC & P institutes skala-sadar némpelkeun, dimana, salian ti neangan kaluar subjék sarupa salaku subjék némpelkeun, éta nyokot akun tina ukuran buleud wates dina gambar target. Sanajan kitu, ieu teu ngakibatkeun gambar komposit yen jalma bakal dianggap janten masuk akal atawa realistis (tingali gambar di handap), tapi assembles elemen semantically apposite deukeut ka silih ku cara anu mantuan salila latihan.
Kanyata Ngegelé
Boh karya saméméhna anu dumasar kana OC&P, sareng palaksanaan ayeuna, nempatkeun premium anu rendah dina kaaslian, atanapi 'photoreality' tina gambar 'montaged' ahir. Padahal éta penting yén assembly final teu turun sagemblengna kana Dadaisme (Salainna, panyebaran dunya nyata tina sistem anu dilatih henteu kantos ngarep-ngarep pikeun mendakan unsur-unsur dina pamandangan sapertos anu dilatih), duanana inisiatif mendakan yén paningkatan anu signifikan dina 'kredibilitas visual' henteu ngan ukur nambihan waktos pra-prosés, tapi yén 'peningkatan realisme' sapertos kitu sigana leres-leres kontra-produktif.
Data jeung Tés
Pikeun fase nguji, sistem ieu dilatih dina jelema kelas tina MS COCO set data, nampilkeun 262,465 conto manusa dina 64,115 gambar. Nanging, pikeun kéngingkeun masker kualitas anu langkung saé tibatan MS COCO, gambar-gambar éta ogé nampi LVIS annotations topeng.
Pikeun meunteun kumaha sistem anu digedékeun tiasa bersaing ngalawan sajumlah ageung gambar manusa anu terhalang, panalungtik nyetél OC&P ngalawan OCHuman (Occluded Manusa) patokan.
Kusabab patokan OCHuman henteu dijelaskeun sacara lengkep, panalungtik makalah anyar nyiptakeun sawaréh ngan ukur conto anu dilabélan lengkep, anu judulna OCHumanFL. Ieu ngurangan jumlah jelema instansi ka 2,240 sakuliah 1,113 gambar pikeun validasi, sarta 1,923 instansi sakuliah 951 sabenerna gambar dipaké pikeun nguji. Boh set asli sareng anu énggal-énggal diuji, nganggo Mean Average Precision (mAP) salaku métrik inti.
Pikeun konsistensi, arsitéktur diwangun tina Topeng R-CNN kalawan ResNet-50 tulang tonggong jeung a fitur piramida jaringan, dimungkinkeun nyadiakeun hiji kompromi ditarima antara akurasi jeung speed latihan.
Kalawan peneliti geus nyatet pangaruh deleterious hulu IMAGEnet pangaruh dina kaayaan sarupa, sakabeh sistem dilatih ti scratch on 4 NVIDIA V100 GPUs, pikeun 75 epochs, nuturkeun parameter initialization tina release 2021 Facebook. Detéktor 2.
Results
Salian hasil di luhur-disebutkeun, hasil dasar ngalawan MMDeteksi (sareng tilu model anu aya hubunganana) pikeun tés nunjukkeun kalungguhan anu jelas pikeun OC&P dina kamampuan pikeun milih manusa tina pose anu berbelit-belit.
Di sagigireun outperforming PoSeg jeung Pose2Seg, Panginten salah sahiji prestasi anu paling pinunjul dina makalah éta nyaéta sistem éta tiasa sacara umum diterapkeun kana kerangka anu aya, kalebet anu diadu ngalawan éta dina uji coba (tingali kalayan / tanpa babandingan dina kotak hasil munggaran, caket awal artikel).
Makalah nyimpulkeun:
'Kauntungan konci tina pendekatan kami nyaéta gampang diterapkeun sareng modél atanapi perbaikan modél-centric anu sanés. Dibikeun kagancangan dina widang diajar anu jero, éta kauntungan pikeun sadayana gaduh pendekatan anu tiasa dioperasikeun sareng unggal aspék pelatihan anu sanés. Urang ninggalkeun salaku karya hareup pikeun ngahijikeun ieu kalawan perbaikan model-centric pikeun éféktif ngajawab occluded jalma conto segmentation.'
Poténsial pikeun Ngaronjatkeun Sintésis Téks-ka-Gambar
Panulis utama Evan Ling niténan, dina email ka kami *, yén kauntungan utama OC&P nyaéta yén éta tiasa nahan labél topéng asli sareng kéngingkeun nilai énggal ti aranjeunna 'gratis' dina kontéks novel - nyaéta, gambar-gambar anu aranjeunna parantos didamel. ditempelkeun kana.
Sanaos ségméntasi semantik manusa sigana raket patalina sareng kasusah anu aya dina modél sapertos Stable Diffusion dina ngaindividuasi jalma (tinimbang 'ngahijikeun aranjeunna', sakumaha anu sering dilakukeun), pangaruh naon waé anu tiasa dipiboga ku budaya panyiri semantik sareng manusa ngalamun. renders yén SD na DALL-E 2 mindeng kaluaran pisan, jauh pisan hulu.
The milyaran tina LAION 5B gambar subset nu populate kakuatan generatif Stable Difusi urang teu ngandung labél obyék-tingkat kayaning buleud wates jeung masker conto, sanajan arsitektur CLIP nu nyusun renders tina gambar jeung eusi database mungkin geus benefited di sawatara titik tina instantiation misalna; rada, gambar LAION anu dilabélan pikeun 'gratis', saprak labél maranéhanana anu diturunkeun tina metadata jeung captions lingkungan, jsb, nu pakait sareng gambar nalika aranjeunna scraped tina web kana dataset nu.
'Tapi éta kumisan,' Ling ngawartoskeun kami. 'Sababaraha jinis paningkatan anu sami sareng OC&P urang tiasa dianggo nalika palatihan modél generatif téks-to-gambar. Tapi kuring bakal nganggap realisme gambar latihan anu digedékeun tiasa janten masalah.
'Dina karya urang, urang némbongkeun yén realisme 'sampurna' umumna teu diperlukeun pikeun segmentation conto diawasan, tapi Kaula teu yakin teuing lamun kacindekan sarua bisa digambar keur téks-to-gambar latihan model generative (utamana lamun outputs maranéhanana). dipiharep realistis pisan). Dina hal ieu, leuwih karya bisa jadi perlu dipigawé dina watesan 'nyempurnakeun' realisme tina gambar augmented.'
CLIP nyaeta geus dipaké salaku alat multimodal mungkin pikeun segmentasi semantik, nunjukkeun yén ningkat pangakuan jalma sareng sistem individuasi sapertos OC&P pamustunganana tiasa dikembangkeun janten saringan atanapi klasifikasi in-sistem anu sawenang-wenang nolak perwakilan manusa anu 'lebur' sareng menyimpang - tugas anu sesah dihontal. ayeuna kalayan Difusi Stabil, sabab boga pangabisa kawates ngartos dimana eta erred (lamun miboga kamampuh saperti, eta bakal meureun moal geus nyieun kasalahan di tempat munggaran).
'Patarosan anu sanés,' Ling nunjukkeun. 'ngan saukur bakal nyoco model generative ieu gambar manusa occluded salila latihan latihan, tanpa model pelengkap desain arsitektur pikeun mitigate isu "manusa fusing"? Éta meureun patarosan anu hese dijawab off-hand. Pasti bakal jadi istiméwa ningali kumaha urang bisa imbue sababaraha nurun conto-tingkat hidayah (via conto-tingkat labél kawas conto topeng) salila téks-to-gambar latihan model generative.'
* 10 Oktober 2022
Mimiti diterbitkeun 10 Oktober 2022.