Хиймэл оюун

Машины сургалтын тусламжтайгаар объектуудыг видеоноос илүү үр дүнтэй устгах

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Хятадаас хийсэн шинэ судалгаагаар бичлэгээс объектуудыг маш сайн арилгах боломжтой видео будах шинэ системийн хамгийн сүүлийн үеийн үр дүн, түүнчлэн үр ашиг нь гайхалтай сайжирсан талаар мэдээлж байна.

Дэлгүүрт онгоцны морины оосорыг шинэ журмаар будсан. Илүү сайн нягтрал болон бусад жишээг авахын тулд эх сурвалжийн видеог (энэ нийтлэлийн доод хэсэгт суулгасан) үзнэ үү. Эх сурвалж: https://www.youtube.com/watch?v=N–qC3T2wc4

Урсгалын удирдамжтай видеог зурахад зориулсан төгсгөлөөс төгсгөл хүртэлх хүрээ гэж нэрлэгддэг техник (E²FGVI), мөн видео контентоос усан тэмдэг болон бусад төрлийн бөглөрөлтийг арилгах чадвартай.

E2FGVI нь түгжрэлийн ард байгаа агуулгын талаархи таамаглалыг тооцоолж, анхаарал татахуйц, шийдэгдэх боломжгүй усан тэмдгийг арилгах боломжийг олгодог. Эх сурвалж: https://github.com/MCG-NKU/E2FGVI

E2FGVI нь түгжрэлийн ард байгаа агуулгын урьдчилсан таамаглалыг тооцоолж, тэр ч байтугай анхаарал татахуйц, өөрөөр хэлбэл шийдвэрлэх боломжгүй усан тэмдгийг арилгах боломжийг олгодог. Эх сурвалж: https://github.com/MCG-NKU/E2FGVI

Илүү сайн нарийвчлалтай жишээг үзэхийн тулд нийтлэлийн төгсгөлд суулгасан видеог үзээрэй.

Хэвлэгдсэн нийтлэлд дурдсан загвар нь 432px x 240px видеонууд дээр бэлтгэгдсэн боловч (ихэвчлэн бага оролтын хэмжээ, боломжит GPU зай болон оновчтой багцын хэмжээ болон бусад хүчин зүйлсээр хязгаарлагддаг) зохиогчид дараа нь гаргасан. E²FGVI-HQ, энэ нь видеог дурын нарийвчлалтайгаар зохицуулах боломжтой.

Одоогийн хувилбарын код нь боломжтой GitHub дээр байгаа бол өнгөрсөн ням гарагт гарсан HQ хувилбарыг эндээс татаж авах боломжтой Google Drive болон Baidu диск.

Хүүхэд зураг дээр үлддэг.

E²FGVI нь Titan XP GPU (432 ГБ VRAM) дээр 240 × 0.12 видеог кадр бүрт 12 секундэд боловсруулах боломжтой бөгөөд зохиогчид систем нь өмнөх сүүлийн үеийн аргуудаас XNUMX дахин хурдан ажилладаг гэж зохиогчид мэдээлж байна. оптик урсгал.

Теннисчин гэнэтийн гарц гаргажээ.

Зургийн синтезийн судалгааны энэ дэд салбарын стандарт өгөгдлийн багц дээр туршсан шинэ арга нь чанарын болон тоон үнэлгээний үе шатанд өрсөлдөгчдөөсөө давж гарсан.

Өмнөх аргуудын эсрэг туршилтууд. Эх сурвалж: https://arxiv.org/pdf/2204.02663.pdf

The цаасан гэсэн гарчигтай Урсгалын удирдамжтай видео будгийн төгсгөл хүртэлх хүрээ рүү, мөн Нанкай их сургуулийн дөрвөн судлаач, Hisilicon Technologies-ийн судлаачийн хамтын ажиллагаа юм.

Энэ зурганд юу дутагдаж байна

Визуал эффектийн тодорхой хэрэглээнээс гадна өндөр чанартай видео будах нь хиймэл оюун ухаанд суурилсан шинэ дүрсний синтез болон дүрсийг өөрчлөх технологийн үндсэн шинж чанар болох юм.

Энэ нь ялангуяа биеийг өөрчилдөг загварын хэрэглээ болон бусад хүрээнүүдэд хамаатай "турах"-ыг эрэлхийлэх эсвэл зураг, видеон дээрх үзэгдлүүдийг өөр аргаар өөрчлөх. Ийм тохиолдолд синтезээр ил гарсан нэмэлт дэвсгэрийг үнэмшилтэйгээр "бөглөх" шаардлагатай.

Саяхан хэвлэгдсэн нийтлэлээс харахад биеийн "хэлбэрийг өөрчлөх" алгоритм нь субьектийн хэмжээг өөрчлөх үед шинээр илэрсэн дэвсгэрийг будах үүрэгтэй. Энд тэр дутууг (бодит амьдрал, зүүн талын зургийг харна уу) бүрэн биетэй хүний эзэлж байсан улаан тоймоор дүрсэлсэн байна. https://arxiv.org/pdf/2203.10496.pdf-ийн эх сурвалжид үндэслэсэн

Когерент оптик урсгал

Оптик урсгал (OF) нь видео объектыг устгах хөгжлийн гол технологи болсон. А шиг атлас, OF нь цаг хугацааны дарааллын нэг удаагийн зураглалыг өгдөг. Компьютерийн харааны санаачилгад хурдыг хэмжихэд ихэвчлэн ашигладаг OF нь Дисней маягийн "хүрээ тутамд" анхаарлыг татахын оронд даалгаврын нийлбэр дүнг нэг дамжлагад авч үзэх боломжтой түр зуурын тогтвортой зургийг идэвхжүүлдэг. түр зуурын тасалдал руу.

Өнөөдрийг хүртэл видео зураг зурах аргууд нь гурван үе шаттай үйл явц дээр төвлөрсөн байдаг. урсгалыг дуусгах, видеог үндсэндээ салангид, судлах боломжтой объект болгон буулгасан; пикселийн тархалт, "эвдэрсэн" видеонуудын нүхийг хоёр чиглэлтэй тархалтын пикселээр дүүргэсэн; болон агуулгын хий үзэгдэл (DALL-E цуврал гэх мэт гүнзгий фэйкүүд болон текстээс дүрс рүү шилжүүлэх хүрээнээс бидний ихэнх нь мэддэг пикселийн "шинэ бүтээл").

Гол инноваци нь Э²FGVI нь эдгээр гурван үе шатыг эцсийн систем болгон нэгтгэж, агуулга эсвэл үйл явц дээр гар ажиллагаа явуулах хэрэгцээг арилгадаг.

Гарын авлагын хөндлөнгийн оролцоо шаардлагатай байгаа нь хуучин процессууд нь GPU-ийн давуу талыг ашиглахгүй байхыг шаарддаг бөгөөд энэ нь маш их цаг хугацаа шаарддаг болохыг баримт бичигт тэмдэглэжээ. Цааснаас*:

'Авч байна DFVI Жишээ нь, 432 × 240 хэмжээтэй нэг видеог дуусгах DAVIS70 орчим фрейм агуулсан 4 минут орчим хугацаа шаардагддаг бөгөөд энэ нь ихэнх бодит програмуудад хүлээн зөвшөөрөгдөхгүй. Үүнээс гадна дээр дурьдсан сул талуудыг эс тооцвол зөвхөн агуулгын хий үзэгдэл үүсгэх үе шатанд урьдчилан бэлтгэсэн зураг зурах сүлжээг ашиглах нь түр зуурын хөршүүд хоорондын агуулгын харилцааг үл тоомсорлож, видеонуудын тогтворгүй контент үүсэхэд хүргэдэг.'

Видео зургийн гурван үе шатыг нэгтгэснээр Э²FGVI нь хоёр дахь шат болох пикселийн тархалтыг функцийн тархалтаар орлуулах боломжтой. Өмнөх ажлуудын илүү сегментчилсэн процессуудад функцууд тийм ч өргөн хүрээтэй байдаггүй, учир нь үе шат бүр нь харьцангуй герметик, ажлын урсгал нь зөвхөн хагас автоматжуулсан байдаг.

Нэмж дурдахад судлаачид a түр зуурын фокусын трансформатор Одоогийн фрейм дэх пикселийн шууд хөршүүдийг (өмнөх эсвэл дараагийн зураг дээрх хүрээний тэр хэсэгт юу болж байгааг) төдийгүй олон фрэймийн зайд байгаа алс холын хөршүүдийг авч үздэг агуулгын хий үзэгдлийн үе шатанд. Энэ нь бүхэлдээ видеон дээр хийгдсэн аливаа үйлдлүүдийн нэгдмэл нөлөөнд нөлөөлөх болно.

E2FGVI-ийн архитектур.

Ажлын урсгалын шинэ онцлогт суурилсан төв хэсэг нь илүү онцлог түвшний процессууд болон суралцах боломжтой түүврийн офсетуудын давуу талыг ашиглах боломжтой бол төслийн шинэ фокусын трансформатор нь зохиогчдын үзэж байгаагаар фокусын цонхны хэмжээг "2 хэмжээстээс 3 хэмжээст" болгон өргөтгөсөн байна. .

Туршилт ба өгөгдөл

Туршихын тулд Э²FGVI, судлаачид системийг хоёр алдартай видео объектын сегментчиллийн өгөгдлийн багцын эсрэг үнэлэв. YouTube-VOSБолон DAVIS. YouTube-VOS нь 3741 сургалтын видео клип, 474 баталгаажуулалтын клип, 508 тестийн клипийг багтаасан бол DAVIS нь 60 сургалтын видео клип, 90 тестийн клипийг агуулдаг.

E²FGVI-г YouTube-VOS дээр сургаж, хоёр өгөгдлийн багц дээр үнэлэв. Сургалтын үеэр объектын маскуудыг (дээрх зурган дээрх ногоон хэсгүүд болон доорх суулгагдсан видео) видео дуусгахыг дуурайлган хийсэн.

Хэмжих үзүүлэлтүүдийн хувьд судлаачид нөлөөлөлд өртсөн видеон дахь түр зуурын тогтвортой байдлыг хэмжихийн тулд Оргил дохио-дуугианы харьцаа (PSNR), Бүтцийн ижил төстэй байдал (SSIM), Видео дээр суурилсан Fréchet Inception Distance (VFID), Flow Warping Error зэргийг ашигласан.

Системийг туршиж үзсэн өмнөх архитектурууд нь байсан VINet, DFVI, LGTSM, CAP, FGVC, STTNБолон FuseFormer.

Баримт бичгийн тоон үр дүнгийн хэсгээс. Дээш, доош сумнууд нь илүү их эсвэл бага тоонууд нь илүү сайн болохыг харуулж байна. E2FGVI нь самбар дээрх хамгийн сайн оноог авдаг. Аргуудыг FuseFormer-ийн дагуу үнэлдэг боловч DFVI, VINet болон FGVC нь төгсгөлийн систем биш тул тэдгээрийн FLOP-ийг тооцоолох боломжгүй болгодог.

Өрсөлдөгч бүх системүүдийн эсрэг хамгийн сайн оноо авахын зэрэгцээ судлаачид чанарын хувьд хэрэглэгчийн судалгаа хийж, таван төлөөлөх аргаар өөрчилсөн видеог хорин сайн дурынханд тус тусад нь үзүүлж, харааны чанарын хувьд үнэлэхийг хүссэн.

Босоо тэнхлэг нь харааны чанарын хувьд E2FGVI гаралтыг илүүд үзсэн оролцогчдын хувийг илэрхийлнэ.

Босоо тэнхлэг нь E-г илүүд үзсэн оролцогчдын хувийг илэрхийлнэ²Харааны чанарын хувьд FGVI гаралт.

Зохиогчид өөрсдийн аргыг санал нэгтэй илүүд үзэж байгаа хэдий ч үр дүнгийн нэг болох FGVC нь тоон үр дүнг тусгаагүй гэж тэмдэглэсэн бөгөөд энэ нь Е.²Ялангуяа FGVI нь "харагдахад илүү тааламжтай үр дүн" үүсгэж магадгүй юм.

Үр ашгийн хувьд тэдний систем нь DAVIS өгөгдлийн багц дээрх ганц Titan GPU дээр секундэд хөвөх цэгийн үйл ажиллагаа (FLOPs) болон дүгнэлт гаргах хугацааг эрс багасгадаг болохыг зохиогчид тэмдэглэж, үр дүн нь E байгааг харуулж байна.²FGVI нь урсгалд суурилсан аргуудаас x15 илүү хурдан ажилладаг.

Тэд тайлбар:

'[Э²FGVI] нь бусад бүх аргуудаас ялгаатай нь хамгийн бага FLOP-ийг эзэмшдэг. Энэ нь санал болгож буй арга нь видео зураг зурахад өндөр үр ашигтай болохыг харуулж байна.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Миний зохиогчдын ишлэлийг гипер холбоос болгон хөрвүүлсэн нь.

Анх 19 оны тавдугаар сарын 2022-нд нийтлэгдсэн.

Холбогдох сэдвүүд:зургийн синтез судалгаа трансформаторын видео

Дараа хүртэл

Machine Learning ашиглан "Мэргэжлийн" хортой онлайн шүүмжийг илрүүлэх

Бүү саад бол

AI техник хангамжийн технологи нь мэдрэлийн сүлжээний топологийн өөрчлөлтийг дуурайдаг

Мартин Андерсон

Машин сургалт, хиймэл оюун ухаан, том өгөгдлийн талаар зохиолч.
Хувийн сайт: martinanderson.ai
Холбоо барих: [имэйлээр хамгаалагдсан]
Twitter: @manders_ai

Unite.AI

Машины сургалтын тусламжтайгаар объектуудыг видеоноос илүү үр дүнтэй устгах

Хиймэл оюун