Хиймэл оюун
Машины сургалтын тусламжтайгаар объектуудыг видеоноос илүү үр дүнтэй устгах
Хятадаас хийсэн шинэ судалгаагаар бичлэгээс объектуудыг маш сайн арилгах боломжтой видео будах шинэ системийн хамгийн сүүлийн үеийн үр дүн, түүнчлэн үр ашиг нь гайхалтай сайжирсан талаар мэдээлж байна.
Урсгалын удирдамжтай видеог зурахад зориулсан төгсгөлөөс төгсгөл хүртэлх хүрээ гэж нэрлэгддэг техник (E2FGVI), мөн видео контентоос усан тэмдэг болон бусад төрлийн бөглөрөлтийг арилгах чадвартай.
Илүү сайн нарийвчлалтай жишээг үзэхийн тулд нийтлэлийн төгсгөлд суулгасан видеог үзээрэй.
Хэвлэгдсэн нийтлэлд дурдсан загвар нь 432px x 240px видеонууд дээр бэлтгэгдсэн боловч (ихэвчлэн бага оролтын хэмжээ, боломжит GPU зай болон оновчтой багцын хэмжээ болон бусад хүчин зүйлсээр хязгаарлагддаг) зохиогчид дараа нь гаргасан. E2FGVI-HQ, энэ нь видеог дурын нарийвчлалтайгаар зохицуулах боломжтой.
Одоогийн хувилбарын код нь боломжтой GitHub дээр байгаа бол өнгөрсөн ням гарагт гарсан HQ хувилбарыг эндээс татаж авах боломжтой Google Drive болон Baidu диск.
E2FGVI нь Titan XP GPU (432 ГБ VRAM) дээр 240 × 0.12 видеог кадр бүрт 12 секундэд боловсруулах боломжтой бөгөөд зохиогчид систем нь өмнөх сүүлийн үеийн аргуудаас XNUMX дахин хурдан ажилладаг гэж зохиогчид мэдээлж байна. оптик урсгал.
Зургийн синтезийн судалгааны энэ дэд салбарын стандарт өгөгдлийн багц дээр туршсан шинэ арга нь чанарын болон тоон үнэлгээний үе шатанд өрсөлдөгчдөөсөө давж гарсан.
The цаасан гэсэн гарчигтай Урсгалын удирдамжтай видео будгийн төгсгөл хүртэлх хүрээ рүү, мөн Нанкай их сургуулийн дөрвөн судлаач, Hisilicon Technologies-ийн судлаачийн хамтын ажиллагаа юм.
Энэ зурганд юу дутагдаж байна
Визуал эффектийн тодорхой хэрэглээнээс гадна өндөр чанартай видео будах нь хиймэл оюун ухаанд суурилсан шинэ дүрсний синтез болон дүрсийг өөрчлөх технологийн үндсэн шинж чанар болох юм.
Энэ нь ялангуяа биеийг өөрчилдөг загварын хэрэглээ болон бусад хүрээнүүдэд хамаатай "турах"-ыг эрэлхийлэх эсвэл зураг, видеон дээрх үзэгдлүүдийг өөр аргаар өөрчлөх. Ийм тохиолдолд синтезээр ил гарсан нэмэлт дэвсгэрийг үнэмшилтэйгээр "бөглөх" шаардлагатай.
Когерент оптик урсгал
Оптик урсгал (OF) нь видео объектыг устгах хөгжлийн гол технологи болсон. А шиг атлас, OF нь цаг хугацааны дарааллын нэг удаагийн зураглалыг өгдөг. Компьютерийн харааны санаачилгад хурдыг хэмжихэд ихэвчлэн ашигладаг OF нь Дисней маягийн "хүрээ тутамд" анхаарлыг татахын оронд даалгаврын нийлбэр дүнг нэг дамжлагад авч үзэх боломжтой түр зуурын тогтвортой зургийг идэвхжүүлдэг. түр зуурын тасалдал руу.
Өнөөдрийг хүртэл видео зураг зурах аргууд нь гурван үе шаттай үйл явц дээр төвлөрсөн байдаг. урсгалыг дуусгах, видеог үндсэндээ салангид, судлах боломжтой объект болгон буулгасан; пикселийн тархалт, "эвдэрсэн" видеонуудын нүхийг хоёр чиглэлтэй тархалтын пикселээр дүүргэсэн; болон агуулгын хий үзэгдэл (DALL-E цуврал гэх мэт гүнзгий фэйкүүд болон текстээс дүрс рүү шилжүүлэх хүрээнээс бидний ихэнх нь мэддэг пикселийн "шинэ бүтээл").
Гол инноваци нь Э2FGVI нь эдгээр гурван үе шатыг эцсийн систем болгон нэгтгэж, агуулга эсвэл үйл явц дээр гар ажиллагаа явуулах хэрэгцээг арилгадаг.
Гарын авлагын хөндлөнгийн оролцоо шаардлагатай байгаа нь хуучин процессууд нь GPU-ийн давуу талыг ашиглахгүй байхыг шаарддаг бөгөөд энэ нь маш их цаг хугацаа шаарддаг болохыг баримт бичигт тэмдэглэжээ. Цааснаас*:
'Авч байна DFVI Жишээ нь, 432 × 240 хэмжээтэй нэг видеог дуусгах DAVIS70 орчим фрейм агуулсан 4 минут орчим хугацаа шаардагддаг бөгөөд энэ нь ихэнх бодит програмуудад хүлээн зөвшөөрөгдөхгүй. Үүнээс гадна дээр дурьдсан сул талуудыг эс тооцвол зөвхөн агуулгын хий үзэгдэл үүсгэх үе шатанд урьдчилан бэлтгэсэн зураг зурах сүлжээг ашиглах нь түр зуурын хөршүүд хоорондын агуулгын харилцааг үл тоомсорлож, видеонуудын тогтворгүй контент үүсэхэд хүргэдэг.'
Видео зургийн гурван үе шатыг нэгтгэснээр Э2FGVI нь хоёр дахь шат болох пикселийн тархалтыг функцийн тархалтаар орлуулах боломжтой. Өмнөх ажлуудын илүү сегментчилсэн процессуудад функцууд тийм ч өргөн хүрээтэй байдаггүй, учир нь үе шат бүр нь харьцангуй герметик, ажлын урсгал нь зөвхөн хагас автоматжуулсан байдаг.
Нэмж дурдахад судлаачид a түр зуурын фокусын трансформатор Одоогийн фрейм дэх пикселийн шууд хөршүүдийг (өмнөх эсвэл дараагийн зураг дээрх хүрээний тэр хэсэгт юу болж байгааг) төдийгүй олон фрэймийн зайд байгаа алс холын хөршүүдийг авч үздэг агуулгын хий үзэгдлийн үе шатанд. Энэ нь бүхэлдээ видеон дээр хийгдсэн аливаа үйлдлүүдийн нэгдмэл нөлөөнд нөлөөлөх болно.
Ажлын урсгалын шинэ онцлогт суурилсан төв хэсэг нь илүү онцлог түвшний процессууд болон суралцах боломжтой түүврийн офсетуудын давуу талыг ашиглах боломжтой бол төслийн шинэ фокусын трансформатор нь зохиогчдын үзэж байгаагаар фокусын цонхны хэмжээг "2 хэмжээстээс 3 хэмжээст" болгон өргөтгөсөн байна. .
Туршилт ба өгөгдөл
Туршихын тулд Э2FGVI, судлаачид системийг хоёр алдартай видео объектын сегментчиллийн өгөгдлийн багцын эсрэг үнэлэв. YouTube-VOSБолон DAVIS. YouTube-VOS нь 3741 сургалтын видео клип, 474 баталгаажуулалтын клип, 508 тестийн клипийг багтаасан бол DAVIS нь 60 сургалтын видео клип, 90 тестийн клипийг агуулдаг.
E2FGVI-г YouTube-VOS дээр сургаж, хоёр өгөгдлийн багц дээр үнэлэв. Сургалтын үеэр объектын маскуудыг (дээрх зурган дээрх ногоон хэсгүүд болон доорх суулгагдсан видео) видео дуусгахыг дуурайлган хийсэн.
Хэмжих үзүүлэлтүүдийн хувьд судлаачид нөлөөлөлд өртсөн видеон дахь түр зуурын тогтвортой байдлыг хэмжихийн тулд Оргил дохио-дуугианы харьцаа (PSNR), Бүтцийн ижил төстэй байдал (SSIM), Видео дээр суурилсан Fréchet Inception Distance (VFID), Flow Warping Error зэргийг ашигласан.
Системийг туршиж үзсэн өмнөх архитектурууд нь байсан VINet, DFVI, LGTSM, CAP, FGVC, STTNБолон FuseFormer.
Өрсөлдөгч бүх системүүдийн эсрэг хамгийн сайн оноо авахын зэрэгцээ судлаачид чанарын хувьд хэрэглэгчийн судалгаа хийж, таван төлөөлөх аргаар өөрчилсөн видеог хорин сайн дурынханд тус тусад нь үзүүлж, харааны чанарын хувьд үнэлэхийг хүссэн.
Зохиогчид өөрсдийн аргыг санал нэгтэй илүүд үзэж байгаа хэдий ч үр дүнгийн нэг болох FGVC нь тоон үр дүнг тусгаагүй гэж тэмдэглэсэн бөгөөд энэ нь Е.2Ялангуяа FGVI нь "харагдахад илүү тааламжтай үр дүн" үүсгэж магадгүй юм.
Үр ашгийн хувьд тэдний систем нь DAVIS өгөгдлийн багц дээрх ганц Titan GPU дээр секундэд хөвөх цэгийн үйл ажиллагаа (FLOPs) болон дүгнэлт гаргах хугацааг эрс багасгадаг болохыг зохиогчид тэмдэглэж, үр дүн нь E байгааг харуулж байна.2FGVI нь урсгалд суурилсан аргуудаас x15 илүү хурдан ажилладаг.
Тэд тайлбар:
'[Э2FGVI] нь бусад бүх аргуудаас ялгаатай нь хамгийн бага FLOP-ийг эзэмшдэг. Энэ нь санал болгож буй арга нь видео зураг зурахад өндөр үр ашигтай болохыг харуулж байна.'
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*Миний зохиогчдын ишлэлийг гипер холбоос болгон хөрвүүлсэн нь.
Анх 19 оны тавдугаар сарын 2022-нд нийтлэгдсэн.