ປັນຍາປະດິດ

ການແກ້ໄຂເນື້ອຫາວິດີໂອ AI ທີ່ສອດຄ່ອງດ້ວຍການປ້ອນຂໍ້ຄວາມທີ່ແນະນຳ

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ໃນຂະນະທີ່ຊຸມຊົນ VFX ມືອາຊີບມີຄວາມສົນໃຈ - ແລະບາງຄັ້ງກໍ່ຮູ້ສຶກ ໄພຂົ່ມຂູ່ເລັກນ້ອຍ – ໂດຍການປະດິດສ້າງໃໝ່ໃນການສັງເຄາະຮູບພາບ ແລະວິດີໂອ, ການຂາດຄວາມຕໍ່ເນື່ອງຊົ່ວຄາວໃນໂຄງການຕັດຕໍ່ວີດີໂອທີ່ອີງໃສ່ AI ສ່ວນໃຫຍ່ເຮັດໃຫ້ຄວາມພະຍາຍາມເຫຼົ່ານີ້ອອກໄປຢູ່ໃນຂອບເຂດ 'psychedelic', ດ້ວຍ. shimmering ແລະການປ່ຽນແປງຢ່າງວ່ອງໄວ ໂຄງສ້າງ ແລະໂຄງສ້າງ, ຜົນກະທົບທີ່ບໍ່ສອດຄ່ອງກັນ ແລະປະເພດຂອງການຂັດກັນດ້ານເທັກໂນໂລຍີທີ່ຮຸນແຮງທີ່ຈື່ຈໍາ ຍຸກ photochemical ຜົນກະທົບທາງສາຍຕາ.

ຖ້າທ່ານຕ້ອງການປ່ຽນບາງອັນສະເພາະໃນວິດີໂອທີ່ບໍ່ຕົກຢູ່ໃນຂອບເຂດຂອງ deepfakes (ie, imposing ເອກະລັກໃຫມ່ກ່ຽວກັບ footage ທີ່ມີຢູ່ແລ້ວຂອງບຸກຄົນ), ການແກ້ໄຂໃນປະຈຸບັນສ່ວນໃຫຍ່ດໍາເນີນການພາຍໃຕ້ຂໍ້ຈໍາກັດທີ່ຂ້ອນຂ້າງຮ້າຍແຮງ, ໃນແງ່ຂອງ. ຄວາມແມ່ນຍໍາທີ່ຕ້ອງການສໍາລັບການຜະລິດຜົນກະທົບສາຍຕາ.

ຂໍ້ຍົກເວັ້ນຫນຶ່ງແມ່ນການເຮັດວຽກຢ່າງຕໍ່ເນື່ອງຂອງສະມາຄົມວ່າງຂອງນັກວິຊາການຈາກສະຖາບັນວິທະຍາສາດ Weizmann. ໃນປີ 2021, ສາມຂອງນັກຄົ້ນຄວ້າຂອງຕົນ, ຮ່ວມມືກັບ Adobe, ປະກາດ ວິທີການໃຫມ່ສໍາລັບການທໍາລາຍວິດີໂອແລະການ superimposing ການສ້າງແຜນທີ່ພາຍໃນທີ່ສອດຄ່ອງ - ກ atlas neural ຊັ້ນ – ເຂົ້າໄປໃນຜົນຜະລິດປະສົມປະກອບ, ສໍາເລັດດ້ວຍຊ່ອງທາງອັນຟາແລະຜົນຜະລິດທີ່ເປັນການຕິດຕໍ່ພົວພັນຊົ່ວຄາວ.

ຈາກເຈ້ຍປີ 2021: ການຄາດຄະເນການຂ້າມຜ່ານທີ່ສົມບູນຂອງເສັ້ນທາງໃນ clip ແຫຼ່ງແມ່ນໄດ້ຖືກດັດແກ້ຜ່ານເຄືອຂ່າຍ neural ໃນລັກສະນະທີ່ຕາມປະເພນີຕ້ອງການ rotoscoping ຢ່າງກວ້າງຂວາງແລະການຈັບຄູ່. ເນື່ອງຈາກອົງປະກອບຂອງພື້ນຫລັງແລະ foreground ຖືກຈັດການໂດຍເຄືອຂ່າຍທີ່ແຕກຕ່າງກັນ, ຫນ້າກາກແມ່ນ 'ອັດຕະໂນມັດ' ແທ້ໆ. ທີ່ມາ: https://layered-neural-atlases.github.io/

ເຖິງແມ່ນວ່າມັນຕົກຢູ່ບາງບ່ອນເຂົ້າໄປໃນພື້ນທີ່ປົກຄຸມໂດຍ ການໄຫຼ optical ໃນທໍ່ VFX, atlas ຊັ້ນບໍ່ມີທຽບເທົ່າໂດຍກົງໃນຂະບວນການເຮັດວຽກ CGI ແບບດັ້ງເດີມ, ເພາະວ່າມັນປະກອບເປັນ 'ແຜນທີ່ໂຄງສ້າງຊົ່ວຄາວ' ທີ່ສາມາດຜະລິດແລະແກ້ໄຂໂດຍຜ່ານວິທີການຊອບແວພື້ນເມືອງ. ໃນຮູບທີສອງໃນຮູບຂ້າງເທິງນີ້, ພື້ນຫລັງຂອງພື້ນຜິວຖະຫນົນແມ່ນສະແດງ (ໂດຍຕົວເລກ) ໃນທົ່ວ runtime ທັງຫມົດຂອງວິດີໂອ. ການປ່ຽນຮູບພື້ນຖານນັ້ນ (ຮູບທີສາມຈາກຊ້າຍໃນຮູບພາບຂ້າງເທິງ) ຜະລິດຕະພັນການປ່ຽນແປງທີ່ສອດຄ້ອງກັນໃນພື້ນຖານ.

ຮູບພາບຂອງ atlas 'unfolded' ຂ້າງເທິງພຽງແຕ່ເປັນຕົວແທນຂອງແຕ່ລະກອບການຕີຄວາມ; ການປ່ຽນແປງທີ່ສອດຄ້ອງກັນໃນເຟຣມວິດີໂອເປົ້າໝາຍໃດໜຶ່ງແມ່ນຖືກສ້າງແຜນທີ່ກັບຄືນສູ່ກອບຕົ້ນສະບັບ, ຮັກສາການປິດບັງທີ່ຈຳເປັນ ແລະຜົນກະທົບຂອງສາກທີ່ຈຳເປັນອື່ນໆ ເຊັ່ນ: ເງົາ ຫຼືການສະທ້ອນ.

ສະຖາປັດຕະຍະກໍາຫຼັກໃຊ້ Multilayer Perceptron (MLP) ເພື່ອເປັນຕົວແທນຂອງ atlases unfolded, ຊ່ອງ alpha ແລະແຜນທີ່, ທັງຫມົດແມ່ນ optimized ໃນຄອນເສີດ, ແລະທັງຫມົດໃນຊ່ອງ 2D, obviating ຄວາມຮູ້ເບື້ອງຕົ້ນແບບ NeRF ຂອງຈຸດເລຂາຄະນິດ 3D, ແຜນທີ່ຄວາມເລິກ, ແລະການດັກແບບ CGI ທີ່ຄ້າຍຄືກັນ.

atlas ອ້າງອິງຂອງວັດຖຸສ່ວນບຸກຄົນຍັງສາມາດປ່ຽນແປງໄດ້ຢ່າງຫນ້າເຊື່ອຖື:

ການປ່ຽນແປງທີ່ສອດຄ່ອງກັບວັດຖຸທີ່ເຄື່ອນໄຫວພາຍໃຕ້ຂອບປີ 2021. ທີ່ມາ: https://www.youtube.com/watch?v=aQhakPFC4oQ

ໂດຍພື້ນຖານແລ້ວ, ລະບົບ 2021 ປະສົມປະສານການຈັດລຽງເລຂາຄະນິດ, ການຈັບຄູ່, ການເຄື່ອນທີ່, ການສ້າງແຜນທີ່, ການປັບໂຄງສ້າງຄືນໃໝ່ ແລະ rotoscoping ເຂົ້າໄປໃນຂະບວນການ neural ທີ່ແຍກກັນ.

Text2Live

ນັກຄົ້ນຄວ້າຕົ້ນສະບັບສາມຄົນຂອງເອກະສານ 2021, ຮ່ວມກັບການຄົ້ນຄວ້າ NVIDIA, ແມ່ນໃນບັນດາຜູ້ປະກອບສ່ວນເຂົ້າໃນນະວັດກໍາໃຫມ່ກ່ຽວກັບເຕັກນິກການລວມເອົາພະລັງງານຂອງ atlases ຊັ້ນກັບປະເພດຂອງເທກໂນໂລຍີ CLIP ນໍາພາຂໍ້ຄວາມທີ່ກັບຄືນມາມີຊື່ສຽງໃນອາທິດນີ້ກັບ OpenAI ຂອງ ປ່ອຍ ຂອງກອບ DALL-E 2.

ສະຖາປັດຕະຍະກໍາໃຫມ່, ຫົວຂໍ້ Text2Live, ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ທີ່ສຸດເພື່ອສ້າງການແກ້ໄຂໃນທ້ອງຖິ່ນກັບເນື້ອຫາວິດີໂອຕົວຈິງໂດຍອີງໃສ່ການກະຕຸ້ນຂໍ້ຄວາມ:

ສອງຕົວຢ່າງຂອງການແກ້ໄຂດ້ານຫນ້າ. ສໍາລັບຄວາມລະອຽດ ແລະຄໍານິຍາມທີ່ດີກວ່າ, ໃຫ້ກວດເບິ່ງວິດີໂອຕົ້ນສະບັບຢູ່ https://text2live.github.io/sm/pages/video_results_atlases.html

ສອງຕົວຢ່າງຂອງການແກ້ໄຂດ້ານຫນ້າ. ສໍາລັບຄວາມລະອຽດແລະຄໍານິຍາມທີ່ດີກວ່າ, ກວດເບິ່ງວິດີໂອຕົ້ນສະບັບຢູ່ທີ່ https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live ສະຫນອງການແກ້ໄຂແບບ semantic ແລະທ້ອງຖິ່ນສູງໂດຍບໍ່ມີການນໍາໃຊ້ເຄື່ອງກໍາເນີດໄຟຟ້າທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ, ໂດຍການນໍາໃຊ້ຖານຂໍ້ມູນພາຍໃນທີ່ສະເພາະກັບຄລິບວິດີໂອທີ່ໄດ້ຮັບຜົນກະທົບ.

ການຫັນປ່ຽນພື້ນຫຼັງ ແລະດ້ານໜ້າ (ວັດຖຸ) ພາຍໃຕ້ Text2Live. ທີ່ມາ: https://text2live.github.io/sm/pages/video_results_atlases.html

ເຕັກນິກດັ່ງກ່າວບໍ່ຈໍາເປັນຕ້ອງມີຫນ້າກາກທີ່ໃຫ້ໂດຍຜູ້ໃຊ້, ເຊັ່ນ: rotoscoping ປົກກະຕິຫຼືການເຮັດວຽກຫນ້າຈໍສີຂຽວ, ແຕ່ແທນທີ່ຈະຄາດຄະເນ. ແຜນທີ່ທີ່ກ່ຽວຂ້ອງ ໂດຍຜ່ານເຕັກນິກການ bootstrapping ໂດຍອີງໃສ່ ການຄົ້ນຄວ້າປີ 2021 ຈາກໂຮງຮຽນວິທະຍາສາດຄອມພິວເຕີທີ່ມະຫາວິທະຍາໄລ Tel Aviv ແລະ Facebook AI Research (FAIR).

ແຜນທີ່ຜົນຜະລິດທີ່ສ້າງຂຶ້ນຜ່ານຮູບແບບຄວາມສົນໃຈທົ່ວໄປທີ່ອີງໃສ່ເຄື່ອງຫັນປ່ຽນ.

ໃຫມ່ ເຈ້ຍ ແມ່ນຫົວຂໍ້ Text2LIVE: Text-driven layered image and video Editing. ທີມງານຕົ້ນສະບັບ 2021 ແມ່ນເຂົ້າຮ່ວມໂດຍ Omer Bar-Tal ຂອງ Weizmann, ແລະ Yoni Kasten ຂອງ NVIDIA Research.

ສ້ອມແປ້ງເຄຫາສະຖານ

Text2Live ປະກອບດ້ວຍເຄື່ອງຜະລິດທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຮູບພາບການປ້ອນຂໍ້ມູນ sole ແລະການກະຕຸ້ນຂໍ້ຄວາມເປົ້າຫມາຍ. ຮູບແບບ Contrastive Language-Image Pretraining (CLIP) ທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງໜ້າໃນຄູ່ຂໍ້ຄວາມ/ຮູບ 400 ລ້ານຄູ່ ສະໜອງອຸປະກອນການເບິ່ງເຫັນທີ່ກ່ຽວຂ້ອງກັນ ທີ່ສາມາດແປການຫັນປ່ຽນການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້ໄດ້.

ເຄື່ອງກໍາເນີດໄຟຟ້າຍອມຮັບຮູບພາບປ້ອນຂໍ້ມູນ (ກອບ) ແລະສົ່ງຂໍ້ມູນຊັ້ນ RGBA ເປົ້າຫມາຍທີ່ມີຂໍ້ມູນສີແລະຄວາມໂປ່ງໃສ. ຫຼັງຈາກນັ້ນ, ຊັ້ນນີ້ໄດ້ຖືກປະກອບເຂົ້າໄປໃນ footage ຕົ້ນສະບັບທີ່ມີການຂະຫຍາຍເພີ່ມເຕີມ.

ຊ່ອງ alpha ໃນຊັ້ນ RGBA ທີ່ສ້າງຂຶ້ນໃຫ້ຟັງຊັນການປະກອບພາຍໃນໂດຍບໍ່ມີການຕອບໂຕ້ກັບທໍ່ແບບດັ້ງເດີມທີ່ກ່ຽວຂ້ອງກັບຊອບແວທີ່ອີງໃສ່ pixels ລວງເຊັ່ນ After Effects.

ໂດຍການຝຶກອົບຮົມກ່ຽວກັບຮູບພາບພາຍໃນທີ່ກ່ຽວຂ້ອງກັບວິດີໂອຫຼືຮູບພາບເປົ້າຫມາຍ, Text2Live ຫຼີກເວັ້ນຄວາມຕ້ອງການບໍ່ວ່າຈະ ປີ້ນ ຮູບພາບທີ່ເຂົ້າໄປໃນຊ່ອງแฝงຂອງເຄືອຂ່າຍ Adversarial ຜະລິດ (GAN), ການປະຕິບັດທີ່ປະຈຸບັນ. ໄກຈາກທີ່ແນ່ນອນພຽງພໍ ສໍາລັບຄວາມຕ້ອງການການແກ້ໄຂວິດີໂອການຜະລິດ, ຫຼືອື່ນໆການນໍາໃຊ້ຮູບແບບການແຜ່ກະຈາຍທີ່ຊັດເຈນແລະການຕັ້ງຄ່າ, ແຕ່ວ່າ. ບໍ່ສາມາດຮັກສາຄວາມຊື່ສັດໄດ້ ກັບວິດີໂອເປົ້າຫມາຍ.

ການແກ້ໄຂການຫັນປ່ຽນທີ່ອີງໃສ່ຂໍ້ຄວາມດ່ວນຈາກ Text2Live.

ວິທີການກ່ອນຫນ້າໄດ້ຖືກນໍາໃຊ້ ວິທີການຂະຫຍາຍພັນ or optical flow-based ວິທີການ. ເນື່ອງຈາກເຕັກນິກເຫຼົ່ານີ້ແມ່ນອີງໃສ່ກອບບາງສ່ວນ ຫຼືບາງຂອບເຂດອື່ນໆ, ທັງສອງບໍ່ສາມາດສ້າງຮູບຊົງຊົ່ວຄາວທີ່ສອດຄ່ອງຂອງການປ່ຽນແປງໃນວິດີໂອຜົນຜະລິດໄດ້. Atlas ຊັ້ນ neural, ແທນທີ່ຈະ, ໃຫ້ພື້ນທີ່ດຽວເພື່ອແກ້ໄຂການປ່ຽນແປງ, ເຊິ່ງຫຼັງຈາກນັ້ນສາມາດຮັກສາຄວາມຊື່ສັດຕໍ່ການປ່ຽນແປງທີ່ຫມັ້ນສັນຍາໃນຂະນະທີ່ວິດີໂອກ້າວຫນ້າ.

ບໍ່ມີ 'sizzling' ຫຼື hallucinations random: Text2Live ໄດ້ຮັບການຕີຄວາມຫມາຍຂອງຂໍ້ຄວາມ prompt 'jeep rusty', ແລະນໍາໃຊ້ມັນຄັ້ງດຽວກັບ atlas ຊັ້ນ neural ຂອງລົດໃນວິດີໂອ, ແທນທີ່ຈະ restarting ການຫັນເປັນສໍາລັບແຕ່ລະກອບການຕີຄວາມ.

ຂະບວນການເຮັດວຽກຂອງການຫັນປ່ຽນທີ່ສອດຄ່ອງຂອງ Text2Live ຂອງ Jeep ເຂົ້າໄປໃນບ່ອນເກົ່າແກ່ທີ່ຂີ້ໝ້ຽງ.

Text2Live ແມ່ນໃກ້ຊິດກັບຄວາມກ້າວຫນ້າໃນການປະກອບທີ່ອີງໃສ່ AI, ແທນທີ່ຈະຢູ່ໃນພື້ນທີ່ຂໍ້ຄວາມທີ່ອຸດົມສົມບູນເຊິ່ງໄດ້ຮັບຄວາມສົນໃຈຫຼາຍໃນອາທິດນີ້ດ້ວຍການເປີດຕົວ. ລຸ້ນທີສອງ ຂອງ OpenAI's DALL-E framework (ເຊິ່ງສາມາດລວມເອົາຮູບພາບເປົ້າຫມາຍເປັນສ່ວນຫນຶ່ງຂອງຂະບວນການຫັນປ່ຽນ, ແຕ່ຍັງມີຂໍ້ຈໍາກັດໃນຄວາມສາມາດໃນການແຊກແຊງໂດຍກົງໃນຮູບພາບ, ນອກເຫນືອໄປຈາກ censoring ຂອງແຫຼ່ງຂໍ້ມູນການຝຶກອົບຮົມແລະການບັງຄັບໃຊ້ການກັ່ນຕອງ, ຖືກອອກແບບມາເພື່ອປ້ອງກັນການລ່ວງລະເມີດຂອງຜູ້ໃຊ້).

ແທນທີ່ຈະ, Text2Live ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສຸດທ້າຍສາມາດສະກັດ atlas ແລະຫຼັງຈາກນັ້ນແກ້ໄຂມັນໃນຫນຶ່ງ pass ໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມສູງ pixels ລວງເຊັ່ນ Photoshop (ແລະ arguably ແມ້ກະທັ້ງຫຼາຍໂຄງປະກອບການສັງເຄາະຮູບພາບທີ່ບໍ່ມີຕົວຕົນເຊັ່ນ:. NeRF), ກ່ອນທີ່ຈະໃຫ້ອາຫານມັນກັບຄືນສູ່ສະພາບແວດລ້ອມທີ່ຖືກຕ້ອງ, ຢ່າງໃດກໍຕາມ, ບໍ່ໄດ້ອີງໃສ່ການຄາດຄະເນ 3D ຫຼືວິທີການທີ່ອີງໃສ່ CGI ກັບຄືນໄປບ່ອນ.

ນອກຈາກນັ້ນ, Text2Live, ຜູ້ຂຽນອ້າງວ່າ, ເປັນກອບການປຽບທຽບທໍາອິດເພື່ອບັນລຸການໃສ່ຫນ້າກາກແລະປະກອບໃນລັກສະນະອັດຕະໂນມັດທັງຫມົດ.

ພິມຄັ້ງທຳອິດໃນວັນທີ 7 ເມສາ 2022.