ປັນຍາປະດິດ
ການແກ້ໄຂເນື້ອຫາວິດີໂອ AI ທີ່ສອດຄ່ອງດ້ວຍການປ້ອນຂໍ້ຄວາມທີ່ແນະນຳ
ໃນຂະນະທີ່ຊຸມຊົນ VFX ມືອາຊີບມີຄວາມສົນໃຈ - ແລະບາງຄັ້ງກໍ່ຮູ້ສຶກ ໄພຂົ່ມຂູ່ເລັກນ້ອຍ – ໂດຍການປະດິດສ້າງໃໝ່ໃນການສັງເຄາະຮູບພາບ ແລະວິດີໂອ, ການຂາດຄວາມຕໍ່ເນື່ອງຊົ່ວຄາວໃນໂຄງການຕັດຕໍ່ວີດີໂອທີ່ອີງໃສ່ AI ສ່ວນໃຫຍ່ເຮັດໃຫ້ຄວາມພະຍາຍາມເຫຼົ່ານີ້ອອກໄປຢູ່ໃນຂອບເຂດ 'psychedelic', ດ້ວຍ. shimmering ແລະການປ່ຽນແປງຢ່າງວ່ອງໄວ ໂຄງສ້າງ ແລະໂຄງສ້າງ, ຜົນກະທົບທີ່ບໍ່ສອດຄ່ອງກັນ ແລະປະເພດຂອງການຂັດກັນດ້ານເທັກໂນໂລຍີທີ່ຮຸນແຮງທີ່ຈື່ຈໍາ ຍຸກ photochemical ຜົນກະທົບທາງສາຍຕາ.
ຖ້າທ່ານຕ້ອງການປ່ຽນບາງອັນສະເພາະໃນວິດີໂອທີ່ບໍ່ຕົກຢູ່ໃນຂອບເຂດຂອງ deepfakes (ie, imposing ເອກະລັກໃຫມ່ກ່ຽວກັບ footage ທີ່ມີຢູ່ແລ້ວຂອງບຸກຄົນ), ການແກ້ໄຂໃນປະຈຸບັນສ່ວນໃຫຍ່ດໍາເນີນການພາຍໃຕ້ຂໍ້ຈໍາກັດທີ່ຂ້ອນຂ້າງຮ້າຍແຮງ, ໃນແງ່ຂອງ. ຄວາມແມ່ນຍໍາທີ່ຕ້ອງການສໍາລັບການຜະລິດຜົນກະທົບສາຍຕາ.
ຂໍ້ຍົກເວັ້ນຫນຶ່ງແມ່ນການເຮັດວຽກຢ່າງຕໍ່ເນື່ອງຂອງສະມາຄົມວ່າງຂອງນັກວິຊາການຈາກສະຖາບັນວິທະຍາສາດ Weizmann. ໃນປີ 2021, ສາມຂອງນັກຄົ້ນຄວ້າຂອງຕົນ, ຮ່ວມມືກັບ Adobe, ປະກາດ ວິທີການໃຫມ່ສໍາລັບການທໍາລາຍວິດີໂອແລະການ superimposing ການສ້າງແຜນທີ່ພາຍໃນທີ່ສອດຄ່ອງ - ກ atlas neural ຊັ້ນ – ເຂົ້າໄປໃນຜົນຜະລິດປະສົມປະກອບ, ສໍາເລັດດ້ວຍຊ່ອງທາງອັນຟາແລະຜົນຜະລິດທີ່ເປັນການຕິດຕໍ່ພົວພັນຊົ່ວຄາວ.
ເຖິງແມ່ນວ່າມັນຕົກຢູ່ບາງບ່ອນເຂົ້າໄປໃນພື້ນທີ່ປົກຄຸມໂດຍ ການໄຫຼ optical ໃນທໍ່ VFX, atlas ຊັ້ນບໍ່ມີທຽບເທົ່າໂດຍກົງໃນຂະບວນການເຮັດວຽກ CGI ແບບດັ້ງເດີມ, ເພາະວ່າມັນປະກອບເປັນ 'ແຜນທີ່ໂຄງສ້າງຊົ່ວຄາວ' ທີ່ສາມາດຜະລິດແລະແກ້ໄຂໂດຍຜ່ານວິທີການຊອບແວພື້ນເມືອງ. ໃນຮູບທີສອງໃນຮູບຂ້າງເທິງນີ້, ພື້ນຫລັງຂອງພື້ນຜິວຖະຫນົນແມ່ນສະແດງ (ໂດຍຕົວເລກ) ໃນທົ່ວ runtime ທັງຫມົດຂອງວິດີໂອ. ການປ່ຽນຮູບພື້ນຖານນັ້ນ (ຮູບທີສາມຈາກຊ້າຍໃນຮູບພາບຂ້າງເທິງ) ຜະລິດຕະພັນການປ່ຽນແປງທີ່ສອດຄ້ອງກັນໃນພື້ນຖານ.
ຮູບພາບຂອງ atlas 'unfolded' ຂ້າງເທິງພຽງແຕ່ເປັນຕົວແທນຂອງແຕ່ລະກອບການຕີຄວາມ; ການປ່ຽນແປງທີ່ສອດຄ້ອງກັນໃນເຟຣມວິດີໂອເປົ້າໝາຍໃດໜຶ່ງແມ່ນຖືກສ້າງແຜນທີ່ກັບຄືນສູ່ກອບຕົ້ນສະບັບ, ຮັກສາການປິດບັງທີ່ຈຳເປັນ ແລະຜົນກະທົບຂອງສາກທີ່ຈຳເປັນອື່ນໆ ເຊັ່ນ: ເງົາ ຫຼືການສະທ້ອນ.
ສະຖາປັດຕະຍະກໍາຫຼັກໃຊ້ Multilayer Perceptron (MLP) ເພື່ອເປັນຕົວແທນຂອງ atlases unfolded, ຊ່ອງ alpha ແລະແຜນທີ່, ທັງຫມົດແມ່ນ optimized ໃນຄອນເສີດ, ແລະທັງຫມົດໃນຊ່ອງ 2D, obviating ຄວາມຮູ້ເບື້ອງຕົ້ນແບບ NeRF ຂອງຈຸດເລຂາຄະນິດ 3D, ແຜນທີ່ຄວາມເລິກ, ແລະການດັກແບບ CGI ທີ່ຄ້າຍຄືກັນ.
atlas ອ້າງອິງຂອງວັດຖຸສ່ວນບຸກຄົນຍັງສາມາດປ່ຽນແປງໄດ້ຢ່າງຫນ້າເຊື່ອຖື:
ໂດຍພື້ນຖານແລ້ວ, ລະບົບ 2021 ປະສົມປະສານການຈັດລຽງເລຂາຄະນິດ, ການຈັບຄູ່, ການເຄື່ອນທີ່, ການສ້າງແຜນທີ່, ການປັບໂຄງສ້າງຄືນໃໝ່ ແລະ rotoscoping ເຂົ້າໄປໃນຂະບວນການ neural ທີ່ແຍກກັນ.
Text2Live
ນັກຄົ້ນຄວ້າຕົ້ນສະບັບສາມຄົນຂອງເອກະສານ 2021, ຮ່ວມກັບການຄົ້ນຄວ້າ NVIDIA, ແມ່ນໃນບັນດາຜູ້ປະກອບສ່ວນເຂົ້າໃນນະວັດກໍາໃຫມ່ກ່ຽວກັບເຕັກນິກການລວມເອົາພະລັງງານຂອງ atlases ຊັ້ນກັບປະເພດຂອງເທກໂນໂລຍີ CLIP ນໍາພາຂໍ້ຄວາມທີ່ກັບຄືນມາມີຊື່ສຽງໃນອາທິດນີ້ກັບ OpenAI ຂອງ ປ່ອຍ ຂອງກອບ DALL-E 2.
ສະຖາປັດຕະຍະກໍາໃຫມ່, ຫົວຂໍ້ Text2Live, ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ທີ່ສຸດເພື່ອສ້າງການແກ້ໄຂໃນທ້ອງຖິ່ນກັບເນື້ອຫາວິດີໂອຕົວຈິງໂດຍອີງໃສ່ການກະຕຸ້ນຂໍ້ຄວາມ:
Text2Live ສະຫນອງການແກ້ໄຂແບບ semantic ແລະທ້ອງຖິ່ນສູງໂດຍບໍ່ມີການນໍາໃຊ້ເຄື່ອງກໍາເນີດໄຟຟ້າທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ, ໂດຍການນໍາໃຊ້ຖານຂໍ້ມູນພາຍໃນທີ່ສະເພາະກັບຄລິບວິດີໂອທີ່ໄດ້ຮັບຜົນກະທົບ.
ເຕັກນິກດັ່ງກ່າວບໍ່ຈໍາເປັນຕ້ອງມີຫນ້າກາກທີ່ໃຫ້ໂດຍຜູ້ໃຊ້, ເຊັ່ນ: rotoscoping ປົກກະຕິຫຼືການເຮັດວຽກຫນ້າຈໍສີຂຽວ, ແຕ່ແທນທີ່ຈະຄາດຄະເນ. ແຜນທີ່ທີ່ກ່ຽວຂ້ອງ ໂດຍຜ່ານເຕັກນິກການ bootstrapping ໂດຍອີງໃສ່ ການຄົ້ນຄວ້າປີ 2021 ຈາກໂຮງຮຽນວິທະຍາສາດຄອມພິວເຕີທີ່ມະຫາວິທະຍາໄລ Tel Aviv ແລະ Facebook AI Research (FAIR).
ໃຫມ່ ເຈ້ຍ ແມ່ນຫົວຂໍ້ Text2LIVE: Text-driven layered image and video Editing. ທີມງານຕົ້ນສະບັບ 2021 ແມ່ນເຂົ້າຮ່ວມໂດຍ Omer Bar-Tal ຂອງ Weizmann, ແລະ Yoni Kasten ຂອງ NVIDIA Research.
ສ້ອມແປ້ງເຄຫາສະຖານ
Text2Live ປະກອບດ້ວຍເຄື່ອງຜະລິດທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຮູບພາບການປ້ອນຂໍ້ມູນ sole ແລະການກະຕຸ້ນຂໍ້ຄວາມເປົ້າຫມາຍ. ຮູບແບບ Contrastive Language-Image Pretraining (CLIP) ທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງໜ້າໃນຄູ່ຂໍ້ຄວາມ/ຮູບ 400 ລ້ານຄູ່ ສະໜອງອຸປະກອນການເບິ່ງເຫັນທີ່ກ່ຽວຂ້ອງກັນ ທີ່ສາມາດແປການຫັນປ່ຽນການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້ໄດ້.
ເຄື່ອງກໍາເນີດໄຟຟ້າຍອມຮັບຮູບພາບປ້ອນຂໍ້ມູນ (ກອບ) ແລະສົ່ງຂໍ້ມູນຊັ້ນ RGBA ເປົ້າຫມາຍທີ່ມີຂໍ້ມູນສີແລະຄວາມໂປ່ງໃສ. ຫຼັງຈາກນັ້ນ, ຊັ້ນນີ້ໄດ້ຖືກປະກອບເຂົ້າໄປໃນ footage ຕົ້ນສະບັບທີ່ມີການຂະຫຍາຍເພີ່ມເຕີມ.
ໂດຍການຝຶກອົບຮົມກ່ຽວກັບຮູບພາບພາຍໃນທີ່ກ່ຽວຂ້ອງກັບວິດີໂອຫຼືຮູບພາບເປົ້າຫມາຍ, Text2Live ຫຼີກເວັ້ນຄວາມຕ້ອງການບໍ່ວ່າຈະ ປີ້ນ ຮູບພາບທີ່ເຂົ້າໄປໃນຊ່ອງแฝงຂອງເຄືອຂ່າຍ Adversarial ຜະລິດ (GAN), ການປະຕິບັດທີ່ປະຈຸບັນ. ໄກຈາກທີ່ແນ່ນອນພຽງພໍ ສໍາລັບຄວາມຕ້ອງການການແກ້ໄຂວິດີໂອການຜະລິດ, ຫຼືອື່ນໆການນໍາໃຊ້ຮູບແບບການແຜ່ກະຈາຍທີ່ຊັດເຈນແລະການຕັ້ງຄ່າ, ແຕ່ວ່າ. ບໍ່ສາມາດຮັກສາຄວາມຊື່ສັດໄດ້ ກັບວິດີໂອເປົ້າຫມາຍ.
ວິທີການກ່ອນຫນ້າໄດ້ຖືກນໍາໃຊ້ ວິທີການຂະຫຍາຍພັນ or optical flow-based ວິທີການ. ເນື່ອງຈາກເຕັກນິກເຫຼົ່ານີ້ແມ່ນອີງໃສ່ກອບບາງສ່ວນ ຫຼືບາງຂອບເຂດອື່ນໆ, ທັງສອງບໍ່ສາມາດສ້າງຮູບຊົງຊົ່ວຄາວທີ່ສອດຄ່ອງຂອງການປ່ຽນແປງໃນວິດີໂອຜົນຜະລິດໄດ້. Atlas ຊັ້ນ neural, ແທນທີ່ຈະ, ໃຫ້ພື້ນທີ່ດຽວເພື່ອແກ້ໄຂການປ່ຽນແປງ, ເຊິ່ງຫຼັງຈາກນັ້ນສາມາດຮັກສາຄວາມຊື່ສັດຕໍ່ການປ່ຽນແປງທີ່ຫມັ້ນສັນຍາໃນຂະນະທີ່ວິດີໂອກ້າວຫນ້າ.
Text2Live ແມ່ນໃກ້ຊິດກັບຄວາມກ້າວຫນ້າໃນການປະກອບທີ່ອີງໃສ່ AI, ແທນທີ່ຈະຢູ່ໃນພື້ນທີ່ຂໍ້ຄວາມທີ່ອຸດົມສົມບູນເຊິ່ງໄດ້ຮັບຄວາມສົນໃຈຫຼາຍໃນອາທິດນີ້ດ້ວຍການເປີດຕົວ. ລຸ້ນທີສອງ ຂອງ OpenAI's DALL-E framework (ເຊິ່ງສາມາດລວມເອົາຮູບພາບເປົ້າຫມາຍເປັນສ່ວນຫນຶ່ງຂອງຂະບວນການຫັນປ່ຽນ, ແຕ່ຍັງມີຂໍ້ຈໍາກັດໃນຄວາມສາມາດໃນການແຊກແຊງໂດຍກົງໃນຮູບພາບ, ນອກເຫນືອໄປຈາກ censoring ຂອງແຫຼ່ງຂໍ້ມູນການຝຶກອົບຮົມແລະການບັງຄັບໃຊ້ການກັ່ນຕອງ, ຖືກອອກແບບມາເພື່ອປ້ອງກັນການລ່ວງລະເມີດຂອງຜູ້ໃຊ້).
ແທນທີ່ຈະ, Text2Live ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສຸດທ້າຍສາມາດສະກັດ atlas ແລະຫຼັງຈາກນັ້ນແກ້ໄຂມັນໃນຫນຶ່ງ pass ໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມສູງ pixels ລວງເຊັ່ນ Photoshop (ແລະ arguably ແມ້ກະທັ້ງຫຼາຍໂຄງປະກອບການສັງເຄາະຮູບພາບທີ່ບໍ່ມີຕົວຕົນເຊັ່ນ:. NeRF), ກ່ອນທີ່ຈະໃຫ້ອາຫານມັນກັບຄືນສູ່ສະພາບແວດລ້ອມທີ່ຖືກຕ້ອງ, ຢ່າງໃດກໍຕາມ, ບໍ່ໄດ້ອີງໃສ່ການຄາດຄະເນ 3D ຫຼືວິທີການທີ່ອີງໃສ່ CGI ກັບຄືນໄປບ່ອນ.
ນອກຈາກນັ້ນ, Text2Live, ຜູ້ຂຽນອ້າງວ່າ, ເປັນກອບການປຽບທຽບທໍາອິດເພື່ອບັນລຸການໃສ່ຫນ້າກາກແລະປະກອບໃນລັກສະນະອັດຕະໂນມັດທັງຫມົດ.
ພິມຄັ້ງທຳອິດໃນວັນທີ 7 ເມສາ 2022.