ປັນຍາປະດິດ
AI-Assisted Object Editing with Google's Imagic and Runway's 'Erase and Replace'
ໃນອາທິດນີ້, ສອງອັນໃຫມ່, ແຕ່ກົງກັນຂ້າມ AI-driven algorithms ແມ່ນສະເຫນີວິທີການໃຫມ່ສໍາລັບຜູ້ໃຊ້ສຸດທ້າຍເພື່ອເຮັດໃຫ້ການປ່ຽນແປງທີ່ມີ granular ສູງແລະປະສິດທິພາບກັບວັດຖຸໃນຮູບພາບ.
ທໍາອິດແມ່ນ ຈິນຕະນາການ, ຈາກການຄົ້ນຄວ້າຂອງ Google, ໃນສະມາຄົມກັບສະຖາບັນເຕັກໂນໂລຢີຂອງອິດສະຣາເອນແລະສະຖາບັນວິທະຍາສາດ Weizmann. Imagic ສະຫນອງການດັດແກ້ຂໍ້ຄວາມ, ລະອຽດຂອງວັດຖຸໂດຍຜ່ານການປັບລະອຽດຂອງຮູບແບບການແຜ່ກະຈາຍ.
ໃຜກໍ່ຕາມທີ່ເຄີຍພະຍາຍາມປ່ຽນອົງປະກອບດຽວໃນການສະແດງຜົນການແຜ່ກະຈາຍແບບຄົງທີ່ຈະຮູ້ດີຄືກັນວ່າສໍາລັບທຸກໆການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດ, ລະບົບຈະປ່ຽນຫ້າສິ່ງທີ່ເຈົ້າມັກໃນແບບທີ່ເຂົາເຈົ້າເປັນ. ມັນເປັນຂໍ້ບົກຜ່ອງທີ່ປະຈຸບັນມີຫລາຍຄົນທີ່ມີຄວາມກະຕືລືລົ້ນ SD ທີ່ມີພອນສະຫວັນທີ່ສຸດທີ່ສະຫຼັບກັນຢ່າງຕໍ່ເນື່ອງລະຫວ່າງ Stable Diffusion ແລະ Photoshop, ເພື່ອແກ້ໄຂປະເພດຂອງ "ຄວາມເສຍຫາຍຫຼັກປະກັນ" ນີ້. ຈາກຈຸດນີ້ຢ່າງດຽວ, ຜົນສໍາເລັດຂອງ Imagic ເບິ່ງຄືວ່າເປັນທີ່ຫນ້າສັງເກດ.
ໃນເວລາຂຽນ, Imagic ຍັງຂາດວິດີໂອໂຄສະນາ, ແລະໃຫ້ Google ທັດສະນະຄະຕິ ການປ່ອຍເຄື່ອງມືການສັງເຄາະຮູບພາບທີ່ບໍ່ມີການລົບກວນ, ມັນບໍ່ແນ່ນອນໃນລະດັບໃດ, ຖ້າມີ, ພວກເຮົາຈະມີໂອກາດທົດສອບລະບົບ.
ການສະເຫນີທີ່ສອງແມ່ນ Runway ML ຂອງສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍກວ່າ ລຶບ ແລະ ແທນທີ່ ສິ່ງອໍານວຍຄວາມສະດວກ, ກ ຄຸນນະສົມບັດໃຫມ່ ໃນສ່ວນ 'AI Magic Tools' ຂອງຊຸດເຄື່ອງໃຊ້ທາງສາຍຕາທີ່ອີງໃສ່ການຮຽນຮູ້ເຄື່ອງອອນລາຍສະເພາະ.
ລອງເບິ່ງການອອກນອກຂອງ Runway ກ່ອນ.
ລຶບ ແລະ ແທນທີ່
ເຊັ່ນດຽວກັນກັບ Imagic, Erase ແລະ Replace deals ສະເພາະກັບຮູບພາບທີ່ຍັງ, ເຖິງແມ່ນວ່າ Runway ມີ ສະແດງຕົວຢ່າງ ຟັງຊັນດຽວກັນໃນການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອທີ່ຍັງບໍ່ໄດ້ປ່ອຍອອກມາເມື່ອ:
ເຖິງແມ່ນວ່າ Runway ML ບໍ່ໄດ້ເປີດເຜີຍລາຍລະອຽດຂອງເຕັກໂນໂລຢີທີ່ຢູ່ເບື້ອງຫລັງ Erase ແລະ Replace, ຄວາມໄວທີ່ທ່ານສາມາດທົດແທນຕົ້ນໄມ້ເຮືອນດ້ວຍການແຕກຫັກທີ່ຫນ້າເຊື່ອຖືຢ່າງສົມເຫດສົມຜົນຂອງ Ronald Reagan ແນະນໍາວ່າຮູບແບບການແຜ່ກະຈາຍເຊັ່ນ Stable Diffusion (ຫຼື, ເປັນໄປໄດ້ຫນ້ອຍ, a. ໃບອະນຸຍາດອອກ DALL-E 2) ແມ່ນເຄື່ອງຈັກທີ່ reinventing ວັດຖຸທີ່ທ່ານເລືອກໃນ Erase ແລະ Replace.
ລະບົບມີບາງຂໍ້ຈໍາກັດປະເພດ DALL-E 2 - ຮູບພາບຫຼືຂໍ້ຄວາມທີ່ໃສ່ທຸງລົບແລະປ່ຽນຕົວກອງຈະເຮັດໃຫ້ເກີດການເຕືອນກ່ຽວກັບການລະງັບບັນຊີທີ່ເປັນໄປໄດ້ໃນກໍລະນີທີ່ມີການລະເມີດເພີ່ມເຕີມ - ການປະຕິບັດການ clone boilerplate ຂອງ OpenAI ຢ່າງຕໍ່ເນື່ອງ. ນະໂຍບາຍ ສໍາລັບ DALL-E 2 .
ຜົນໄດ້ຮັບຫຼາຍຢ່າງຂາດຂອບ rough ປົກກະຕິຂອງ Stable Diffusion. Runway ML ແມ່ນນັກລົງທຶນແລະ ຄູ່ຮ່ວມງານການຄົ້ນຄວ້າ ໃນ SD, ແລະມັນເປັນໄປໄດ້ວ່າພວກເຂົາໄດ້ຝຶກອົບຮົມແບບຈໍາລອງທີ່ເປັນເຈົ້າຂອງທີ່ເຫນືອກວ່າແຫຼ່ງເປີດ 1.4 checkpoint ນ້ໍາຫນັກທີ່ສ່ວນທີ່ເຫຼືອຂອງພວກເຮົາກໍາລັງຕໍ່ສູ້ກັບ (ຍ້ອນວ່າກຸ່ມພັດທະນາອື່ນໆຈໍານວນຫຼາຍ, hobbyist ແລະເປັນມືອາຊີບຄືກັນ, ປະຈຸບັນການຝຶກອົບຮົມຫຼືການປັບໄຫມ. ແບບຈໍາລອງການແຜ່ກະຈາຍຄົງທີ່).
ເຊັ່ນດຽວກັນກັບ Imagic (ເບິ່ງຂ້າງລຸ່ມນີ້), Erase and Replace is 'object-oriented', as it was – you can’t just erase a ‘blank’ part of the picture and inpaint it with the result of your text prompt; ໃນສະຖານະການດັ່ງກ່າວ, ລະບົບພຽງແຕ່ຈະຕິດຕາມວັດຖຸທີ່ປາກົດຂື້ນທີ່ໃກ້ທີ່ສຸດຕາມເສັ້ນສາຍຕາຂອງຫນ້າກາກ (ເຊັ່ນ: ຝາ, ຫຼືໂທລະທັດ), ແລະນໍາໃຊ້ການຫັນປ່ຽນຢູ່ທີ່ນັ້ນ.
ມັນເປັນການຍາກທີ່ຈະບອກໄດ້ວ່າ Erase ແລະ Replace ກໍາລັງຖືກຫລົບຫລີກກ່ຽວກັບການນໍາໃຊ້ຮູບພາບທີ່ມີລິຂະສິດ (ເຊິ່ງຍັງມີການຂັດຂວາງຢ່າງຫຼວງຫຼາຍ, ເຖິງແມ່ນວ່າມີຜົນສໍາເລັດທີ່ແຕກຕ່າງກັນ, ໃນ DALL-E 2), ຫຼືຖ້າຮູບແບບທີ່ຖືກນໍາໃຊ້ໃນເຄື່ອງຈັກການສະແດງຜົນຂອງ backend. ບໍ່ພຽງແຕ່ຖືກປັບໃຫ້ເໝາະສົມກັບສິ່ງດັ່ງກ່າວ.
ມັນເປັນສິ່ງທີ່ ໜ້າ ສົນໃຈທີ່ຈະຮູ້ວ່າວິທີການລຶບແລະທົດແທນແມ່ນໃຊ້ເພື່ອແຍກວັດຖຸທີ່ມັນສາມາດປ່ຽນແທນໄດ້. ຄາດວ່າຮູບພາບແມ່ນໄດ້ຮັບການດໍາເນີນການໂດຍຜ່ານການມາຂອງບາງ ຄລິບ, ໂດຍມີລາຍການທີ່ແຍກກັນໂດຍການຮັບຮູ້ວັດຖຸແລະການແບ່ງສ່ວນ semantic ຕໍ່ມາ. ບໍ່ມີການປະຕິບັດງານເຫຼົ່ານີ້ຢູ່ບ່ອນໃດບ່ອນໜຶ່ງຢູ່ໃກ້ໆເຊັ່ນດຽວກັນໃນການຕິດຕັ້ງແບບທົ່ວໄປ ຫຼືສວນຂອງ Stable Diffusion.
ແຕ່ບໍ່ມີຫຍັງສົມບູນແບບ - ບາງຄັ້ງລະບົບເບິ່ງຄືວ່າຈະລົບລ້າງແລະບໍ່ປ່ຽນແທນ, ເຖິງແມ່ນວ່າ (ດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນໃນຮູບຂ້າງເທິງ), ກົນໄກການສະແດງຜົນພື້ນຖານຮູ້ວ່າການເຕືອນຂໍ້ຄວາມຫມາຍຄວາມວ່າແນວໃດ. ໃນກໍລະນີນີ້, ມັນພິສູດວ່າເປັນໄປບໍ່ໄດ້ທີ່ຈະປ່ຽນຕາຕະລາງກາເຟເປັນ xenomorph - ແທນທີ່ຈະ, ຕາຕະລາງພຽງແຕ່ຫາຍໄປ.
Erase and Replace ເບິ່ງຄືວ່າເປັນລະບົບການທົດແທນວັດຖຸທີ່ມີປະສິດທິພາບ, ດ້ວຍການໃສ່ສີທີ່ດີເລີດ. ແນວໃດກໍ່ຕາມ, ມັນບໍ່ສາມາດແກ້ໄຂວັດຖຸຮັບຮູ້ທີ່ມີຢູ່ແລ້ວ, ແຕ່ພຽງແຕ່ປ່ຽນແທນພວກມັນເທົ່ານັ້ນ. ຕົວຈິງແລ້ວ, ການປ່ຽນແປງເນື້ອໃນຮູບພາບທີ່ມີຢູ່ແລ້ວໂດຍບໍ່ມີການປະນີປະນອມອຸປະກອນການສະພາບແວດລ້ອມແມ່ນເປັນວຽກງານທີ່ຍາກກວ່າ, ຜູກມັດກັບຄວາມພະຍາຍາມຂອງຂະແຫນງການຄົ້ນຄ້ວາວິໄສທັດຄອມພິວເຕີໃນໄລຍະຍາວຂອງ. ຄວາມແຕກແຍກ ຢູ່ໃນສະຖານທີ່ຕ່າງໆ latent ຂອງກອບທີ່ນິຍົມ.
ຈິນຕະນາການ
ມັນເປັນວຽກທີ່ Imagic ແກ້ໄຂ. ໄດ້ ກະດາດໃຫມ່ ສະເຫນີຕົວຢ່າງຈໍານວນຫລາຍຂອງການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດໃນການແກ້ໄຂສ່ວນບຸກຄົນຂອງຮູບໃນຂະນະທີ່ເຮັດໃຫ້ສ່ວນທີ່ເຫຼືອຂອງຮູບພາບບໍ່ໄດ້ສໍາຜັດ.
ລະບົບໃຊ້ຂະບວນການສາມຂັ້ນຕອນ - ການເພີ່ມປະສິດທິພາບການຝັງຂໍ້ຄວາມ; ການປັບຕົວແບບ; ແລະ, ສຸດທ້າຍ, ການຜະລິດຂອງຮູບພາບທີ່ດັດແກ້.
ບໍ່ແປກໃຈ, ກອບແມ່ນອີງໃສ່ Google's ຮູບພາບ ສະຖາປັດຕະຍະກໍາຂໍ້ຄວາມເປັນວິດີໂອ, ເຖິງແມ່ນວ່ານັກຄົ້ນຄວ້າກ່າວວ່າຫຼັກການຂອງລະບົບແມ່ນສາມາດນໍາໃຊ້ໄດ້ຢ່າງກວ້າງຂວາງກັບຮູບແບບການແຜ່ກະຈາຍ latent.
Imagen ໃຊ້ສະຖາປັດຕະຍະກໍາສາມຊັ້ນ, ແທນທີ່ຈະເປັນອາເຣເຈັດຊັ້ນທີ່ໃຊ້ສໍາລັບບໍລິສັດທີ່ຜ່ານມາ. ການປ່ຽນຂໍ້ຄວາມເປັນວິດີໂອຊ້ຳໆ ຂອງຊອບແວໄດ້. ສາມໂມດູນທີ່ແຕກຕ່າງກັນປະກອບດ້ວຍຮູບແບບການແຜ່ກະຈາຍທົ່ວໄປທີ່ດໍາເນີນການຢູ່ທີ່ຄວາມລະອຽດ 64x64px; ຮູບແບບຄວາມລະອຽດສູງທີ່ຂະຫຍາຍຜົນຜະລິດນີ້ໄປເປັນ 256x256px; ແລະຮູບແບບຄວາມລະອຽດສູງເພີ່ມເຕີມເພື່ອເອົາຜົນຜະລິດໄດ້ເຖິງ 1024×1024 ຄວາມລະອຽດ.
Imagic ແຊກແຊງຢູ່ໃນຂັ້ນຕອນທໍາອິດຂອງຂະບວນການນີ້, ເພີ່ມປະສິດທິພາບຂໍ້ຄວາມທີ່ຮ້ອງຂໍການຝັງຢູ່ໃນຂັ້ນຕອນ 64px ເທິງເຄື່ອງເພີ່ມປະສິດທິພາບຂອງ Adam ໃນອັດຕາການຮຽນຮູ້ແບບຄົງທີ່ຂອງ 0.0001.
ຫຼັງຈາກນັ້ນ, ການປັບລະອຽດຈະເກີດຂຶ້ນໃນຕົວແບບພື້ນຖານຂອງ Imagen, ສໍາລັບ 1500 ຂັ້ນຕອນຕໍ່ຮູບພາບທີ່ປ້ອນເຂົ້າ, ປັບເງື່ອນໄຂຢູ່ໃນການຝັງທີ່ປັບປຸງ. ໃນເວລາດຽວກັນ, ຊັ້ນຮອງ 64px> 256px ໄດ້ຖືກປັບປຸງໃຫ້ເຫມາະສົມໃນຂະຫນານໃນຮູບພາບທີ່ມີເງື່ອນໄຂ. ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າການເພີ່ມປະສິດທິພາບທີ່ຄ້າຍຄືກັນສໍາລັບຊັ້ນສຸດທ້າຍ 256px>1024px ມີ 'ຫນ້ອຍທີ່ຈະບໍ່ມີຜົນ' ຕໍ່ຜົນໄດ້ຮັບສຸດທ້າຍ, ແລະດັ່ງນັ້ນຈິ່ງບໍ່ໄດ້ປະຕິບັດມັນ.
ເອກະສານລະບຸວ່າຂະບວນການເພີ່ມປະສິດທິພາບໃຊ້ເວລາປະມານແປດນາທີສໍາລັບແຕ່ລະຮູບຄູ່ແຝດ TPUV4 ຊິບ. ການ render ສຸດ ທ້າຍ ໃຊ້ ເວ ລາ ສະ ຖານ ທີ່ ໃນ Core Imagen ພາຍ ໃຕ້ ການ ໂຄງການເກັບຕົວຢ່າງ DDIM.
ຄ້າຍຄືກັນກັບຂະບວນການປັບໄຫມທີ່ຄ້າຍຄືກັນສໍາລັບ Google's ຕູບຕູບ, ການຝັງຜົນທີ່ໄດ້ຮັບນອກຈາກນັ້ນຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອພະລັງງານ stylization, ເຊັ່ນດຽວກັນກັບການແກ້ໄຂ photorealistic ທີ່ມີຂໍ້ມູນທີ່ດຶງມາຈາກຖານຂໍ້ມູນທີ່ກວ້າງຂຶ້ນໂດຍອໍານາດ Imagen (ນັບຕັ້ງແຕ່ຄໍລໍາທໍາອິດຂ້າງລຸ່ມນີ້ສະແດງໃຫ້ເຫັນ, ຮູບພາບຕົ້ນສະບັບບໍ່ມີເນື້ອໃນທີ່ຈໍາເປັນເພື່ອ. ສົ່ງຜົນກະທົບການຫັນປ່ຽນເຫຼົ່ານີ້).
ນັກຄົ້ນຄວ້າໄດ້ປຽບທຽບ Imagic ກັບວຽກງານທີ່ຜ່ານມາ SDEdit, ວິທີການທີ່ອີງໃສ່ GAN ຈາກ 2021, ການຮ່ວມມືລະຫວ່າງມະຫາວິທະຍາໄລ Stanford ແລະມະຫາວິທະຍາໄລ Carnegie Mellon; ແລະ Text2Live, ການຮ່ວມມື, ຈາກເດືອນເມສາ 2022, ລະຫວ່າງສະຖາບັນວິທະຍາສາດ Weizmann ແລະ NVIDIA.
ມັນເປັນທີ່ຊັດເຈນວ່າວິທີການໃນອະດີດແມ່ນດີ້ນລົນ, ແຕ່ໃນແຖວລຸ່ມ, ເຊິ່ງກ່ຽວຂ້ອງກັບການແຊກແຊງການປ່ຽນແປງອັນໃຫຍ່ຫຼວງ, ຜູ້ປະກອບການລົ້ມເຫລວຢ່າງສົມບູນໃນການແກ້ໄຂແຫຼ່ງທີ່ມາ, ເມື່ອທຽບກັບຜົນສໍາເລັດທີ່ຫນ້າສັງເກດຈາກ Imagic.
ຄວາມຕ້ອງການຊັບພະຍາກອນຂອງ Imagic ແລະເວລາການຝຶກອົບຮົມຕໍ່ຮູບພາບ, ໃນຂະນະທີ່ສັ້ນໂດຍມາດຕະຖານຂອງການດໍາເນີນການດັ່ງກ່າວ, ເຮັດໃຫ້ມັນບໍ່ເປັນໄປໄດ້ໃນຄໍາຮ້ອງສະຫມັກການແກ້ໄຂຮູບພາບທ້ອງຖິ່ນໃນຄອມພິວເຕີສ່ວນບຸກຄົນ - ແລະມັນບໍ່ຊັດເຈນວ່າຂະບວນການປັບຂະຫນາດສາມາດເປັນຂະຫນາດໃດ. ຫຼຸດລົງເຖິງລະດັບຜູ້ບໍລິໂພກ.
ຍ້ອນວ່າມັນຢືນຢູ່, Imagic ແມ່ນການສະເຫນີທີ່ຫນ້າປະທັບໃຈທີ່ເຫມາະສົມກັບ APIs - ສະພາບແວດລ້ອມຂອງ Google Research, ການວິພາກວິຈານກ່ຽວກັບການອໍານວຍຄວາມສະດວກໃນຄວາມເລິກລັບ, ໃນກໍລະນີໃດກໍ່ຕາມອາດຈະສະດວກສະບາຍທີ່ສຸດ.
ພິມຄັ້ງທຳອິດໃນວັນທີ 18 ຕຸລາ 2022.