ປັນຍາປະດິດ

AI-Assisted Object Editing with Google's Imagic and Runway's 'Erase and Replace'

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ໃນອາທິດນີ້, ສອງອັນໃຫມ່, ແຕ່ກົງກັນຂ້າມ AI-driven algorithms ແມ່ນສະເຫນີວິທີການໃຫມ່ສໍາລັບຜູ້ໃຊ້ສຸດທ້າຍເພື່ອເຮັດໃຫ້ການປ່ຽນແປງທີ່ມີ granular ສູງແລະປະສິດທິພາບກັບວັດຖຸໃນຮູບພາບ.

ທໍາອິດແມ່ນ ຈິນຕະນາການ, ຈາກການຄົ້ນຄວ້າຂອງ Google, ໃນສະມາຄົມກັບສະຖາບັນເຕັກໂນໂລຢີຂອງອິດສະຣາເອນແລະສະຖາບັນວິທະຍາສາດ Weizmann. Imagic ສະຫນອງການດັດແກ້ຂໍ້ຄວາມ, ລະອຽດຂອງວັດຖຸໂດຍຜ່ານການປັບລະອຽດຂອງຮູບແບບການແຜ່ກະຈາຍ.

ປ່ຽນແປງສິ່ງທີ່ທ່ານຕ້ອງການ, ແລະປ່ອຍໃຫ້ສ່ວນທີ່ເຫຼືອ - Imagic ສັນຍາການແກ້ໄຂ granular ຂອງພຽງແຕ່ພາກສ່ວນທີ່ທ່ານຕ້ອງການທີ່ຈະມີການປ່ຽນແປງ. ທີ່ມາ: https://arxiv.org/pdf/2210.09276.pdf

ໃຜກໍ່ຕາມທີ່ເຄີຍພະຍາຍາມປ່ຽນອົງປະກອບດຽວໃນການສະແດງຜົນການແຜ່ກະຈາຍແບບຄົງທີ່ຈະຮູ້ດີຄືກັນວ່າສໍາລັບທຸກໆການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດ, ລະບົບຈະປ່ຽນຫ້າສິ່ງທີ່ເຈົ້າມັກໃນແບບທີ່ເຂົາເຈົ້າເປັນ. ມັນເປັນຂໍ້ບົກຜ່ອງທີ່ປະຈຸບັນມີຫລາຍຄົນທີ່ມີຄວາມກະຕືລືລົ້ນ SD ທີ່ມີພອນສະຫວັນທີ່ສຸດທີ່ສະຫຼັບກັນຢ່າງຕໍ່ເນື່ອງລະຫວ່າງ Stable Diffusion ແລະ Photoshop, ເພື່ອແກ້ໄຂປະເພດຂອງ "ຄວາມເສຍຫາຍຫຼັກປະກັນ" ນີ້. ຈາກຈຸດນີ້ຢ່າງດຽວ, ຜົນສໍາເລັດຂອງ Imagic ເບິ່ງຄືວ່າເປັນທີ່ຫນ້າສັງເກດ.

ໃນເວລາຂຽນ, Imagic ຍັງຂາດວິດີໂອໂຄສະນາ, ແລະໃຫ້ Google ທັດສະນະຄະຕິ ການປ່ອຍເຄື່ອງມືການສັງເຄາະຮູບພາບທີ່ບໍ່ມີການລົບກວນ, ມັນບໍ່ແນ່ນອນໃນລະດັບໃດ, ຖ້າມີ, ພວກເຮົາຈະມີໂອກາດທົດສອບລະບົບ.

ການສະເຫນີທີ່ສອງແມ່ນ Runway ML ຂອງສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍກວ່າ ລຶບ ແລະ ແທນທີ່ ສິ່ງອໍານວຍຄວາມສະດວກ, ກ ຄຸນນະສົມບັດໃຫມ່ ໃນສ່ວນ 'AI Magic Tools' ຂອງຊຸດເຄື່ອງໃຊ້ທາງສາຍຕາທີ່ອີງໃສ່ການຮຽນຮູ້ເຄື່ອງອອນລາຍສະເພາະ.

ຄຸນສົມບັດການລຶບ ແລະແທນທີ່ຂອງ Runway ML, ເຫັນໄດ້ໃນຕົວຢ່າງສໍາລັບລະບົບການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອ. ທີ່ມາ: https://www.youtube.com/watch?v=41Qb58ZPO60

ລອງເບິ່ງການອອກນອກຂອງ Runway ກ່ອນ.

ລຶບ ແລະ ແທນທີ່

ເຊັ່ນດຽວກັນກັບ Imagic, Erase ແລະ Replace deals ສະເພາະກັບຮູບພາບທີ່ຍັງ, ເຖິງແມ່ນວ່າ Runway ມີ ສະແດງຕົວຢ່າງ ຟັງຊັນດຽວກັນໃນການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອທີ່ຍັງບໍ່ໄດ້ປ່ອຍອອກມາເມື່ອ:

ເຖິງແມ່ນວ່າທຸກຄົນສາມາດທົດສອບ Erase ແລະ Replace ໃໝ່ໃນຮູບພາບໄດ້, ແຕ່ເວີຊັນວິດີໂອຍັງບໍ່ທັນມີໃຫ້ສາທາລະນະເທື່ອ. ທີ່ມາ: https://twitter.com/runwayml/status/1568220303808991232

ເຖິງແມ່ນວ່າທຸກຄົນສາມາດທົດສອບ Erase ແລະ Replace ຮູບແບບໃຫມ່ໃນຮູບພາບ, ສະບັບວິດີໂອຍັງບໍ່ທັນມີໃຫ້ສາທາລະນະ. ທີ່ມາ: https://twitter.com/runwayml/status/1568220303808991232

ເຖິງແມ່ນວ່າ Runway ML ບໍ່ໄດ້ເປີດເຜີຍລາຍລະອຽດຂອງເຕັກໂນໂລຢີທີ່ຢູ່ເບື້ອງຫລັງ Erase ແລະ Replace, ຄວາມໄວທີ່ທ່ານສາມາດທົດແທນຕົ້ນໄມ້ເຮືອນດ້ວຍການແຕກຫັກທີ່ຫນ້າເຊື່ອຖືຢ່າງສົມເຫດສົມຜົນຂອງ Ronald Reagan ແນະນໍາວ່າຮູບແບບການແຜ່ກະຈາຍເຊັ່ນ Stable Diffusion (ຫຼື, ເປັນໄປໄດ້ຫນ້ອຍ, a. ໃບອະນຸຍາດອອກ DALL-E 2) ແມ່ນເຄື່ອງຈັກທີ່ reinventing ວັດຖຸທີ່ທ່ານເລືອກໃນ Erase ແລະ Replace.

ການທົດແທນພືດໃນເຮືອນດ້ວຍການແຕກຂອງ Gipper ແມ່ນບໍ່ໄວເທົ່ານີ້, ແຕ່ມັນໄວຫຼາຍ. ທີ່ມາ: https://app.runwayml.com/

ລະບົບມີບາງຂໍ້ຈໍາກັດປະເພດ DALL-E 2 - ຮູບພາບຫຼືຂໍ້ຄວາມທີ່ໃສ່ທຸງລົບແລະປ່ຽນຕົວກອງຈະເຮັດໃຫ້ເກີດການເຕືອນກ່ຽວກັບການລະງັບບັນຊີທີ່ເປັນໄປໄດ້ໃນກໍລະນີທີ່ມີການລະເມີດເພີ່ມເຕີມ - ການປະຕິບັດການ clone boilerplate ຂອງ OpenAI ຢ່າງຕໍ່ເນື່ອງ. ນະໂຍບາຍ ສໍາລັບ DALL-E 2 .

ຜົນໄດ້ຮັບຫຼາຍຢ່າງຂາດຂອບ rough ປົກກະຕິຂອງ Stable Diffusion. Runway ML ແມ່ນນັກລົງທຶນແລະ ຄູ່ຮ່ວມງານການຄົ້ນຄວ້າ ໃນ SD, ແລະມັນເປັນໄປໄດ້ວ່າພວກເຂົາໄດ້ຝຶກອົບຮົມແບບຈໍາລອງທີ່ເປັນເຈົ້າຂອງທີ່ເຫນືອກວ່າແຫຼ່ງເປີດ 1.4 checkpoint ນ້ໍາຫນັກທີ່ສ່ວນທີ່ເຫຼືອຂອງພວກເຮົາກໍາລັງຕໍ່ສູ້ກັບ (ຍ້ອນວ່າກຸ່ມພັດທະນາອື່ນໆຈໍານວນຫຼາຍ, hobbyist ແລະເປັນມືອາຊີບຄືກັນ, ປະຈຸບັນການຝຶກອົບຮົມຫຼືການປັບໄຫມ. ແບບຈໍາລອງການແຜ່ກະຈາຍຄົງທີ່).

ການທົດແທນຕາຕະລາງພາຍໃນປະເທດສໍາລັບ 'ຕາຕະລາງທີ່ເຮັດດ້ວຍກ້ອນ' ໃນ Runway ML's Erase and Replace.

ເຊັ່ນດຽວກັນກັບ Imagic (ເບິ່ງຂ້າງລຸ່ມນີ້), Erase and Replace is 'object-oriented', as it was – you can’t just erase a ‘blank’ part of the picture and inpaint it with the result of your text prompt; ໃນສະຖານະການດັ່ງກ່າວ, ລະບົບພຽງແຕ່ຈະຕິດຕາມວັດຖຸທີ່ປາກົດຂື້ນທີ່ໃກ້ທີ່ສຸດຕາມເສັ້ນສາຍຕາຂອງຫນ້າກາກ (ເຊັ່ນ: ຝາ, ຫຼືໂທລະທັດ), ແລະນໍາໃຊ້ການຫັນປ່ຽນຢູ່ທີ່ນັ້ນ.

ດັ່ງທີ່ຊື່ຊີ້ໃຫ້ເຫັນ, ທ່ານບໍ່ສາມາດສີດວັດຖຸເຂົ້າໄປໃນພື້ນທີ່ຫວ່າງໃນ Erase ແລະ Replace. ທີ່ນີ້, ຄວາມພະຍາຍາມເພື່ອເອີ້ນເອົາຜູ້ທີ່ມີຊື່ສຽງທີ່ສຸດຂອງ Sith lords ເຮັດໃຫ້ມີຮູບແຕ້ມທີ່ແປກປະຫລາດທີ່ກ່ຽວຂ້ອງກັບ Vader ໃນໂທລະພາບ, ປະມານບ່ອນທີ່ພື້ນທີ່ 'ທົດແທນ' ໄດ້ຖືກແຕ້ມ.

ມັນເປັນການຍາກທີ່ຈະບອກໄດ້ວ່າ Erase ແລະ Replace ກໍາລັງຖືກຫລົບຫລີກກ່ຽວກັບການນໍາໃຊ້ຮູບພາບທີ່ມີລິຂະສິດ (ເຊິ່ງຍັງມີການຂັດຂວາງຢ່າງຫຼວງຫຼາຍ, ເຖິງແມ່ນວ່າມີຜົນສໍາເລັດທີ່ແຕກຕ່າງກັນ, ໃນ DALL-E 2), ຫຼືຖ້າຮູບແບບທີ່ຖືກນໍາໃຊ້ໃນເຄື່ອງຈັກການສະແດງຜົນຂອງ backend. ບໍ່ພຽງແຕ່ຖືກປັບໃຫ້ເໝາະສົມກັບສິ່ງດັ່ງກ່າວ.

NSFW ເລັກນ້ອຍ 'Mural of Nicole Kidman' ຊີ້ໃຫ້ເຫັນວ່າຮູບແບບການແຜ່ກະຈາຍ (ສົມມຸດຕິຖານ) ຢູ່ໃນມືຍັງຂາດການປະຕິເສດແບບເປັນລະບົບຂອງ DALL-E 2 ໃນອະດີດຂອງການສະແດງໃບຫນ້າທີ່ແທ້ຈິງຫຼືເນື້ອຫາ racy, ໃນຂະນະທີ່ຜົນໄດ້ຮັບສໍາລັບຄວາມພະຍາຍາມເພື່ອຫລີກລ້ຽງວຽກງານທີ່ມີລິຂະສິດແມ່ນມາຈາກຄວາມບໍ່ແນ່ນອນ. ('xenomorph') ກັບໂງ່ ('ບັນລັງທາດເຫຼັກ'). ໃສ່ຂວາລຸ່ມ, ຮູບແຫຼ່ງ.

ມັນເປັນສິ່ງທີ່ ໜ້າ ສົນໃຈທີ່ຈະຮູ້ວ່າວິທີການລຶບແລະທົດແທນແມ່ນໃຊ້ເພື່ອແຍກວັດຖຸທີ່ມັນສາມາດປ່ຽນແທນໄດ້. ຄາດວ່າຮູບພາບແມ່ນໄດ້ຮັບການດໍາເນີນການໂດຍຜ່ານການມາຂອງບາງ ຄລິບ, ໂດຍມີລາຍການທີ່ແຍກກັນໂດຍການຮັບຮູ້ວັດຖຸແລະການແບ່ງສ່ວນ semantic ຕໍ່ມາ. ບໍ່ມີການປະຕິບັດງານເຫຼົ່ານີ້ຢູ່ບ່ອນໃດບ່ອນໜຶ່ງຢູ່ໃກ້ໆເຊັ່ນດຽວກັນໃນການຕິດຕັ້ງແບບທົ່ວໄປ ຫຼືສວນຂອງ Stable Diffusion.

ແຕ່ບໍ່ມີຫຍັງສົມບູນແບບ - ບາງຄັ້ງລະບົບເບິ່ງຄືວ່າຈະລົບລ້າງແລະບໍ່ປ່ຽນແທນ, ເຖິງແມ່ນວ່າ (ດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນໃນຮູບຂ້າງເທິງ), ກົນໄກການສະແດງຜົນພື້ນຖານຮູ້ວ່າການເຕືອນຂໍ້ຄວາມຫມາຍຄວາມວ່າແນວໃດ. ໃນກໍລະນີນີ້, ມັນພິສູດວ່າເປັນໄປບໍ່ໄດ້ທີ່ຈະປ່ຽນຕາຕະລາງກາເຟເປັນ xenomorph - ແທນທີ່ຈະ, ຕາຕະລາງພຽງແຕ່ຫາຍໄປ.

ການເວົ້າຊ້ຳທີ່ຢ້ານກວ່າຂອງ 'Where's Waldo', ຍ້ອນວ່າ Erase ແລະ Replace ບໍ່ສາມາດຜະລິດມະນຸດຕ່າງດາວໄດ້.

Erase and Replace ເບິ່ງຄືວ່າເປັນລະບົບການທົດແທນວັດຖຸທີ່ມີປະສິດທິພາບ, ດ້ວຍການໃສ່ສີທີ່ດີເລີດ. ແນວໃດກໍ່ຕາມ, ມັນບໍ່ສາມາດແກ້ໄຂວັດຖຸຮັບຮູ້ທີ່ມີຢູ່ແລ້ວ, ແຕ່ພຽງແຕ່ປ່ຽນແທນພວກມັນເທົ່ານັ້ນ. ຕົວຈິງແລ້ວ, ການປ່ຽນແປງເນື້ອໃນຮູບພາບທີ່ມີຢູ່ແລ້ວໂດຍບໍ່ມີການປະນີປະນອມອຸປະກອນການສະພາບແວດລ້ອມແມ່ນເປັນວຽກງານທີ່ຍາກກວ່າ, ຜູກມັດກັບຄວາມພະຍາຍາມຂອງຂະແຫນງການຄົ້ນຄ້ວາວິໄສທັດຄອມພິວເຕີໃນໄລຍະຍາວຂອງ. ຄວາມແຕກແຍກ ຢູ່ໃນສະຖານທີ່ຕ່າງໆ latent ຂອງກອບທີ່ນິຍົມ.

ຈິນຕະນາການ

ມັນເປັນວຽກທີ່ Imagic ແກ້ໄຂ. ໄດ້ ກະດາດໃຫມ່ ສະເຫນີຕົວຢ່າງຈໍານວນຫລາຍຂອງການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດໃນການແກ້ໄຂສ່ວນບຸກຄົນຂອງຮູບໃນຂະນະທີ່ເຮັດໃຫ້ສ່ວນທີ່ເຫຼືອຂອງຮູບພາບບໍ່ໄດ້ສໍາຜັດ.

ໃນ Imagic, ຮູບພາບທີ່ປັບປຸງບໍ່ໄດ້ທົນທຸກຈາກລັກສະນະ stretching, ການບິດເບືອນແລະ 'occlusion guessing' ລັກສະນະຂອງ puppetry deepfake, ເຊິ່ງນໍາໃຊ້ຂອບເຂດຈໍາກັດທີ່ມາຈາກຮູບພາບດຽວ.

ລະບົບໃຊ້ຂະບວນການສາມຂັ້ນຕອນ - ການເພີ່ມປະສິດທິພາບການຝັງຂໍ້ຄວາມ; ການປັບຕົວແບບ; ແລະ, ສຸດທ້າຍ, ການຜະລິດຂອງຮູບພາບທີ່ດັດແກ້.

Imagic ເຂົ້າລະຫັດຂໍ້ຄວາມເປົ້າໝາຍເພື່ອດຶງເອົາການຝັງຂໍ້ຄວາມເບື້ອງຕົ້ນ, ແລະຫຼັງຈາກນັ້ນ optimizes ຜົນໄດ້ຮັບເພື່ອໃຫ້ໄດ້ຮູບພາບການປ້ອນຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ຮູບແບບການຜະລິດໄດ້ຖືກປັບລະອຽດກັບຮູບພາບແຫຼ່ງ, ເພີ່ມຂອບເຂດຂອງພາລາມິເຕີ, ກ່ອນທີ່ຈະຖືກປະຕິບັດຕາມການແຊກແຊງທີ່ຮ້ອງຂໍ.

Imagic ເຂົ້າລະຫັດຂໍ້ຄວາມເປົ້າໝາຍເພື່ອດຶງເອົາຂໍ້ຄວາມທີ່ຝັງໄວ້ໃນເບື້ອງຕົ້ນ, ແລະຫຼັງຈາກນັ້ນ optimizes ຜົນໄດ້ຮັບເພື່ອໃຫ້ໄດ້ຮູບພາບການປ້ອນຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ຮູບແບບການຜະລິດໄດ້ຖືກປັບລະອຽດກັບຮູບພາບແຫຼ່ງ, ເພີ່ມຂອບເຂດຂອງພາລາມິເຕີ, ກ່ອນທີ່ຈະຖືກປະຕິບັດຕາມການແຊກແຊງທີ່ຮ້ອງຂໍ.

ບໍ່ແປກໃຈ, ກອບແມ່ນອີງໃສ່ Google's ຮູບພາບ ສະຖາປັດຕະຍະກໍາຂໍ້ຄວາມເປັນວິດີໂອ, ເຖິງແມ່ນວ່ານັກຄົ້ນຄວ້າກ່າວວ່າຫຼັກການຂອງລະບົບແມ່ນສາມາດນໍາໃຊ້ໄດ້ຢ່າງກວ້າງຂວາງກັບຮູບແບບການແຜ່ກະຈາຍ latent.

Imagen ໃຊ້ສະຖາປັດຕະຍະກໍາສາມຊັ້ນ, ແທນທີ່ຈະເປັນອາເຣເຈັດຊັ້ນທີ່ໃຊ້ສໍາລັບບໍລິສັດທີ່ຜ່ານມາ. ການປ່ຽນຂໍ້ຄວາມເປັນວິດີໂອຊ້ຳໆ ຂອງຊອບແວໄດ້. ສາມໂມດູນທີ່ແຕກຕ່າງກັນປະກອບດ້ວຍຮູບແບບການແຜ່ກະຈາຍທົ່ວໄປທີ່ດໍາເນີນການຢູ່ທີ່ຄວາມລະອຽດ 64x64px; ຮູບແບບຄວາມລະອຽດສູງທີ່ຂະຫຍາຍຜົນຜະລິດນີ້ໄປເປັນ 256x256px; ແລະຮູບແບບຄວາມລະອຽດສູງເພີ່ມເຕີມເພື່ອເອົາຜົນຜະລິດໄດ້ເຖິງ 1024×1024 ຄວາມລະອຽດ.

Imagic ແຊກແຊງຢູ່ໃນຂັ້ນຕອນທໍາອິດຂອງຂະບວນການນີ້, ເພີ່ມປະສິດທິພາບຂໍ້ຄວາມທີ່ຮ້ອງຂໍການຝັງຢູ່ໃນຂັ້ນຕອນ 64px ເທິງເຄື່ອງເພີ່ມປະສິດທິພາບຂອງ Adam ໃນອັດຕາການຮຽນຮູ້ແບບຄົງທີ່ຂອງ 0.0001.

ລະດັບຕົ້ນສະບັບໃນຄວາມບໍ່ສະຫງົບ: ຜູ້ໃຊ້ສຸດທ້າຍທີ່ໄດ້ພະຍາຍາມປ່ຽນແປງບາງສິ່ງບາງຢ່າງທີ່ງ່າຍດາຍເຊັ່ນສີຂອງວັດຖຸທີ່ສະແດງຢູ່ໃນການແຜ່ກະຈາຍ, ຮູບແບບ GAN ຫຼື NeRF ຈະຮູ້ວ່າມັນມີຄວາມສໍາຄັນຫຼາຍປານໃດທີ່ Imagic ສາມາດປະຕິບັດການຫັນປ່ຽນດັ່ງກ່າວໂດຍບໍ່ມີການ 'ແຍກອອກຈາກກັນ. ' ຄວາມສອດຄ່ອງຂອງສ່ວນທີ່ເຫຼືອຂອງຮູບພາບ.

ຫຼັງຈາກນັ້ນ, ການປັບລະອຽດຈະເກີດຂຶ້ນໃນຕົວແບບພື້ນຖານຂອງ Imagen, ສໍາລັບ 1500 ຂັ້ນຕອນຕໍ່ຮູບພາບທີ່ປ້ອນເຂົ້າ, ປັບເງື່ອນໄຂຢູ່ໃນການຝັງທີ່ປັບປຸງ. ໃນເວລາດຽວກັນ, ຊັ້ນຮອງ 64px> 256px ໄດ້ຖືກປັບປຸງໃຫ້ເຫມາະສົມໃນຂະຫນານໃນຮູບພາບທີ່ມີເງື່ອນໄຂ. ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າການເພີ່ມປະສິດທິພາບທີ່ຄ້າຍຄືກັນສໍາລັບຊັ້ນສຸດທ້າຍ 256px>1024px ມີ 'ຫນ້ອຍທີ່ຈະບໍ່ມີຜົນ' ຕໍ່ຜົນໄດ້ຮັບສຸດທ້າຍ, ແລະດັ່ງນັ້ນຈິ່ງບໍ່ໄດ້ປະຕິບັດມັນ.

ເອກະສານລະບຸວ່າຂະບວນການເພີ່ມປະສິດທິພາບໃຊ້ເວລາປະມານແປດນາທີສໍາລັບແຕ່ລະຮູບຄູ່ແຝດ TPUV4 ຊິບ. ການ render ສຸດ ທ້າຍ ໃຊ້ ເວ ລາ ສະ ຖານ ທີ່ ໃນ Core Imagen ພາຍ ໃຕ້ ການ ໂຄງການເກັບຕົວຢ່າງ DDIM.

ຄ້າຍຄືກັນກັບຂະບວນການປັບໄຫມທີ່ຄ້າຍຄືກັນສໍາລັບ Google's ຕູບຕູບ, ການຝັງຜົນທີ່ໄດ້ຮັບນອກຈາກນັ້ນຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອພະລັງງານ stylization, ເຊັ່ນດຽວກັນກັບການແກ້ໄຂ photorealistic ທີ່ມີຂໍ້ມູນທີ່ດຶງມາຈາກຖານຂໍ້ມູນທີ່ກວ້າງຂຶ້ນໂດຍອໍານາດ Imagen (ນັບຕັ້ງແຕ່ຄໍລໍາທໍາອິດຂ້າງລຸ່ມນີ້ສະແດງໃຫ້ເຫັນ, ຮູບພາບຕົ້ນສະບັບບໍ່ມີເນື້ອໃນທີ່ຈໍາເປັນເພື່ອ. ສົ່ງຜົນກະທົບການຫັນປ່ຽນເຫຼົ່ານີ້).

ການເຄື່ອນໄຫວ ແລະການແກ້ໄຂຮູບຖ່າຍແບບຍືດຫຍຸ່ນສາມາດຖືກຖອດຖອນໄດ້ຜ່ານ Imagic, ໃນຂະນະທີ່ລະຫັດທີ່ມາຈາກ ແລະຖອດລະຫັດທີ່ໄດ້ຮັບໃນຂະບວນການນັ້ນສາມາດຖືກນໍາໃຊ້ໄດ້ຢ່າງງ່າຍດາຍສໍາລັບຜົນຜະລິດທີ່ມີສະໄຕລ໌.

ນັກຄົ້ນຄວ້າໄດ້ປຽບທຽບ Imagic ກັບວຽກງານທີ່ຜ່ານມາ SDEdit, ວິທີການທີ່ອີງໃສ່ GAN ຈາກ 2021, ການຮ່ວມມືລະຫວ່າງມະຫາວິທະຍາໄລ Stanford ແລະມະຫາວິທະຍາໄລ Carnegie Mellon; ແລະ Text2Live, ການຮ່ວມມື, ຈາກເດືອນເມສາ 2022, ລະຫວ່າງສະຖາບັນວິທະຍາສາດ Weizmann ແລະ NVIDIA.

ການປຽບທຽບສາຍຕາລະຫວ່າງ Imagic, SDEdit ແລະ Text2Live.

ມັນເປັນທີ່ຊັດເຈນວ່າວິທີການໃນອະດີດແມ່ນດີ້ນລົນ, ແຕ່ໃນແຖວລຸ່ມ, ເຊິ່ງກ່ຽວຂ້ອງກັບການແຊກແຊງການປ່ຽນແປງອັນໃຫຍ່ຫຼວງ, ຜູ້ປະກອບການລົ້ມເຫລວຢ່າງສົມບູນໃນການແກ້ໄຂແຫຼ່ງທີ່ມາ, ເມື່ອທຽບກັບຜົນສໍາເລັດທີ່ຫນ້າສັງເກດຈາກ Imagic.

ຄວາມຕ້ອງການຊັບພະຍາກອນຂອງ Imagic ແລະເວລາການຝຶກອົບຮົມຕໍ່ຮູບພາບ, ໃນຂະນະທີ່ສັ້ນໂດຍມາດຕະຖານຂອງການດໍາເນີນການດັ່ງກ່າວ, ເຮັດໃຫ້ມັນບໍ່ເປັນໄປໄດ້ໃນຄໍາຮ້ອງສະຫມັກການແກ້ໄຂຮູບພາບທ້ອງຖິ່ນໃນຄອມພິວເຕີສ່ວນບຸກຄົນ - ແລະມັນບໍ່ຊັດເຈນວ່າຂະບວນການປັບຂະຫນາດສາມາດເປັນຂະຫນາດໃດ. ຫຼຸດລົງເຖິງລະດັບຜູ້ບໍລິໂພກ.

ຍ້ອນວ່າມັນຢືນຢູ່, Imagic ແມ່ນການສະເຫນີທີ່ຫນ້າປະທັບໃຈທີ່ເຫມາະສົມກັບ APIs - ສະພາບແວດລ້ອມຂອງ Google Research, ການວິພາກວິຈານກ່ຽວກັບການອໍານວຍຄວາມສະດວກໃນຄວາມເລິກລັບ, ໃນກໍລະນີໃດກໍ່ຕາມອາດຈະສະດວກສະບາຍທີ່ສຸດ.

ພິມຄັ້ງທຳອິດໃນວັນທີ 18 ຕຸລາ 2022.