ກ້ານໃບ AI-Assisted Object Editing with Google's Imagic and Runway's 'Erase and Replace' - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

AI-Assisted Object Editing with Google's Imagic and Runway's 'Erase and Replace'

mm
ການປັບປຸງ on

ໃນອາທິດນີ້, ສອງອັນໃຫມ່, ແຕ່ກົງກັນຂ້າມ AI-driven algorithms ແມ່ນສະເຫນີວິທີການໃຫມ່ສໍາລັບຜູ້ໃຊ້ສຸດທ້າຍເພື່ອເຮັດໃຫ້ການປ່ຽນແປງທີ່ມີ granular ສູງແລະປະສິດທິພາບກັບວັດຖຸໃນຮູບພາບ.

ທໍາອິດແມ່ນ ຈິນຕະນາການ, ຈາກການຄົ້ນຄວ້າຂອງ Google, ໃນສະມາຄົມກັບສະຖາບັນເຕັກໂນໂລຢີຂອງອິດສະຣາເອນແລະສະຖາບັນວິທະຍາສາດ Weizmann. Imagic ສະຫນອງການດັດແກ້ຂໍ້ຄວາມ, ລະອຽດຂອງວັດຖຸໂດຍຜ່ານການປັບລະອຽດຂອງຮູບແບບການແຜ່ກະຈາຍ.

ປ່ຽນແປງສິ່ງທີ່ທ່ານຕ້ອງການ, ແລະປ່ອຍໃຫ້ສ່ວນທີ່ເຫຼືອ - Imagic ສັນຍາການແກ້ໄຂ granular ຂອງພຽງແຕ່ພາກສ່ວນທີ່ທ່ານຕ້ອງການທີ່ຈະມີການປ່ຽນແປງ. ທີ່ມາ: https://arxiv.org/pdf/2210.09276.pdf

ປ່ຽນແປງສິ່ງທີ່ທ່ານຕ້ອງການ, ແລະປ່ອຍໃຫ້ສ່ວນທີ່ເຫຼືອ - Imagic ສັນຍາການແກ້ໄຂ granular ຂອງພຽງແຕ່ພາກສ່ວນທີ່ທ່ານຕ້ອງການທີ່ຈະມີການປ່ຽນແປງ. ທີ່ມາ: https://arxiv.org/pdf/2210.09276.pdf

ໃຜກໍ່ຕາມທີ່ເຄີຍພະຍາຍາມປ່ຽນອົງປະກອບດຽວໃນການສະແດງຜົນການແຜ່ກະຈາຍແບບຄົງທີ່ຈະຮູ້ດີຄືກັນວ່າສໍາລັບທຸກໆການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດ, ລະບົບຈະປ່ຽນຫ້າສິ່ງທີ່ເຈົ້າມັກໃນແບບທີ່ເຂົາເຈົ້າເປັນ. ມັນເປັນຂໍ້ບົກຜ່ອງທີ່ປະຈຸບັນມີຫລາຍຄົນທີ່ມີຄວາມກະຕືລືລົ້ນ SD ທີ່ມີພອນສະຫວັນທີ່ສຸດທີ່ສະຫຼັບກັນຢ່າງຕໍ່ເນື່ອງລະຫວ່າງ Stable Diffusion ແລະ Photoshop, ເພື່ອແກ້ໄຂປະເພດຂອງ "ຄວາມເສຍຫາຍຫຼັກປະກັນ" ນີ້. ຈາກຈຸດນີ້ຢ່າງດຽວ, ຜົນສໍາເລັດຂອງ Imagic ເບິ່ງຄືວ່າເປັນທີ່ຫນ້າສັງເກດ.

ໃນເວລາຂຽນ, Imagic ຍັງຂາດວິດີໂອໂຄສະນາ, ແລະໃຫ້ Google ທັດສະນະຄະຕິ ການປ່ອຍເຄື່ອງມືການສັງເຄາະຮູບພາບທີ່ບໍ່ມີການລົບກວນ, ມັນບໍ່ແນ່ນອນໃນລະດັບໃດ, ຖ້າມີ, ພວກເຮົາຈະມີໂອກາດທົດສອບລະບົບ.

ການສະເຫນີທີ່ສອງແມ່ນ Runway ML ຂອງສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍກວ່າ ລຶບ ແລະ ແທນທີ່ ສິ່ງອໍານວຍຄວາມສະດວກ, ກ ຄຸນນະສົມບັດໃຫມ່ ໃນສ່ວນ 'AI Magic Tools' ຂອງຊຸດເຄື່ອງໃຊ້ທາງສາຍຕາທີ່ອີງໃສ່ການຮຽນຮູ້ເຄື່ອງອອນລາຍສະເພາະ.

ຄຸນສົມບັດການລຶບ ແລະແທນທີ່ຂອງ Runway ML, ເຫັນໄດ້ໃນຕົວຢ່າງສໍາລັບລະບົບການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອ. ທີ່ມາ: https://www.youtube.com/watch?v=41Qb58ZPO60

ຄຸນສົມບັດການລຶບ ແລະແທນທີ່ຂອງ Runway ML, ເຫັນໄດ້ໃນຕົວຢ່າງສໍາລັບລະບົບການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອ. ທີ່ມາ: https://www.youtube.com/watch?v=41Qb58ZPO60

ລອງເບິ່ງການອອກນອກຂອງ Runway ກ່ອນ.

ລຶບ ແລະ ແທນທີ່

ເຊັ່ນດຽວກັນກັບ Imagic, Erase ແລະ Replace deals ສະເພາະກັບຮູບພາບທີ່ຍັງ, ເຖິງແມ່ນວ່າ Runway ມີ ສະແດງຕົວຢ່າງ ຟັງຊັນດຽວກັນໃນການແກ້ໄຂຂໍ້ຄວາມເປັນວິດີໂອທີ່ຍັງບໍ່ໄດ້ປ່ອຍອອກມາເມື່ອ:

ເຖິງແມ່ນວ່າທຸກຄົນສາມາດທົດສອບ Erase ແລະ Replace ໃໝ່ໃນຮູບພາບໄດ້, ແຕ່ເວີຊັນວິດີໂອຍັງບໍ່ທັນມີໃຫ້ສາທາລະນະເທື່ອ. ທີ່ມາ: https://twitter.com/runwayml/status/1568220303808991232

ເຖິງແມ່ນວ່າທຸກຄົນສາມາດທົດສອບ Erase ແລະ Replace ຮູບແບບໃຫມ່ໃນຮູບພາບ, ສະບັບວິດີໂອຍັງບໍ່ທັນມີໃຫ້ສາທາລະນະ. ທີ່ມາ: https://twitter.com/runwayml/status/1568220303808991232

ເຖິງແມ່ນວ່າ Runway ML ບໍ່ໄດ້ເປີດເຜີຍລາຍລະອຽດຂອງເຕັກໂນໂລຢີທີ່ຢູ່ເບື້ອງຫລັງ Erase ແລະ Replace, ຄວາມໄວທີ່ທ່ານສາມາດທົດແທນຕົ້ນໄມ້ເຮືອນດ້ວຍການແຕກຫັກທີ່ຫນ້າເຊື່ອຖືຢ່າງສົມເຫດສົມຜົນຂອງ Ronald Reagan ແນະນໍາວ່າຮູບແບບການແຜ່ກະຈາຍເຊັ່ນ Stable Diffusion (ຫຼື, ເປັນໄປໄດ້ຫນ້ອຍ, a. ໃບອະນຸຍາດອອກ DALL-E 2) ແມ່ນເຄື່ອງຈັກທີ່ reinventing ວັດຖຸທີ່ທ່ານເລືອກໃນ Erase ແລະ Replace.

ການທົດແທນພືດໃນເຮືອນດ້ວຍການແຕກຂອງ Gipper ແມ່ນບໍ່ໄວເທົ່ານີ້, ແຕ່ມັນໄວຫຼາຍ. ທີ່ມາ: https://app.runwayml.com/

ການທົດແທນພືດໃນເຮືອນດ້ວຍການແຕກຂອງ Gipper ແມ່ນບໍ່ໄວເທົ່ານີ້, ແຕ່ມັນໄວຫຼາຍ. ທີ່ມາ: https://app.runwayml.com/

ລະບົບມີບາງຂໍ້ຈໍາກັດປະເພດ DALL-E 2 - ຮູບພາບຫຼືຂໍ້ຄວາມທີ່ໃສ່ທຸງລົບແລະປ່ຽນຕົວກອງຈະເຮັດໃຫ້ເກີດການເຕືອນກ່ຽວກັບການລະງັບບັນຊີທີ່ເປັນໄປໄດ້ໃນກໍລະນີທີ່ມີການລະເມີດເພີ່ມເຕີມ - ການປະຕິບັດການ clone boilerplate ຂອງ OpenAI ຢ່າງຕໍ່ເນື່ອງ. ນະໂຍບາຍ ສໍາລັບ DALL-E 2 .

ຜົນໄດ້ຮັບຫຼາຍຢ່າງຂາດຂອບ rough ປົກກະຕິຂອງ Stable Diffusion. Runway ML ແມ່ນນັກລົງທຶນແລະ ຄູ່ຮ່ວມງານການຄົ້ນຄວ້າ ໃນ SD, ແລະມັນເປັນໄປໄດ້ວ່າພວກເຂົາໄດ້ຝຶກອົບຮົມແບບຈໍາລອງທີ່ເປັນເຈົ້າຂອງທີ່ເຫນືອກວ່າແຫຼ່ງເປີດ 1.4 checkpoint ນ້ໍາຫນັກທີ່ສ່ວນທີ່ເຫຼືອຂອງພວກເຮົາກໍາລັງຕໍ່ສູ້ກັບ (ຍ້ອນວ່າກຸ່ມພັດທະນາອື່ນໆຈໍານວນຫຼາຍ, hobbyist ແລະເປັນມືອາຊີບຄືກັນ, ປະຈຸບັນການຝຶກອົບຮົມຫຼືການປັບໄຫມ. ແບບຈໍາລອງການແຜ່ກະຈາຍຄົງທີ່).

ການທົດແທນຕາຕະລາງພາຍໃນປະເທດສໍາລັບ 'ຕາຕະລາງທີ່ເຮັດດ້ວຍກ້ອນ' ໃນ Runway ML's Erase and Replace.

ການທົດແທນຕາຕະລາງພາຍໃນປະເທດສໍາລັບ 'ຕາຕະລາງທີ່ເຮັດດ້ວຍກ້ອນ' ໃນ Runway ML's Erase and Replace.

ເຊັ່ນດຽວກັນກັບ Imagic (ເບິ່ງຂ້າງລຸ່ມນີ້), Erase and Replace is 'object-oriented', as it was – you can’t just erase a ‘blank’ part of the picture and inpaint it with the result of your text prompt; ໃນສະຖານະການດັ່ງກ່າວ, ລະບົບພຽງແຕ່ຈະຕິດຕາມວັດຖຸທີ່ປາກົດຂື້ນທີ່ໃກ້ທີ່ສຸດຕາມເສັ້ນສາຍຕາຂອງຫນ້າກາກ (ເຊັ່ນ: ຝາ, ຫຼືໂທລະທັດ), ແລະນໍາໃຊ້ການຫັນປ່ຽນຢູ່ທີ່ນັ້ນ.

ດັ່ງທີ່ຊື່ຊີ້ໃຫ້ເຫັນ, ທ່ານບໍ່ສາມາດສີດວັດຖຸເຂົ້າໄປໃນພື້ນທີ່ຫວ່າງໃນ Erase ແລະ Replace. ທີ່ນີ້, ຄວາມພະຍາຍາມເພື່ອເອີ້ນເອົາຜູ້ທີ່ມີຊື່ສຽງທີ່ສຸດຂອງ Sith lords ເຮັດໃຫ້ມີຮູບແຕ້ມທີ່ແປກປະຫລາດທີ່ກ່ຽວຂ້ອງກັບ Vader ໃນໂທລະພາບ, ປະມານບ່ອນທີ່ພື້ນທີ່ 'ທົດແທນ' ໄດ້ຖືກແຕ້ມ.

ດັ່ງທີ່ຊື່ຊີ້ໃຫ້ເຫັນ, ທ່ານບໍ່ສາມາດສີດວັດຖຸເຂົ້າໄປໃນພື້ນທີ່ຫວ່າງໃນ Erase ແລະ Replace. ທີ່ນີ້, ຄວາມພະຍາຍາມເພື່ອເອີ້ນເອົາຜູ້ທີ່ມີຊື່ສຽງທີ່ສຸດຂອງ Sith lords ເຮັດໃຫ້ມີຮູບແຕ້ມທີ່ແປກປະຫລາດທີ່ກ່ຽວຂ້ອງກັບ Vader ໃນໂທລະພາບ, ປະມານບ່ອນທີ່ພື້ນທີ່ 'ທົດແທນ' ໄດ້ຖືກແຕ້ມ.

ມັນເປັນການຍາກທີ່ຈະບອກໄດ້ວ່າ Erase ແລະ Replace ກໍາລັງຖືກຫລົບຫລີກກ່ຽວກັບການນໍາໃຊ້ຮູບພາບທີ່ມີລິຂະສິດ (ເຊິ່ງຍັງມີການຂັດຂວາງຢ່າງຫຼວງຫຼາຍ, ເຖິງແມ່ນວ່າມີຜົນສໍາເລັດທີ່ແຕກຕ່າງກັນ, ໃນ DALL-E 2), ຫຼືຖ້າຮູບແບບທີ່ຖືກນໍາໃຊ້ໃນເຄື່ອງຈັກການສະແດງຜົນຂອງ backend. ບໍ່ພຽງແຕ່ຖືກປັບໃຫ້ເໝາະສົມກັບສິ່ງດັ່ງກ່າວ.

NSFW ເລັກນ້ອຍ 'Mural of Nicole Kidman' ຊີ້ໃຫ້ເຫັນວ່າຮູບແບບການແຜ່ກະຈາຍ (ສົມມຸດຕິຖານ) ຢູ່ໃນມືຍັງຂາດການປະຕິເສດແບບເປັນລະບົບຂອງ DALL-E 2 ໃນອະດີດຂອງການສະແດງໃບຫນ້າທີ່ແທ້ຈິງຫຼືເນື້ອຫາ racy, ໃນຂະນະທີ່ຜົນໄດ້ຮັບສໍາລັບຄວາມພະຍາຍາມເພື່ອຫລີກລ້ຽງວຽກງານທີ່ມີລິຂະສິດແມ່ນມາຈາກຄວາມບໍ່ແນ່ນອນ. ('xenomorph') ກັບໂງ່ ('ບັນລັງທາດເຫຼັກ'). ໃສ່ຂວາລຸ່ມ, ຮູບແຫຼ່ງ.

NSFW ເລັກນ້ອຍ 'Mural of Nicole Kidman' ຊີ້ໃຫ້ເຫັນວ່າຮູບແບບການແຜ່ກະຈາຍ (ສົມມຸດຕິຖານ) ຢູ່ໃນມືຍັງຂາດການປະຕິເສດແບບເປັນລະບົບຂອງ DALL-E 2 ໃນອະດີດຂອງການສະແດງໃບຫນ້າທີ່ແທ້ຈິງຫຼືເນື້ອຫາ racy, ໃນຂະນະທີ່ຜົນໄດ້ຮັບສໍາລັບຄວາມພະຍາຍາມເພື່ອຫລີກລ້ຽງວຽກງານທີ່ມີລິຂະສິດແມ່ນມາຈາກຄວາມບໍ່ແນ່ນອນ. ('xenomorph') ກັບໂງ່ ('ບັນລັງທາດເຫຼັກ'). ໃສ່ຂວາລຸ່ມ, ຮູບແຫຼ່ງ.

ມັນເປັນສິ່ງທີ່ ໜ້າ ສົນໃຈທີ່ຈະຮູ້ວ່າວິທີການລຶບແລະທົດແທນແມ່ນໃຊ້ເພື່ອແຍກວັດຖຸທີ່ມັນສາມາດປ່ຽນແທນໄດ້. ຄາດ​ວ່າ​ຮູບ​ພາບ​ແມ່ນ​ໄດ້​ຮັບ​ການ​ດໍາ​ເນີນ​ການ​ໂດຍ​ຜ່ານ​ການ​ມາ​ຂອງ​ບາງ​ ຄລິບ, ໂດຍມີລາຍການທີ່ແຍກກັນໂດຍການຮັບຮູ້ວັດຖຸແລະການແບ່ງສ່ວນ semantic ຕໍ່ມາ. ບໍ່ມີການປະຕິບັດງານເຫຼົ່ານີ້ຢູ່ບ່ອນໃດບ່ອນໜຶ່ງຢູ່ໃກ້ໆເຊັ່ນດຽວກັນໃນການຕິດຕັ້ງແບບທົ່ວໄປ ຫຼືສວນຂອງ Stable Diffusion.

ແຕ່ບໍ່ມີຫຍັງສົມບູນແບບ - ບາງຄັ້ງລະບົບເບິ່ງຄືວ່າຈະລົບລ້າງແລະບໍ່ປ່ຽນແທນ, ເຖິງແມ່ນວ່າ (ດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນໃນຮູບຂ້າງເທິງ), ກົນໄກການສະແດງຜົນພື້ນຖານຮູ້ວ່າການເຕືອນຂໍ້ຄວາມຫມາຍຄວາມວ່າແນວໃດ. ໃນກໍລະນີນີ້, ມັນພິສູດວ່າເປັນໄປບໍ່ໄດ້ທີ່ຈະປ່ຽນຕາຕະລາງກາເຟເປັນ xenomorph - ແທນທີ່ຈະ, ຕາຕະລາງພຽງແຕ່ຫາຍໄປ.

ການເວົ້າຊ້ຳທີ່ຢ້ານກວ່າຂອງ 'Where's Waldo', ຍ້ອນວ່າ Erase ແລະ Replace ບໍ່ສາມາດຜະລິດມະນຸດຕ່າງດາວໄດ້.

ການເວົ້າຊ້ຳທີ່ຢ້ານກວ່າຂອງ 'Where's Waldo', ຍ້ອນວ່າ Erase ແລະ Replace ບໍ່ສາມາດຜະລິດມະນຸດຕ່າງດາວໄດ້.

Erase and Replace ເບິ່ງຄືວ່າເປັນລະບົບການທົດແທນວັດຖຸທີ່ມີປະສິດທິພາບ, ດ້ວຍການໃສ່ສີທີ່ດີເລີດ. ແນວໃດກໍ່ຕາມ, ມັນບໍ່ສາມາດແກ້ໄຂວັດຖຸຮັບຮູ້ທີ່ມີຢູ່ແລ້ວ, ແຕ່ພຽງແຕ່ປ່ຽນແທນພວກມັນເທົ່ານັ້ນ. ຕົວຈິງແລ້ວ, ການປ່ຽນແປງເນື້ອໃນຮູບພາບທີ່ມີຢູ່ແລ້ວໂດຍບໍ່ມີການປະນີປະນອມອຸປະກອນການສະພາບແວດລ້ອມແມ່ນເປັນວຽກງານທີ່ຍາກກວ່າ, ຜູກມັດກັບຄວາມພະຍາຍາມຂອງຂະແຫນງການຄົ້ນຄ້ວາວິໄສທັດຄອມພິວເຕີໃນໄລຍະຍາວຂອງ. ຄວາມແຕກແຍກ ຢູ່ໃນສະຖານທີ່ຕ່າງໆ latent ຂອງກອບທີ່ນິຍົມ.

ຈິນຕະນາການ

ມັນເປັນວຽກທີ່ Imagic ແກ້ໄຂ. ໄດ້ ກະດາດໃຫມ່ ສະເຫນີຕົວຢ່າງຈໍານວນຫລາຍຂອງການແກ້ໄຂທີ່ປະສົບຜົນສໍາເລັດໃນການແກ້ໄຂສ່ວນບຸກຄົນຂອງຮູບໃນຂະນະທີ່ເຮັດໃຫ້ສ່ວນທີ່ເຫຼືອຂອງຮູບພາບບໍ່ໄດ້ສໍາຜັດ.

ໃນ Imagic, ຮູບພາບທີ່ປັບປຸງບໍ່ໄດ້ທົນທຸກຈາກລັກສະນະ stretching, ການບິດເບືອນແລະ 'occlusion guessing' ລັກສະນະຂອງ puppetry deepfake, ເຊິ່ງນໍາໃຊ້ຂອບເຂດຈໍາກັດທີ່ມາຈາກຮູບພາບດຽວ.

ໃນ Imagic, ຮູບພາບທີ່ປັບປຸງບໍ່ໄດ້ທົນທຸກຈາກລັກສະນະ stretching, ການບິດເບືອນແລະ 'occlusion guessing' ລັກສະນະຂອງ puppetry deepfake, ເຊິ່ງນໍາໃຊ້ຂອບເຂດຈໍາກັດທີ່ມາຈາກຮູບພາບດຽວ.

ລະບົບໃຊ້ຂະບວນການສາມຂັ້ນຕອນ - ການເພີ່ມປະສິດທິພາບການຝັງຂໍ້ຄວາມ; ການປັບຕົວແບບ; ແລະ, ສຸດທ້າຍ, ການຜະລິດຂອງຮູບພາບທີ່ດັດແກ້.

Imagic ເຂົ້າລະຫັດຂໍ້ຄວາມເປົ້າໝາຍເພື່ອດຶງເອົາການຝັງຂໍ້ຄວາມເບື້ອງຕົ້ນ, ແລະຫຼັງຈາກນັ້ນ optimizes ຜົນໄດ້ຮັບເພື່ອໃຫ້ໄດ້ຮູບພາບການປ້ອນຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ຮູບແບບການຜະລິດໄດ້ຖືກປັບລະອຽດກັບຮູບພາບແຫຼ່ງ, ເພີ່ມຂອບເຂດຂອງພາລາມິເຕີ, ກ່ອນທີ່ຈະຖືກປະຕິບັດຕາມການແຊກແຊງທີ່ຮ້ອງຂໍ.

Imagic ເຂົ້າລະຫັດຂໍ້ຄວາມເປົ້າໝາຍເພື່ອດຶງເອົາຂໍ້ຄວາມທີ່ຝັງໄວ້ໃນເບື້ອງຕົ້ນ, ແລະຫຼັງຈາກນັ້ນ optimizes ຜົນໄດ້ຮັບເພື່ອໃຫ້ໄດ້ຮູບພາບການປ້ອນຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ຮູບແບບການຜະລິດໄດ້ຖືກປັບລະອຽດກັບຮູບພາບແຫຼ່ງ, ເພີ່ມຂອບເຂດຂອງພາລາມິເຕີ, ກ່ອນທີ່ຈະຖືກປະຕິບັດຕາມການແຊກແຊງທີ່ຮ້ອງຂໍ.

ບໍ່ແປກໃຈ, ກອບແມ່ນອີງໃສ່ Google's ຮູບພາບ ສະຖາປັດຕະຍະກໍາຂໍ້ຄວາມເປັນວິດີໂອ, ເຖິງແມ່ນວ່ານັກຄົ້ນຄວ້າກ່າວວ່າຫຼັກການຂອງລະບົບແມ່ນສາມາດນໍາໃຊ້ໄດ້ຢ່າງກວ້າງຂວາງກັບຮູບແບບການແຜ່ກະຈາຍ latent.

Imagen ໃຊ້ສະຖາປັດຕະຍະກໍາສາມຊັ້ນ, ແທນທີ່ຈະເປັນອາເຣເຈັດຊັ້ນທີ່ໃຊ້ສໍາລັບບໍລິສັດທີ່ຜ່ານມາ. ການປ່ຽນຂໍ້ຄວາມເປັນວິດີໂອຊ້ຳໆ ຂອງ​ຊອບ​ແວ​ໄດ້​. ສາມໂມດູນທີ່ແຕກຕ່າງກັນປະກອບດ້ວຍຮູບແບບການແຜ່ກະຈາຍທົ່ວໄປທີ່ດໍາເນີນການຢູ່ທີ່ຄວາມລະອຽດ 64x64px; ຮູບແບບຄວາມລະອຽດສູງທີ່ຂະຫຍາຍຜົນຜະລິດນີ້ໄປເປັນ 256x256px; ແລະຮູບແບບຄວາມລະອຽດສູງເພີ່ມເຕີມເພື່ອເອົາຜົນຜະລິດໄດ້ເຖິງ 1024×1024 ຄວາມລະອຽດ.

Imagic ແຊກແຊງຢູ່ໃນຂັ້ນຕອນທໍາອິດຂອງຂະບວນການນີ້, ເພີ່ມປະສິດທິພາບຂໍ້ຄວາມທີ່ຮ້ອງຂໍການຝັງຢູ່ໃນຂັ້ນຕອນ 64px ເທິງເຄື່ອງເພີ່ມປະສິດທິພາບຂອງ Adam ໃນອັດຕາການຮຽນຮູ້ແບບຄົງທີ່ຂອງ 0.0001.

ລະດັບຕົ້ນສະບັບໃນຄວາມບໍ່ສະຫງົບ: ຜູ້ໃຊ້ສຸດທ້າຍທີ່ໄດ້ພະຍາຍາມປ່ຽນແປງບາງສິ່ງບາງຢ່າງທີ່ງ່າຍດາຍເຊັ່ນສີຂອງວັດຖຸທີ່ສະແດງຢູ່ໃນການແຜ່ກະຈາຍ, ຮູບແບບ GAN ຫຼື NeRF ຈະຮູ້ວ່າມັນມີຄວາມສໍາຄັນຫຼາຍປານໃດທີ່ Imagic ສາມາດປະຕິບັດການຫັນປ່ຽນດັ່ງກ່າວໂດຍບໍ່ມີການ 'ແຍກອອກຈາກກັນ. ' ຄວາມສອດຄ່ອງຂອງສ່ວນທີ່ເຫຼືອຂອງຮູບພາບ.

ລະດັບຕົ້ນສະບັບໃນຄວາມບໍ່ສະຫງົບ: ຜູ້ໃຊ້ສຸດທ້າຍທີ່ໄດ້ພະຍາຍາມປ່ຽນແປງບາງສິ່ງບາງຢ່າງທີ່ງ່າຍດາຍເຊັ່ນສີຂອງວັດຖຸທີ່ສະແດງຢູ່ໃນການແຜ່ກະຈາຍ, ຮູບແບບ GAN ຫຼື NeRF ຈະຮູ້ວ່າມັນມີຄວາມສໍາຄັນຫຼາຍປານໃດທີ່ Imagic ສາມາດປະຕິບັດການຫັນປ່ຽນດັ່ງກ່າວໂດຍບໍ່ມີການ 'ແຍກອອກຈາກກັນ. ' ຄວາມສອດຄ່ອງຂອງສ່ວນທີ່ເຫຼືອຂອງຮູບພາບ.

ຫຼັງຈາກນັ້ນ, ການປັບລະອຽດຈະເກີດຂຶ້ນໃນຕົວແບບພື້ນຖານຂອງ Imagen, ສໍາລັບ 1500 ຂັ້ນຕອນຕໍ່ຮູບພາບທີ່ປ້ອນເຂົ້າ, ປັບເງື່ອນໄຂຢູ່ໃນການຝັງທີ່ປັບປຸງ. ໃນເວລາດຽວກັນ, ຊັ້ນຮອງ 64px> 256px ໄດ້ຖືກປັບປຸງໃຫ້ເຫມາະສົມໃນຂະຫນານໃນຮູບພາບທີ່ມີເງື່ອນໄຂ. ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າການເພີ່ມປະສິດທິພາບທີ່ຄ້າຍຄືກັນສໍາລັບຊັ້ນສຸດທ້າຍ 256px>1024px ມີ 'ຫນ້ອຍທີ່ຈະບໍ່ມີຜົນ' ຕໍ່ຜົນໄດ້ຮັບສຸດທ້າຍ, ແລະດັ່ງນັ້ນຈິ່ງບໍ່ໄດ້ປະຕິບັດມັນ.

ເອກະສານລະບຸວ່າຂະບວນການເພີ່ມປະສິດທິພາບໃຊ້ເວລາປະມານແປດນາທີສໍາລັບແຕ່ລະຮູບຄູ່ແຝດ TPUV4 ຊິບ. ການ render ສຸດ ທ້າຍ ໃຊ້ ເວ ລາ ສະ ຖານ ທີ່ ໃນ Core Imagen ພາຍ ໃຕ້ ການ ໂຄງການເກັບຕົວຢ່າງ DDIM.

ຄ້າຍຄືກັນກັບຂະບວນການປັບໄຫມທີ່ຄ້າຍຄືກັນສໍາລັບ Google's ຕູບຕູບ, ການຝັງຜົນທີ່ໄດ້ຮັບນອກຈາກນັ້ນຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອພະລັງງານ stylization, ເຊັ່ນດຽວກັນກັບການແກ້ໄຂ photorealistic ທີ່ມີຂໍ້ມູນທີ່ດຶງມາຈາກຖານຂໍ້ມູນທີ່ກວ້າງຂຶ້ນໂດຍອໍານາດ Imagen (ນັບຕັ້ງແຕ່ຄໍລໍາທໍາອິດຂ້າງລຸ່ມນີ້ສະແດງໃຫ້ເຫັນ, ຮູບພາບຕົ້ນສະບັບບໍ່ມີເນື້ອໃນທີ່ຈໍາເປັນເພື່ອ. ສົ່ງ​ຜົນ​ກະ​ທົບ​ການ​ຫັນ​ປ່ຽນ​ເຫຼົ່າ​ນີ້​)​.

ການເຄື່ອນໄຫວ ແລະການແກ້ໄຂຮູບຖ່າຍແບບຍືດຫຍຸ່ນສາມາດຖືກຖອດຖອນໄດ້ຜ່ານ Imagic, ໃນຂະນະທີ່ລະຫັດທີ່ມາຈາກ ແລະຖອດລະຫັດທີ່ໄດ້ຮັບໃນຂະບວນການນັ້ນສາມາດຖືກນໍາໃຊ້ໄດ້ຢ່າງງ່າຍດາຍສໍາລັບຜົນຜະລິດທີ່ມີສະໄຕລ໌.

ການເຄື່ອນໄຫວ ແລະການແກ້ໄຂຮູບຖ່າຍແບບຍືດຫຍຸ່ນສາມາດຖືກຖອດຖອນໄດ້ຜ່ານ Imagic, ໃນຂະນະທີ່ລະຫັດທີ່ມາຈາກ ແລະຖອດລະຫັດທີ່ໄດ້ຮັບໃນຂະບວນການນັ້ນສາມາດຖືກນໍາໃຊ້ໄດ້ຢ່າງງ່າຍດາຍສໍາລັບຜົນຜະລິດທີ່ມີສະໄຕລ໌.

ນັກຄົ້ນຄວ້າໄດ້ປຽບທຽບ Imagic ກັບວຽກງານທີ່ຜ່ານມາ SDEdit, ວິທີການທີ່ອີງໃສ່ GAN ຈາກ 2021, ການຮ່ວມມືລະຫວ່າງມະຫາວິທະຍາໄລ Stanford ແລະມະຫາວິທະຍາໄລ Carnegie Mellon; ແລະ Text2Live, ການຮ່ວມມື, ຈາກເດືອນເມສາ 2022, ລະຫວ່າງສະຖາບັນວິທະຍາສາດ Weizmann ແລະ NVIDIA.

ການປຽບທຽບສາຍຕາລະຫວ່າງ Imagic, SDEdit ແລະ Text2Live.

ການປຽບທຽບສາຍຕາລະຫວ່າງ Imagic, SDEdit ແລະ Text2Live.

ມັນເປັນທີ່ຊັດເຈນວ່າວິທີການໃນອະດີດແມ່ນດີ້ນລົນ, ແຕ່ໃນແຖວລຸ່ມ, ເຊິ່ງກ່ຽວຂ້ອງກັບການແຊກແຊງການປ່ຽນແປງອັນໃຫຍ່ຫຼວງ, ຜູ້ປະກອບການລົ້ມເຫລວຢ່າງສົມບູນໃນການແກ້ໄຂແຫຼ່ງທີ່ມາ, ເມື່ອທຽບກັບຜົນສໍາເລັດທີ່ຫນ້າສັງເກດຈາກ Imagic.

ຄວາມຕ້ອງການຊັບພະຍາກອນຂອງ Imagic ແລະເວລາການຝຶກອົບຮົມຕໍ່ຮູບພາບ, ໃນຂະນະທີ່ສັ້ນໂດຍມາດຕະຖານຂອງການດໍາເນີນການດັ່ງກ່າວ, ເຮັດໃຫ້ມັນບໍ່ເປັນໄປໄດ້ໃນຄໍາຮ້ອງສະຫມັກການແກ້ໄຂຮູບພາບທ້ອງຖິ່ນໃນຄອມພິວເຕີສ່ວນບຸກຄົນ - ແລະມັນບໍ່ຊັດເຈນວ່າຂະບວນການປັບຂະຫນາດສາມາດເປັນຂະຫນາດໃດ. ຫຼຸດ​ລົງ​ເຖິງ​ລະ​ດັບ​ຜູ້​ບໍ​ລິ​ໂພກ​.

ຍ້ອນວ່າມັນຢືນຢູ່, Imagic ແມ່ນການສະເຫນີທີ່ຫນ້າປະທັບໃຈທີ່ເຫມາະສົມກັບ APIs - ສະພາບແວດລ້ອມຂອງ Google Research, ການວິພາກວິຈານກ່ຽວກັບການອໍານວຍຄວາມສະດວກໃນຄວາມເລິກລັບ, ໃນກໍລະນີໃດກໍ່ຕາມອາດຈະສະດວກສະບາຍທີ່ສຸດ.

 

ພິມຄັ້ງທຳອິດໃນວັນທີ 18 ຕຸລາ 2022.

ນັກຂຽນກ່ຽວກັບການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ ແລະຂໍ້ມູນໃຫຍ່.
ເວັບໄຊສ່ວນຕົວ: martinanderson.ai
ຕິດ​ຕໍ່​: [email protected]
Twitter: @manders_ai