ປັນຍາປະດິດ

ຮູບແບບການແຜ່ກະຈາຍ eDiffi ຂອງ NVIDIA ອະນຸຍາດໃຫ້ 'ການແຕ້ມຮູບດ້ວຍຄໍາ' ແລະອື່ນໆອີກ.

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ຄວາມພະຍາຍາມເພື່ອເຮັດໃຫ້ອົງປະກອບທີ່ຊັດເຈນກັບຮູບແບບການແຜ່ກະຈາຍ latent ຮູບພາບການຜະລິດເຊັ່ນ: ການແຜ່ກະຈາຍຄົງທີ່ ສາມາດເປັນຄື herding cat; ອຳນາດຈິນຕະນາການ ແລະ ການຕີຄວາມອັນດຽວກັນທີ່ຊ່ວຍໃຫ້ລະບົບສ້າງລາຍລະອຽດພິເສດ ແລະ ສັງລວມຮູບພາບທີ່ແປກປະຫຼາດຈາກການກະຕຸ້ນຂໍ້ຄວາມທີ່ຂ້ອນຂ້າງງ່າຍດາຍແມ່ນຍັງ. ຍາກທີ່ຈະປິດ ໃນເວລາທີ່ທ່ານກໍາລັງຊອກຫາການຄວບຄຸມລະດັບ Photoshop ໃນໄລຍະການສ້າງຮູບພາບ.

ໃນປັດຈຸບັນ, ວິທີການໃຫມ່ຈາກການຄົ້ນຄວ້າ NVIDIA, ຫົວຂໍ້ ການແຜ່ກະຈາຍຂອງກຸ່ມສໍາລັບຮູບພາບ (eDiffi), ໃຊ້ການປະສົມຂອງວິທີການຝັງຕົວຫຼາຍອັນ ແລະວິທີການຕີຄວາມໝາຍ (ແທນທີ່ຈະເປັນວິທີດຽວກັນຕະຫຼອດທາງທໍ່) ເພື່ອອະນຸຍາດໃຫ້ມີການຄວບຄຸມຫຼາຍກວ່າເນື້ອໃນທີ່ສ້າງຂຶ້ນ. ໃນຕົວຢ່າງຂ້າງລຸ່ມນີ້, ພວກເຮົາເຫັນອົງປະກອບການແຕ້ມຮູບຂອງຜູ້ໃຊ້ທີ່ແຕ່ລະສີເປັນຕົວແທນຂອງຄໍາດຽວຈາກການເຕືອນຂໍ້ຄວາມ:

'ການແຕ້ມຮູບດ້ວຍຄຳສັບ' ແມ່ນໜຶ່ງໃນສອງຄວາມສາມາດໃໝ່ໆໃນຮູບແບບການແຜ່ກະຈາຍ eDiffi ຂອງ NVIDIA. ແຕ່ລະສີ daubed ເປັນຕົວແທນໃຫ້ຄໍາສັບຈາກການກະຕຸ້ນ (ເບິ່ງໃຫ້ເຂົາເຈົ້າປາກົດຢູ່ທາງຊ້າຍໃນລະຫວ່າງການຜະລິດ), ແລະສີພື້ນທີ່ທີ່ນໍາໃຊ້ຈະປະກອບດ້ວຍພຽງແຕ່ອົງປະກອບນັ້ນ. ເບິ່ງແຫຼ່ງຂໍ້ມູນ (ຢ່າງເປັນທາງການ) ວິດີໂອສໍາລັບຕົວຢ່າງເພີ່ມເຕີມແລະຄວາມລະອຽດທີ່ດີກວ່າຢູ່ທີ່ https://www.youtube.com/watch?v=k6cOx9YjHJc

ປະສິດທິຜົນນີ້ແມ່ນ 'ການແຕ້ມຮູບດ້ວຍຫນ້າກາກ', ແລະ reverses ipainting paradigm ໃນ Stable Diffusion, ເຊິ່ງອີງໃສ່ການແກ້ໄຂຮູບພາບທີ່ແຕກຫັກຫຼືບໍ່ຫນ້າພໍໃຈ, ຫຼືຂະຫຍາຍຮູບພາບທີ່ອາດຈະເປັນຂະຫນາດທີ່ຕ້ອງການໃນຄັ້ງທໍາອິດ.

ໃນທີ່ນີ້, ແທນທີ່ຈະ, ຂອບຂອງ daub ທີ່ຖືກທາສີເປັນຕົວແທນຂອງຂອບເຂດປະມານທີ່ອະນຸຍາດຂອງພຽງແຕ່ຫນຶ່ງໃນອົງປະກອບທີ່ເປັນເອກະລັກຈາກແນວຄວາມຄິດດຽວ, ໃຫ້ຜູ້ໃຊ້ສາມາດກໍານົດຂະຫນາດຜ້າໃບສຸດທ້າຍຈາກຕອນຕົ້ນ, ແລະຫຼັງຈາກນັ້ນເພີ່ມອົງປະກອບທີ່ບໍ່ຊ້ໍາກັນ.

ຕົວຢ່າງຈາກເຈ້ຍໃຫມ່. ທີ່ມາ: https://arxiv.org/pdf/2211.01324.pdf

ວິທີການທີ່ແຕກຕ່າງກັນທີ່ໃຊ້ໃນ eDiffi ຍັງຫມາຍຄວາມວ່າລະບົບເຮັດວຽກໄດ້ດີກວ່າການລວມເອົາທຸກໆອົງປະກອບໃນການກະຕຸ້ນເຕືອນທີ່ຍາວນານແລະລາຍລະອຽດ, ໃນຂະນະທີ່ Stable Diffusion ແລະ OpenAI's DALL-E 2 ມີແນວໂນ້ມທີ່ຈະຈັດລໍາດັບຄວາມສໍາຄັນຂອງບາງສ່ວນຂອງການກະຕຸ້ນເຕືອນ, ຂຶ້ນກັບວິທີການເລີ່ມຕົ້ນ. ຄໍາສັບເປົ້າຫມາຍປາກົດຢູ່ໃນການກະຕຸ້ນເຕືອນ, ຫຼືໃນປັດໃຈອື່ນໆ, ເຊັ່ນ: ຄວາມຫຍຸ້ງຍາກທີ່ເປັນໄປໄດ້ໃນການແຍກອົງປະກອບຕ່າງໆທີ່ຈໍາເປັນສໍາລັບອົງປະກອບທີ່ຄົບຖ້ວນແຕ່ສົມບູນ (ກ່ຽວກັບຂໍ້ຄວາມທີ່ທັນທີ):

ຈາກເຈ້ຍ: eDiffi ສາມາດ iterating ຢ່າງລະອຽດຫຼາຍໂດຍຜ່ານການກະຕຸ້ນເຕືອນຈົນກ່ວາຈໍານວນສູງສຸດທີ່ເປັນໄປໄດ້ຂອງອົງປະກອບໄດ້ຖືກ rendered. ເຖິງແມ່ນວ່າຜົນໄດ້ຮັບການປັບປຸງສໍາລັບ eDiffi (ຖັນຂວາສຸດ) ແມ່ນເລືອກ cherry, ດັ່ງນັ້ນຮູບພາບການປຽບທຽບຈາກ Stable Diffusion ແລະ DALL-E 2.

ນອກຈາກນັ້ນ, ການນໍາໃຊ້ທີ່ອຸທິດຕົນ T5 text-to-text encoder ຫມາຍຄວາມວ່າ eDiffi ມີຄວາມສາມາດໃນການເຮັດໃຫ້ຂໍ້ຄວາມພາສາອັງກິດທີ່ເຂົ້າໃຈໄດ້, ບໍ່ວ່າຈະຮ້ອງຂໍໂດຍ abstractly ຈາກ prompt (ເຊັ່ນ: ຮູບພາບມີບາງຂໍ້ຄວາມຂອງ [x]) ຫຼືຮ້ອງຂໍຢ່າງຈະແຈ້ງ (ie ເສື້ອຍືດເວົ້າວ່າ 'Nvidia Rocks'):

ການປະມວນຜົນຂໍ້ຄວາມເປັນຕົວໜັງສືທີ່ອຸທິດຕົນໃນ eDiffi ຫມາຍຄວາມວ່າຂໍ້ຄວາມສາມາດຖືກແປເປັນຄໍາທີ່ໃຊ້ໃນຮູບພາບ, ແທນທີ່ຈະດໍາເນີນການພຽງແຕ່ຜ່ານຊັ້ນການຕີຄວາມຫມາຍຂໍ້ຄວາມເປັນຮູບພາບກ່ວາ mangles ຜົນຜະລິດ.

ສິ່ງເພີ່ມເຕີມຕໍ່ກັບກອບໃຫມ່ແມ່ນວ່າມັນເປັນໄປໄດ້ທີ່ຈະສະຫນອງຮູບພາບດຽວເປັນການກະຕຸ້ນຮູບແບບ, ແທນທີ່ຈະຕ້ອງການການຝຶກອົບຮົມແບບ DreamBooth ຫຼືການຝັງຕົວຫນັງສືຢູ່ໃນຕົວຢ່າງຫຼາຍປະເພດຫຼື. ແບບ.

ການໂອນຮູບແບບສາມາດຖືກນໍາໃຊ້ຈາກຮູບພາບອ້າງອີງໄປຫາການເຕືອນຂໍ້ຄວາມເປັນຮູບພາບ, ຫຼືແມ້ກະທັ້ງການເຕືອນຮູບພາບເປັນຮູບພາບ.

ໄດ້ ກະດາດໃຫມ່ ແມ່ນຫົວຂໍ້ eDiffi: ຮູບແບບການແຜ່ກະຈາຍຂໍ້ຄວາມເປັນຮູບພາບທີ່ມີກຸ່ມຂອງຜູ້ຊ່ຽວຊານ Denoisers, ແລະ

ຕົວເຂົ້າລະຫັດຂໍ້ຄວາມ T5

ການນໍາໃຊ້ຂອງ Google TExt-to-Text Transformer (T5) ແມ່ນອົງປະກອບຫຼັກໃນການປັບປຸງຜົນໄດ້ຮັບທີ່ສະແດງໃຫ້ເຫັນໃນ eDiffi. ທໍ່ການແຜ່ກະຈາຍ latent ໂດຍສະເລ່ຍແມ່ນຈຸດສູນກາງກ່ຽວກັບການເຊື່ອມໂຍງລະຫວ່າງຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມແລະຄໍາບັນຍາຍທີ່ມາພ້ອມກັບພວກມັນໃນເວລາທີ່ພວກມັນຖືກຂູດອອກຈາກອິນເຕີເນັດ (ຫຼືອື່ນໆທີ່ດັດແປງດ້ວຍຕົນເອງໃນພາຍຫລັງ, ເຖິງແມ່ນວ່ານີ້ແມ່ນການແຊກແຊງລາຄາແພງແລະຫາຍາກ).

ຈາກເອກະສານເດືອນກໍລະກົດ 2020 ສໍາລັບ T5 - ການຫັນປ່ຽນແບບຂໍ້ຄວາມ, ເຊິ່ງສາມາດຊ່ວຍຂະບວນການສ້າງຮູບພາບໃນ eDiffi (ແລະ, ອາດຈະເປັນ, ຮູບແບບການແຜ່ກະຈາຍ latent ອື່ນໆ). ທີ່ມາ: https://arxiv.org/pdf/1910.10683.pdf

ຈາກເອກະສານເດືອນກໍລະກົດ 2020 ສໍາລັບ T5 - ການຫັນປ່ຽນຂໍ້ຄວາມ, ເຊິ່ງສາມາດຊ່ວຍຂະບວນການສ້າງຮູບພາບໃນ eDiffi (ແລະ, ອາດຈະເປັນ, ຮູບແບບການແຜ່ກະຈາຍ latent ອື່ນໆ). ທີ່ມາ: https://arxiv.org/pdf/1910.10683.pdf

ໂດຍ rephrasing ຂໍ້ຄວາມແຫຼ່ງແລະແລ່ນໂມດູນ T5, ສະມາຄົມແລະຕົວແທນທີ່ແນ່ນອນສາມາດໄດ້ຮັບຫຼາຍກ່ວາການຝຶກອົບຮົມໃນຮູບແບບຕົ້ນສະບັບ, ເກືອບຄ້າຍຄືກັນກັບ. ໂພດຄວາມເປັນຈິງ ການຕິດສະຫຼາກຄູ່ມື, ໂດຍມີຄວາມສະເພາະຫຼາຍກວ່າແລະການນໍາໃຊ້ກັບຂໍ້ກໍານົດຂອງຂໍ້ຄວາມທີ່ຮ້ອງຂໍ.

ຜູ້ຂຽນອະທິບາຍ:

'ໃນວຽກງານທີ່ມີຢູ່ແລ້ວສ່ວນໃຫຍ່ກ່ຽວກັບຮູບແບບການແຜ່ກະຈາຍ, ຮູບແບບ denoising ໄດ້ຖືກແບ່ງປັນໃນທົ່ວລະດັບສຽງລົບກວນ, ແລະການເຄື່ອນໄຫວຊົ່ວຄາວແມ່ນເປັນຕົວແທນໂດຍໃຊ້ເວລາທີ່ງ່າຍດາຍທີ່ຖືກຝັງຢູ່ໃນຕົວແບບ denoising ຜ່ານເຄືອຂ່າຍ MLP. ພວກເຮົາໂຕ້ຖຽງວ່າການເຄື່ອນໄຫວຊົ່ວຄາວທີ່ສັບສົນຂອງການແຜ່ກະຈາຍ denoising ອາດຈະບໍ່ໄດ້ຮັບການຮຽນຮູ້ຈາກຂໍ້ມູນທີ່ມີປະສິດທິພາບໂດຍໃຊ້ຕົວແບບທີ່ໃຊ້ຮ່ວມກັນທີ່ມີຄວາມສາມາດຈໍາກັດ.

'ແທນທີ່ຈະ, ພວກເຮົາສະເຫນີໃຫ້ຂະຫຍາຍຄວາມອາດສາມາດຂອງຕົວແບບ denoising ໂດຍການແນະນໍາກຸ່ມຂອງ denoisers ຜູ້ຊ່ຽວຊານ; ແຕ່ລະ denoiser ຜູ້ຊ່ຽວຊານແມ່ນຕົວແບບ denoising ພິເສດສໍາລັບລະດັບສຽງໂດຍສະເພາະ [ລະດັບ]. ດ້ວຍວິທີນີ້, ພວກເຮົາສາມາດເພີ່ມຄວາມອາດສາມາດຂອງຕົວແບບໄດ້ໂດຍບໍ່ຕ້ອງຊ້າລົງການເກັບຕົວຢ່າງເນື່ອງຈາກຄວາມສັບສົນຂອງຄອມພິວເຕີ້ໃນການປະເມີນ [ອົງປະກອບທີ່ປຸງແຕ່ງ] ໃນແຕ່ລະລະດັບສຽງຍັງຄົງຢູ່ຄືກັນ.'

ແນວຄວາມຄິດການເຮັດວຽກຂອງ eDiffi.

ທີ່ມີຢູ່ແລ້ວ ຄລິບ ໂມດູນການເຂົ້າລະຫັດທີ່ລວມຢູ່ໃນ DALL-E 2 ແລະ Stable Diffusion ຍັງສາມາດຊອກຫາການຕີຄວາມຫມາຍຮູບພາບທາງເລືອກສໍາລັບຂໍ້ຄວາມທີ່ກ່ຽວຂ້ອງກັບການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້. ຢ່າງໃດກໍ່ຕາມພວກເຂົາໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ຄ້າຍຄືກັນກັບຮູບແບບຕົ້ນສະບັບ, ແລະບໍ່ໄດ້ຖືກນໍາໃຊ້ເປັນຊັ້ນການຕີຄວາມຫມາຍແຍກຕ່າງຫາກໃນແບບທີ່ T5 ຢູ່ໃນ eDiffi.

ຜູ້ຂຽນລະບຸວ່າ eDiffi ແມ່ນຄັ້ງທໍາອິດທີ່ທັງ T5 ແລະຕົວເຂົ້າລະຫັດ CLIP ໄດ້ຖືກລວມເຂົ້າໃນທໍ່ດຽວ:

'ຍ້ອນວ່າຕົວເຂົ້າລະຫັດສອງອັນນີ້ໄດ້ຮັບການຝຶກອົບຮົມດ້ວຍຈຸດປະສົງທີ່ແຕກຕ່າງກັນ, ການຝັງຂອງພວກມັນມັກການສ້າງຮູບພາບຕ່າງໆທີ່ມີຂໍ້ຄວາມເຂົ້າດຽວກັນ. ໃນຂະນະທີ່ການຝັງຂໍ້ຄວາມ CLIP ຊ່ວຍກໍານົດລັກສະນະທົ່ວໂລກຂອງຮູບພາບທີ່ສ້າງຂຶ້ນ, ຜົນຜະລິດມີແນວໂນ້ມທີ່ຈະພາດລາຍລະອຽດລະອຽດໃນຂໍ້ຄວາມ.

'ໃນທາງກົງກັນຂ້າມ, ຮູບພາບທີ່ສ້າງຂຶ້ນດ້ວຍການຝັງຕົວຫນັງສື T5 ຢ່າງດຽວສະທ້ອນໃຫ້ເຫັນເຖິງວັດຖຸສ່ວນບຸກຄົນທີ່ອະທິບາຍໄວ້ໃນຂໍ້ຄວາມ, ແຕ່ລັກສະນະທົ່ວໂລກຂອງພວກເຂົາແມ່ນຖືກຕ້ອງຫນ້ອຍ. ການໃຊ້ພວກມັນຮ່ວມກັນສ້າງຜົນໄດ້ຮັບທີ່ດີທີ່ສຸດໃນການສ້າງຮູບພາບໃນຮູບແບບຂອງພວກເຮົາ.'

ຂັດຂວາງແລະເພີ່ມຂະບວນການແຜ່ກະຈາຍ

ເອກະສານບັນທຶກວ່າຮູບແບບການແຜ່ກະຈາຍ latent ປົກກະຕິຈະເລີ່ມຕົ້ນການເດີນທາງຈາກສິ່ງລົບກວນອັນບໍລິສຸດໄປສູ່ຮູບພາບໂດຍການອີງໃສ່ພຽງແຕ່ຂໍ້ຄວາມໃນຂັ້ນຕອນຕົ້ນຂອງການຜະລິດ.

ເມື່ອສິ່ງລົບກວນແກ້ໄຂເຂົ້າໄປໃນບາງຮູບແບບທີ່ຫຍາບຄາຍທີ່ເປັນຕົວແທນຂອງຄໍາອະທິບາຍຢູ່ໃນຂໍ້ຄວາມ, ລັກສະນະທີ່ນໍາພາຂໍ້ຄວາມຂອງຂະບວນການຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ, ແລະສ່ວນທີ່ເຫຼືອຂອງຂະບວນການປ່ຽນໄປສູ່ການເພີ່ມລັກສະນະສາຍຕາ.

ນີ້ ໝາຍ ຄວາມວ່າອົງປະກອບໃດ ໜຶ່ງ ທີ່ບໍ່ໄດ້ຮັບການແກ້ໄຂໃນຂັ້ນຕອນຂອງການຕີຄວາມ ໝາຍ ຄວາມລົບກວນຂອງຕົວ ໜັງ ສືແມ່ນຍາກທີ່ຈະສີດເຂົ້າໄປໃນຮູບພາບຕໍ່ມາ, ເພາະວ່າທັງສອງຂະບວນການ (ຂໍ້ຄວາມຫາຮູບລັກແລະການຈັດວາງກັບຮູບພາບ) ມີຄວາມທັບຊ້ອນກັນເລັກນ້ອຍ. , ແລະຮູບແບບພື້ນຖານແມ່ນຂ້ອນຂ້າງ entangled ໂດຍເວລາທີ່ມັນມາຮອດຂະບວນການຂະຫຍາຍຮູບພາບ.

ຈາກກະດາດ: ແຜນທີ່ຄວາມສົນໃຈຂອງພາກສ່ວນຕ່າງໆຂອງທໍ່ເປັນສິ່ງລົບກວນ> ຂະບວນການຮູບພາບທີ່ເຕີບໃຫຍ່. ພວກເຮົາສາມາດເບິ່ງການຫຼຸດລົງແຫຼມໃນ CLIP ອິດທິພົນຂອງຮູບພາບໃນແຖວຕ່ໍາ, ໃນຂະນະທີ່ T5 ຍັງສືບຕໍ່ມີອິດທິພົນຕໍ່ຮູບພາບຫຼາຍໃນຂະບວນການສະແດງຜົນ.

ທ່າແຮງດ້ານວິຊາຊີບ

ຕົວຢ່າງຢູ່ໃນຫນ້າໂຄງການແລະສູນວິດີໂອ YouTube ກ່ຽວກັບການຜະລິດຮູບພາບທີ່ຫນ້າຮັກ meme-tastic ທີ່ເປັນມິດກັບ PR. ຕາມປົກກະຕິ, ການຄົ້ນຄວ້າ NVIDIA ກໍາລັງຫຼີ້ນທ່າແຮງຂອງນະວັດຕະກໍາຫລ້າສຸດຂອງຕົນເພື່ອປັບປຸງຂະບວນການ photorealistic ຫຼື VFX, ເຊັ່ນດຽວກັນກັບທ່າແຮງຂອງມັນສໍາລັບການປັບປຸງຮູບພາບແລະວິດີໂອທີ່ປອມແປງ.

ໃນຕົວຢ່າງ, ຜູ້ໃຊ້ຈົວຫຼືນັກສມັກເລ່ນຈະຂຽນບົດເລື່ອງຫຍໍ້ໆຂອງການຈັດວາງສໍາລັບອົງປະກອບສະເພາະ, ໃນຂະນະທີ່ໃນຂະບວນການເຮັດວຽກ VFX ທີ່ມີລະບົບຫຼາຍ, ມັນສາມາດນໍາໃຊ້ eDiffi ເພື່ອຕີຄວາມຂອບຫຼາຍຂອງອົງປະກອບວິດີໂອໂດຍໃຊ້ຂໍ້ຄວາມເປັນຮູບພາບ, ເຊິ່ງ. ໂຄງຮ່າງແມ່ນມີຄວາມຊັດເຈນຫຼາຍ, ແລະອີງໃສ່ຕົວຢ່າງເຊັ່ນຕົວເລກທີ່ພື້ນຫລັງໄດ້ຖືກຫຼຸດລົງຜ່ານຫນ້າຈໍສີຂຽວຫຼືວິທີການສູດການຄິດໄລ່.

Runway ML ໃຫ້ AI-based rotoscoping ແລ້ວ. ໃນຕົວຢ່າງນີ້, 'ຫນ້າຈໍສີຂຽວ' ປະມານຫົວຂໍ້ສະແດງເຖິງຊັ້ນ alpha, ໃນຂະນະທີ່ການສະກັດເອົາໄດ້ສໍາເລັດໂດຍຜ່ານການຮຽນຮູ້ຂອງເຄື່ອງຈັກແທນທີ່ຈະເປັນການໂຍກຍ້າຍ algorithmic ຂອງພື້ນຫລັງຫນ້າຈໍສີຂຽວໃນໂລກທີ່ແທ້ຈິງ. ທີ່ມາ: https://twitter.com/runwayml/status/1330978385028374529

ການນໍາໃຊ້ການຝຶກອົບຮົມ ຕູບຕູບ ລັກສະນະແລະທໍ່ຮູບພາບກັບຮູບພາບທີ່ມີ eDiffi, ມັນເປັນໄປໄດ້ທີ່ອາດຈະເລີ່ມຕົ້ນທີ່ຈະທໍາລາຍຫນຶ່ງໃນ bugbears ຂອງ. ໃດ ຮູບແບບການແຜ່ກະຈາຍ latent: ຄວາມຫມັ້ນຄົງຊົ່ວຄາວ. ໃນກໍລະນີດັ່ງກ່າວ, ທັງຂອບຂອງຮູບພາບ imposed ແລະເນື້ອໃນຂອງຮູບພາບຈະ 'pre-floated' ຕໍ່ກັບ canvas ຜູ້ໃຊ້, ດ້ວຍຄວາມຕໍ່ເນື່ອງຊົ່ວຄາວຂອງເນື້ອໃນການສະແດງ (ເຊັ່ນ: ການຫັນເປັນນັກປະຕິບັດ Tai Chi ໃນໂລກທີ່ແທ້ຈິງເປັນຫຸ່ນຍົນ. ) ສະໜອງໃຫ້ໂດຍການນຳໃຊ້ຕົວແບບ DreamBooth ທີ່ຖືກລັອກໄວ້ ເຊິ່ງໄດ້ 'ຈື່' ຂໍ້ມູນການຝຶກອົບຮົມຂອງມັນ – ບໍ່ດີຕໍ່ການຕີຄວາມໝາຍໄດ້, ດີເລີດສຳລັບການສືບພັນ, ຄວາມຊື່ສັດ ແລະ ຢ່າງຕໍ່ເນື່ອງ.

ວິທີການ, ຂໍ້ມູນແລະການທົດສອບ

ເອກະສານລະບຸວ່າຮູບແບບ eDiffi ໄດ້ຖືກຝຶກອົບຮົມກ່ຽວກັບ 'ການລວບລວມຊຸດຂໍ້ມູນສາທາລະນະແລະເປັນເຈົ້າຂອງ', ການກັ່ນຕອງຢ່າງຫຼວງຫຼາຍໂດຍຕົວແບບ CLIP ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ, ເພື່ອເອົາຮູບພາບທີ່ມີແນວໂນ້ມທີ່ຈະຫຼຸດລົງຄະແນນຄວາມງາມທົ່ວໄປຂອງຜົນຜະລິດ. ຊຸດຮູບພາບທີ່ຖືກກັ່ນຕອງສຸດທ້າຍປະກອບດ້ວຍ 'ປະມານຫນຶ່ງພັນລ້ານ' ຄູ່ຂໍ້ຄວາມ. ຂະໜາດຂອງຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມແມ່ນໄດ້ອະທິບາຍຄືກັບ 'ດ້ານສັ້ນທີ່ສຸດທີ່ໃຫຍ່ກວ່າ 64 pixels'.

ແບບຈໍາລອງຈໍານວນຫນຶ່ງໄດ້ຖືກຝຶກອົບຮົມສໍາລັບຂະບວນການ, ໂດຍມີທັງແບບຈໍາລອງພື້ນຖານແລະຄວາມລະອຽດສູງທີ່ໄດ້ຮັບການຝຶກອົບຮົມ AdamW optimizer ໃນອັດຕາການຮຽນຮູ້ຂອງ 0.0001, ມີການເສື່ອມສະພາບຂອງນ້ໍາຂອງ 0.01, ແລະໃນຂະຫນາດ batch formidable ຂອງ 2048.

ຮູບແບບພື້ນຖານໄດ້ຮັບການຝຶກອົບຮົມໃນ 256 NVIDIA A100 GPUs, ແລະສອງແບບທີ່ມີຄວາມລະອຽດສູງສຸດໃນ 128 NVIDIA A100 GPUs ສໍາລັບແຕ່ລະແບບ.

ລະບົບດັ່ງກ່າວແມ່ນອີງໃສ່ NVIDIA ຂອງຕົນເອງ ຈິນຕະນາການ ຫໍສະຫມຸດ PyTorch. COCO ແລະຊຸດຂໍ້ມູນ Visual Genome ໄດ້ຖືກນໍາໃຊ້ສໍາລັບການປະເມີນຜົນ, ເຖິງແມ່ນວ່າບໍ່ໄດ້ລວມຢູ່ໃນຕົວແບບສຸດທ້າຍ, ກັບ MS-COCO ຕົວແປສະເພາະທີ່ໃຊ້ໃນການທົດສອບ. ລະບົບຄູ່ແຂ່ງໄດ້ທົດສອບ ເລື່ອນລອຍ, Make-A-Scene, DALL-E2, ການແຜ່ກະຈາຍຄົງທີ່, ແລະ Google ສອງລະບົບການສັງເຄາະຮູບພາບ, ຮູບພາບ ແລະ ພັກ.

ສອດຄ່ອງກັບຄ້າຍຄືກັນ ກ່ອນ ການເຮັດວຽກ, zero-shot FID-30K ຖືກນໍາໃຊ້ເປັນຕົວຊີ້ວັດການປະເມີນຜົນ. ພາຍໃຕ້ FID-30K, 30,000 ຄໍາບັນຍາຍແມ່ນຖືກສະກັດອອກແບບສຸ່ມຈາກຊຸດການກວດສອບ COCO (ເຊັ່ນວ່າບໍ່ແມ່ນຮູບພາບຫຼືຂໍ້ຄວາມທີ່ໃຊ້ໃນການຝຶກອົບຮົມ), ເຊິ່ງຫຼັງຈາກນັ້ນຖືກນໍາໃຊ້ເປັນຂໍ້ຄວາມກະຕຸ້ນສໍາລັບການສັງເຄາະຮູບພາບ.

ໄລຍະການເລີ່ມຕົ້ນ Frechet (FID) ລະຫວ່າງຮູບພາບຄວາມຈິງທີ່ສ້າງຂຶ້ນແລະພື້ນດິນໄດ້ຖືກຄິດໄລ່ຫຼັງຈາກນັ້ນ, ນອກເຫນືອຈາກການບັນທຶກຄະແນນ CLIP ສໍາລັບຮູບພາບທີ່ສ້າງຂຶ້ນ.

ຜົນໄດ້ຮັບຈາກການທົດສອບ FID ທີ່ບໍ່ມີການສັກຢາຕໍ່ກັບວິທີການທີ່ທັນສະໄຫມໃນຊຸດຂໍ້ມູນການກວດສອບ COCO 2014, ມີຜົນໄດ້ຮັບຕ່ໍາກວ່າ.

ໃນຜົນໄດ້ຮັບ, eDiffi ສາມາດໄດ້ຮັບຄະແນນຕ່ໍາສຸດ (ດີທີ່ສຸດ) ໃນສູນ FID ແມ້ແຕ່ຕໍ່ຕ້ານລະບົບທີ່ມີຈໍານວນຕົວກໍານົດການສູງກວ່າ, ເຊັ່ນ: 20 ຕື້ພາລາມິເຕີຂອງ Parti, ເມື່ອທຽບກັບ 9.1 ຕື້ພາລາມິເຕີທີ່ສູງທີ່ສຸດ. ຮູບແບບ eDiffi ສະເພາະທີ່ໄດ້ຮັບການຝຶກອົບຮົມສໍາລັບການທົດສອບ.

ສະຫຼຸບ

eDiffi ຂອງ NVIDIA ເປັນຕົວແທນທາງເລືອກທີ່ຍິນດີຕ້ອນຮັບພຽງແຕ່ການເພີ່ມຈໍານວນຂໍ້ມູນແລະຄວາມຊັບຊ້ອນຫຼາຍກວ່າເກົ່າໃຫ້ກັບລະບົບທີ່ມີຢູ່, ແທນທີ່ຈະໃຊ້ວິທີການທີ່ສະຫລາດກວ່າແລະເປັນຊັ້ນຕໍ່ກັບບາງອຸປະສັກທີ່ຫນັກຫນ່ວງທີ່ສຸດທີ່ກ່ຽວຂ້ອງກັບການຕິດພັນແລະບໍ່ສາມາດແກ້ໄຂໄດ້ໃນລະບົບຮູບພາບການແຜ່ກະຈາຍ latent.

ມີການສົນທະນາແລ້ວຢູ່ທີ່ Stable Diffusion subreddits ແລະການຂັດແຍ້ງກ່ຽວກັບການລວມເອົາລະຫັດໃດໆໂດຍກົງທີ່ອາດຈະສາມາດໃຊ້ໄດ້ສໍາລັບ eDiffi, ຫຼືອື່ນ ໆ re-staging ຫຼັກການທີ່ຢູ່ເບື້ອງຫລັງໃນການປະຕິບັດແຍກຕ່າງຫາກ. ແນວໃດກໍ່ຕາມ, ທໍ່ໃຫມ່ແມ່ນແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ, ວ່າມັນຈະເປັນຈໍານວນການປ່ຽນແປງທັງຫມົດສໍາລັບ SD, jettisoning ບາງຄວາມເຂົ້າກັນໄດ້ກັບຄືນໄປບ່ອນ, ເຖິງແມ່ນວ່າສະເຫນີຄວາມເປັນໄປໄດ້ຂອງລະດັບການຄວບຄຸມການປັບປຸງຢ່າງຫຼວງຫຼາຍຕໍ່ຮູບພາບທີ່ສັງເຄາະສຸດທ້າຍ, ໂດຍບໍ່ມີການເສຍສະລະທີ່ຫນ້າຈັບໃຈ. ພະລັງງານຈິນຕະນາການຂອງການແຜ່ກະຈາຍ latent.

ພິມຄັ້ງທຳອິດໃນວັນທີ 3 ພະຈິກ 2022.

ຫົວຂໍ້ທີ່ກ່ຽວຂ້ອງ:ການປອມແປງເລິກ deepfake ການສັງເຄາະຮູບພາບ nvidia ການຄົ້ນຄວ້າ ການແຜ່ກະຈາຍຄົງທີ່

ຂຶ້ນຕໍ່ໄປ

ພາສາທີ່ດີທີ່ສຸດສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຫຍັງ? (ເດືອນພຶດສະພາ 2024)

ຢ່າພາດ

Synthesis AI ປ່ອຍຜະລິດຕະພັນໃຫມ່ສໍາລັບຕົວແບບວິໄສທັດຄອມພິວເຕີຂອງມະນຸດເປັນສູນກາງ

Martin Anderson

ນັກຂຽນກ່ຽວກັບການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ ແລະຂໍ້ມູນໃຫຍ່.
ເວັບໄຊສ່ວນຕົວ: martinanderson.ai
ຕິດຕໍ່: [email protected]
Twitter: @manders_ai

Unite.AI

ຮູບແບບການແຜ່ກະຈາຍ eDiffi ຂອງ NVIDIA ອະນຸຍາດໃຫ້ 'ການແຕ້ມຮູບດ້ວຍຄໍາ' ແລະອື່ນໆອີກ.

ປັນຍາປະດິດ