ກ້ານໃບ NeRFocus: ການນໍາເອົາການຄວບຄຸມຈຸດສຸມທີ່ມີນ້ໍາຫນັກເບົາໄປສູ່ພາກສະຫນາມ Neural Radiance - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

NeRFocus: ນໍາເອົາການຄວບຄຸມໂຟກັສທີ່ມີນ້ໍາຫນັກເບົາໄປສູ່ພາກສະຫນາມ Neural Radiance

mm
ການປັບປຸງ on

ການຄົ້ນຄວ້າໃຫມ່ຈາກປະເທດຈີນສະເຫນີວິທີການເພື່ອບັນລຸການຄວບຄຸມທີ່ມີລາຄາທີ່ເຫມາະສົມກັບຄວາມເລິກຂອງຜົນກະທົບພາກສະຫນາມສໍາລັບ Neural Radiance Fields (NeRF), ໃຫ້ຜູ້ໃຊ້ສຸດທ້າຍສາມາດ rack focus ແລະປ່ຽນການຕັ້ງຄ່າຂອງເລນ virtual ໃນພື້ນທີ່ສະແດງຜົນ.

ມີຊື່ວ່າ NeRFocus, ເຕັກນິກການຈັດຕັ້ງປະຕິບັດວິທີການ 'ການຖ່າຍຮູບເລນບາງໆ' ນະວະນິຍາຍເພື່ອສຸມໃສ່ການຂ້າມຜ່ານ, ແລະປະດິດສ້າງໃຫມ່. P-ການຝຶກອົບຮົມ, ຍຸດທະສາດການຝຶກອົບຮົມທີ່ອາດຈະເປັນໄປໄດ້ທີ່ຫລີກລ້ຽງຄວາມຕ້ອງການສໍາລັບຊຸດຂໍ້ມູນໃນພື້ນທີ່ເລິກສະເພາະ, ແລະເຮັດໃຫ້ຂະບວນການຝຶກອົບຮົມທີ່ເນັ້ນໃສ່ໄດ້ງ່າຍຂຶ້ນ.

ໄດ້ ເຈ້ຍ ແມ່ນຫົວຂໍ້ NeRFocus: Neural Radiance Field ສໍາລັບ 3D Synthetic Defocus, ແລະມາຈາກນັກຄົ້ນຄວ້າສີ່ຄົນຈາກໂຮງຮຽນຈົບການສຶກສາ Shenzhen ຢູ່ມະຫາວິທະຍາໄລປັກກິ່ງ, ແລະຫ້ອງທົດລອງ Peng Cheng ຢູ່ Shenzhen, ສະຖາບັນທີ່ໄດ້ຮັບທຶນຂອງລັດຖະບານແຂວງກວາງຕຸ້ງ.

ກ່າວ​ຄຳ​ເຫັນ​ທີ່​ຈຸດ​ສຸມ​ຂອງ​ຄວາມ​ເອົາ​ໃຈ​ໃສ່​ໃນ NeRF

ຖ້າ NeRF ເຄີຍເອົາສະຖານທີ່ຂອງຕົນເປັນເທກໂນໂລຍີຂັບລົດທີ່ຖືກຕ້ອງສໍາລັບຄວາມເປັນຈິງ virtual ແລະ augmented, ມັນຈໍາເປັນຕ້ອງມີວິທີການທີ່ມີນ້ໍາຫນັກເບົາເພື່ອອະນຸຍາດໃຫ້ຄວາມເປັນຈິງ. ການສະແດງ foveated, ບ່ອນທີ່ສ່ວນໃຫຍ່ຂອງການ rendering ຊັບພະຍາກອນ accrete ປະມານ gaze ຂອງຜູ້ໃຊ້, ແທນທີ່ຈະຖືກແຈກຢາຍ indiscriminately ໃນຄວາມລະອຽດຕ່ໍາໃນທົ່ວພື້ນທີ່ເບິ່ງເຫັນທັງຫມົດ.

ຈາກ 2021 ເຈ້ຍ Foveated Neural Radiance Fields ສໍາລັບ Real-Time ແລະ Egocentric Virtual Reality, ພວກເຮົາເຫັນສະຖານທີ່ຄວາມສົນໃຈໃນໂຄງການການສະແດງແບບໃຫມ່ສໍາລັບ NeRF. ທີ່ມາ: https://arxiv.org/pdf/2103.16365.pdf

ຈາກ 2021 ເຈ້ຍ Foveated Neural Radiance Fields ສໍາລັບ Real-Time ແລະ Egocentric Virtual Reality, ພວກເຮົາເຫັນສະຖານທີ່ຄວາມສົນໃຈໃນໂຄງການການສະແດງແບບໃຫມ່ສໍາລັບ NeRF. ທີ່ມາ: https://arxiv.org/pdf/2103.16365.pdf

ພາກສ່ວນທີ່ສໍາຄັນຂອງຄວາມຖືກຕ້ອງຂອງການປະຕິບັດໃນອະນາຄົດຂອງ egocentric NeRF ຈະເປັນຄວາມສາມາດຂອງລະບົບທີ່ຈະສະທ້ອນເຖິງຄວາມສາມາດຂອງຕົນເອງຂອງຕາຂອງມະນຸດເພື່ອປ່ຽນຈຸດສຸມໃນທົ່ວແຜນການທີ່ຫຼຸດລົງຂອງທັດສະນະ (ເບິ່ງຮູບພາບທໍາອິດຂ້າງເທິງ).

gradient ຂອງຈຸດສຸມນີ້ຍັງເປັນຕົວຊີ້ວັດ perceptual ຂອງຂະຫນາດຂອງ scene ໄດ້; ທັດສະນະຈາກເຮລິຄອບເຕີທີ່ບິນຢູ່ທົ່ວເມືອງນັ້ນຈະມີຈຸດສຸມໃສ່ການນໍາທາງເປັນສູນ, ເພາະວ່າ scene ທັງຫມົດແມ່ນເກີນຄວາມສາມາດສຸມໃສ່ພາຍນອກທີ່ສຸດຂອງຜູ້ເບິ່ງ, ໃນຂະນະທີ່ການກວດກາເບິ່ງ scene ຂະຫນາດນ້ອຍຫຼື 'ໃກ້ພາກສະຫນາມ' ບໍ່ພຽງແຕ່ຈະອະນຸຍາດໃຫ້ 'racking ຈຸດສຸມ', ແຕ່. ຄວນ, ສໍາລັບເຫດຜົນຂອງຄວາມເປັນຈິງ, ບັນຈຸຄວາມເລິກແຄບຂອງພາກສະຫນາມໂດຍຄ່າເລີ່ມຕົ້ນ.

ຂ້າງລຸ່ມນີ້ແມ່ນວິດີໂອສະແດງໃຫ້ເຫັນຄວາມສາມາດເບື້ອງຕົ້ນຂອງ NeRFocus, ສະຫນອງໃຫ້ພວກເຮົາໂດຍຜູ້ຂຽນທີ່ສອດຄ້ອງກັນຂອງເຈ້ຍ:

ເໜືອຍົນໂຟກັສທີ່ຖືກຈຳກັດ

ຮັບຮູ້ເຖິງຄວາມຕ້ອງການສໍາລັບການຄວບຄຸມຈຸດສຸມ, ໂຄງການ NeRF ຈໍານວນຫນຶ່ງໃນຊຸມປີມໍ່ໆມານີ້ໄດ້ເຮັດການສະຫນອງ, ເຖິງແມ່ນວ່າຄວາມພະຍາຍາມທັງຫມົດມາຮອດປະຈຸບັນແມ່ນມີປະສິດຕິຜົນໃນການແກ້ໄຂບາງປະເພດ, ຫຼືອື່ນ ໆ ປະກອບມີການປະຕິບັດຕາມປົກກະຕິຫຼັງຈາກການປຸງແຕ່ງທີ່ໂດດເດັ່ນທີ່ເຮັດໃຫ້. ພວກມັນບໍ່ໜ້າຈະປະກອບສ່ວນກັບສະພາບແວດລ້ອມໃນເວລາຈິງທີ່ຄາດໄວ້ໃນທີ່ສຸດສຳລັບເຕັກໂນໂລຊີ Neural Radiance Fields.

ການຄວບຄຸມໂຟກັສສັງເຄາະໃນກອບການໃຫ້ລະບົບປະສາດໄດ້ຖືກພະຍາຍາມໂດຍວິທີການຕ່າງໆໃນ 5-6 ປີທີ່ຜ່ານມາ - ຕົວຢ່າງ, ໂດຍໃຊ້ເຄືອຂ່າຍການແບ່ງສ່ວນເພື່ອຮົ້ວອອກຈາກຂໍ້ມູນດ້ານຫນ້າແລະພື້ນຫລັງ, ແລະຫຼັງຈາກນັ້ນເພື່ອ defocus ພື້ນຫລັງໂດຍທົ່ວໄປ - a ການແກ້ໄຂທົ່ວໄປ ສໍາລັບຜົນກະທົບໂຟກັສສອງແບບງ່າຍດາຍ.

ຈາກການແບ່ງແຍກຮູບຄົນແບບອັດຕະໂນມັດສຳລັບສະໄຕລ໌ຮູບພາບ, ການແບ່ງແຍກແບບອະນິເມຊັນຂອງຍົນໂຟກັສ. ທີ່ມາ: https://jiaya.me/papers/portrait_eg16.pdf

ຈາກເຈ້ຍ 'ການແບ່ງສ່ວນຮູບຄົນອັດຕະໂນມັດສຳລັບການເຮັດສະໄຕລ໌ຮູບພາບ', ການແບ່ງແຍກແບບອະນິເມຊັນຂອງຍົນໂຟກັສ. ທີ່ມາ: https://jiaya.me/papers/portrait_eg16.pdf

ການເປັນຕົວແທນຫຼາຍຍົນຈະເພີ່ມ 'ເຊນອະນິເມຊັນ' ເສມືນຈຳນວນໜຶ່ງໃສ່ໃນຂະບວນວິວັດນີ້, ຕົວຢ່າງໂດຍການໃຊ້ການປະເມີນຄວາມເລິກເພື່ອຕັດສາກຂຶ້ນເປັນແບບເລື່ອນແຕ່ສາມາດຈັດການໄດ້ຂອງຍົນໂຟກັສທີ່ຕ່າງກັນ, ແລະຫຼັງຈາກນັ້ນຈັດລຽງລຳດັບຄວາມເລິກຂຶ້ນກັບ ສັງເຄາະມົວ.

ນອກຈາກນັ້ນ, ແລະມີຄວາມກ່ຽວຂ້ອງສູງກັບສະພາບແວດລ້ອມ AR/VR ທີ່ມີທ່າແຮງ, ຄວາມແຕກຕ່າງລະຫວ່າງສອງມຸມເບິ່ງຂອງການຕິດຕັ້ງກ້ອງສະເຕຣິໂອສາມາດຖືກນໍາໃຊ້ເປັນຕົວຊີ້ບອກຄວາມເລິກ – ວິທີການທີ່ສະເໜີໂດຍ Google Research ໃນປີ 2015.

ຈາກເອກະສານທີ່ນໍາພາໂດຍ Google Fast Bilateral-Space Stereo ສໍາລັບການສັງເຄາະ Defocus, ຄວາມແຕກຕ່າງລະຫວ່າງສອງມຸມເບິ່ງໃຫ້ແຜນທີ່ຄວາມເລິກທີ່ສາມາດເຮັດໃຫ້ການມົວ. ແນວໃດກໍ່ຕາມ, ວິທີການນີ້ແມ່ນບໍ່ຖືກຕ້ອງໃນສະຖານະການທີ່ຄາດໄວ້ຂ້າງເທິງ, ບ່ອນທີ່ຮູບພາບໄດ້ຖືກຖ່າຍຢ່າງຈະແຈ້ງດ້ວຍເລນ 35-50mm (ມາດຕະຖານ SLR), ແຕ່ການ defocusing ທີ່ສຸດຂອງພື້ນຫລັງຈະເກີດຂຶ້ນພຽງແຕ່ກັບເລນເກີນ 200mm, ເຊິ່ງມີປະເພດ. ຂອງຍົນໂຟກັສທີ່ມີຂໍ້ຈໍາກັດສູງທີ່ຜະລິດຄວາມເລິກແຄບໃນສະພາບແວດລ້ອມປົກກະຕິ, ຂະຫນາດຂອງມະນຸດ. ທີ່ມາ

ຈາກເອກະສານທີ່ນໍາພາໂດຍ Google Fast Bilateral-Space Stereo ສໍາລັບການສັງເຄາະ Defocus, ຄວາມແຕກຕ່າງລະຫວ່າງສອງມຸມເບິ່ງໃຫ້ແຜນທີ່ຄວາມເລິກທີ່ສາມາດເຮັດໃຫ້ການມົວ. ແນວໃດກໍ່ຕາມ, ວິທີການນີ້ແມ່ນບໍ່ຖືກຕ້ອງໃນສະຖານະການທີ່ຄາດໄວ້ຂ້າງເທິງ, ບ່ອນທີ່ຮູບພາບໄດ້ຖືກຖ່າຍຢ່າງຈະແຈ້ງດ້ວຍເລນ 35-50mm (ມາດຕະຖານ SLR), ແຕ່ການ defocusing ທີ່ສຸດຂອງພື້ນຫລັງຈະເກີດຂຶ້ນພຽງແຕ່ກັບເລນເກີນ 200mm, ເຊິ່ງມີປະເພດ. ຂອງຍົນໂຟກັສທີ່ມີຂໍ້ຈໍາກັດສູງທີ່ຜະລິດຄວາມເລິກແຄບໃນສະພາບແວດລ້ອມປົກກະຕິ, ຂະຫນາດຂອງມະນຸດ. ທີ່ມາ

ແນວທາງຂອງລັກສະນະນີ້ມີແນວໂນ້ມທີ່ຈະສະແດງໃຫ້ເຫັນສິ່ງປະດິດດ້ານຂອບ, ນັບຕັ້ງແຕ່ພວກມັນພະຍາຍາມເປັນຕົວແທນຂອງສອງຈຸດທີ່ແຕກຕ່າງ ແລະຈຳກັດຂອບຂອງໂຟກັສເປັນ gradient focal ຢ່າງຕໍ່ເນື່ອງ.

ໃນ 2021 ໄດ້ RawNeRF ຂໍ້ລິເລີ່ມທີ່ສະເໜີໃຫ້ຟັງຊັນ High Dynamic Range (HDR) ໂດຍມີການຄວບຄຸມຫຼາຍຂື້ນຕໍ່ກັບສະຖານະການທີ່ມີແສງໜ້ອຍ, ແລະຄວາມອາດສາມາດທີ່ໜ້າປະທັບໃຈໃນການຈັດວາງຈຸດສຸມ:

RawNeRF racks ສຸມໃສ່ທີ່ສວຍງາມ (ຖ້າ, ໃນກໍລະນີນີ້, ບໍ່ຖືກຕ້ອງ, ເນື່ອງຈາກຍົນໂຟກັສທີ່ບໍ່ເປັນຈິງ), ແຕ່ມີຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ສູງ. ທີ່ມາ: https://bmild.github.io/rawnerf/

RawNeRF racks ສຸມໃສ່ທີ່ສວຍງາມ (ຖ້າ, ໃນກໍລະນີນີ້, ບໍ່ຖືກຕ້ອງ, ເນື່ອງຈາກຍົນໂຟກັສທີ່ບໍ່ເປັນຈິງ), ແຕ່ມີຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ສູງ. ທີ່ມາ: https://bmild.github.io/rawnerf/

ຢ່າງໃດກໍ່ຕາມ, RawNeRF ຮຽກຮ້ອງໃຫ້ມີການຄິດໄລ່ເບື້ອງຕົ້ນທີ່ຫນັກຫນ່ວງສໍາລັບການເປັນຕົວແທນຫຼາຍຍົນຂອງມັນຂອງ NeRF ທີ່ໄດ້ຮັບການຝຶກອົບຮົມ, ສົ່ງຜົນໃຫ້ຂະບວນການເຮັດວຽກທີ່ບໍ່ສາມາດດັດແປງໄດ້ຢ່າງງ່າຍດາຍກັບການຈັດຕັ້ງປະຕິບັດ NeRF ທີ່ເບົາກວ່າຫຼືຕ່ໍາກວ່າ.

ສ້າງແບບຈໍາລອງຂອງເລນສະເໝືອນ

NeRF ຕົວຂອງມັນເອງແມ່ນຄາດຄະເນຢູ່ໃນຮູບແບບການຖ່າຍຮູບ pinhole, ເຊິ່ງເຮັດໃຫ້ scene ທັງຫມົດມີຄວາມຊັດເຈນໃນລັກສະນະທີ່ຄ້າຍຄືກັບ scene CGI ເລີ່ມຕົ້ນ (ກ່ອນທີ່ຈະມີວິທີການຕ່າງໆທີ່ເຮັດໃຫ້ມົວເປັນຜົນກະທົບຫລັງການປຸງແຕ່ງຫຼື innate ໂດຍອີງໃສ່ຄວາມເລິກຂອງພາກສະຫນາມ).

NeRFocus ສ້າງ virtual 'ເລນບາງໆ' (ແທນທີ່ຈະເປັນຮູຮັບແສງ 'glassless') ເຊິ່ງຄິດໄລ່ເສັ້ນທາງ beam ຂອງແຕ່ລະ pixel ທີ່ເຂົ້າມາແລະສະແດງມັນໂດຍກົງ, ມີປະສິດທິພາບ inverting ຂະບວນການຈັບພາບມາດຕະຖານ, ເຊິ່ງດໍາເນີນການ. ໂພດຄວາມເປັນຈິງ ກ່ຽວກັບການປ້ອນຂໍ້ມູນແສງສະຫວ່າງທີ່ໄດ້ຮັບຜົນກະທົບຈາກຄຸນສົມບັດສະທ້ອນແສງຂອງການອອກແບບເລນ.

ຮູບແບບນີ້ແນະນໍາຂອບເຂດຂອງຄວາມເປັນໄປໄດ້ສໍາລັບການສະແດງເນື້ອຫາພາຍໃນ frustum (ວົງມົນທີ່ໃຫຍ່ທີ່ສຸດຂອງອິດທິພົນທີ່ສະແດງຢູ່ໃນຮູບຂ້າງເທິງ).

ການຄິດໄລ່ສີແລະຄວາມຫນາແຫນ້ນທີ່ຖືກຕ້ອງສໍາລັບແຕ່ລະ multilayer perceptron (MLP) ໃນລະດັບຄວາມກວ້າງຂອງຄວາມເປັນໄປໄດ້ນີ້ແມ່ນເປັນວຽກງານເພີ່ມເຕີມ. ນີ້​ໄດ້​ ແກ້ໄຂກ່ອນ ໂດຍການນໍາໃຊ້ການຝຶກອົບຮົມທີ່ມີການຄວບຄຸມດູແລເປັນຈໍານວນສູງຂອງຮູບພາບ DLSR, ປະກອບມີການສ້າງຊຸດຂໍ້ມູນເພີ່ມເຕີມສໍາລັບຂະບວນການຝຶກອົບຮົມທີ່ເປັນໄປໄດ້ - ປະສິດທິຜົນທີ່ກ່ຽວຂ້ອງກັບການກະກຽມແຮງງານແລະການເກັບຮັກສາຂອງຊັບພະຍາກອນຄອມພິວເຕີ້ຫຼາຍທີ່ເປັນໄປໄດ້ຫຼືອາດຈະບໍ່ຈໍາເປັນ.

NeRFocus ເອົາຊະນະນີ້ໂດຍ P-ການຝຶກອົບຮົມ, ບ່ອນທີ່ຊຸດຂໍ້ມູນການຝຶກອົບຮົມແມ່ນຖືກສ້າງຂຶ້ນໂດຍອີງໃສ່ການປະຕິບັດການມົວພື້ນຖານ. ດັ່ງນັ້ນ, ຮູບແບບດັ່ງກ່າວຖືກສ້າງຂື້ນດ້ວຍການດໍາເນີນງານທີ່ມົວພາຍໃນແລະນໍາທາງໄດ້.

ເສັ້ນຜ່າສູນກາງຂອງຮູຮັບແສງຖືກຕັ້ງເປັນສູນໃນລະຫວ່າງການຝຶກອົບຮົມ, ແລະຄວາມເປັນໄປໄດ້ທີ່ກຳນົດໄວ້ລ່ວງໜ້າເພື່ອໃຊ້ໃນການເລືອກ kernel ມົວແບບສຸ່ມ. ເສັ້ນຜ່າສູນກາງທີ່ໄດ້ຮັບນີ້ຖືກນໍາໃຊ້ເພື່ອຂະຫຍາຍແຕ່ລະເສັ້ນຜ່າກາງຂອງໂກນປະສົມ, ປ່ອຍໃຫ້ MLP ຄາດຄະເນຄວາມສະຫວ່າງແລະຄວາມຫນາແຫນ້ນຂອງ frustums ໄດ້ຢ່າງຖືກຕ້ອງ (ວົງກວ້າງໃນຮູບຂ້າງເທິງ, ເປັນຕົວແທນຂອງເຂດການປ່ຽນແປງສໍາລັບແຕ່ລະ pixels ລວງ).

ເສັ້ນຜ່າສູນກາງຂອງຮູຮັບແສງຖືກຕັ້ງເປັນສູນໃນລະຫວ່າງການຝຶກອົບຮົມ, ແລະຄວາມເປັນໄປໄດ້ທີ່ກຳນົດໄວ້ລ່ວງໜ້າເພື່ອໃຊ້ໃນການເລືອກ kernel ມົວແບບສຸ່ມ. ເສັ້ນຜ່າສູນກາງທີ່ໄດ້ຮັບນີ້ຖືກນໍາໃຊ້ເພື່ອຂະຫຍາຍເສັ້ນຜ່າສູນກາງຂອງແຕ່ລະຮູບທໍ່ກົມ, ປ່ອຍໃຫ້ MLP ຄາດຄະເນຄວາມສະຫວ່າງແລະຄວາມຫນາແຫນ້ນຂອງ frustums ໄດ້ຢ່າງຖືກຕ້ອງ (ວົງກວ້າງໃນຮູບຂ້າງເທິງ, ເປັນຕົວແທນຂອງເຂດສູງສຸດຂອງການຫັນປ່ຽນສໍາລັບແຕ່ລະ pixels ລວງ).

ຜູ້ຂຽນຂອງເອກະສານໃຫມ່ສັງເກດເຫັນວ່າ NeRFocus ມີທ່າແຮງທີ່ເຫມາະສົມກັບວິທີການ HDR-driven ຂອງ RawNeRF, ເຊິ່ງສາມາດຊ່ວຍໃນການສະແດງຂອງບາງພາກສ່ວນທີ່ທ້າທາຍ, ເຊັ່ນ: ຈຸດເດັ່ນຂອງ specular defocused, ແລະຫຼາຍຜົນກະທົບທາງດ້ານການຄິດໄລ່ອື່ນໆທີ່ມີ. ທ້າທາຍ CGI workflows ສໍາລັບສາມສິບປີຫຼືຫຼາຍກວ່ານັ້ນ.

ຂະບວນການດັ່ງກ່າວບໍ່ໄດ້ກໍານົດຄວາມຕ້ອງການເພີ່ມເຕີມສໍາລັບເວລາແລະ / ຫຼືຕົວກໍານົດການປຽບທຽບກັບວິທີການທີ່ຜ່ານມາເຊັ່ນ NeRF ຫຼັກແລະ Mip-NeRF (ແລະ, ສົມມຸດຕິຖານ Mip-NeRF 360, ເຖິງແມ່ນວ່ານີ້ບໍ່ໄດ້ຖືກກ່າວເຖິງໃນເອກະສານ), ແລະສາມາດໃຊ້ໄດ້ເປັນການຂະຫຍາຍທົ່ວໄປກັບວິທີການສູນກາງຂອງພາກສະຫນາມ radiance neural.

 

ພິມຄັ້ງທຳອິດໃນວັນທີ 12 ມີນາ 2022.