ປັນຍາປະດິດ

DiffSeg : Unsupervised Zero-Shot Segmentation ໂດຍໃຊ້ Stable Diffusion

ຈັດພີມມາ

4 ເດືອນທີ່ແລ້ວ

ເດືອນທັນວາ 26, 2023

DiffSeg : Unsupervised Zero-Shot Segmentation ໂດຍໃຊ້ Stable Diffusion

ຫນຶ່ງໃນສິ່ງທ້າທາຍຫຼັກໃນແບບຈໍາລອງທີ່ອີງໃສ່ວິໄສທັດຄອມພິວເຕີແມ່ນການຜະລິດຫນ້າກາກການແບ່ງສ່ວນທີ່ມີຄຸນນະພາບສູງ. ຄວາມກ້າວຫນ້າທີ່ຜ່ານມາໃນການຝຶກອົບຮົມທີ່ມີການຄວບຄຸມເບິ່ງແຍງຂະຫນາດໃຫຍ່ໄດ້ເຮັດໃຫ້ການແບ່ງສ່ວນທີ່ບໍ່ມີການຍິງໃນທົ່ວຮູບແບບຮູບພາບຕ່າງໆ. ນອກຈາກນັ້ນ, ການຝຶກອົບຮົມທີ່ບໍ່ມີການເບິ່ງແຍງໄດ້ເຮັດໃຫ້ການແບ່ງສ່ວນງ່າຍຂຶ້ນໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຄໍາບັນຍາຍຢ່າງກວ້າງຂວາງ. ເຖິງວ່າຈະມີການພັດທະນາເຫຼົ່ານີ້, ການສ້າງກອບວິໄສທັດຄອມພິວເຕີທີ່ມີຄວາມສາມາດແບ່ງສ່ວນສິ່ງໃດແດ່ໃນການຕັ້ງຄ່າສູນທີ່ບໍ່ມີຄໍາບັນຍາຍຍັງຄົງເປັນວຽກທີ່ສັບສົນ. Semantic segmentation, ແນວຄວາມຄິດພື້ນຖານໃນແບບຈໍາລອງວິໄສທັດຄອມພິວເຕີ, ກ່ຽວຂ້ອງກັບການແບ່ງຮູບພາບເຂົ້າໄປໃນເຂດຂະຫນາດນ້ອຍທີ່ມີ semantics ເປັນເອກະພາບ. ເຕັກນິກນີ້ວາງພື້ນຖານສໍາລັບວຽກງານລຸ່ມນ້ໍາຈໍານວນຫລາຍ, ເຊັ່ນ: ການຖ່າຍຮູບທາງການແພດ, ການແກ້ໄຂຮູບພາບ, ການຂັບລົດອັດຕະໂນມັດ, ແລະອື່ນໆ.

ເພື່ອກ້າວໄປສູ່ການພັດທະນາແບບຈໍາລອງວິໄສທັດຂອງຄອມພິວເຕີ, ມັນເປັນສິ່ງ ສຳ ຄັນທີ່ການແບ່ງສ່ວນຮູບພາບບໍ່ໄດ້ຖືກ ຈຳ ກັດຢູ່ໃນຊຸດຂໍ້ມູນຄົງທີ່ທີ່ມີປະເພດ ຈຳ ກັດ. ແທນທີ່ຈະ, ມັນຄວນຈະເຮັດຫນ້າທີ່ເປັນພື້ນຖານທີ່ຫລາກຫລາຍສໍາລັບຄໍາຮ້ອງສະຫມັກອື່ນໆ. ແນວໃດກໍ່ຕາມ, ຄ່າໃຊ້ຈ່າຍສູງຂອງການເກັບກໍາປ້າຍເປັນພື້ນຖານຕໍ່ pixels ລວງສະເຫນີສິ່ງທ້າທາຍທີ່ສໍາຄັນ, ຈໍາກັດຄວາມຄືບຫນ້າຂອງ Zero-shot ແລະວິທີການ segmentation ການຊີ້ນໍາທີ່ບໍ່ຈໍາເປັນຕ້ອງມີຄໍາອະທິບາຍແລະຂາດການເຂົ້າເຖິງເປົ້າຫມາຍກ່ອນ. ບົດຄວາມນີ້ຈະປຶກສາຫາລືວິທີການເອົາໃຈໃສ່ຕົນເອງຊັ້ນໃນ ຮູບແບບການແຜ່ກະຈາຍທີ່ຫມັ້ນຄົງ ສາມາດເຮັດໃຫ້ການສ້າງແບບຈໍາລອງທີ່ສາມາດແບ່ງສ່ວນການປ້ອນຂໍ້ມູນໃດໆໃນການຕັ້ງຄ່າສູນ, ເຖິງແມ່ນວ່າບໍ່ມີຄໍາບັນຍາຍທີ່ເຫມາະສົມ. ຊັ້ນການໃສ່ໃຈຕົນເອງເຫຼົ່ານີ້ເຂົ້າໃຈແນວຄວາມຄິດວັດຖຸທີ່ໄດ້ຮຽນຮູ້ໂດຍຕົວແບບການແຜ່ກະຈາຍຄົງທີ່ທີ່ໄດ້ຮັບການຝຶກອົບຮົມມາກ່ອນ.

DiffSeg : ຂັ້ນຕອນການແບ່ງສ່ວນ Zero-Shot ທີ່ປັບປຸງໃຫ້ດີຂຶ້ນ

Semantic segmentation ແມ່ນຂະບວນການທີ່ແບ່ງຮູບພາບອອກເປັນພາກສ່ວນຕ່າງໆ, ໂດຍແຕ່ລະພາກສ່ວນຈະແບ່ງປັນຄວາມຫມາຍທີ່ຄ້າຍຄືກັນ. ເຕັກນິກນີ້ສ້າງພື້ນຖານສໍາລັບວຽກງານລຸ່ມນ້ໍາຈໍານວນຫລາຍ. ຕາມປະເພນີ, ວຽກງານວິໄສທັດຄອມພິວເຕີບໍ່ຖືກຍິງແມ່ນຂຶ້ນກັບການແບ່ງສ່ວນ semantic ທີ່ມີການເບິ່ງແຍງ, ການນໍາໃຊ້ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ມີຄໍາບັນຍາຍແລະປະເພດປ້າຍຊື່. ຢ່າງໃດກໍ່ຕາມ, ການປະຕິບັດການແບ່ງສ່ວນ semantic ທີ່ບໍ່ມີການເບິ່ງແຍງຢູ່ໃນການຕັ້ງຄ່າສູນຍັງຄົງເປັນສິ່ງທ້າທາຍ. ໃນຂະນະທີ່ວິທີການຄວບຄຸມແບບດັ້ງເດີມມີປະສິດຕິຜົນ, ຄ່າໃຊ້ຈ່າຍໃນການຕິດສະຫຼາກຕໍ່ pixels ຂອງພວກມັນມັກຈະຖືກຫ້າມ, ເນັ້ນຫນັກເຖິງຄວາມຕ້ອງການສໍາລັບການພັດທະນາວິທີການແບ່ງສ່ວນທີ່ບໍ່ມີການເບິ່ງແຍງໃນການຕັ້ງຄ່າສູນທີ່ຈໍາກັດຫນ້ອຍ, ບ່ອນທີ່ຕົວແບບບໍ່ຮຽກຮ້ອງໃຫ້ມີຂໍ້ມູນປະກອບຫຼືຄວາມຮູ້ເບື້ອງຕົ້ນຂອງຂໍ້ມູນ.

ເພື່ອແກ້ໄຂຂໍ້ຈໍາກັດນີ້, DiffSeg ແນະນໍາຍຸດທະສາດການປຸງແຕ່ງຫຼັງການປຸງແຕ່ງໃຫມ່, ນໍາໃຊ້ຄວາມສາມາດຂອງກອບການແຜ່ກະຈາຍທີ່ຫມັ້ນຄົງເພື່ອສ້າງຮູບແບບການແບ່ງສ່ວນທົ່ວໄປທີ່ມີຄວາມສາມາດໃນການໂອນສູນໃນຮູບພາບຕ່າງໆ. ກອບການແຜ່ກະຈາຍທີ່ຫມັ້ນຄົງໄດ້ພິສູດປະສິດທິພາບຂອງພວກເຂົາໃນການສ້າງຮູບພາບທີ່ມີຄວາມລະອຽດສູງໂດຍອີງໃສ່ເງື່ອນໄຂທີ່ວ່ອງໄວ. ສໍາລັບຮູບພາບທີ່ສ້າງຂຶ້ນ, ກອບເຫຼົ່ານີ້ສາມາດຜະລິດຫນ້າກາກການແບ່ງສ່ວນໂດຍໃຊ້ການກະຕຸ້ນຂໍ້ຄວາມທີ່ສອດຄ້ອງກັນ, ໂດຍປົກກະຕິລວມທັງວັດຖຸ foreground ເດັ່ນ.

ໃນທາງກົງກັນຂ້າມ, DiffSeg ແມ່ນວິທີການປະດິດສ້າງຫລັງການປຸງແຕ່ງທີ່ສ້າງຫນ້າກາກການແບ່ງສ່ວນໂດຍການນໍາໃຊ້ຕົວດຶງຄວາມສົນໃຈຈາກຊັ້ນຄວາມສົນໃຈໃນຕົວເອງໃນຮູບແບບການແຜ່ກະຈາຍ. ສູດການຄິດໄລ່ DiffSeg ແມ່ນປະກອບດ້ວຍສາມອົງປະກອບທີ່ສໍາຄັນ: ການລວມເອົາຄວາມສົນໃຈຊໍ້າໆ, ການລວບລວມຄວາມສົນໃຈ, ແລະການສະກັດກັ້ນທີ່ບໍ່ສູງສຸດ, ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບພາບຕໍ່ໄປນີ້.

ສູດການຄິດໄລ່ DiffSeg ຮັກສາຂໍ້ມູນສາຍຕາໃນທົ່ວຄວາມລະອຽດຫຼາຍຮູບແບບໂດຍການຮວບຮວມຕົວເຊັນເຊີຄວາມສົນໃຈ 4D ທີ່ມີຄວາມສອດຄ່ອງທາງພື້ນທີ່, ແລະນຳໃຊ້ຂະບວນການລວມຕົວແບບຊ້ຳໆໂດຍການເກັບຕົວຢ່າງຈຸດສະມໍ. ສະມໍເຫຼົ່ານີ້ເຮັດຫນ້າທີ່ເປັນແຖບເປີດຕົວສໍາລັບການລວມເອົາຫນ້າກາກຄວາມສົນໃຈກັບສະມໍວັດຖຸດຽວກັນທີ່ດູດຊຶມໃນທີ່ສຸດ. ໂຄງຮ່າງການ DiffSeg ຄວບຄຸມຂະບວນການລວມຕົວດ້ວຍການຊ່ວຍເຫຼືອຂອງ ວິທີຄວາມແຕກຕ່າງຂອງ KL ເພື່ອວັດແທກຄວາມຄ້າຍຄືກັນລະຫວ່າງສອງແຜນທີ່ເອົາໃຈໃສ່.

ເມື່ອປຽບທຽບກັບວິທີການຈັດແບ່ງກຸ່ມທີ່ບໍ່ມີການເບິ່ງແຍງທີ່ອີງໃສ່ກຸ່ມ, ນັກພັດທະນາບໍ່ຈໍາເປັນຕ້ອງລະບຸຈໍານວນກຸ່ມກ່ອນລ່ວງຫນ້າໃນ algorithm DiffSeg, ແລະເຖິງແມ່ນວ່າບໍ່ມີຄວາມຮູ້ມາກ່ອນ, ສູດການຄິດໄລ່ DiffSeg ສາມາດຜະລິດ segmentation ໂດຍບໍ່ຕ້ອງໃຊ້ຊັບພະຍາກອນເພີ່ມເຕີມ. ໂດຍລວມ, ສູດການຄິດໄລ່ DiffSeg ແມ່ນ "ວິທີການແບ່ງສ່ວນແບບບໍ່ມີການເບິ່ງແຍງກວດກາແບບບໍ່ມີການຄວບຄຸມ ແລະສູນທີ່ນຳໃຊ້ແບບຈໍາລອງການແຜ່ກະຈາຍແບບຄົງທີ່ທີ່ໄດ້ຮັບການຝຶກອົບຮົມມາກ່ອນ, ແລະສາມາດແບ່ງກຸ່ມຮູບພາບໄດ້ໂດຍບໍ່ມີຊັບພະຍາກອນເພີ່ມເຕີມ ຫຼືຄວາມຮູ້ມາກ່ອນ."

DiffSeg: ແນວຄວາມຄິດພື້ນຖານ

DiffSeg ເປັນສູດການຄິດໄລ່ນະວະນິຍາຍທີ່ສ້າງຂຶ້ນໃນການຮຽນຮູ້ຂອງແບບຈໍາລອງການແຜ່ກະຈາຍ, ການແບ່ງສ່ວນທີ່ບໍ່ມີການເບິ່ງແຍງ, ແລະການແບ່ງສ່ວນທີ່ເປັນສູນ.

ຮູບແບບການແຜ່ກະຈາຍ

ສູດການຄິດໄລ່ DiffSeg ສ້າງການຮຽນຮູ້ຈາກແບບຈໍາລອງການແຜ່ກະຈາຍທີ່ຜ່ານການຝຶກອົບຮົມ. ຮູບແບບການແຜ່ກະຈາຍແມ່ນໜຶ່ງໃນໂຄງຮ່າງການຜະລິດທີ່ນິຍົມທີ່ສຸດສໍາລັບຕົວແບບວິໄສທັດຄອມພິວເຕີ, ແລະມັນຮຽນຮູ້ຂະບວນການແຜ່ກະຈາຍໄປຂ້າງໜ້າ ແລະ ປີ້ນຄືນຈາກຮູບສິ່ງລົບກວນ isotropic Gaussian ເພື່ອສ້າງຮູບພາບ. ການແຜ່ກະຈາຍແບບຄົງທີ່ແມ່ນຕົວແປທີ່ເປັນທີ່ນິຍົມທີ່ສຸດຂອງຮູບແບບການແຜ່ກະຈາຍ, ແລະມັນຖືກນໍາໃຊ້ເພື່ອປະຕິບັດຫນ້າວຽກທີ່ກວ້າງຂວາງລວມທັງການແບ່ງສ່ວນທີ່ມີການເບິ່ງແຍງ, ການຈັດປະເພດທີ່ບໍ່ມີການຍິງ, ການຈັບຄູ່ທາງຄວາມຫມາຍ, ການແບ່ງສ່ວນທີ່ມີປະສິດທິພາບປ້າຍຊື່, ແລະການແບ່ງສ່ວນຄໍາສັບທີ່ເປີດ. ຢ່າງໃດກໍ່ຕາມ, ບັນຫາດຽວກັບແບບຈໍາລອງການແຜ່ກະຈາຍແມ່ນວ່າພວກເຂົາອີງໃສ່ລັກສະນະສາຍຕາໃນມິຕິລະດັບສູງເພື່ອປະຕິບັດວຽກງານເຫຼົ່ານີ້, ແລະພວກເຂົາມັກຈະຕ້ອງການການຝຶກອົບຮົມເພີ່ມເຕີມເພື່ອໃຊ້ປະໂຫຍດຢ່າງສົມບູນຂອງລັກສະນະເຫຼົ່ານີ້.

ການແບ່ງສ່ວນທີ່ບໍ່ມີການເບິ່ງແຍງ

ສູດການຄິດໄລ່ DiffSeg ແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບການແບ່ງສ່ວນທີ່ບໍ່ໄດ້ຮັບການເບິ່ງແຍງ, ການປະຕິບັດ AI ທີ່ທັນສະໄຫມທີ່ມີຈຸດປະສົງເພື່ອສ້າງຫນ້າກາກການແບ່ງສ່ວນທີ່ຫນາແຫນ້ນໂດຍບໍ່ຕ້ອງໃຊ້ຄໍາບັນຍາຍໃດໆ. ຢ່າງໃດກໍ່ຕາມ, ເພື່ອໃຫ້ມີປະສິດທິພາບທີ່ດີ, ຮູບແບບການແບ່ງສ່ວນທີ່ບໍ່ໄດ້ຮັບການເບິ່ງແຍງແມ່ນຕ້ອງການການຝຶກອົບຮົມທີ່ບໍ່ໄດ້ເບິ່ງແຍງກ່ອນຫນ້າກ່ຽວກັບຊຸດຂໍ້ມູນເປົ້າຫມາຍ. ໂຄງສ້າງ AI ໂດຍອີງໃສ່ການແບ່ງສ່ວນທີ່ບໍ່ມີການເບິ່ງແຍງສາມາດແບ່ງອອກເປັນສອງປະເພດ: ການຈັດກຸ່ມໂດຍໃຊ້ແບບຈໍາລອງທີ່ຜ່ານການຝຶກອົບຮົມ, ແລະການຈັດກຸ່ມໂດຍອີງໃສ່ຄວາມບໍ່ປ່ຽນແປງ. ໃນປະເພດທໍາອິດ, ກອບການນໍາໃຊ້ລັກສະນະຈໍາແນກທີ່ໄດ້ຮຽນຮູ້ໂດຍແບບຈໍາລອງທາງສ່ວນຫນ້າຂອງການຝຶກອົບຮົມເພື່ອສ້າງຫນ້າກາກການແບ່ງສ່ວນ, ໃນຂະນະທີ່ກອບທີ່ຊອກຫາຕົວເອງໃນປະເພດທີສອງໃຊ້ວິທີການຈັດກຸ່ມແບບທົ່ວໄປທີ່ເພີ່ມປະສິດທິພາບຂໍ້ມູນເຊິ່ງກັນແລະກັນລະຫວ່າງສອງຮູບພາບເພື່ອແບ່ງຮູບພາບເຂົ້າໄປໃນກຸ່ມ semantic. ແລະຫຼີກເວັ້ນການແບ່ງແຍກ degenerate.

ການຈັດແບ່ງ Zero-Shot

ສູດການຄິດໄລ່ DiffSeg ແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບກອບການແບ່ງສ່ວນສູນ, ເປັນວິທີການທີ່ມີຄວາມສາມາດໃນການແບ່ງສ່ວນໃດໆ ໂດຍບໍ່ມີການຝຶກອົບຮົມ ຫຼືຄວາມຮູ້ກ່ຽວກັບຂໍ້ມູນມາກ່ອນ. ແບບຈໍາລອງການແບ່ງກຸ່ມແບບ Zero-shot ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດພິເສດຂອງການຖ່າຍໂອນສູນໃນໄລຍະທີ່ຜ່ານມາເຖິງແມ່ນວ່າພວກເຂົາຕ້ອງການການປ້ອນຂໍ້ຄວາມແລະການເຕືອນບາງຢ່າງ. ໃນທາງກົງກັນຂ້າມ, ສູດການຄິດໄລ່ DiffSeg ໃຊ້ຕົວແບບການແຜ່ກະຈາຍເພື່ອສ້າງການແບ່ງສ່ວນໂດຍບໍ່ມີການສອບຖາມແລະສັງເຄາະຫຼາຍຮູບພາບແລະບໍ່ຮູ້ເນື້ອໃນຂອງວັດຖຸ.

DiffSeg : ວິທີການແລະສະຖາປັດຕະຍະກໍາ

ສູດການຄິດໄລ່ DiffSeg ນຳໃຊ້ຊັ້ນການໃສ່ໃຈຕົນເອງໃນຮູບແບບການແຜ່ກະຈາຍທີ່ໝັ້ນຄົງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນເພື່ອສ້າງວຽກການແບ່ງສ່ວນທີ່ມີຄຸນນະພາບສູງ.

ຮູບແບບການແຜ່ກະຈາຍຄົງທີ່

Stable Diffusion ແມ່ນຫນຶ່ງໃນແນວຄວາມຄິດພື້ນຖານໃນກອບ DiffSeg. Stable Diffusion ເປັນກອບ AI ການຜະລິດ, ແລະເປັນຫນຶ່ງໃນຮູບແບບການແຜ່ກະຈາຍທີ່ນິຍົມຫຼາຍທີ່ສຸດ. ຫນຶ່ງໃນລັກສະນະຕົ້ນຕໍຂອງຮູບແບບການແຜ່ກະຈາຍແມ່ນເປັນທາງຜ່ານແລະປີ້ນກັບກັນ. ໃນການສົ່ງຕໍ່, ມີສຽງລົບກວນ Gaussian ໜ້ອຍໜຶ່ງຖືກເພີ່ມໃສ່ຮູບຊ້ຳໆໃນທຸກຂັ້ນຕອນ ຈົນກວ່າຮູບຈະກາຍມາເປັນຮູບພາບລົບກວນ Gaussian isotropic. ໃນທາງກົງກັນຂ້າມ, ໃນການຖ່າຍທອດທາງກົງກັນຂ້າມ, ຮູບແບບການແຜ່ກະຈາຍຈະເອົາສິ່ງລົບກວນໃນຮູບພາບສິ່ງລົບກວນ isotropic Gaussian ເພື່ອຟື້ນຕົວຮູບພາບຕົ້ນສະບັບໂດຍບໍ່ມີສິ່ງລົບກວນ Gaussian.

ກອບການແຜ່ກະຈາຍທີ່ຄົງທີ່ໃຊ້ຕົວຖອດລະຫັດຕົວເຂົ້າລະຫັດ, ແລະການອອກແບບ U-Net ທີ່ມີຊັ້ນໃສ່ໃຈເຊິ່ງມັນໃຊ້ຕົວເຂົ້າລະຫັດເພື່ອບີບອັດຮູບພາບເຂົ້າໄປໃນຊ່ອງຫວ່າງທີ່ມີຂະໜາດນ້ອຍກວ່າ, ແລະໃຊ້ຕົວຖອດລະຫັດເພື່ອບີບອັດຮູບພາບ. ສະຖາປັດຕະຍະກໍາ U-Net ປະກອບດ້ວຍຊັ້ນຂອງໂມດູລາ, ເຊິ່ງແຕ່ລະຕັນແມ່ນປະກອບດ້ວຍສອງອົງປະກອບດັ່ງຕໍ່ໄປນີ້: ຊັ້ນການຫັນເປັນ, ແລະຊັ້ນ ResNet.

ອົງປະກອບແລະສະຖາປັດຕະຍະກໍາ

ຊັ້ນການເອົາໃຈໃສ່ຕົນເອງໃນແບບຈໍາລອງການແຜ່ກະຈາຍຈັດກຸ່ມຂໍ້ມູນຂອງວັດຖຸປະກົດຂຶ້ນໃນຮູບແບບແຜນທີ່ຄວາມສົນໃຈທາງພື້ນທີ່, ແລະ DiffSeg ແມ່ນວິທີການໃຫມ່ຫຼັງການປຸງແຕ່ງເພື່ອລວມຕົວດຶງຄວາມສົນໃຈເຂົ້າໄປໃນຫນ້າກາກການແບ່ງສ່ວນທີ່ຖືກຕ້ອງກັບທໍ່ທີ່ປະກອບດ້ວຍສາມອົງປະກອບຕົ້ນຕໍ: ການລວບລວມຄວາມສົນໃຈ, ການສະກັດກັ້ນບໍ່ສູງສຸດ, ແລະການເອົາໃຈໃສ່ຊໍ້າຊ້ອນ.

ການລວບລວມຄວາມສົນໃຈ

ສໍາລັບຮູບພາບທີ່ເຂົ້າມາທີ່ຜ່ານຊັ້ນ U-Net, ແລະຕົວເຂົ້າລະຫັດ, ຮູບແບບການແຜ່ກະຈາຍແບບຄົງທີ່ຈະສ້າງຕົວດຶງຄວາມສົນໃຈທັງໝົດ 16 ອັນ, ໂດຍມີ 5 tensors ສໍາລັບແຕ່ລະຂະຫນາດ. ເປົ້າຫມາຍຕົ້ນຕໍຂອງການສ້າງ 16 tensors ແມ່ນເພື່ອລວບລວມ tensors ຄວາມສົນໃຈເຫຼົ່ານີ້ທີ່ມີຄວາມລະອຽດທີ່ແຕກຕ່າງກັນເຂົ້າໄປໃນ tensor ທີ່ມີຄວາມລະອຽດສູງສຸດ. ເພື່ອບັນລຸສິ່ງດັ່ງກ່າວ, ສູດການຄິດໄລ່ DiffSeg ປະຕິບັດຕໍ່ 4 ມິຕິທີ່ແຕກຕ່າງຈາກກັນແລະກັນ.

ອອກຈາກສີ່ມິຕິ, 2 ມິຕິສຸດທ້າຍໃນເຊັນເຊີຄວາມສົນໃຈມີຄວາມລະອຽດແຕກຕ່າງກັນແຕ່ມັນມີຄວາມສອດຄ່ອງທາງດ້ານພື້ນທີ່ເນື່ອງຈາກແຜນທີ່ 2D spatial ຂອງກອບ DiffSeg ສອດຄ່ອງກັບຄວາມກ່ຽວຂ້ອງລະຫວ່າງສະຖານທີ່ແລະສະຖານທີ່ທາງກວ້າງຂອງພື້ນທີ່. ຜົນໄດ້ຮັບ, ກອບ DiffSeg ຕົວຢ່າງສອງມິຕິເຫຼົ່ານີ້ຂອງແຜນທີ່ຄວາມສົນໃຈທັງຫມົດໄປສູ່ຄວາມລະອຽດສູງສຸດຂອງພວກເຂົາທັງຫມົດ, 64 x 64. ໃນທາງກົງກັນຂ້າມ, 2 ມິຕິທໍາອິດຊີ້ໃຫ້ເຫັນການອ້າງອີງສະຖານທີ່ຂອງແຜນທີ່ຄວາມສົນໃຈທີ່ສະແດງໃຫ້ເຫັນໃນຮູບພາບຕໍ່ໄປນີ້.

ເນື່ອງຈາກຂະຫນາດເຫຼົ່ານີ້ຫມາຍເຖິງສະຖານທີ່ຂອງແຜນທີ່ຄວາມສົນໃຈ, ແຜນທີ່ຄວາມສົນໃຈຕ້ອງໄດ້ຮັບການລວບລວມຕາມຄວາມເຫມາະສົມ. ນອກຈາກນັ້ນ, ເພື່ອຮັບປະກັນວ່າແຜນທີ່ຄວາມສົນໃຈລວມມີການແຈກຢາຍທີ່ຖືກຕ້ອງ, ກອບການເຮັດໃຫ້ການແຜ່ກະຈາຍເປັນປົກກະຕິຫຼັງຈາກການລວບລວມໂດຍແຜນທີ່ຄວາມສົນໃຈທັງຫມົດຈະຖືກມອບຫມາຍອັດຕາສ່ວນນ້ໍາຫນັກກັບການແກ້ໄຂຂອງມັນ.

ການລວມເອົາຄວາມສົນໃຈຊ້ຳໆ

ໃນຂະນະທີ່ເປົ້າຫມາຍຕົ້ນຕໍຂອງການລວບລວມຄວາມສົນໃຈແມ່ນເພື່ອຄິດໄລ່ຄວາມສົນໃຈຂອງ tensor, ຈຸດປະສົງຕົ້ນຕໍແມ່ນເພື່ອລວມເອົາແຜນທີ່ຄວາມສົນໃຈໃນ tensor ເຂົ້າໄປໃນ stack ຂອງການສະເຫນີວັດຖຸທີ່ແຕ່ລະການສະເຫນີແຕ່ລະປະກອບດ້ວຍປະເພດວັດຖຸຫຼືການກະຕຸ້ນຂອງວັດຖຸດຽວ. ການແກ້ໄຂທີ່ສະເຫນີເພື່ອບັນລຸນີ້ແມ່ນໂດຍການປະຕິບັດ K-Means algorithm ກ່ຽວກັບການແຜ່ກະຈາຍທີ່ຖືກຕ້ອງຂອງ tensors ເພື່ອຊອກຫາກຸ່ມຂອງວັດຖຸ. ຢ່າງໃດກໍ່ຕາມ, ການໃຊ້ K-Means ບໍ່ແມ່ນການແກ້ໄຂທີ່ດີທີ່ສຸດເພາະວ່າການສ້າງກຸ່ມ K-Means ຮຽກຮ້ອງໃຫ້ຜູ້ໃຊ້ລະບຸຈໍານວນກຸ່ມກ່ອນ. ຍິ່ງໄປກວ່ານັ້ນ, ການປະຕິບັດ K-Means algorithm ອາດຈະເຮັດໃຫ້ຜົນໄດ້ຮັບທີ່ແຕກຕ່າງກັນສໍາລັບຮູບພາບດຽວກັນນັບຕັ້ງແຕ່ stochastically ຂຶ້ນກັບການເລີ່ມຕົ້ນ. ເພື່ອເອົາຊະນະອຸປະສັກໄດ້, ກອບ DiffSeg ສະເໜີໃຫ້ສ້າງຕາຕະລາງການເກັບຕົວຢ່າງເພື່ອສ້າງບົດສະເໜີໂດຍການລວມເອົາແຜນທີ່ຄວາມສົນໃຈຊ້ຳໆ.

ການສະກັດກັ້ນບໍ່ສູງສຸດ

ຂັ້ນຕອນທີ່ຜ່ານມາຂອງການລວມເອົາຄວາມສົນໃຈຊໍ້າໆໃຫ້ຜົນໄດ້ຮັບບັນຊີລາຍຊື່ຂອງການສະເຫນີວັດຖຸໃນຮູບແບບຂອງຄວາມເປັນໄປໄດ້ຫຼືແຜນທີ່ຄວາມສົນໃຈທີ່ແຕ່ລະການສະເຫນີວັດຖຸປະກອບດ້ວຍການກະຕຸ້ນຂອງວັດຖຸ. ໂຄງຮ່າງການເຮັດໃຫ້ການນໍາໃຊ້ການສະກັດກັ້ນທີ່ບໍ່ແມ່ນສູງສຸດເພື່ອປ່ຽນບັນຊີລາຍຊື່ຂອງການສະເຫນີວັດຖຸເຂົ້າໄປໃນຫນ້າກາກການແບ່ງສ່ວນທີ່ຖືກຕ້ອງ, ແລະຂະບວນການແມ່ນວິທີການທີ່ມີປະສິດທິພາບເພາະວ່າແຕ່ລະອົງປະກອບໃນບັນຊີລາຍຊື່ແມ່ນແຜນທີ່ຂອງການແຈກຢາຍຄວາມເປັນໄປໄດ້. ສໍາລັບສະຖານທີ່ທາງກວ້າງຂອງແຕ່ລະແຜນທີ່, algorithm ໃຊ້ເວລາດັດຊະນີຂອງຄວາມເປັນໄປໄດ້ທີ່ໃຫຍ່ທີ່ສຸດ, ແລະມອບຫມາຍສະມາຊິກບົນພື້ນຖານຂອງດັດຊະນີຂອງແຜນທີ່ທີ່ສອດຄ້ອງກັນ.

DiffSeg : ການທົດລອງ ແລະຜົນໄດ້ຮັບ

ກອບການເຮັດວຽກກ່ຽວກັບການແບ່ງສ່ວນທີ່ບໍ່ມີການເບິ່ງແຍງເຮັດໃຫ້ການນໍາໃຊ້ສອງມາດຕະຖານການແບ່ງສ່ວນຄື Cityscapes, ແລະ COCO-stuff-27. ມາດຕະຖານຂອງ Cityscapes ແມ່ນຊຸດຂໍ້ມູນການຂັບລົດດ້ວຍຕົນເອງທີ່ມີ 27 ປະເພດລະດັບກາງ ໃນຂະນະທີ່ມາດຕະຖານ COCO-stuff-27 ແມ່ນຊຸດຂໍ້ມູນຕົ້ນສະບັບຂອງ COCO-stuff ທີ່ລວມເອົາ 80 ສິ່ງ ແລະ 91 ປະເພດອອກເປັນ 27 ໝວດໝູ່. ຍິ່ງໄປກວ່ານັ້ນ, ເພື່ອວິເຄາະການປະຕິບັດການແບ່ງສ່ວນ, ກອບ DiffSeg ໃຊ້ຈຸດຕັດກັນລະຫວ່າງສະຫະພັນຫຼື mIoU ແລະຄວາມຖືກຕ້ອງຂອງ pixels ລວງຫຼື ACC, ແລະເນື່ອງຈາກ DiffSeg algorithm ບໍ່ສາມາດໃຫ້ປ້າຍ semantic ໄດ້, ມັນໃຊ້ສູດການຈັບຄູ່ຂອງຮັງກາຣີເພື່ອກໍານົດຫນ້າກາກຄວາມຈິງພື້ນຖານກັບ. ແຕ່ລະຫນ້າກາກທີ່ຄາດຄະເນ. ໃນກໍລະນີທີ່ຈໍານວນຫນ້າກາກທີ່ຄາດຄະເນເກີນຈໍານວນຫນ້າກາກຄວາມຈິງ, ກອບຈະຄໍານຶງເຖິງວຽກງານທີ່ບໍ່ໄດ້ຄາດຄະເນວ່າເປັນຜົນລົບທີ່ບໍ່ຖືກຕ້ອງ.

ນອກຈາກນັ້ນ, ກອບ DiffSeg ຍັງເນັ້ນໃສ່ສາມວຽກງານຕໍ່ໄປນີ້ເພື່ອດໍາເນີນການແຊກແຊງ: Language Dependency ຫຼື LD, Unsupervised Adaptation ຫຼື UA, ແລະ Auxiliary Image ຫຼື AX. Language Dependency ຫມາຍຄວາມວ່າວິທີການຕ້ອງການວັດສະດຸປ້ອນຂໍ້ຄວາມອະທິບາຍເພື່ອອໍານວຍຄວາມສະດວກໃນການຈັດແບ່ງສ່ວນສໍາລັບຮູບພາບ, Unsupervised Adaptation ຫມາຍເຖິງຄວາມຕ້ອງການຂອງວິທີການທີ່ຈະນໍາໃຊ້ການຝຶກອົບຮົມທີ່ບໍ່ມີການເບິ່ງແຍງຢູ່ໃນຊຸດຂໍ້ມູນເປົ້າຫມາຍໃນຂະນະທີ່ Auxiliary Image ຫມາຍເຖິງວ່າວິທີການຕ້ອງການການປ້ອນຂໍ້ມູນເພີ່ມເຕີມບໍ່ວ່າຈະເປັນຮູບພາບສັງເຄາະ, ຫຼືເປັນສະນຸກເກີຂອງຮູບພາບອ້າງອີງ.

ຜົນການຄົ້ນຫາ

ຢູ່ໃນມາດຕະຖານຂອງ COCO, ກອບ DiffSeg ປະກອບມີສອງ k-means ພື້ນຖານ, K-Means-S ແລະ K-Means-C. K-Means-C benchmark ປະກອບມີ 6 ກຸ່ມທີ່ມັນຄິດໄລ່ໂດຍການສະເລ່ຍຈໍານວນຂອງວັດຖຸໃນຮູບພາບທີ່ມັນປະເມີນໃນຂະນະທີ່ K-Means-S benchmark ໃຊ້ຈໍານວນສະເພາະຂອງ clusters ສໍາລັບແຕ່ລະຮູບພາບບົນພື້ນຖານຂອງຈໍານວນຂອງວັດຖຸປະຈຸບັນ. ໃນຄວາມຈິງພື້ນຖານຂອງຮູບພາບ, ແລະຜົນໄດ້ຮັບທັງສອງມາດຕະຖານເຫຼົ່ານີ້ແມ່ນສະແດງໃຫ້ເຫັນໃນຮູບພາບຕໍ່ໄປນີ້.

ດັ່ງທີ່ມັນສາມາດເຫັນໄດ້, ພື້ນຖານ K-Means ປະຕິບັດວິທີການທີ່ມີຢູ່, ດັ່ງນັ້ນຈຶ່ງສະແດງໃຫ້ເຫັນເຖິງຜົນປະໂຫຍດຂອງການໃຊ້ tensors ເອົາໃຈໃສ່ຕົນເອງ. ສິ່ງທີ່ຫນ້າສົນໃຈແມ່ນວ່າດັດຊະນີ K-Means-S ປະຕິບັດມາດຕະຖານ K-Means-C ທີ່ຊີ້ໃຫ້ເຫັນວ່າຈໍານວນຂອງກຸ່ມແມ່ນຕົວກໍານົດການ hyper- ພື້ນຖານ, ແລະການປັບແຕ່ງມັນເປັນສິ່ງສໍາຄັນສໍາລັບທຸກໆຮູບພາບ. ນອກຈາກນັ້ນ, ເຖິງແມ່ນວ່າໃນເວລາທີ່ອີງໃສ່ tensors ຄວາມສົນໃຈດຽວກັນ, ໂຄງຮ່າງການ DiffSeg ປະຕິບັດໄດ້ດີກວ່າ K-Means ພື້ນຖານທີ່ພິສູດຄວາມສາມາດຂອງກອບ DiffSeg ບໍ່ພຽງແຕ່ສະຫນອງການແບ່ງສ່ວນທີ່ດີກວ່າ, ແຕ່ຍັງຫຼີກເວັ້ນຂໍ້ເສຍທີ່ເກີດຂື້ນໂດຍການນໍາໃຊ້ພື້ນຖານ K-Means.

ໃນຊຸດຂໍ້ມູນຂອງ Cityscapes, ກອບ DiffSeg ໃຫ້ຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນກັບກອບການນໍາໃຊ້ການປ້ອນຂໍ້ມູນທີ່ມີຄວາມລະອຽດ 320 ຕ່ໍາໃນຂະນະທີ່ກອບການເຮັດວຽກທີ່ສູງກວ່າກອບທີ່ມີຄວາມລະອຽດສູງກວ່າ 512 ໃນຄວາມຖືກຕ້ອງແລະ mIoU.

ດັ່ງທີ່ໄດ້ກ່າວມາກ່ອນ, ກອບ DiffSeg ໃຊ້ຕົວກໍານົດການ hyper-personal ຫຼາຍດັ່ງທີ່ສະແດງໃຫ້ເຫັນໃນຮູບພາບຕໍ່ໄປນີ້.

ການລວບລວມຄວາມສົນໃຈແມ່ນຫນຶ່ງໃນແນວຄວາມຄິດພື້ນຖານທີ່ໃຊ້ໃນກອບ DiffSeg, ແລະຜົນກະທົບຂອງການນໍາໃຊ້ນ້ໍາຫນັກການລວບລວມທີ່ແຕກຕ່າງກັນແມ່ນສະແດງໃຫ້ເຫັນໃນຮູບພາບຕໍ່ໄປນີ້ກັບຄວາມລະອຽດຂອງຮູບພາບຄົງທີ່.

ຍ້ອນວ່າມັນສາມາດສັງເກດເຫັນໄດ້, ແຜນທີ່ຄວາມລະອຽດສູງໃນຮູບ (b) ທີ່ມີ 64 x 64 ແຜນທີ່ໃຫ້ຜົນການແບ່ງສ່ວນທີ່ລະອຽດທີ່ສຸດເຖິງແມ່ນວ່າການແບ່ງສ່ວນມີຮອຍແຕກທີ່ເຫັນໄດ້ໃນຂະນະທີ່ຄວາມລະອຽດຕ່ໍາກວ່າ 32 x 32 ແຜນທີ່ມັກຈະມີລາຍລະອຽດເກີນສ່ວນເຖິງແມ່ນວ່າມັນຈະສົ່ງຜົນໃຫ້. ປັບປຸງການແບ່ງສ່ວນທີ່ສອດຄ່ອງກັນ. ໃນຮູບ (d), ແຜນທີ່ທີ່ມີຄວາມລະອຽດຕ່ໍາບໍ່ສາມາດສ້າງການແບ່ງສ່ວນໃດໆເນື່ອງຈາກຮູບພາບທັງຫມົດຖືກລວມເຂົ້າໄປໃນວັດຖຸທີ່ເປັນຄໍາທີ່ມີການຕັ້ງຄ່າ hyper-parameter ທີ່ມີຢູ່ແລ້ວ. ສຸດທ້າຍ, Fig (a) ທີ່ເຮັດໃຫ້ການນໍາໃຊ້ຍຸດທະສາດການລວບລວມອັດຕາສ່ວນເຮັດໃຫ້ລາຍລະອຽດທີ່ເພີ່ມຂຶ້ນແລະຄວາມສອດຄ່ອງທີ່ສົມດູນ.

ຄວາມຄິດສຸດທ້າຍ

ການຈັດແບ່ງແບບບໍ່ມີການຄວບຄຸມແບບສູນແມ່ນຍັງເປັນໜຶ່ງໃນອຸປະສັກອັນໃຫຍ່ຫຼວງທີ່ສຸດສຳລັບໂຄງຮ່າງການວິໄສທັດຂອງຄອມພິວເຕີ, ແລະ ຮູບແບບທີ່ມີຢູ່ແລ້ວອາດຈະອີງໃສ່ການປັບຕົວແບບບໍ່ມີການຄວບຄຸມ ຫຼື ຊັບພະຍາກອນພາຍນອກ. ເພື່ອເອົາຊະນະອຸປະສັກນີ້, ພວກເຮົາໄດ້ເວົ້າກ່ຽວກັບວິທີການເອົາໃຈໃສ່ຕົນເອງໃນແບບຈໍາລອງການແຜ່ກະຈາຍທີ່ຫມັ້ນຄົງສາມາດເຮັດໃຫ້ການສ້າງແບບຈໍາລອງທີ່ສາມາດແບ່ງສ່ວນການປ້ອນຂໍ້ມູນໃດໆໃນການຕັ້ງຄ່າສູນໂດຍບໍ່ມີການປະກອບຄໍາບັນຍາຍທີ່ເຫມາະສົມຍ້ອນວ່າຊັ້ນການເອົາໃຈໃສ່ຕົນເອງເຫຼົ່ານີ້ຖືແນວຄວາມຄິດທີ່ມີຢູ່ແລ້ວຂອງ. ຈຸດປະສົງທີ່ຕົວແບບການແຜ່ກະຈາຍຄວາມຫມັ້ນຄົງທີ່ໄດ້ຮັບການຝຶກອົບຮົມໄດ້ຮຽນຮູ້. ພວກເຮົາຍັງໄດ້ສົນທະນາກ່ຽວກັບ DiffSeg, ຍຸດທະສາດການກົດດັນໃຫມ່, ມີຈຸດປະສົງເພື່ອນໍາໃຊ້ທ່າແຮງຂອງກອບການແຜ່ກະຈາຍທີ່ຫມັ້ນຄົງເພື່ອສ້າງຮູບແບບການແບ່ງສ່ວນທົ່ວໄປທີ່ສາມາດປະຕິບັດການຖ່າຍໂອນສູນໃນຮູບພາບໃດຫນຶ່ງ. ສູດການຄິດໄລ່ແມ່ນອີງໃສ່ຄວາມຄ້າຍຄືກັນລະຫວ່າງຄວາມສົນໃຈແລະຄວາມຄ້າຍຄືກັນລະຫວ່າງຄວາມສົນໃຈເພື່ອລວມເອົາແຜນທີ່ຄວາມສົນໃຈຊໍ້າໆເຂົ້າໄປໃນຫນ້າກາກການແບ່ງສ່ວນທີ່ຖືກຕ້ອງເພື່ອບັນລຸຜົນຂອງສິນລະປະໃນມາດຕະຖານທີ່ນິຍົມ.

ຫົວຂໍ້ທີ່ກ່ຽວຂ້ອງ:DiffSeg ການແຜ່ກະຈາຍຄົງທີ່

ຂຶ້ນຕໍ່ໄປ

ທຸກຢ່າງທີ່ສ້າງໄດ້: ການສຳຫຼວດຄວາມກ້າວໜ້າໃນປີ 2023, ຜົນກະທົບ ແລະຄວາມເຂົ້າໃຈໃນອະນາຄົດໃນທົ່ວອຸດສາຫະກຳດ້ວຍ AI

ຢ່າພາດ

Anthropic ກໍານົດມາດຕະຖານທາງດ້ານກົດຫມາຍໃຫມ່ໃນ Generative AI

Kunal Kejriwal

"ວິສະວະກອນໂດຍອາຊີບ, ນັກຂຽນດ້ວຍຫົວໃຈ". Kunal ເປັນນັກຂຽນດ້ານວິຊາການທີ່ມີຄວາມຮັກແລະຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບ AI ແລະ ML, ອຸທິດຕົນເພື່ອງ່າຍແນວຄວາມຄິດທີ່ສັບສົນໃນຂົງເຂດເຫຼົ່ານີ້ໂດຍຜ່ານເອກະສານທີ່ມີສ່ວນຮ່ວມແລະໃຫ້ຂໍ້ມູນຂອງລາວ.

Unite.AI

DiffSeg : Unsupervised Zero-Shot Segmentation ໂດຍໃຊ້ Stable Diffusion

ປັນຍາປະດິດ

DiffSeg : Unsupervised Zero-Shot Segmentation ໂດຍໃຊ້ Stable Diffusion

ສາລະບານ

DiffSeg : ຂັ້ນຕອນການແບ່ງສ່ວນ Zero-Shot ທີ່ປັບປຸງໃຫ້ດີຂຶ້ນ