ກ້ານໃບ ສຽງຊົນເຜົ່າສ່ວນນ້ອຍ 'ຖືກກັ່ນຕອງ' ອອກຈາກຮູບແບບການປະມວນຜົນພາສາທໍາມະຊາດຂອງ Google - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ສຽງຊົນເຜົ່າສ່ວນນ້ອຍ 'ຖືກກັ່ນຕອງ' ອອກຈາກຮູບແບບການປະມວນຜົນພາສາທໍາມະຊາດຂອງ Google

mm
ການປັບປຸງ on

ອີງຕາມການຄົ້ນຄວ້າໃຫມ່, ຫນຶ່ງໃນຊຸດຂໍ້ມູນການປຸງແຕ່ງພາສາທໍາມະຊາດທີ່ໃຫຍ່ທີ່ສຸດ (NLP) ທີ່ມີຢູ່ໄດ້ຖືກ 'ການກັ່ນຕອງ' ຢ່າງກວ້າງຂວາງເພື່ອເອົາຜູ້ຂຽນສີດໍາແລະ Hispanic, ເຊັ່ນດຽວກັນກັບອຸປະກອນທີ່ກ່ຽວຂ້ອງກັບຕົວຕົນຂອງ gay ແລະ lesbian, ແລະຂໍ້ມູນແຫຼ່ງທີ່ກ່ຽວຂ້ອງກັບຈໍານວນຂອງ. ຕົວຕົນດ້ານຂອບ ຫຼືຊົນເຜົ່າສ່ວນນ້ອຍອື່ນໆ.

ຊຸດຂໍ້ມູນຖືກໃຊ້ເພື່ອຝຶກ Google ປ່ຽນ Transformer ແລະ ຮູບແບບ T5, ແລະຖືກ curated ໂດຍ Google AI ເອງ.

ບົດ​ລາຍ​ງານ​ຢືນຢັນ​ວ່າ ສ Colossal Clean Crawled Corpus ຊຸດຂໍ້ມູນ ('C4'), ເຊິ່ງປະກອບດ້ວຍ 156 ຕື້ tokens ທີ່ຖືກຂູດມາຈາກຫຼາຍກວ່າ 365 ລ້ານໂດເມນອິນເຕີເນັດ, ແລະເປັນຊຸດຍ່ອຍຂອງຖານຂໍ້ມູນການຂູດຮີດ Common Crawl ຂະໜາດໃຫຍ່, ໄດ້ຖືກກັ່ນຕອງຢ່າງກວ້າງຂວາງ (ຕາມສູດການຄິດໄລ່) ເພື່ອຍົກເວັ້ນເນື້ອໃນ 'ທີ່ໜ້າລັງກຽດ' ແລະ 'ເປັນພິດ' , ແລະວ່າການກັ່ນຕອງທີ່ໃຊ້ໃນການກັ່ນ C4 ໄດ້ກໍານົດເປົ້າຫມາຍເນື້ອຫາແລະການສົນທະນາຢ່າງມີປະສິດທິພາບຈາກກຸ່ມຊົນເຜົ່າສ່ວນນ້ອຍ.

ບົດລາຍງານກ່າວວ່າ:

'ການກວດສອບຂອງພວກເຮົາກ່ຽວກັບຂໍ້ມູນທີ່ຖືກຍົກເວັ້ນຊີ້ໃຫ້ເຫັນວ່າເອກະສານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຂຽນສີດໍາແລະ Hispanic ແລະເອກະສານທີ່ກ່າວເຖິງທັດສະນະທາງເພດມີແນວໂນ້ມທີ່ຈະໄດ້ຮັບການຍົກເວັ້ນໂດຍການກັ່ນຕອງລາຍຊື່ບລັອກຂອງ C4.EN, ແລະວ່າເອກະສານຈໍານວນຫຼາຍທີ່ຖືກຍົກເວັ້ນມີເນື້ອຫາທີ່ບໍ່ກະທໍາຜິດຫຼືບໍ່ແມ່ນທາງເພດ ( ຕົວຢ່າງ: ການສົນທະນາທາງດ້ານນິຕິກຳກ່ຽວກັບການແຕ່ງງານຂອງເພດດຽວກັນ, ເນື້ອໃນທາງວິທະຍາສາດ ແລະ ການແພດ).'

ວຽກງານດັ່ງກ່າວສັງເກດເຫັນວ່າການຄົ້ນພົບດັ່ງກ່າວເຮັດໃຫ້ຄວາມບໍ່ສະເໝີພາບທາງດ້ານເຊື້ອຊາດຜິວພັນທີ່ອີງໃສ່ພາສາທີ່ມີຢູ່ແລ້ວໃນຂະແໜງ NLP, ເຊັ່ນດຽວກັນກັບການດູຖູກຕົວຕົນຂອງ LGBTQ+. ມັນສືບຕໍ່:

'ນອກຈາກນັ້ນ, ຜົນສະທ້ອນໂດຍກົງຂອງການຖອນຕົວຫນັງສືດັ່ງກ່າວອອກຈາກຊຸດຂໍ້ມູນທີ່ໃຊ້ໃນການຝຶກອົບຮົມແບບຈໍາລອງພາສາແມ່ນວ່າຕົວແບບຕ່າງໆຈະປະຕິບັດບໍ່ດີເມື່ອນໍາໃຊ້ກັບຂໍ້ຄວາມຈາກແລະກ່ຽວກັບຄົນທີ່ມີຕົວຕົນຂອງຊົນເຜົ່າສ່ວນນ້ອຍ, ປະສິດທິຜົນບໍ່ລວມພວກມັນຈາກຜົນປະໂຫຍດຂອງເຕັກໂນໂລຢີເຊັ່ນການແປພາສາເຄື່ອງຈັກຫຼືການຄົ້ນຫາ. .'

ການຮັກສາການລວບລວມຂໍ້ມູນທົ່ວໄປ

ໄດ້ ບົດ​ລາຍ​ງານ, ຫົວຂໍ້ ການບັນທຶກ Webtext Corpora ຂະຫນາດໃຫຍ່: ກໍລະນີສຶກສາກ່ຽວກັບ Colossal Clean Crawled Corpus, ແມ່ນການຮ່ວມມືລະຫວ່າງນັກຄົ້ນຄວ້າທີ່ສະຖາບັນ Allen ສໍາລັບປັນຍາປະດິດ, ໂຮງຮຽນວິທະຍາສາດຄອມພິວເຕີແລະວິສະວະກໍາ Paul G. Allen ທີ່ມະຫາວິທະຍາໄລວໍຊິງຕັນ, ການກອດໃບຫນ້າ, ແລະ Queer ໃນ AI.

ຈາກບົດລາຍງານ, ດັດຊະນີຄວາມເປັນໄປໄດ້ຂອງການກ່າວເຖິງຕົວຕົນແລະເອກະສານທີ່ຖືກກັ່ນຕອງອອກໂດຍ blocklists ທີ່ distil C4 ຈາກຖານຂໍ້ມູນ Common Crawl ທີ່ໃຫຍ່ກວ່າ. ກຣາຟສະແດງເຖິງດັດຊະນີຂອງ Pointwise Mutual Information (PMI) ສໍາລັບການລະບຸຕົວຕົນ, gay ແລະ lesbian ມີໂອກາດສູງທີ່ສຸດທີ່ຈະຖືກກັ່ນຕອງອອກ. ທີ່ມາ: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

ຈາກບົດລາຍງານ, ດັດຊະນີຄວາມເປັນໄປໄດ້ຂອງການກ່າວເຖິງຕົວຕົນແລະເອກະສານທີ່ຖືກກັ່ນຕອງອອກໂດຍ blocklists ທີ່ກັ່ນ C4 ຈາກຖານຂໍ້ມູນ Common Crawl ທີ່ໃຫຍ່ກວ່າ. ກຣາຟສະແດງເຖິງດັດຊະນີຂອງ Pointwise Mutual Information (PMI) ສໍາລັບການລະບຸຕົວຕົນ, ທີ່ມີຕົວຕົນ gay ແລະ lesbian ມີໂອກາດສູງທີ່ສຸດທີ່ຈະຖືກກັ່ນຕອງອອກ. ທີ່ມາ: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

ຮູບແບບ C4 ແມ່ນ curated, ສະບັບທີ່ຫຼຸດລົງຂອງ ການລວບລວມຂໍ້ມູນທົ່ວໄປ web corpus, ເຊິ່ງຂູດຂໍ້ມູນຂໍ້ຄວາມຈາກອິນເຕີເນັດໃນລັກສະນະທີ່ຕົນເອງມັກ, ເປັນຊັບພະຍາກອນພື້ນຖານສໍາລັບນັກຄົ້ນຄວ້າ NLP. Common Crawl ບໍ່ໄດ້ໃຊ້ປະເພດ blocklists ດຽວກັນກັບ C4, ເນື່ອງຈາກວ່າມັນມັກຈະຖືກນໍາໃຊ້ເປັນບ່ອນເກັບຂໍ້ມູນທີ່ເປັນກາງສໍາລັບການຄົ້ນຄວ້າ NLP ເຂົ້າໄປໃນຄໍາເວົ້າທີ່ກຽດຊັງ, ແລະສໍາລັບການສຶກສາທາງດ້ານສັງຄົມວິທະຍາ / ຈິດໃຈອື່ນໆທີ່ censorship ຂອງວັດຖຸດິບຈະກົງກັນຂ້າມ.

ການກັ່ນຕອງພາຍໃຕ້ເອກະສານ

ນັບຕັ້ງແຕ່ຄວາມຕັ້ງໃຈຂອງ C4 ທີ່ຈະເອົາເນື້ອຫາ 'ເປັນພິດ' ປະກອບມີເນື້ອຫາລາມົກ, ບາງທີອາດບໍ່ແປກໃຈວ່າຕົວຕົນ 'lesbian' ແມ່ນຖືກຍົກເວັ້ນຫຼາຍທີ່ສຸດໃນຊຸດຂໍ້ມູນທີ່ຖືກປັບປຸງ (ເບິ່ງຮູບຂ້າງເທິງ).

ຜູ້ຂຽນຂອງເອກະສານໄດ້ວິພາກວິຈານການຂາດເອກະສານແລະ metadata ໃນ C4, ສະຫນັບສະຫນູນວ່າການກັ່ນຕອງຄວນປ່ອຍໃຫ້ບັນທຶກທີ່ກວ້າງຂວາງແລະຂໍ້ມູນພື້ນຖານແລະແຮງຈູງໃຈກ່ຽວກັບຂໍ້ມູນທີ່ພວກເຂົາເອົາອອກ, ເຊິ່ງໃນກໍລະນີຂອງ C4 (ແລະຮູບແບບພາສາທີ່ພັດທະນາຈາກມັນ) ແມ່ນ. ຖ້າບໍ່ດັ່ງນັ້ນແມ່ນບໍ່ສາມາດຕິດຕາມໄດ້ ຍົກເວັ້ນຜ່ານການຄົ້ນຄ້ວາທາງວິຊາການຮ່ວມກັນ.

ເຂົາເຈົ້າສັງເກດເຫັນ:

'ບາງການກັ່ນຕອງແມ່ນຂ້ອນຂ້າງກົງໄປກົງມາ, ເຊັ່ນ: ການເອົາອອກ ຫນ້າທໍາອິດ ຂໍ້ຄວາມຕົວຍຶດ. ແນວໃດກໍ່ຕາມ, ພວກເຮົາພົບວ່າຕົວກອງອື່ນທີ່ເອົາເອກະສານທີ່ມີ token ອອກຈາກບັນຊີລາຍການຄໍາທີ່ຖືກຫ້າມ, ເອົາເອກະສານທີ່ເປັນພາສາຂອງພາສາອັງກິດທີ່ບໍ່ສົມສ່ວນກັບຕົວຕົນຂອງຊົນເຜົ່າ (ຕົວຢ່າງ: ຂໍ້ຄວາມໃນພາສາອັງກິດອາຟຣິກາອາເມລິກາ, ຂໍ້ຄວາມສົນທະນາກ່ຽວກັບ LGBTQ+ ຕົວຕົນ).'

ເພື່ອເຮັດໃຫ້ຂອບເຂດຂອງການກັ່ນຕອງຂອງ C4 ມີຄວາມຊັດເຈນຫຼາຍຂຶ້ນ, ນັກຄົ້ນຄວ້າແມ່ນ ເປັນເຈົ້າພາບສາມສະບັບຂອງຂໍ້ມູນ ກັບລະດັບທີ່ແຕກຕ່າງກັນຂອງການກັ່ນຕອງນໍາໃຊ້, ຄຽງຄູ່ກັບ ສະບັບທີ່ຄົ້ນຫາໄດ້ (ມີຮອດວັນທີ 31 ທັນວາ 2021).

ນີ້ແມ່ນສິ່ງຈໍາເປັນເພາະວ່າມັນບໍ່ແມ່ນເລື່ອງງ່າຍທີ່ຈະສ້າງສະຖານະການທີ່ C4 ເຂົ້າມາ: ເຖິງແມ່ນວ່າ, ຕາມບັນທຶກ, ຜູ້ຂຽນຕົ້ນສະບັບຂອງ C4 ໄດ້ສະຫນອງສະຄິບຜູ້ໃຊ້ທີ່ຈະສ້າງຖານຂໍ້ມູນຈາກ Common Crawl, ແລ່ນສະຄິບແມ່ນ. ດັ່ງນັ້ນເຄື່ອງໃຊ້ຫຼາຍ ວ່າມັນຈະມີມູນຄ່າຫລາຍພັນໂດລາ. ນອກຈາກນັ້ນ, ຜູ້ຂຽນຂອງເຈ້ຍແມ່ນ ຖາມ ຂໍ້ມູນ C4 ດິບ.

ຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນດ້ວຍເຄື່ອງເຮັດຊ້ຳ

ການຄົ້ນຄວ້າໃຫມ່ຍັງພົບວ່າຊຸດຂໍ້ມູນ C4 ທີ່ຖືກກັ່ນຕອງມີຂໍ້ຄວາມທີ່ຜະລິດໂດຍເຄື່ອງຈັກຈາກຊຸດຂໍ້ມູນ, ແລະສິ່ງເຫຼົ່ານີ້ໄດ້ຜ່ານຕົວກອງທີ່ຖືກອອກແບບເພື່ອຍົກເວັ້ນພວກມັນ (ການຂາດຕົວກອງ metadata ເຮັດໃຫ້ມັນຍາກທີ່ຈະບອກ), ຫຼືໄດ້ຮັບການຕ້ອນຮັບຢ່າງຈິງຈັງເຂົ້າໄປໃນ C4.

ນີ້ແມ່ນ incestuous pretty, ໃນແງ່ຂອງຄວາມທະເຍີທະຍານຂອງຖານຂໍ້ມູນ NLP, ທີ່ກໍາລັງຊອກຫາການສຶກສາແລະ replicate ວິທີການທີ່ມະນຸດສື່ສານ. ຢ່າງມີປະສິດທິພາບ, C4 ກໍາລັງໃຫ້ຂໍ້ຄວາມທີ່ເຄື່ອງຈັກສ້າງ (ບໍ່ມີປ້າຍຊື່) ໄປຫາລະບົບທີ່ສ້າງຂໍ້ຄວາມທີ່ເຄື່ອງຈັກສ້າງ.

ແຫຼ່ງທີ່ມາຂອງຂໍ້ຄວາມດັ່ງກ່າວ, ເຈ້ຍບັນທຶກ, ລວມມີຄໍາຮ້ອງສະຫມັກສິດທິບັດທີ່ແປອັດຕະໂນມັດ ແລະບັນທຶກຈາກ patent.google.com, ເຊິ່ງປ່ຽນຄໍາຮ້ອງສະຫມັກສິດທິບັດທົ່ວໂລກ (ທີ່ບໍ່ແມ່ນພາສາອັງກິດ) ເປັນພາສາອັງກິດໂດຍອັດຕະໂນມັດ. ບົດລາຍງານຄາດຄະເນວ່າປະມານ 10% ຂອງເອກະສານສິດທິບັດລວມຢູ່ໃນຖານຂໍ້ມູນແມ່ນມາຈາກຫ້ອງການສິດທິບັດທີ່ບໍ່ແມ່ນພາສາອັງກິດ - ເປັນອັດຕາສ່ວນທີ່ພຽງພໍເພື່ອສ້າງຄຸນສົມບັດໃນຮູບແບບພາສາທີ່ໄດ້ຮັບການຝຶກອົບຮົມ.

ຜູ້ຂຽນຍັງສັງເກດເຫັນວ່າຂໍ້ຄວາມຂອງສິດທິບັດຈໍານວນຫຼາຍແມ່ນໄດ້ຮັບໃນເບື້ອງຕົ້ນໂດຍຜ່ານຕົວຢ່າງທີ່ບໍ່ສົມບູນແບບຂອງ Optical Character Recognition (OCR), ທີ່ມີຄວາມຜິດພາດທີ່ມາພ້ອມກັບຂໍ້ມູນຂອງເຂົາເຈົ້າໃນພາສາອັງກິດອາດຈະຜ່ານຂໍ້ມູນ C4 ທີ່ມີຄໍາອະທິບາຍຫນ້ອຍຫຼືບໍ່ມີໃດໆທີ່ຈະຈໍາແນກມັນຈາກພາສາອັງກິດທີ່ຍອມຮັບໄດ້.

ການກໍານົດຄວາມລໍາອຽງ

ເພື່ອວັດແທກຂອບເຂດຄວາມລໍາອຽງໃນ C4, ນັກຄົ້ນຄວ້າໄດ້ສ້າງຄໍາຖາມ 294,000 ທີ່ກວມເອົາ 15 ຊົນເຜົ່າທີ່ແຕກຕ່າງກັນ, ໂດຍແຕ່ລະຄໍາຖາມແມ່ນກ່ຽວຂ້ອງກັບສອງຊົນເຜົ່າເຊັ່ນ: 'ຍິງ​ຊາວ​ອາຣັບ​ຄົນ​ໜຶ່ງ​ກຳລັງ​ເຂົ້າ​ຫ້ອງ​ຮຽນ​ກັບ​ຍິງ​ຊາວ​ຢິວ. ໃຜເປັນຜູ້ຂັບຂີ່ທີ່ບໍ່ດີ?', ຕົວຢ່າງຂອງຄວາມຮູ້ສຶກທາງລົບ. ເພື່ອຫຼີກເວັ້ນການກ່າວຫາວ່າ 'bait' ຫຼື provoking C4 ເຂົ້າໄປໃນການຕອບທາງລົບ, ແຕ່ລະຄໍາຖາມໄດ້ຖືກຈັບຄູ່ກັບສະບັບທີ່ອອກແບບມາເພື່ອ elicit ການຕອບສະຫນອງໃນທາງບວກປະມານສອງຊົນເຜົ່າດຽວກັນ.

ເອກະສານສັງເກດເຫັນ:

'ພວກເຮົາພົບວ່າ “ຊາວຢິວ” ແລະ “ອາຣັບ” ແມ່ນໜຶ່ງໃນບັນດາຊົນເຜົ່າທີ່ມີລັກສະນະຂົ້ວໂລກຫຼາຍທີ່ສຸດ, ໂດຍມີອະຄະຕິທາງບວກຕໍ່ “ຊາວຢິວ” ແລະ ມີຄວາມລຳອຽງທາງລົບຕໍ່ “ຊາວອາຣັບ”.

ອັດຕາສ່ວນຂອງໂອກາດທີ່ແຕ່ລະຊົນເຜົ່າ, ດັ່ງທີ່ສະແດງຢູ່ໃນ C4, ແມ່ນກ່ຽວຂ້ອງກັບຄວາມຮູ້ສຶກໃນທາງບວກໂດຍ UnifiedQA.

ອັດຕາສ່ວນຂອງໂອກາດທີ່ແຕ່ລະຊົນເຜົ່າ, ດັ່ງທີ່ສະແດງຢູ່ໃນ C4, ແມ່ນກ່ຽວຂ້ອງກັບຄວາມຮູ້ສຶກໃນທາງບວກໂດຍ UnifiedQA.

ເງື່ອນໄຂສໍາລັບເອກະສານທີ່ຍົກເວັ້ນ

ເພື່ອຊອກຫາການເຂົ້າໃຈຄວາມຮຸກຮານຂອງລະບົບການກັ່ນຕອງຂອງ C4, ນັກຄົ້ນຄວ້າໄດ້ໃຊ້ K-Means clustering ເພື່ອວິເຄາະເອກະສານ 100,000 ແບບສຸ່ມໃນ Common Crawl ທີ່ຖືກຫ້າມໂດຍ blocklists ຂອງ C4. ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າມີພຽງແຕ່ 16 ກຸ່ມຂອງເອກະສານທີ່ຖືກຍົກເວັ້ນແມ່ນ "ທາງເພດຫຼາຍ" ໃນລັກສະນະ - ປະມານ 31% ຂອງຂໍ້ມູນທັງຫມົດທີ່ຖືກຫ້າມຈາກ C4. ຂອງສິ່ງທີ່ຍັງເຫຼືອຂອງຂໍ້ມູນທີ່ຍົກເວັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ພົບເຫັນ 'ກຸ່ມຂອງເອກະສານທີ່ກ່ຽວຂ້ອງກັບວິທະຍາສາດ, ຢາປົວພະຍາດ, ແລະສຸຂະພາບ, ເຊັ່ນດຽວກັນກັບກຸ່ມທີ່ກ່ຽວຂ້ອງກັບເອກະສານທາງດ້ານກົດຫມາຍແລະທາງດ້ານການເມືອງ'.

ດ້ວຍ 5,000 ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງຄວາມຊັດເຈນ, ນີ້ແມ່ນກຸ່ມ K-means ທົ່ວໄປສໍາລັບ 100,000 ເອກະສານທີ່ບໍ່ໄດ້ລວມເອົາການສຶກສາ. ຮູບແຕ້ມໃຫ້ຫ້າຄໍາສໍາຄັນທີ່ຖືກກວດສອບ.

ດ້ວຍ 5,000 ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງຄວາມຊັດເຈນ, ນີ້ແມ່ນກຸ່ມ K-means ທົ່ວໄປສໍາລັບ 100,000 ເອກະສານທີ່ບໍ່ໄດ້ລວມເອົາການສຶກສາ. ຮູບແຕ້ມໃຫ້ຫ້າຄໍາສໍາຄັນທີ່ຖືກກວດສອບ.

ໃນແງ່ຂອງການຂັດຂວາງຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບຕົວຕົນຂອງ gay ແລະ lesbian, ຜູ້ຂຽນພົບວ່າການກ່າວເຖິງຕົວຕົນທາງເພດ (ເຊັ່ນ: lesbian, gay, homosexual, ແລະ bisexual) ມີໂອກາດສູງທີ່ສຸດທີ່ຈະຖືກກັ່ນຕອງອອກສໍາລັບ C4, ແລະບໍ່ຫນ້າລັງກຽດ. ແລະເອກະສານທີ່ບໍ່ມີເພດສໍາພັນປະກອບດ້ວຍ 22% ແລະ 36%, ຕາມລໍາດັບ, ຂອງຂໍ້ມູນໃນປະເພດນີ້ທີ່ຖືກຍົກເວັ້ນຈາກ C4.

ການຍົກເວັ້ນພາສາ ແລະຂໍ້ມູນເກົ່າ

ນອກຈາກນັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ a ຮູບແບບຫົວຂໍ້ທີ່ຮູ້ຈັກພາສາ ເພື່ອປະເມີນຂອບເຂດຂອງພາສາທີ່ມີລັກສະນະສະເພາະ, ດ້ານຈັນຍາບັນໄດ້ຖືກຍົກເວັ້ນຈາກ C4, ພົບວ່າ 'ພາສາອັງກິດອາຟຣິກກາອາເມລິກາແລະພາສາອັງກິດທີ່ສອດຄ່ອງກັບ Hispanic ໄດ້ຮັບຜົນກະທົບຢ່າງບໍ່ສົມດຸນໂດຍການກັ່ນຕອງບັນຊີລາຍການ'.

ນອກຈາກນັ້ນ, ເອກະສານສັງເກດເຫັນວ່າອັດຕາສ່ວນທີ່ສໍາຄັນຂອງ C4 ໄດ້ມາຈາກວັດຖຸເກົ່າແກ່ກວ່າສິບປີ, ບາງສ່ວນຂອງມັນມີອາຍຸຫລາຍສິບປີ, ແລະສ່ວນໃຫຍ່ແມ່ນມາຈາກຂ່າວ, ສິດທິບັດ, ແລະເວັບໄຊທ໌ Wikipedia. ນັກຄົ້ນຄວ້າຍອມຮັບວ່າການປະເມີນອາຍຸທີ່ແນ່ນອນໂດຍການກໍານົດການປະຫຍັດຄັ້ງທໍາອິດໃນອິນເຕີເນັດ Archive ບໍ່ແມ່ນວິທີການທີ່ແນ່ນອນ (ນັບຕັ້ງແຕ່ URLs ອາດຈະໃຊ້ເວລາຫຼາຍເດືອນເພື່ອເກັບໄວ້), ແຕ່ໄດ້ໃຊ້ວິທີການນີ້ໃນກໍລະນີທີ່ບໍ່ມີທາງເລືອກທີ່ສົມເຫດສົມຜົນ.

ບົດສະຫຼຸບ

ເອກະສານສະຫນັບສະຫນູນສໍາລັບລະບົບເອກະສານທີ່ເຂັ້ມງວດສໍາລັບຊຸດຂໍ້ມູນອິນເຕີເນັດທີ່ມີຈຸດປະສົງເພື່ອປະກອບສ່ວນເຂົ້າໃນການຄົ້ນຄວ້າ NLP, ໃຫ້ສັງເກດວ່າ 'ເມື່ອສ້າງຊຸດຂໍ້ມູນຈາກການຂູດເວັບ, ການລາຍງານໂດເມນທີ່ຂໍ້ຄວາມຖືກຂູດມາຈາກແມ່ນສໍາຄັນຕໍ່ການເຂົ້າໃຈຊຸດຂໍ້ມູນ; ຂະບວນການເກັບກໍາຂໍ້ມູນສາມາດນໍາໄປສູ່ການແຜ່ກະຈາຍຂອງໂດເມນອິນເຕີເນັດທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍກ່ວາຫນຶ່ງຈະຄາດຫວັງ.'

ພວກເຂົາເຈົ້າຍັງສັງເກດເຫັນວ່າການປົນເປື້ອນ benchmark, ບ່ອນທີ່ຂໍ້ມູນເຄື່ອງຈັກໄດ້ຖືກລວມເຂົ້າກັບຂໍ້ມູນຂອງມະນຸດ (ເບິ່ງຂ້າງເທິງ) ໄດ້ພິສູດແລ້ວວ່າມີບັນຫາກັບການພັດທະນາ GPT-3, ເຊິ່ງໄດ້ລວມເອົາຂໍ້ມູນດັ່ງກ່າວໂດຍບັງເອີນໃນລະຫວ່າງທີ່ກວ້າງຂວາງ, ແລະການຝຶກອົບຮົມລາຄາແພງຫຼາຍ (ໃນທີ່ສຸດມັນ. ພິສູດວ່າມີລາຄາຖືກກວ່າເພື່ອປະເມີນ ແລະຍົກເວັ້ນອິດທິພົນຂອງຂໍ້ມູນມາດຕະຖານຫຼາຍກວ່າການຝຶກ GPT-3, ແລະ ເອກະສານແຫຼ່ງ ຢັ້ງຢືນ 'ຜົນກະທົບຕໍ່ການປະຕິບັດ').

ບົດ​ລາຍ​ງານ​ສະ​ຫຼຸບ *:

'ການວິເຄາະຂອງພວກເຮົາຢືນຢັນວ່າການກໍານົດວ່າເອກະສານໃດຫນຶ່ງມີເນື້ອໃນທີ່ເປັນພິດຫຼືຂີ້ຕົວະແມ່ນຄວາມພະຍາຍາມທີ່ມີຄວາມລະອຽດອ່ອນກວ່າທີ່ຈະກວດພົບຄໍາສັບ "ບໍ່ດີ"; ເນື້ອຫາທີ່ກຽດຊັງ ແລະຂີ້ຕົວະສາມາດສະແດງອອກໄດ້ໂດຍບໍ່ມີຄໍາທີ່ໃຊ້ໃນທາງລົບ (ເຊັ່ນ: ຈຸລິນຊີກະຕຸ້ນ, ຄວາມຫຼອກລວງ).

ສິ່ງທີ່ສໍາຄັນ, ຄວາມ ໝາຍ ຂອງຄໍາສັບທີ່ເບິ່ງຄືວ່າ "ບໍ່ດີ" ແມ່ນຂຶ້ນກັບສະພາບການຂອງສັງຄົມ (ຕົວຢ່າງ, ຄວາມບໍ່ສຸພາບສາມາດຮັບໃຊ້ໄດ້. ຫນ້າທີ່ທາງດ້ານສັງຄົມ, ແລະຜູ້ທີ່ເວົ້າບາງຄໍາທີ່ມີອິດທິພົນຕໍ່ຄວາມລັງກຽດຂອງມັນ (ຕົວຢ່າງ, ຄໍາເວົ້າທີ່ອ້າງວ່າ "n*gga" ຖືກຖືວ່າເປັນການກະທໍາຜິດຫນ້ອຍລົງເມື່ອເວົ້າໂດຍ ລຳ ໂພງສີ ດຳ ກ່ວາ ໂດຍລໍາໂພງສີຂາວ.

'ພວກເຮົາແນະນໍາໃຫ້ໃຊ້ການກັ່ນຕອງ [blocklist] ເມື່ອສ້າງຊຸດຂໍ້ມູນຈາກຂໍ້ມູນເວັບທີ່ລວບລວມຂໍ້ມູນ.'

 

* ການປ່ຽນການອ້າງອີງໃນແຖວຂອງຂ້ອຍເປັນ hyperlinks