ปัญญาประดิษฐ์
ชุดข้อมูล AI ที่สแกนจากเว็บและความเป็นส่วนตัว: ทำไม CommonPool ควรได้รับการพิจารณา

Artificial Intelligence (AI) ได้กลายเป็นส่วนหนึ่งของชีวิตประจำวัน มันปรากฏในแชทบอททางการแพทย์ที่ช่วยเหลือผู้ป่วยและในเครื่องมือสร้างสรรค์ที่ช่วยเหลือศิลปิน นักเขียน และนักพัฒนา ระบบเหล่านี้ดูเหมือนเป็นระบบที่ทันสมัย แต่它们พึ่งพาแหล่งข้อมูลหลักๆ หนึ่งประการ: ข้อมูล
ข้อมูลส่วนใหญ่ที่ใช้ในการฝึกอบรมระบบ AI มาจากอินเทอร์เน็ตสาธารณะ โปรแกรมอัตโนมัติรวบรวมข้อมูลขนาดใหญ่ของข้อความ รูปภาพ และเสียงจากแพลตฟอร์มออนไลน์ การรวบรวมเหล่านี้ก่อตัวเป็นพื้นฐานของโมเดลที่มีชื่อเสียง เช่น GPT-4, Stable Diffusion และอื่นๆ อย่างไรก็ตาม การรวบรวมข้อมูลขนาดใหญ่นี้ทำให้เกิดปัญหาเกี่ยวกับความเป็นส่วนตัว การเป็นเจ้าของ และการรับทราบโดยแจ้งให้ทราบ
ตลาดสำหรับชุดข้อมูลฝึกอบรมสะท้อนถึงขนาดของกิจกรรมนี้ ณ ปัจจุบัน มูลค่าโลกของชุดข้อมูล AI คาดว่าจะมีมูลค่า 3.2 พันล้านดอลลาร์ ตามการคาดการณ์ มันอาจเติบโตถึง 16.3 พันล้านดอลลาร์ภายในปี 2034 โดยมีอัตราการเติบโตต่อปี 20.5% เบื้องหลังตัวเลขเหล่านี้มีภารกิจสำคัญ วัสดุจำนวนมากที่รวบรวมได้มาโดยไม่ได้รับอนุญาตอย่างชัดเจน มักจะมีข้อมูลส่วนบุคคล ผลงานลิขสิทธิ์ และเนื้อหาที่ละเอียดอ่อนอื่นๆ ที่ไม่ได้ตั้งใจให้ใช้กับระบบการเรียนรู้ของเครื่อง
ในการตอบสนองต่อประเด็นเหล่านี้ วิธีการทางเลือกในการจัดการข้อมูลกำลังถูกสำรวจ ตัวอย่างหนึ่งคือ CommonPool ซึ่งเผยแพร่ในเดือนเมษายน 2023 เป็นส่วนหนึ่งของ DataComp benchmark มันเป็นชุดข้อมูลขนาดใหญ่ 12.8 พันล้านคู่ภาพ-ข้อความที่ออกแบบสำหรับการวิจัย AI แบบหลายโหมด ไม่เหมือนกับการสแกนแบบดั้งเดิม มันใช้วิธีการกรอง เน้นความโปร่งใส และรวมการมีส่วนร่วมของชุมชนในการพัฒนา แม้ว่ามันจะยังคงเป็นเรื่องที่ถูกถกเถียงกัน แต่ CommonPool บ่งบอกถึงความพยายามในการสร้างแนวปฏิบัติที่มีความรับผิดชอบและตรวจสอบได้มากขึ้นสำหรับข้อมูลการฝึกอบรม AI ก่อนหน้านี้การเริ่มต้นเหล่านี้เน้นย้ำถึงความจำเป็นในการสร้างมาตรฐานทางจริยธรรมในอนาคตของปัญญาประดิษฐ์
… (rest of the content remains the same, following the exact same structure and translation rules)












