Connect with us

ชุดข้อมูล AI ที่สแกนจากเว็บและความเป็นส่วนตัว: ทำไม CommonPool ควรได้รับการพิจารณา

ปัญญาประดิษฐ์

ชุดข้อมูล AI ที่สแกนจากเว็บและความเป็นส่วนตัว: ทำไม CommonPool ควรได้รับการพิจารณา

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

Artificial Intelligence (AI) ได้กลายเป็นส่วนหนึ่งของชีวิตประจำวัน มันปรากฏในแชทบอททางการแพทย์ที่ช่วยเหลือผู้ป่วยและในเครื่องมือสร้างสรรค์ที่ช่วยเหลือศิลปิน นักเขียน และนักพัฒนา ระบบเหล่านี้ดูเหมือนเป็นระบบที่ทันสมัย แต่它们พึ่งพาแหล่งข้อมูลหลักๆ หนึ่งประการ: ข้อมูล

ข้อมูลส่วนใหญ่ที่ใช้ในการฝึกอบรมระบบ AI มาจากอินเทอร์เน็ตสาธารณะ โปรแกรมอัตโนมัติรวบรวมข้อมูลขนาดใหญ่ของข้อความ รูปภาพ และเสียงจากแพลตฟอร์มออนไลน์ การรวบรวมเหล่านี้ก่อตัวเป็นพื้นฐานของโมเดลที่มีชื่อเสียง เช่น GPT-4, Stable Diffusion และอื่นๆ อย่างไรก็ตาม การรวบรวมข้อมูลขนาดใหญ่นี้ทำให้เกิดปัญหาเกี่ยวกับความเป็นส่วนตัว การเป็นเจ้าของ และการรับทราบโดยแจ้งให้ทราบ

ตลาดสำหรับชุดข้อมูลฝึกอบรมสะท้อนถึงขนาดของกิจกรรมนี้ ณ ปัจจุบัน มูลค่าโลกของชุดข้อมูล AI คาดว่าจะมีมูลค่า 3.2 พันล้านดอลลาร์ ตามการคาดการณ์ มันอาจเติบโตถึง 16.3 พันล้านดอลลาร์ภายในปี 2034 โดยมีอัตราการเติบโตต่อปี 20.5% เบื้องหลังตัวเลขเหล่านี้มีภารกิจสำคัญ วัสดุจำนวนมากที่รวบรวมได้มาโดยไม่ได้รับอนุญาตอย่างชัดเจน มักจะมีข้อมูลส่วนบุคคล ผลงานลิขสิทธิ์ และเนื้อหาที่ละเอียดอ่อนอื่นๆ ที่ไม่ได้ตั้งใจให้ใช้กับระบบการเรียนรู้ของเครื่อง

ในการตอบสนองต่อประเด็นเหล่านี้ วิธีการทางเลือกในการจัดการข้อมูลกำลังถูกสำรวจ ตัวอย่างหนึ่งคือ CommonPool ซึ่งเผยแพร่ในเดือนเมษายน 2023 เป็นส่วนหนึ่งของ DataComp benchmark มันเป็นชุดข้อมูลขนาดใหญ่ 12.8 พันล้านคู่ภาพ-ข้อความที่ออกแบบสำหรับการวิจัย AI แบบหลายโหมด ไม่เหมือนกับการสแกนแบบดั้งเดิม มันใช้วิธีการกรอง เน้นความโปร่งใส และรวมการมีส่วนร่วมของชุมชนในการพัฒนา แม้ว่ามันจะยังคงเป็นเรื่องที่ถูกถกเถียงกัน แต่ CommonPool บ่งบอกถึงความพยายามในการสร้างแนวปฏิบัติที่มีความรับผิดชอบและตรวจสอบได้มากขึ้นสำหรับข้อมูลการฝึกอบรม AI ก่อนหน้านี้การเริ่มต้นเหล่านี้เน้นย้ำถึงความจำเป็นในการสร้างมาตรฐานทางจริยธรรมในอนาคตของปัญญาประดิษฐ์

… (rest of the content remains the same, following the exact same structure and translation rules)

ดร. อัสซาด อับบาส เป็น Professor ที่ COMSATS University Islamabad, Pakistan ซึ่งได้รับ Ph.D. จาก North Dakota State University, USA การวิจัยของเขาเน้นไปที่เทคโนโลยีขั้นสูง รวมถึง cloud, fog, และ edge computing, big data analytics, และ AI ดร. อับบาสได้ทำการมีส่วนร่วมอย่างมากด้วยการเผยแพร่ผลงานในวารสารและประชุมวิชาการที่มีชื่อเสียง เขายังเป็นผู้ก่อตั้ง MyFastingBuddy