มุมมองของ Anderson

เกือบ 80% ของชุดข้อมูลฝึกอบรมอาจเป็นอันตรายทางกฎหมายสำหรับ Enterprise AI

mm
ChatGPT and Adobe Firefly.

งานวิจัยล่าสุดจาก LG AI Research เสนอว่าชุดข้อมูลที่เปิดกว้างที่ใช้ในการฝึกอบรมโมเดล AI อาจทำให้เกิดความรู้สึกปลอดภัยที่ไม่จริง โดยพบว่าเกือบสี่ในห้าชุดข้อมูล AI ที่มีฉลากว่า “สามารถใช้ได้ในเชิงพาณิชย์” จริงๆ แล้วมีความเสี่ยงทางกฎหมายที่ซ่อนอยู่

ความเสี่ยงเหล่านี้รวมถึงการรวมเนื้อหาที่มีลิขสิทธิ์ที่ไม่ได้ระบุ และข้อกำหนดใบอนุญาตที่จำกัดที่ฝังอยู่ลึกในความพึ่งพาของชุดข้อมูล หากผลการวิจัยเป็นจริง บริษัทที่พึ่งพาชุดข้อมูลสาธารณะอาจต้องพิจารณากระบวนการ AI ของตนใหม่ หรือเสี่ยงต่อการถูกฟ้องร้องทางกฎหมายในอนาคต

นักวิจัยเสนอวิธีแก้ปัญหาที่เป็นไปได้และอาจถูกโต้แย้ง: ตัวแทนการปฏิบัติตามกฎระเบียบ AI ที่สามารถสแกนและตรวจสอบประวัติชุดข้อมูลได้เร็วและแม่นยำกว่าผู้เชี่ยวชาญด้านกฎหมาย

งานวิจัยระบุว่า:

‘ไม่สามารถกำหนดความเสี่ยงทางกฎหมายของชุดข้อมูลฝึกอบรม AI ได้เพียงโดยการตรวจสอบเงื่อนไขใบอนุญาตในระดับผิวเผินเท่านั้น การวิเคราะห์แบบ end-to-end ของการกระจายชุดข้อมูลเป็นสิ่งจำเป็นสำหรับการรับรองความถูกต้อง’

‘เนื่องจากการวิเคราะห์ดังกล่าวอยู่นอกเหนือความสามารถของมนุษย์เนื่องจากความซับซ้อนและขนาด AI จึงสามารถช่วยลดช่องว่างนี้ได้ด้วยความเร็วและความแม่นยำที่มากกว่า หากไม่มีการautomate ความเสี่ยงทางกฎหมายที่สำคัญจะยังคงไม่ได้รับการตรวจสอบ ซึ่งทำให้การพัฒนา AI ที่มีจริยธรรมและปฏิบัติตามกฎระเบียบต่างๆ มีความเสี่ยง’

‘เราขอแนะนำให้ชุมชนการวิจัย AI ตระหนักถึงการวิเคราะห์ทางกฎหมายแบบ end-to-end เป็นข้อกำหนดพื้นฐาน และใช้แนวทางที่ขับเคลื่อนด้วย AI เป็นเส้นทางที่เป็นไปได้สำหรับการปฏิบัติตามกฎระเบียบของชุดข้อมูล’

การตรวจสอบ 2,852 ชุดข้อมูลที่เป็นที่นิยมซึ่งดูเหมือนจะสามารถใช้ได้ในเชิงพาณิชย์ตามใบอนุญาตของตนเอง นักวิจัยพบว่าเพียง 605 ชุดข้อมูล (ประมาณ 21%) เท่านั้นที่มีความปลอดภัยทางกฎหมายสำหรับการใช้ในเชิงพาณิชย์เมื่อตรวจสอบส่วนประกอบและความพึ่งพาทั้งหมด

งานวิจัยใหม่ ใหม่ มีชื่อว่า Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing และมาจากนักวิจัย 8 คนจาก LG AI Research

สิทธิและความผิด

ผู้เขียนเน้นถึง ความท้าทาย ที่บริษัทต่างๆ ต้องเผชิญในการพัฒนา AI ในภูมิทัศน์ทางกฎหมายที่ไม่แน่นอนมากขึ้น เนื่องจากแนวคิด “การใช้โดยชอบ” ในการฝึกอบรมชุดข้อมูลในอดีตได้เปลี่ยนไปสู่สภาพแวดล้อมที่มีการคุ้มครองทางกฎหมายที่ไม่ชัดเจน และที่พักพิงที่ปลอดภัยไม่ได้รับการรับประกันแล้ว

ตามที่ หนึ่งเผยแพร่ เมื่อเร็วๆ นี้ บริษัทต่างๆ กำลังป้องกันตัวมากขึ้นเกี่ยวกับแหล่งที่มาของข้อมูลฝึกอบรมของตน ผู้เขียน Adam Buick ระบุว่า*:

‘[ในขณะที่] OpenAI เปิดเผยแหล่งที่มาหลักของข้อมูลสำหรับ GPT-3 นั้น เอกสารที่แนะนำ GPT-4 เปิดเผยเพียงว่าข้อมูลที่ใช้ในการฝึกอบรมแบบจำลองเป็น hỗn hợpของ ‘ข้อมูลที่มีอยู่สาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) และข้อมูลที่ได้รับอนุญาตจากผู้ให้บริการรายอื่น’

‘แรงจูงใจเบื้องหลังการเคลื่อนไหวออกจากความโปร่งใสนี้ไม่ได้รับการอธิบายอย่างละเอียดโดยนักพัฒนา AI ซึ่งในหลายกรณีไม่ได้ให้คำอธิบายใดๆ เลย ‘

‘สำหรับส่วนของ OpenAI ได้ให้เหตุผลในการตัดสินใจไม่เปิดเผยรายละเอียดเพิ่มเติมเกี่ยวกับ GPT-4 โดยอ้างถึงความกังวลเกี่ยวกับ ‘ภูมิทัศน์การแข่งขันและผลกระทบด้านความปลอดภัยของแบบจำลองขนาดใหญ่’ โดยไม่มีการอธิบายเพิ่มเติมในรายงาน’

ความโปร่งใส่อาจเป็นคำที่ไม่ซื่อสัตย์ หรืออาจเป็นคำที่เข้าใจผิด เช่น โมเดล Firefly ที่สร้างสรรค์ของ Adobe ซึ่งฝึกอบรมด้วยข้อมูลสต็อกที่ Adobe มีสิทธิ์ในการใช้งานได้ โดยให้ความมั่นใจแก่ลูกค้าเกี่ยวกับกฎหมายที่ใช้ระบบนี้ ต่อมา หลักฐานบางอย่าง เผยให้เห็นว่าข้อมูล Firefly ได้รับการ “เพิ่มคุณค่า” ด้วยข้อมูลที่มีลิขสิทธิ์ที่อาจเป็นของแพลตฟอร์มอื่น

ตามที่เรา พูดถึงเมื่อต้นสัปดาห์นี้ มีแนวคิดที่เพิ่มขึ้นในการรับรองการปฏิบัติตามใบอนุญาตในชุดข้อมูล รวมถึงโครงการหนึ่งที่จะเก็บข้อมูลวิดีโอจาก YouTube ที่มีใบอนุญาต Creative Commons ที่ยืดหยุ่นเท่านั้น

ปัญหาก็คือใบอนุญาตเองอาจมีข้อผิดพลาด หรือได้รับอนุญาตโดยผิดพลาด ตามที่การวิจัยใหม่ๆ เสนอ

การตรวจสอบชุดข้อมูลโอเพ่นซอร์ส

เป็นเรื่องที่ยากที่จะพัฒนาระบบการประเมิน เช่น NEXUS เมื่อบริบทเปลี่ยนแปลงอยู่ตลอดเวลา ดังนั้นงานวิจัยระบุว่าระบบ NEXUS Data Compliance framework system มีพื้นฐานมาจาก ‘หลักการและพื้นฐานทางกฎหมาย ณ เวลานี้’

NEXUS ใช้ตัวแทน AI ที่เรียกว่า AutoCompliance สำหรับการปฏิบัติตามกฎระเบียบข้อมูลอัตโนมัติ AutoCompliance ประกอบด้วยสามโมดูลหลัก: โมดูลการนำทางสำหรับการสำรวจเว็บ; โมดูลการถาม-ตอบสำหรับการดึงข้อมูล; และโมดูลการให้คะแนนสำหรับการประเมินความเสี่ยงทางกฎหมาย

AutoCompliance เริ่มต้นด้วยหน้าเว็บที่ผู้ใช้ให้มา AI จะดึงรายละเอียดสำคัญ ค้นหาสิ่งอ้างอิงที่เกี่ยวข้อง ระบุเงื่อนไขใบอนุญาตและความพึ่งพา และกำหนดคะแนนความเสี่ยงทางกฎหมาย

AutoCompliance เริ่มต้นด้วยหน้าเว็บที่ผู้ใช้ให้มา AI จะดึงรายละเอียดสำคัญ ค้นหาสิ่งอ้างอิงที่เกี่ยวข้อง ระบุเงื่อนไขใบอนุญาตและความพึ่งพา และกำหนดคะแนนความเสี่ยงทางกฎหมาย. แหล่งที่มา: https://arxiv.org/pdf/2503.02784

โมดูลเหล่านี้ได้รับการขับเคลื่อนด้วยโมเดล AI ที่ปรับให้เหมาะสม รวมถึงโมเดล EXAONE-3.5-32B-Instruct ที่ฝึกอบรมด้วยข้อมูลสังเคราะห์และข้อมูลที่ได้รับการระบุฉลากจากมนุษย์ AutoCompliance ยังใช้ฐานข้อมูลสำหรับการแคชผลลัพธ์เพื่อเพิ่มประสิทธิภาพ

AutoCompliance เริ่มต้นด้วย URL ของชุดข้อมูลที่ผู้ใช้ให้มา และรักษาไว้เป็นหน่วย根 จากนั้นจะค้นหาเงื่อนไขใบอนุญาตและความพึ่งพา และลากตามความสัมพันธ์ระหว่างชุดข้อมูลที่เชื่อมโยงเพื่อสร้างกราฟความพึ่งพาของใบอนุญาต เมื่อเชื่อมต่อทั้งหมดแล้ว จะคำนวณคะแนนการปฏิบัติตามและกำหนดการจำแนกประเภทความเสี่ยง

ระบบ NEXUS Data Compliance ที่อธิบายไว้ในงานวิจัยใหม่นี้ ระบุประเภทของหน่วยต่างๆ ที่เกี่ยวข้องกับวงจรชีวิตของข้อมูล รวมถึง ชุดข้อมูล ซึ่งเป็นข้อมูลนำเข้าหลักสำหรับการฝึกอบรม AI; ซอฟต์แวร์ประมวลผลข้อมูลและโมเดล AI ที่ใช้ในการเปลี่ยนแปลงและใช้ข้อมูล; และ ผู้ให้บริการแพลตฟอร์ม ที่อำนวยความสะดวกในการจัดการข้อมูล

ระบบประเมินความเสี่ยงทางกฎหมายอย่างครอบคลุมโดยพิจารณาจากหน่วยต่างๆ เหล่านี้และความสัมพันธ์ระหว่างกัน โดยขยายการประเมินใบอนุญาตของชุดข้อมูลไปไกลกว่าการประเมินใบอนุญาตเพียงอย่างเดียว เพื่อรวมระบบนิเวศที่กว้างขึ้นของส่วนประกอบที่เกี่ยวข้องกับการพัฒนา AI

Data Compliance ประเมินความเสี่ยงทางกฎหมายตลอดวงจรชีวิตของข้อมูล โดยกำหนดคะแนนตามรายละเอียดของชุดข้อมูลและ 14 เกณฑ์ การจำแนกประเภทหน่วยต่างๆ และการรวมความเสี่ยงตลอดความพึ่งพา

Data Compliance ประเมินความเสี่ยงทางกฎหมายตลอดวงจรชีวิตของข้อมูล โดยกำหนดคะแนนตามรายละเอียดของชุดข้อมูลและ 14 เกณฑ์ การจำแนกประเภทหน่วยต่างๆ และการรวมความเสี่ยงตลอดความพึ่งพา

การฝึกอบรมและการวัดผล

ผู้วิจัยได้ดึง URL ของชุดข้อมูลที่มีการดาวน์โหลดมากที่สุด 1,000 ชุดจาก Hugging Face และตัวอย่างสุ่ม 216 รายการเพื่อสร้างชุดการทดสอบ

โมเดล EXAONE ได้รับการ ปรับให้เหมาะสม บนชุดข้อมูลที่กำหนดเอง โดยโมดูลการนำทางและโมดูลการถาม-ตอบใช้ ข้อมูลสังเคราะห์ และโมดูลการให้คะแนนใช้ข้อมูลที่ได้รับการระบุฉลากจากมนุษย์

ฉลากพื้นฐานถูกสร้างขึ้นโดยผู้เชี่ยวชาญด้านกฎหมาย 5 คน ที่ได้รับการฝึกอบรมอย่างน้อย 31 ชั่วโมงในการทำงานที่คล้ายคลึงกัน ผู้เชี่ยวชาญเหล่านี้ได้ระบุความพึ่งพาและเงื่อนไขใบอนุญาตสำหรับกรณีทดสอบ 216 รายการ จากนั้นรวมและปรับปรุงผลการวิจัยผ่านการอภิปราย

ด้วยระบบ AutoCompliance ที่ได้รับการฝึกอบรมและปรับให้เหมาะสมด้วยผู้เชี่ยวชาญด้านกฎหมายที่ผ่านการทดสอบแล้ว เทียบกับ ChatGPT-4o และ Perplexity Pro พบว่ามีความพึ่งพาเพิ่มเติมมากขึ้นในเงื่อนไขใบอนุญาต:

ความแม่นยำในการระบุความพึ่งพาและเงื่อนไขใบอนุญาตสำหรับชุดข้อมูลทดสอบ 216 ชุด

ความแม่นยำในการระบุความพึ่งพาและเงื่อนไขใบอนุญาตสำหรับชุดข้อมูลทดสอบ 216 ชุด

งานวิจัยระบุว่า:

‘AutoCompliance มีประสิทธิภาพเหนือกว่าตัวแทนและผู้เชี่ยวชาญด้านกฎหมายทั้งหมด โดยบรรลุความแม่นยำ 81.04% และ 95.83% ในแต่ละงาน ในทางกลับกัน ChatGPT-4o และ Perplexity Pro แสดงความแม่นยำที่ต่ำกว่าสำหรับงาน Source และ License ตามลำดับ ‘

‘ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของ AutoCompliance โดยแสดงให้เห็นถึงความสามารถในการจัดการทั้งสองงานด้วยความแม่นยำที่น่าประทับใจ ในขณะเดียวกันก็ชี้ให้เห็นถึงช่องว่างการแสดงผลที่สำคัญระหว่างโมเดล AI และผู้เชี่ยวชาญด้านกฎหมายในโดเมนเหล่านี้’

ในแง่ของประสิทธิภาพ วิธีการของ AutoCompliance ใช้เวลาเพียง 53.1 วินาทีในการดำเนินการ เทียบกับ 2,418 วินาทีสำหรับการประเมินของมนุษย์บนงานเดียวกัน

นอกจากนี้ การประเมินใช้เวลาเพียง 0.29 ดอลลาร์สหรัฐฯ เทียบกับ 207 ดอลลาร์สหรัฐฯ สำหรับผู้เชี่ยวชาญด้านกฎหมาย อย่างไรก็ตาม สิ่งนี้ขึ้นอยู่กับการเช่า GCP a2-megagpu-16gpu node รายเดือนในราคา 14,225 ดอลลาร์ต่อเดือน ซึ่งบ่งชี้ว่าความคุ้มค่าด้านต้นทุนนี้เกี่ยวข้องกับการดำเนินงานขนาดใหญ่

การตรวจสอบชุดข้อมูล

สำหรับการวิเคราะห์ นักวิจัยได้เลือกชุดข้อมูล 3,612 ชุดโดยรวมชุดข้อมูลที่มีการดาวน์โหลดมากที่สุด 3,000 ชุดจาก Hugging Face และ 612 ชุดจาก Data Provenance Initiative ในปี 2023

งานวิจัยระบุว่า:

‘เริ่มต้นจาก 3,612 หน่วยเป้าหมาย เราได้ระบุหน่วยที่ไม่ซ้ำกัน 17,429 หน่วย โดย 13,817 หน่วยปรากฏเป็นหน่วยเป้าหมายโดยตรงหรือโดยอ้อม’

‘สำหรับการวิเคราะห์เชิงประจักษ์ของเรา เราพิจารณาหน่วยและกราฟความพึ่งพาของใบอนุญาตเป็นโครงสร้างชั้นเดียวหากหน่วยไม่มีความพึ่งพาใดๆ และโครงสร้างหลายชั้นหากมีความพึ่งพาหนึ่งรายการหรือมากกว่า’

‘จาก 3,612 ชุดข้อมูลเป้าหมาย 2,086 ชุด (57.8%) มีโครงสร้างหลายชั้น ในขณะที่ 1,526 ชุด (42.2%) มีโครงสร้างชั้นเดียวโดยไม่มีความพึ่งพาใดๆ ‘

ชุดข้อมูลที่มีลิขสิทธิ์สามารถกระจายได้เพียงเมื่อมีอำนาจทางกฎหมาย ซึ่งอาจมาจากใบอนุญาต กฎหมายลิขสิทธิ์ที่มีข้อยกเว้น หรือข้อกำหนดในสัญญา การกระจายที่ไม่ได้รับอนุญาตอาจนำไปสู่ผลทางกฎหมาย รวมถึงการละเมิดลิขสิทธิ์หรือการละเมิดสัญญา ดังนั้นการระบุการไม่ปฏิบัติตามที่ชัดเจนจึงเป็นสิ่งจำเป็น

การละเมิดการกระจายที่พบภายใต้เกณฑ์ 4.4 ของ Data Compliance ที่อ้างอิงในงานวิจัย

การละเมิดการกระจายที่พบภายใต้เกณฑ์ 4.4 ของ Data Compliance ที่อ้างอิงในงานวิจัย

การศึกษาพบว่ามีการกระจายชุดข้อมูลที่ไม่ปฏิบัติตามกฎระเบียบ 9,905 รายการ ซึ่งแบ่งออกเป็นสองประเภท: 83.5% ถูกห้ามอย่างชัดเจนภายใต้เงื่อนไขใบอนุญาต ทำให้การกระจายเป็นการละเมิดกฎหมายที่ชัดเจน และ 16.5% เกี่ยวข้องกับชุดข้อมูลที่มีเงื่อนไขใบอนุญาตที่ขัดแย้งกัน ซึ่งการกระจายถูกอนุญาตในทางทฤษฎี แต่ไม่ปฏิบัติตามเงื่อนไขที่ต้องการ จึงสร้างความเสี่ยงทางกฎหมายในอนาคต

ผู้เขียนยอมรับว่าเกณฑ์ความเสี่ยงที่เสนอใน NEXUS ไม่ใช่สากลและอาจแตกต่างกันไปตามเขตอำนาจศาลและการใช้งาน AI และการปรับปรุงในอนาคตควรเน้นไปที่การปรับตัวให้เข้ากับกฎระเบียบทั่วโลกที่เปลี่ยนแปลงไป และการปรับปรุงการตรวจสอบทางกฎหมายโดยใช้ AI

สรุป

นี่เป็นงานวิจัยที่ยาวและไม่ค่อยเป็นมิตร แต่กล่าวถึงปัจจัยที่ยับยั้งการนำ AI มาใช้ในอุตสาหกรรมในปัจจุบันมากที่สุด – ความเป็นไปได้ที่ข้อมูล “เปิด” ที่ดูเหมือนจะปลอดภัยอาจถูกอ้างสิทธิ์โดยหน่วยงาน บุคคล และองค์กรต่างๆ ในอนาคต

ภายใต้ DMCA การละเมิดอาจมีโทษทางกฎหมายที่มีจำนวนมากในแต่ละกรณี เมื่อการละเมิดสามารถสูงถึงหลายล้านได้ เช่น ในกรณีที่นักวิจัยพบ ความรับผิดทางกฎหมายที่อาจเกิดขึ้นจึงมีนัยสำคัญมาก

นอกจากนี้ บริษัทที่สามารถพิสูจน์ได้ว่าได้รับประโยชน์จากข้อมูลขึ้นไปไม่สามารถอ้างว่าไม่รู้ (เช่น ตามปกติ) ในตลาดสหรัฐฯ ที่มีอิทธิพล และปัจจุบันพวกเขาไม่มีเครื่องมือที่สมจริงในการเจาะลึกความหมายที่ซับซ้อนซ่อนอยู่ในข้อตกลงใบอนุญาตชุดข้อมูลโอเพ่นซอร์ส

ปัญหาในการสร้างระบบเช่น NEXUS คือมันจะท้าทายที่จะปรับให้เหมาะสมในระดับประเทศในประเทศสหรัฐฯ หรือในระดับประเทศใน EU การสร้างเฟรมเวิร์กที่แท้จริงทั่วโลก (เช่น “อินเตอร์โพลสำหรับประวัติชุดข้อมูล”) ถูกขัดขวางไม่เพียงแต่ความตั้งใจที่ขัดแย้งกันของรัฐบาลที่หลากหลายเท่านั้น แต่ยังรวมถึงรัฐบาลและสถานะของกฎหมายที่เปลี่ยนแปลงอยู่ตลอดเวลาด้วย

 

* การแทนที่ของฉันสำหรับอ้างอิงของผู้เขียนด้วยไฮเปอร์ลิงก์.
มีการกำหนดประเภทที่แตกต่างกัน 6 ประเภทในงานวิจัย แต่สองประเภทสุดท้ายไม่ได้รับการกำหนด

เผยแพร่ครั้งแรกวันศุกร์ที่ 7 มีนาคม 2025

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai