มุมมองของ Anderson
เกือบ 80% ของชุดข้อมูลฝึกอบรมอาจเป็นอันตรายทางกฎหมายสำหรับ Enterprise AI

งานวิจัยล่าสุดจาก LG AI Research เสนอว่าชุดข้อมูลที่เปิดกว้างที่ใช้ในการฝึกอบรมโมเดล AI อาจทำให้เกิดความรู้สึกปลอดภัยที่ไม่จริง โดยพบว่าเกือบสี่ในห้าชุดข้อมูล AI ที่มีฉลากว่า “สามารถใช้ได้ในเชิงพาณิชย์” จริงๆ แล้วมีความเสี่ยงทางกฎหมายที่ซ่อนอยู่
ความเสี่ยงเหล่านี้รวมถึงการรวมเนื้อหาที่มีลิขสิทธิ์ที่ไม่ได้ระบุ และข้อกำหนดใบอนุญาตที่จำกัดที่ฝังอยู่ลึกในความพึ่งพาของชุดข้อมูล หากผลการวิจัยเป็นจริง บริษัทที่พึ่งพาชุดข้อมูลสาธารณะอาจต้องพิจารณากระบวนการ AI ของตนใหม่ หรือเสี่ยงต่อการถูกฟ้องร้องทางกฎหมายในอนาคต
นักวิจัยเสนอวิธีแก้ปัญหาที่เป็นไปได้และอาจถูกโต้แย้ง: ตัวแทนการปฏิบัติตามกฎระเบียบ AI ที่สามารถสแกนและตรวจสอบประวัติชุดข้อมูลได้เร็วและแม่นยำกว่าผู้เชี่ยวชาญด้านกฎหมาย
งานวิจัยระบุว่า:
‘ไม่สามารถกำหนดความเสี่ยงทางกฎหมายของชุดข้อมูลฝึกอบรม AI ได้เพียงโดยการตรวจสอบเงื่อนไขใบอนุญาตในระดับผิวเผินเท่านั้น การวิเคราะห์แบบ end-to-end ของการกระจายชุดข้อมูลเป็นสิ่งจำเป็นสำหรับการรับรองความถูกต้อง’
‘เนื่องจากการวิเคราะห์ดังกล่าวอยู่นอกเหนือความสามารถของมนุษย์เนื่องจากความซับซ้อนและขนาด AI จึงสามารถช่วยลดช่องว่างนี้ได้ด้วยความเร็วและความแม่นยำที่มากกว่า หากไม่มีการautomate ความเสี่ยงทางกฎหมายที่สำคัญจะยังคงไม่ได้รับการตรวจสอบ ซึ่งทำให้การพัฒนา AI ที่มีจริยธรรมและปฏิบัติตามกฎระเบียบต่างๆ มีความเสี่ยง’
‘เราขอแนะนำให้ชุมชนการวิจัย AI ตระหนักถึงการวิเคราะห์ทางกฎหมายแบบ end-to-end เป็นข้อกำหนดพื้นฐาน และใช้แนวทางที่ขับเคลื่อนด้วย AI เป็นเส้นทางที่เป็นไปได้สำหรับการปฏิบัติตามกฎระเบียบของชุดข้อมูล’
การตรวจสอบ 2,852 ชุดข้อมูลที่เป็นที่นิยมซึ่งดูเหมือนจะสามารถใช้ได้ในเชิงพาณิชย์ตามใบอนุญาตของตนเอง นักวิจัยพบว่าเพียง 605 ชุดข้อมูล (ประมาณ 21%) เท่านั้นที่มีความปลอดภัยทางกฎหมายสำหรับการใช้ในเชิงพาณิชย์เมื่อตรวจสอบส่วนประกอบและความพึ่งพาทั้งหมด
งานวิจัยใหม่ ใหม่ มีชื่อว่า Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing และมาจากนักวิจัย 8 คนจาก LG AI Research
สิทธิและความผิด
ผู้เขียนเน้นถึง ความท้าทาย ที่บริษัทต่างๆ ต้องเผชิญในการพัฒนา AI ในภูมิทัศน์ทางกฎหมายที่ไม่แน่นอนมากขึ้น เนื่องจากแนวคิด “การใช้โดยชอบ” ในการฝึกอบรมชุดข้อมูลในอดีตได้เปลี่ยนไปสู่สภาพแวดล้อมที่มีการคุ้มครองทางกฎหมายที่ไม่ชัดเจน และที่พักพิงที่ปลอดภัยไม่ได้รับการรับประกันแล้ว
ตามที่ หนึ่งเผยแพร่ เมื่อเร็วๆ นี้ บริษัทต่างๆ กำลังป้องกันตัวมากขึ้นเกี่ยวกับแหล่งที่มาของข้อมูลฝึกอบรมของตน ผู้เขียน Adam Buick ระบุว่า*:
‘[ในขณะที่] OpenAI เปิดเผยแหล่งที่มาหลักของข้อมูลสำหรับ GPT-3 นั้น เอกสารที่แนะนำ GPT-4 เปิดเผยเพียงว่าข้อมูลที่ใช้ในการฝึกอบรมแบบจำลองเป็น hỗn hợpของ ‘ข้อมูลที่มีอยู่สาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) และข้อมูลที่ได้รับอนุญาตจากผู้ให้บริการรายอื่น’
‘แรงจูงใจเบื้องหลังการเคลื่อนไหวออกจากความโปร่งใสนี้ไม่ได้รับการอธิบายอย่างละเอียดโดยนักพัฒนา AI ซึ่งในหลายกรณีไม่ได้ให้คำอธิบายใดๆ เลย ‘
‘สำหรับส่วนของ OpenAI ได้ให้เหตุผลในการตัดสินใจไม่เปิดเผยรายละเอียดเพิ่มเติมเกี่ยวกับ GPT-4 โดยอ้างถึงความกังวลเกี่ยวกับ ‘ภูมิทัศน์การแข่งขันและผลกระทบด้านความปลอดภัยของแบบจำลองขนาดใหญ่’ โดยไม่มีการอธิบายเพิ่มเติมในรายงาน’
ความโปร่งใส่อาจเป็นคำที่ไม่ซื่อสัตย์ หรืออาจเป็นคำที่เข้าใจผิด เช่น โมเดล Firefly ที่สร้างสรรค์ของ Adobe ซึ่งฝึกอบรมด้วยข้อมูลสต็อกที่ Adobe มีสิทธิ์ในการใช้งานได้ โดยให้ความมั่นใจแก่ลูกค้าเกี่ยวกับกฎหมายที่ใช้ระบบนี้ ต่อมา หลักฐานบางอย่าง เผยให้เห็นว่าข้อมูล Firefly ได้รับการ “เพิ่มคุณค่า” ด้วยข้อมูลที่มีลิขสิทธิ์ที่อาจเป็นของแพลตฟอร์มอื่น
ตามที่เรา พูดถึงเมื่อต้นสัปดาห์นี้ มีแนวคิดที่เพิ่มขึ้นในการรับรองการปฏิบัติตามใบอนุญาตในชุดข้อมูล รวมถึงโครงการหนึ่งที่จะเก็บข้อมูลวิดีโอจาก YouTube ที่มีใบอนุญาต Creative Commons ที่ยืดหยุ่นเท่านั้น
ปัญหาก็คือใบอนุญาตเองอาจมีข้อผิดพลาด หรือได้รับอนุญาตโดยผิดพลาด ตามที่การวิจัยใหม่ๆ เสนอ
การตรวจสอบชุดข้อมูลโอเพ่นซอร์ส
เป็นเรื่องที่ยากที่จะพัฒนาระบบการประเมิน เช่น NEXUS เมื่อบริบทเปลี่ยนแปลงอยู่ตลอดเวลา ดังนั้นงานวิจัยระบุว่าระบบ NEXUS Data Compliance framework system มีพื้นฐานมาจาก ‘หลักการและพื้นฐานทางกฎหมาย ณ เวลานี้’
NEXUS ใช้ตัวแทน AI ที่เรียกว่า AutoCompliance สำหรับการปฏิบัติตามกฎระเบียบข้อมูลอัตโนมัติ AutoCompliance ประกอบด้วยสามโมดูลหลัก: โมดูลการนำทางสำหรับการสำรวจเว็บ; โมดูลการถาม-ตอบสำหรับการดึงข้อมูล; และโมดูลการให้คะแนนสำหรับการประเมินความเสี่ยงทางกฎหมาย

AutoCompliance เริ่มต้นด้วยหน้าเว็บที่ผู้ใช้ให้มา AI จะดึงรายละเอียดสำคัญ ค้นหาสิ่งอ้างอิงที่เกี่ยวข้อง ระบุเงื่อนไขใบอนุญาตและความพึ่งพา และกำหนดคะแนนความเสี่ยงทางกฎหมาย. แหล่งที่มา: https://arxiv.org/pdf/2503.02784
โมดูลเหล่านี้ได้รับการขับเคลื่อนด้วยโมเดล AI ที่ปรับให้เหมาะสม รวมถึงโมเดล EXAONE-3.5-32B-Instruct ที่ฝึกอบรมด้วยข้อมูลสังเคราะห์และข้อมูลที่ได้รับการระบุฉลากจากมนุษย์ AutoCompliance ยังใช้ฐานข้อมูลสำหรับการแคชผลลัพธ์เพื่อเพิ่มประสิทธิภาพ
AutoCompliance เริ่มต้นด้วย URL ของชุดข้อมูลที่ผู้ใช้ให้มา และรักษาไว้เป็นหน่วย根 จากนั้นจะค้นหาเงื่อนไขใบอนุญาตและความพึ่งพา และลากตามความสัมพันธ์ระหว่างชุดข้อมูลที่เชื่อมโยงเพื่อสร้างกราฟความพึ่งพาของใบอนุญาต เมื่อเชื่อมต่อทั้งหมดแล้ว จะคำนวณคะแนนการปฏิบัติตามและกำหนดการจำแนกประเภทความเสี่ยง
ระบบ NEXUS Data Compliance ที่อธิบายไว้ในงานวิจัยใหม่นี้ ระบุประเภทของหน่วยต่างๆ ที่เกี่ยวข้องกับวงจรชีวิตของข้อมูล รวมถึง ชุดข้อมูล ซึ่งเป็นข้อมูลนำเข้าหลักสำหรับการฝึกอบรม AI; ซอฟต์แวร์ประมวลผลข้อมูลและโมเดล AI ที่ใช้ในการเปลี่ยนแปลงและใช้ข้อมูล; และ ผู้ให้บริการแพลตฟอร์ม ที่อำนวยความสะดวกในการจัดการข้อมูล
ระบบประเมินความเสี่ยงทางกฎหมายอย่างครอบคลุมโดยพิจารณาจากหน่วยต่างๆ เหล่านี้และความสัมพันธ์ระหว่างกัน โดยขยายการประเมินใบอนุญาตของชุดข้อมูลไปไกลกว่าการประเมินใบอนุญาตเพียงอย่างเดียว เพื่อรวมระบบนิเวศที่กว้างขึ้นของส่วนประกอบที่เกี่ยวข้องกับการพัฒนา AI

Data Compliance ประเมินความเสี่ยงทางกฎหมายตลอดวงจรชีวิตของข้อมูล โดยกำหนดคะแนนตามรายละเอียดของชุดข้อมูลและ 14 เกณฑ์ การจำแนกประเภทหน่วยต่างๆ และการรวมความเสี่ยงตลอดความพึ่งพา
การฝึกอบรมและการวัดผล
ผู้วิจัยได้ดึง URL ของชุดข้อมูลที่มีการดาวน์โหลดมากที่สุด 1,000 ชุดจาก Hugging Face และตัวอย่างสุ่ม 216 รายการเพื่อสร้างชุดการทดสอบ
โมเดล EXAONE ได้รับการ ปรับให้เหมาะสม บนชุดข้อมูลที่กำหนดเอง โดยโมดูลการนำทางและโมดูลการถาม-ตอบใช้ ข้อมูลสังเคราะห์ และโมดูลการให้คะแนนใช้ข้อมูลที่ได้รับการระบุฉลากจากมนุษย์
ฉลากพื้นฐานถูกสร้างขึ้นโดยผู้เชี่ยวชาญด้านกฎหมาย 5 คน ที่ได้รับการฝึกอบรมอย่างน้อย 31 ชั่วโมงในการทำงานที่คล้ายคลึงกัน ผู้เชี่ยวชาญเหล่านี้ได้ระบุความพึ่งพาและเงื่อนไขใบอนุญาตสำหรับกรณีทดสอบ 216 รายการ จากนั้นรวมและปรับปรุงผลการวิจัยผ่านการอภิปราย
ด้วยระบบ AutoCompliance ที่ได้รับการฝึกอบรมและปรับให้เหมาะสมด้วยผู้เชี่ยวชาญด้านกฎหมายที่ผ่านการทดสอบแล้ว เทียบกับ ChatGPT-4o และ Perplexity Pro พบว่ามีความพึ่งพาเพิ่มเติมมากขึ้นในเงื่อนไขใบอนุญาต:

ความแม่นยำในการระบุความพึ่งพาและเงื่อนไขใบอนุญาตสำหรับชุดข้อมูลทดสอบ 216 ชุด
งานวิจัยระบุว่า:
‘AutoCompliance มีประสิทธิภาพเหนือกว่าตัวแทนและผู้เชี่ยวชาญด้านกฎหมายทั้งหมด โดยบรรลุความแม่นยำ 81.04% และ 95.83% ในแต่ละงาน ในทางกลับกัน ChatGPT-4o และ Perplexity Pro แสดงความแม่นยำที่ต่ำกว่าสำหรับงาน Source และ License ตามลำดับ ‘
‘ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของ AutoCompliance โดยแสดงให้เห็นถึงความสามารถในการจัดการทั้งสองงานด้วยความแม่นยำที่น่าประทับใจ ในขณะเดียวกันก็ชี้ให้เห็นถึงช่องว่างการแสดงผลที่สำคัญระหว่างโมเดล AI และผู้เชี่ยวชาญด้านกฎหมายในโดเมนเหล่านี้’
ในแง่ของประสิทธิภาพ วิธีการของ AutoCompliance ใช้เวลาเพียง 53.1 วินาทีในการดำเนินการ เทียบกับ 2,418 วินาทีสำหรับการประเมินของมนุษย์บนงานเดียวกัน
นอกจากนี้ การประเมินใช้เวลาเพียง 0.29 ดอลลาร์สหรัฐฯ เทียบกับ 207 ดอลลาร์สหรัฐฯ สำหรับผู้เชี่ยวชาญด้านกฎหมาย อย่างไรก็ตาม สิ่งนี้ขึ้นอยู่กับการเช่า GCP a2-megagpu-16gpu node รายเดือนในราคา 14,225 ดอลลาร์ต่อเดือน ซึ่งบ่งชี้ว่าความคุ้มค่าด้านต้นทุนนี้เกี่ยวข้องกับการดำเนินงานขนาดใหญ่
การตรวจสอบชุดข้อมูล
สำหรับการวิเคราะห์ นักวิจัยได้เลือกชุดข้อมูล 3,612 ชุดโดยรวมชุดข้อมูลที่มีการดาวน์โหลดมากที่สุด 3,000 ชุดจาก Hugging Face และ 612 ชุดจาก Data Provenance Initiative ในปี 2023
งานวิจัยระบุว่า:
‘เริ่มต้นจาก 3,612 หน่วยเป้าหมาย เราได้ระบุหน่วยที่ไม่ซ้ำกัน 17,429 หน่วย โดย 13,817 หน่วยปรากฏเป็นหน่วยเป้าหมายโดยตรงหรือโดยอ้อม’
‘สำหรับการวิเคราะห์เชิงประจักษ์ของเรา เราพิจารณาหน่วยและกราฟความพึ่งพาของใบอนุญาตเป็นโครงสร้างชั้นเดียวหากหน่วยไม่มีความพึ่งพาใดๆ และโครงสร้างหลายชั้นหากมีความพึ่งพาหนึ่งรายการหรือมากกว่า’
‘จาก 3,612 ชุดข้อมูลเป้าหมาย 2,086 ชุด (57.8%) มีโครงสร้างหลายชั้น ในขณะที่ 1,526 ชุด (42.2%) มีโครงสร้างชั้นเดียวโดยไม่มีความพึ่งพาใดๆ ‘
ชุดข้อมูลที่มีลิขสิทธิ์สามารถกระจายได้เพียงเมื่อมีอำนาจทางกฎหมาย ซึ่งอาจมาจากใบอนุญาต กฎหมายลิขสิทธิ์ที่มีข้อยกเว้น หรือข้อกำหนดในสัญญา การกระจายที่ไม่ได้รับอนุญาตอาจนำไปสู่ผลทางกฎหมาย รวมถึงการละเมิดลิขสิทธิ์หรือการละเมิดสัญญา ดังนั้นการระบุการไม่ปฏิบัติตามที่ชัดเจนจึงเป็นสิ่งจำเป็น

การละเมิดการกระจายที่พบภายใต้เกณฑ์ 4.4 ของ Data Compliance ที่อ้างอิงในงานวิจัย
การศึกษาพบว่ามีการกระจายชุดข้อมูลที่ไม่ปฏิบัติตามกฎระเบียบ 9,905 รายการ ซึ่งแบ่งออกเป็นสองประเภท: 83.5% ถูกห้ามอย่างชัดเจนภายใต้เงื่อนไขใบอนุญาต ทำให้การกระจายเป็นการละเมิดกฎหมายที่ชัดเจน และ 16.5% เกี่ยวข้องกับชุดข้อมูลที่มีเงื่อนไขใบอนุญาตที่ขัดแย้งกัน ซึ่งการกระจายถูกอนุญาตในทางทฤษฎี แต่ไม่ปฏิบัติตามเงื่อนไขที่ต้องการ จึงสร้างความเสี่ยงทางกฎหมายในอนาคต
ผู้เขียนยอมรับว่าเกณฑ์ความเสี่ยงที่เสนอใน NEXUS ไม่ใช่สากลและอาจแตกต่างกันไปตามเขตอำนาจศาลและการใช้งาน AI และการปรับปรุงในอนาคตควรเน้นไปที่การปรับตัวให้เข้ากับกฎระเบียบทั่วโลกที่เปลี่ยนแปลงไป และการปรับปรุงการตรวจสอบทางกฎหมายโดยใช้ AI
สรุป
นี่เป็นงานวิจัยที่ยาวและไม่ค่อยเป็นมิตร แต่กล่าวถึงปัจจัยที่ยับยั้งการนำ AI มาใช้ในอุตสาหกรรมในปัจจุบันมากที่สุด – ความเป็นไปได้ที่ข้อมูล “เปิด” ที่ดูเหมือนจะปลอดภัยอาจถูกอ้างสิทธิ์โดยหน่วยงาน บุคคล และองค์กรต่างๆ ในอนาคต
ภายใต้ DMCA การละเมิดอาจมีโทษทางกฎหมายที่มีจำนวนมากในแต่ละกรณี เมื่อการละเมิดสามารถสูงถึงหลายล้านได้ เช่น ในกรณีที่นักวิจัยพบ ความรับผิดทางกฎหมายที่อาจเกิดขึ้นจึงมีนัยสำคัญมาก
นอกจากนี้ บริษัทที่สามารถพิสูจน์ได้ว่าได้รับประโยชน์จากข้อมูลขึ้นไปไม่สามารถอ้างว่าไม่รู้ (เช่น ตามปกติ) ในตลาดสหรัฐฯ ที่มีอิทธิพล และปัจจุบันพวกเขาไม่มีเครื่องมือที่สมจริงในการเจาะลึกความหมายที่ซับซ้อนซ่อนอยู่ในข้อตกลงใบอนุญาตชุดข้อมูลโอเพ่นซอร์ส
ปัญหาในการสร้างระบบเช่น NEXUS คือมันจะท้าทายที่จะปรับให้เหมาะสมในระดับประเทศในประเทศสหรัฐฯ หรือในระดับประเทศใน EU การสร้างเฟรมเวิร์กที่แท้จริงทั่วโลก (เช่น “อินเตอร์โพลสำหรับประวัติชุดข้อมูล”) ถูกขัดขวางไม่เพียงแต่ความตั้งใจที่ขัดแย้งกันของรัฐบาลที่หลากหลายเท่านั้น แต่ยังรวมถึงรัฐบาลและสถานะของกฎหมายที่เปลี่ยนแปลงอยู่ตลอดเวลาด้วย
* การแทนที่ของฉันสำหรับอ้างอิงของผู้เขียนด้วยไฮเปอร์ลิงก์.
† มีการกำหนดประเภทที่แตกต่างกัน 6 ประเภทในงานวิจัย แต่สองประเภทสุดท้ายไม่ได้รับการกำหนด
เผยแพร่ครั้งแรกวันศุกร์ที่ 7 มีนาคม 2025












