ต้นขั้ว ปัญหาการลอกเลียนแบบ: โมเดล AI ทั่วไปสร้างเนื้อหาที่มีลิขสิทธิ์ได้อย่างไร - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

ปัญหาการลอกเลียนแบบ: โมเดล AI สร้างสรรค์สร้างเนื้อหาที่มีลิขสิทธิ์ได้อย่างไร

mm

การตีพิมพ์

 on

การลอกเลียนแบบใน AI

ความก้าวหน้าอย่างรวดเร็วของ generative AI ได้จุดประกายความตื่นเต้นเกี่ยวกับศักยภาพในการสร้างสรรค์ของเทคโนโลยี อย่างไรก็ตาม โมเดลที่ทรงพลังเหล่านี้ยังก่อให้เกิดความเสี่ยงในการทำซ้ำเนื้อหาที่มีลิขสิทธิ์หรือลอกเลียนแบบโดยไม่มีการระบุแหล่งที่มาที่เหมาะสม

โครงข่ายประสาทเทียมดูดซับข้อมูลการฝึกอบรมอย่างไร

ระบบ AI สมัยใหม่ เช่น GPT-3 ได้รับการฝึกฝนผ่านกระบวนการที่เรียกว่าการเรียนรู้แบบถ่ายโอน พวกเขานำเข้าชุดข้อมูลขนาดใหญ่ที่คัดลอกมาจากแหล่งข้อมูลสาธารณะ เช่น เว็บไซต์ หนังสือ เอกสารวิชาการ และอื่นๆ ตัวอย่างเช่น ข้อมูลการฝึกอบรมของ GPT-3 ประกอบด้วยข้อความขนาด 570 กิกะไบต์ ในระหว่างการฝึก AI จะค้นหารูปแบบและความสัมพันธ์ทางสถิติในแหล่งรวมข้อมูลอันกว้างใหญ่นี้ เรียนรู้ความสัมพันธ์ระหว่างคำ ประโยค ย่อหน้า โครงสร้างภาษา และคุณสมบัติอื่นๆ

สิ่งนี้ทำให้ AI สามารถสร้างข้อความหรือรูปภาพที่สอดคล้องกันใหม่ โดยการทำนายลำดับที่น่าจะเป็นไปตามอินพุตหรือพรอมต์ที่กำหนด แต่ยังหมายถึงโมเดลเหล่านี้ดูดซับเนื้อหาโดยไม่คำนึงถึงลิขสิทธิ์ การระบุแหล่งที่มา หรือความเสี่ยงในการลอกเลียนแบบ ด้วยเหตุนี้ generative AI จึงสามารถทำซ้ำข้อความคำต่อคำหรือถอดความข้อความที่มีลิขสิทธิ์จากองค์กรการฝึกอบรมโดยไม่ได้ตั้งใจ

ตัวอย่างที่สำคัญของการลอกเลียนแบบ AI

ความกังวลเกี่ยวกับการลอกเลียนแบบ AI เกิดขึ้นอย่างเด่นชัดตั้งแต่ปี 2020 หลังจากที่ GPT เปิดตัว

การวิจัยล่าสุดแสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่ (LLM) เช่น GPT-3 สามารถสร้างข้อความคำต่อคำจำนวนมากจากข้อมูลการฝึกอบรมโดยไม่ต้องอ้างอิง (Nasr et al., 2023; Carlini et al., 2022) ตัวอย่างเช่น การฟ้องร้องของ The New York Times เปิดเผยซอฟต์แวร์ OpenAI ที่สร้างบทความของ New York Times เกือบทุกคำต่อคำ (เดอะนิวยอร์กไทมส์, 2023).

การค้นพบนี้ชี้ให้เห็นว่าระบบ AI เจนเนอเรชั่นบางระบบอาจสร้างผลงานลอกเลียนแบบที่ไม่พึงประสงค์ ซึ่งเสี่ยงต่อการละเมิดลิขสิทธิ์ อย่างไรก็ตาม ความชุกยังคงไม่แน่นอนเนื่องจากลักษณะของ 'กล่องดำ' ของ LLM คดีของ New York Times ระบุว่าผลลัพธ์ดังกล่าวถือเป็นการละเมิด ซึ่งอาจมีผลกระทบสำคัญต่อการพัฒนา AI แบบกำเนิด โดยรวมแล้ว หลักฐานบ่งชี้ว่าการลอกเลียนแบบเป็นปัญหาที่มีอยู่ในโมเดลโครงข่ายประสาทเทียมขนาดใหญ่ที่ต้องใช้ความระมัดระวังและการป้องกัน

กรณีเหล่านี้เผยให้เห็นปัจจัยสำคัญสองประการที่มีอิทธิพลต่อความเสี่ยงในการลอกเลียนแบบ AI:

  1. ขนาดโมเดล – โมเดลขนาดใหญ่เช่น GPT-3.5 มีแนวโน้มที่จะสร้างข้อความคำต่อคำขึ้นมาใหม่มากกว่าเมื่อเปรียบเทียบกับโมเดลขนาดเล็ก ชุดข้อมูลการฝึกอบรมที่ใหญ่ขึ้นช่วยเพิ่มการเข้าถึงแหล่งข้อมูลที่มีลิขสิทธิ์
  2. ข้อมูลการฝึกอบรม – โมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลอินเทอร์เน็ตที่คัดลอกมาหรืองานที่มีลิขสิทธิ์ (แม้ว่าจะได้รับอนุญาตก็ตาม) มีแนวโน้มที่จะลอกเลียนแบบมากกว่าเมื่อเปรียบเทียบกับโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ได้รับการดูแลจัดการอย่างระมัดระวัง

อย่างไรก็ตาม การวัดผลการลอกเลียนแบบโดยตรงถือเป็นเรื่องท้าทาย ลักษณะ "กล่องดำ" ของโครงข่ายประสาทเทียมทำให้ยากต่อการติดตามการเชื่อมโยงนี้ระหว่างข้อมูลการฝึกและเอาต์พุตของแบบจำลอง ราคาน่าจะขึ้นอยู่กับสถาปัตยกรรมโมเดล คุณภาพของชุดข้อมูล และการกำหนดสูตรที่รวดเร็ว แต่กรณีเหล่านี้ยืนยันว่าการลอกเลียนแบบ AI ดังกล่าวเกิดขึ้นอย่างชัดเจน ซึ่งมีผลกระทบทางกฎหมายและจริยธรรมที่สำคัญ

ระบบตรวจจับการลอกเลียนแบบที่เกิดขึ้นใหม่

เพื่อเป็นการตอบสนอง นักวิจัยได้เริ่มสำรวจระบบ AI เพื่อตรวจจับข้อความและรูปภาพที่สร้างโดยแบบจำลองเทียบกับที่สร้างขึ้นโดยมนุษย์โดยอัตโนมัติ ตัวอย่างเช่น นักวิจัยที่ Mila เสนอ GenFace ซึ่งวิเคราะห์รูปแบบทางภาษาที่บ่งบอกถึงข้อความที่เขียนโดย AI Startup Anthropic ยังได้พัฒนาความสามารถในการตรวจจับการลอกเลียนแบบภายในสำหรับ AI Claude ที่ใช้ในการสนทนา

อย่างไรก็ตาม เครื่องมือเหล่านี้มีข้อจำกัด ข้อมูลการฝึกอบรมจำนวนมหาศาลของโมเดลอย่าง GPT-3 ทำให้การระบุแหล่งที่มาดั้งเดิมของข้อความที่ลอกเลียนแบบทำได้ยากหรือเป็นไปไม่ได้ จำเป็นต้องใช้เทคนิคที่มีประสิทธิภาพมากขึ้นเนื่องจากแบบจำลองเชิงกำเนิดมีการพัฒนาอย่างรวดเร็ว จนกว่าจะถึงตอนนั้น การตรวจสอบโดยเจ้าหน้าที่ยังคงเป็นสิ่งสำคัญในการคัดกรองเอาท์พุต AI ที่อาจลอกเลียนแบบหรือละเมิดก่อนที่จะนำไปใช้ในที่สาธารณะ

แนวทางปฏิบัติที่ดีที่สุดในการลดการลอกเลียนแบบ Generative AI

ต่อไปนี้เป็นแนวทางปฏิบัติที่ดีที่สุดที่ทั้งนักพัฒนา AI และผู้ใช้สามารถนำมาใช้เพื่อลดความเสี่ยงจากการลอกเลียนแบบ:

สำหรับนักพัฒนา AI:

  • ศึกษาแหล่งข้อมูลการฝึกอบรมอย่างรอบคอบเพื่อยกเว้นเนื้อหาที่มีลิขสิทธิ์หรือได้รับอนุญาตโดยไม่ได้รับอนุญาตที่เหมาะสม
  • พัฒนาเอกสารข้อมูลที่เข้มงวดและขั้นตอนการติดตามแหล่งที่มา บันทึกข้อมูลเมตา เช่น ใบอนุญาต แท็ก ผู้สร้าง ฯลฯ
  • ใช้เครื่องมือตรวจจับการลอกเลียนแบบเพื่อแจ้งเนื้อหาที่มีความเสี่ยงสูงก่อนเผยแพร่
  • จัดทำรายงานที่โปร่งใสซึ่งมีรายละเอียดแหล่งข้อมูลการฝึกอบรม ใบอนุญาต และต้นกำเนิดของเอาท์พุต AI เมื่อมีข้อกังวลเกิดขึ้น
  • อนุญาตให้ผู้สร้างเนื้อหาเลือกไม่รับชุดข้อมูลการฝึกอบรมได้อย่างง่ายดาย ปฏิบัติตามคำขอลบออกหรือยกเว้นอย่างรวดเร็ว

สำหรับผู้ใช้ AI ทั่วไป:

  • คัดกรองผลลัพธ์สำหรับข้อความที่อาจลอกเลียนแบบหรือไม่ได้ระบุแหล่งที่มาอย่างละเอียดถี่ถ้วน ก่อนที่จะนำไปใช้งานในวงกว้าง
  • หลีกเลี่ยงการปฏิบัติต่อ AI ในฐานะระบบสร้างสรรค์ที่เป็นอิสระอย่างสมบูรณ์ ให้ผู้ตรวจสอบที่เป็นเจ้าหน้าที่ตรวจสอบเนื้อหาขั้นสุดท้าย
  • Favorite AI ช่วยในการสร้างมนุษย์ในการสร้างเนื้อหาใหม่ทั้งหมดตั้งแต่เริ่มต้น ใช้แบบจำลองในการถอดความหรือแนวคิดแทน
  • ปรึกษาข้อกำหนดในการให้บริการ นโยบายเนื้อหา และมาตรการป้องกันการลอกเลียนแบบของผู้ให้บริการ AI ก่อนใช้งาน หลีกเลี่ยงโมเดลที่ทึบแสง
  • อ้างอิงแหล่งที่มาอย่างชัดเจนหากเนื้อหาที่มีลิขสิทธิ์ปรากฏในผลลัพธ์สุดท้ายแม้จะพยายามอย่างดีที่สุดแล้วก็ตาม อย่านำเสนองาน AI เหมือนต้นฉบับโดยสิ้นเชิง
  • จำกัดการแบ่งปันผลลัพธ์แบบส่วนตัวหรือเป็นความลับจนกว่าจะสามารถประเมินและจัดการความเสี่ยงเรื่องการลอกเลียนแบบเพิ่มเติมได้

กฎระเบียบด้านข้อมูลการฝึกอบรมที่เข้มงวดยิ่งขึ้นอาจได้รับการรับประกัน เนื่องจากแบบจำลองเชิงกำเนิดยังคงแพร่หลายต่อไป ซึ่งอาจเกี่ยวข้องกับการต้องได้รับความยินยอมจากผู้สร้างก่อนที่จะเพิ่มงานของพวกเขาลงในชุดข้อมูล อย่างไรก็ตาม ความรับผิดชอบอยู่ที่ทั้งนักพัฒนาและผู้ใช้ในการใช้หลักปฏิบัติด้านจริยธรรมของ AI ซึ่งเคารพสิทธิ์ของผู้สร้างเนื้อหา

การลอกเลียนแบบใน V6 Alpha ของ Midjourney

หลังจากได้รับการกระตุ้นอย่างจำกัด รุ่น V6 ของ Midjourney นักวิจัยบางคนสามารถสร้างภาพที่เกือบจะเหมือนกันกับภาพยนตร์ที่มีลิขสิทธิ์ รายการทีวี และภาพหน้าจอวิดีโอเกมที่อาจรวมอยู่ในข้อมูลการฝึกอบรม

รูปภาพที่สร้างโดย Midjourney ชวนให้นึกถึงฉากจากภาพยนตร์และวิดีโอเกมชื่อดัง

รูปภาพที่สร้างโดย Midjourney ชวนให้นึกถึงฉากจากภาพยนตร์และวิดีโอเกมชื่อดัง

การทดลองเหล่านี้ยังยืนยันอีกว่าแม้แต่ระบบ Visual AI ที่ล้ำสมัยก็สามารถลอกเลียนแบบเนื้อหาที่ได้รับการคุ้มครองโดยไม่รู้ตัวได้ หากการจัดหาข้อมูลการฝึกอบรมยังคงไม่มีการตรวจสอบ โดยเน้นย้ำถึงความจำเป็นในการเฝ้าระวัง การป้องกัน และการกำกับดูแลของมนุษย์ เมื่อปรับใช้แบบจำลองทั่วไปในเชิงพาณิชย์เพื่อจำกัดความเสี่ยงในการละเมิด

บริษัท AI ตอบสนองต่อเนื้อหาที่มีลิขสิทธิ์

เส้นแบ่งระหว่างความคิดสร้างสรรค์ของมนุษย์กับ AI กำลังเบลอ ทำให้เกิดคำถามด้านลิขสิทธิ์ที่ซับซ้อน งานที่ผสมผสานอินพุตของมนุษย์และ AI อาจมีลิขสิทธิ์เฉพาะในส่วนที่ดำเนินการโดยมนุษย์เท่านั้น

สำนักงานลิขสิทธิ์ของสหรัฐอเมริกาเพิ่งปฏิเสธลิขสิทธิ์ในแง่มุมส่วนใหญ่ของนิยายภาพที่มี AI-มนุษย์ โดยถือว่าศิลปะ AI ไม่ใช่มนุษย์ นอกจากนี้ยังออกคำแนะนำไม่รวมระบบ AI จาก 'ผู้แต่ง' ศาลรัฐบาลกลางยืนยันจุดยืนนี้ในคดีลิขสิทธิ์งานศิลปะของ AI

ในขณะเดียวกัน คดีฟ้องร้องกล่าวหาการละเมิด generative AI เช่น Getty v. Stability AI และศิลปิน v. กลางการเดินทาง/ความเสถียรของ AI แต่หากไม่มี 'ผู้เขียน' ของ AI ก็มีคำถามว่ามีการอ้างสิทธิ์ในการละเมิดหรือไม่

เพื่อเป็นการตอบสนอง บริษัท AI รายใหญ่ เช่น Meta, Google, Microsoft และ Apple แย้งว่าพวกเขาไม่ควรต้องมีใบอนุญาตหรือจ่ายค่าลิขสิทธิ์เพื่อฝึกโมเดล AI เกี่ยวกับข้อมูลที่มีลิขสิทธิ์

ต่อไปนี้เป็นบทสรุปข้อโต้แย้งที่สำคัญจากบริษัท AI รายใหญ่ในการตอบสนองต่อกฎลิขสิทธิ์ใหม่ของสหรัฐอเมริกาที่เกี่ยวข้องกับ AI โดยมีการอ้างอิง:

Meta ระบุ การกำหนดใบอนุญาตในขณะนี้จะทำให้เกิดความสับสนวุ่นวายและให้ประโยชน์แก่ผู้ถือลิขสิทธิ์เพียงเล็กน้อย.

Google การเรียกร้อง การฝึกอบรม AI นั้นคล้ายคลึงกับการกระทำที่ไม่ละเมิดเช่นการอ่านหนังสือ (กูเกิล, 2022).

ไมโครซอฟท์ เตือน การเปลี่ยนแปลงกฎหมายลิขสิทธิ์อาจทำให้นักพัฒนา AI รายเล็กเสียเปรียบ.

Apple ต้องการที่จะ ลิขสิทธิ์รหัสที่สร้างโดย AI ควบคุมโดยนักพัฒนามนุษย์.

โดยรวมแล้ว บริษัทส่วนใหญ่ไม่เห็นด้วยกับข้อบังคับการออกใบอนุญาตใหม่ และลดความกังวลเกี่ยวกับระบบ AI ที่สร้างงานที่ได้รับการคุ้มครองโดยไม่ต้องระบุแหล่งที่มา อย่างไรก็ตาม จุดยืนนี้เป็นที่ถกเถียงกันเนื่องจากการฟ้องร้องและการถกเถียงเรื่องลิขสิทธิ์ AI เมื่อเร็ว ๆ นี้

เส้นทางสู่นวัตกรรม AI ที่สร้างอย่างมีความรับผิดชอบ

ในขณะที่โมเดลกำเนิดอันทรงพลังเหล่านี้ยังคงก้าวหน้าต่อไป การเสียบปลั๊กความเสี่ยงของการลอกเลียนแบบถือเป็นสิ่งสำคัญสำหรับการยอมรับในกระแสหลัก จำเป็นต้องมีแนวทางแบบหลายทาง:

  • การปฏิรูปนโยบายเกี่ยวกับความโปร่งใสของข้อมูลการฝึกอบรม การออกใบอนุญาต และความยินยอมของผู้สร้าง
  • เทคโนโลยีการตรวจจับการลอกเลียนแบบที่แข็งแกร่งยิ่งขึ้นและการกำกับดูแลภายในโดยนักพัฒนา
  • ผู้ใช้ตระหนักถึงความเสี่ยงมากขึ้นและการยึดมั่นในหลักการด้านจริยธรรมของ AI
  • ชัดเจนตัวอย่างทางกฎหมายและกฎหมายกรณีเกี่ยวกับปัญหาลิขสิทธิ์ AI

ด้วยการป้องกันที่เหมาะสม การสร้างสรรค์ที่ได้รับความช่วยเหลือจาก AI ก็สามารถเจริญรุ่งเรืองอย่างมีจริยธรรมได้ แต่ความเสี่ยงจากการลอกเลียนแบบที่ไม่ได้รับการตรวจสอบอาจบ่อนทำลายความไว้วางใจของสาธารณชนได้อย่างมาก การแก้ไขปัญหานี้โดยตรงถือเป็นกุญแจสำคัญในการตระหนักถึงศักยภาพในการสร้างสรรค์อันยิ่งใหญ่ของ generative AI ในขณะเดียวกันก็เคารพสิทธิ์ของผู้สร้าง การบรรลุความสมดุลที่เหมาะสมจะต้องเผชิญหน้ากับจุดบอดของการลอกเลียนแบบที่สร้างไว้ในธรรมชาติของโครงข่ายประสาทเทียมอย่างแข็งขัน แต่การทำเช่นนั้นจะช่วยให้มั่นใจได้ว่าโมเดลที่ทรงพลังเหล่านี้จะไม่บ่อนทำลายความเฉลียวฉลาดของมนุษย์ที่พวกเขาตั้งเป้าที่จะเพิ่มพูน

ฉันใช้เวลาห้าปีที่ผ่านมาหมกมุ่นอยู่กับโลกแห่งการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่น่าสนใจ ความหลงใหลและความเชี่ยวชาญของฉันทำให้ฉันมีส่วนร่วมในโครงการวิศวกรรมซอฟต์แวร์ที่หลากหลายกว่า 50 โครงการ โดยเน้นเฉพาะที่ AI/ML ความอยากรู้อยากเห็นอย่างต่อเนื่องของฉันยังดึงฉันไปสู่การประมวลผลภาษาธรรมชาติ ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม