Connect with us

ChatGPT-5 และ Gemini 2.5 มีการหลอกลวงใน 40% ของคำถามที่ทดสอบในห้องข่าว

มุมมองของ Anderson

ChatGPT-5 และ Gemini 2.5 มีการหลอกลวงใน 40% ของคำถามที่ทดสอบในห้องข่าว

mm
A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

การศึกษาใหม่พบว่า ChatGPT-5 และ Google Gemini มีการหลอกลวงใน 40% ของคำถามที่ทดสอบในห้องข่าว โดยมักสร้างข้อความที่มั่นใจ แต่ไม่มีหลักฐานที่ตรวจสอบได้ Google’s NotebookLM มีอัตราการหลอกลวงที่ดีกว่า โดยมีอัตราเพียง 13% – อัตราที่จะทำให้นักข่าวทุกคนในโลกถูกไล่ออก การศึกษาพบว่าโมเดลเหล่านี้บิดเบือนแหล่งข้อมูลโดยการเปลี่ยนความคิดเห็นเป็นข้อเท็จจริง และการลบการอ้างอิง ทำให้พวกมันเป็นเครื่องมือที่มีความเสี่ยงสำหรับการสื่อสาร ผู้เขียนเรียกร้องให้มีเครื่องมือที่ดีกว่าและเฉพาะเจาะจงสำหรับงานเหล่านี้

 

โมเดลภาษาขนาดใหญ่ได้รับการนำมาใช้อย่างรวดเร็วในวงการหนังสือพิมพ์ในช่วงไม่กี่ปีที่ผ่านมา ในสภาพแวดล้อมที่มีการลดค่าใช้จ่าย งบประมาณ และพนักงานตั้งแต่สื่อออนไลน์ ทำลายประเพณี 200 ปี ในกระบวนการที่ไม่สามารถหยุดยั้งได้ ซึ่งเริ่มต้นในต้นปี 2000

ในความเป็นจริง พื้นที่นี้มีความพร้อมแล้ว เนื่องจากสื่อมวลชนได้ปรับตัวเข้ากับการลดงานผ่าน ‘นวัตกรรม’ ตั้งแต่การ แนะนำการวางแบบดิจิทัล ในทศวรรษ 1980 เช่นเดียวกับความท้าทายก่อนหน้านี้จาก การมาถึงของวิทยุ และ โทรทัศน์

การนำ AI เข้าสู่ห้องข่าวและสถานีสื่อไม่ได้ไร้ปัญหา อย่างไรก็ตาม ในบริบทที่ 55% ของบริษัทต่างๆ ต้องเสียใจ ที่แทนที่มนุษย์ด้วย AI และ Gartner คาดการณ์ ว่าองค์กรจะลดการนำ AI มาใช้อย่างมากภายในสองปี จำนวนหนังสือพิมพ์บางแห่งได้ จ้างนักข่าวกลับมา ที่ถูกแทนที่ด้วย AI เมื่อข้อบกพร่องที่รุนแรงและน่าอายของตัวเลือกการเรียนรู้ของเครื่องจักรกลายเป็นที่ชัดเจน

ความผิดพลาดไม่ใช่แค่ของมนุษย์

แม้ว่า การหลอกลวง จะพิสูจน์แล้วว่าเป็นปัญหาใหญ่สำหรับสาขาที่ต้องการการอ้างอิงที่แม่นยำ (ด้วยความสนใจของสาธารณชนในการล้มเหลวของ AI ใน กฎหมาย, การวิจัย และ สื่อสาร ) การศึกษาใหม่พบว่าโมเดลภาษาขนาดใหญ่ในวงการหนังสือพิมพ์ต้องเผชิญกับความท้าทายที่กว้างกว่าที่คาดไว้

ผู้เขียนประเมิน ChatGPT, Google Gemini และ NotebookLM ในงานที่คล้ายกับการสื่อสาร: โดยใช้เอกสาร 300 ฉบับที่มีเนื้อหาที่เกี่ยวข้องกับการดำเนินคดีและนโยบายของ TikTok ในสหรัฐอเมริกา

นักวิจัยเปลี่ยนแปลงความชัดเจนของคำถามและจำนวนเอกสารที่ให้ แล้ววิเคราะห์ผลลัพธ์โดยใช้ระบบการจำแนกประเภทที่ออกแบบมาเพื่อจับประเภทและความรุนแรงของการหลอกลวง

ในผลลัพธ์ทั้งหมด 30% มีการหลอกลวงอย่างน้อยหนึ่งครั้ง ในขณะที่ ChatGPT และ Gemini แต่ละรายการแสดงอัตราการหลอกลวง 40% – สูงกว่าอัตราการหลอกลวง 13% ของ NotebookLM ถึงสามเท่า

ไม่ใช่การสร้างข้อเท็จจริงหรือหน่วยงาน แต่นักวิจัยสังเกตเห็นว่า ความมั่นใจในการตีความ โมเดลเหล่านี้บ่อยครั้งแสดง ความมั่นใจในการตีความ โดยการเพิ่มการอธิบายที่ไม่ได้รับการสนับสนุนและเปลี่ยนความคิดเห็นที่มีการอ้างอิงเป็นข้อความทั่วไป:

‘โดยรวมแล้ว ข้อผิดพลาดส่วนใหญ่ไม่ได้เกิดจากสิ่งที่ถูกสร้างขึ้นหรือตัวเลข แต่เราเห็น ความมั่นใจในการตีความ – โมเดลเพิ่มการอธิบายที่ไม่ได้รับการสนับสนุนจากแหล่งที่มาและเปลี่ยนความคิดเห็นที่มีการอ้างอิงเป็นข้อความทั่วไป ‘

‘รูปแบบเหล่านี้แสดงให้เห็นถึงความไม่ตรงกันในเชิงอภิปรัชญาโดยพื้นฐาน: ในขณะที่การสื่อสารต้องการการอ้างอิงอย่างชัดเจนสำหรับทุกข้อความ โมเดลภาษาขนาดใหญ่สร้างข้อความที่มีเสียงที่มีอำนาจโดยไม่คำนึงถึงการสนับสนุนหลักฐาน ‘

‘เราขอแนะนำการขยายระบบการจำแนกประเภทการหลอกลวงที่มีอยู่สำหรับการสื่อสารและแย้งว่าเครื่องมือที่มีประสิทธิภาพสำหรับห้องข่าวต้องมีการออกแบบที่บังคับให้มีการอ้างอิงที่ถูกต้องมากกว่าการเพิ่มความคล่องตัว’

การศึกษา ใหม่ ซึ่งเป็นเรื่องที่น่าสนใจและสั้นเพียง 5 หน้า มีชื่อเรื่องว่า ไม่ผิด แต่ไม่จริง: ความมั่นใจของ LLM ในการค้นหาที่อาศัยเอกสาร และมาจากนักวิจัย 3 คนจากมหาวิทยาลัย Northwestern และมหาวิทยาลัย Minnesota

ทฤษฎีและวิธีการ

สาเหตุที่แท้จริงของการหลอกลวงถูกถกเถียงกันในหลายครั้ง แม้ว่าทฤษฎีส่วนใหญ่จะเห็นด้วยว่าคุณภาพของข้อมูลและการกระจายตัวเป็น ปัจจัยที่มีส่วนช่วย ในช่วงการฝึกอบรม แต่ก็มีการเสนอแนะว่า 100% ของการผลิตของ LLM เป็นหลอกลวงโดยพื้นฐาน (ยกเว้นว่าบางส่วนของการหลอกลวงเหล่านั้นเกิดขึ้นพร้อมกับความเป็นจริง)

ผู้เขียนสังเกตเห็น:

‘จากมุมมองทางเทคนิค การหลอกลวงเกิดขึ้นจากความสามารถของ LLM ในการสร้างข้อความที่ตามรูปแบบทั่วไปโดยไม่มีความเข้าใจในความจริง สิ่งนี้ทำให้เกิดการตอบสนองที่มีเสียงที่มีอำนาจซึ่งไม่สะท้อนถึงความเป็นจริง – ตัวอย่างเช่น การหลอกลวงของ LLM ที่สร้างขึ้นมาในเอกสารของศาล

‘และในขณะที่ความสามารถของ LLM เพิ่มขึ้นอย่างมากในช่วง 5 ปีที่ผ่านมา การหลอกลวงยังคงเป็นปัญหา และในบางกรณีเพิ่มขึ้นเมื่อโมเดลมีความสามารถ มากขึ้น และมากขึ้น

สาขาการวิจัยสังเกตเห็นว่ามีการสำรวจหลายวิธีในการลดหรือเข้าใจการหลอกลวงของ LLM ซึ่งมักจะแบ่งออกเป็นสามกลุ่มหลัก: ประการแรก ใน บริบท โมเดลสามารถใช้แหล่งข้อมูลภายนอก เช่น ฐานข้อมูล การรวบรวมเอกสาร หรือเนื้อหาทางเว็บเพื่อสนับสนุนข้อความของพวกเขา

สิ่งนี้ทำงานได้ดีเมื่อเนื้อหามีความน่าเชื่อถือและสมบูรณ์ แต่ช่องว่าง ข้อมูลที่ล้าสมัย หรือข้อมูลที่มีคุณภาพต่ำยังคงทำให้เกิดข้อผิดพลาด และโมเดลยังมีแนวโน้มที่จะสร้างข้อความที่มั่นใจซึ่งไปไกลกว่าแหล่งข้อมูลที่ระบุ

Tik Tok

เพื่อหาวิธีการที่อาจมีประโยชน์สำหรับนักข่าว การศึกษานี้ได้ดำเนินการประเมินเพื่อสะท้อนถึงกระบวนการทำงานของห้องข่าวและมาตรฐาน โดยการหลอกลวงถูกตรวจสอบในบริบทของงานสื่อสารทั่วไป

โมเดลแนวหน้าถูกทดสอบโดยใช้กลยุทธ์การส่งคำถามทั่วไปและการตั้งค่าการยึดเอกสาร เพื่อที่จะวัดความถี่และประเภทของข้อผิดพลาดการหลอกลวงได้ รวมถึงสิ่งที่ข้อผิดพลาดเหล่านั้นหมายถึงการรวม AI เข้ากับห้องข่าว

การวิเคราะห์มุ่งเน้นไปที่การค้นหาที่อาศัยเอกสารที่พบในงานสื่อสารที่ต้องอาศัยการวิจัยและงานสืบสวน ผู้เขียนพยายามรวบรวมเอกสารที่สะท้อนถึงโครงการห้องข่าวขนาดเล็กถึงขนาดกลาง แต่ยังคงใหญ่พอที่จะจับข้อมูลที่ซับซ้อนของการรายงานในโลกแห่งความเป็นจริง

เอกสารถูกเก็บจาก Washington Post, New York Times, ProQuest และ Westlaw โดยมีเอกสารทั้งหมด 300 ฉบับ ประกอบด้วยเอกสารวิชาการ 5 ฉบับ บทความข่าว 150 ฉบับ และเอกสารทางกฎหมาย 145 ฉบับ (โดยมีการรวบรวมเอกสารทั้งหมดให้กับนักวิจัยทางวิชาการผ่าน คลังข้อมูล ของโครงการ)

ผู้เข้าแข่งขัน

มีการทดสอบเครื่องมือ 3 ชิ้น ซึ่งแต่ละชิ้นแสดงถึงแนวทางที่แตกต่างกันในการค้นหาที่อาศัยเอกสาร: ChatGPT‑5 ถูกประเมินโดยใช้ ฟีเจอร์ Projects ซึ่งจำกัดการอัปโหลดเอกสารไว้ที่ 100 ฉบับ; Google Gemini 2.5 Pro สามารถประมวลผลเอกสารทั้ง 300 ฉบับในบริบท (โดยใช้หน้าต่างบริบท 1 ล้านโทเค็นเพื่อดึงเอกสารทั้ง 923,000 โทเค็นโดยตรง); Google NotebookLM ซึ่งมีการดึงอ้างอิงที่มีประสิทธิภาพ มีการทดสอบโดยใช้สมุดบันทึกที่อุทิศให้กับแต่ละตัวอย่าง

แม้ว่าแนวทางในการจัดการเอกสารจะแตกต่างกัน แต่ทั้งสามอย่างนี้แสดงถึงเครื่องมือที่มีอยู่จริงสำหรับนักข่าว และไม่ว่าในกรณีใด รัฐของศิลปะในปัจจุบันคือการทดลองมากกว่าการเป็นเนื้อเดียวกัน โดยมีการเทียบเคียงคุณสมบัติและขอบเขตที่แตกต่างกันในข้อเสนอที่มีอยู่

ข้อมูลและการทดสอบ

ในการทดสอบเบื้องต้นสำหรับ การแพร่กระจายของการหลอกลวง พบว่า 12 ใน 40 การตอบสนองของโมเดลมีการหลอกลวงอย่างน้อยหนึ่งครั้ง โดยมีการเปลี่ยนแปลงที่มีนัยสำคัญระหว่างเครื่องมือ ChatGPT และ Gemini แต่ละรายการสร้างการหลอกลวงใน 40% ของการผลิต ในขณะที่ NotebookLM สร้างการหลอกลวงใน 13% ของกรณี:

อัตราการหลอกลวงโดยรวมสำหรับเครื่องมือแต่ละชิ้น โดยมี Gemini และ ChatGPT ที่สร้างการหลอกลวงในอัตราส่วนสูงสุด

อัตราการหลอกลวงโดยรวมสำหรับเครื่องมือแต่ละชิ้น โดยมี Gemini และ ChatGPT ที่สร้างการหลอกลวงในอัตราส่วนสูงสุด แหล่งที่มา: https://arxiv.org/pdf/2509.25498

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนแสดงความคิดเห็นว่า:

‘สิ่งนี้บ่งชี้ว่า ในขณะที่ส่วนใหญ่ของการตอบสนองไม่มีการหลอกลวง แต่การเลือกเครื่องมือมีผลต่อการหลอกลวงสำหรับเอกสารและชุดคำถามเดียวกัน’

การหลอกลวงไม่เกิดขึ้นเพียงอย่างเดียว ผู้เขียนสังเกตเห็นว่า Gemini มีการหลอกลวงเฉลี่ย 4 ครั้งต่อการหลอกลวงที่มีข้อผิดพลาด NotebookLM มี 3 ครั้ง และ ChatGPT มี 1.5 ครั้ง ส่วนใหญ่มีความรุนแรงปานกลาง แต่ 14% ถูกจัดประเภทว่าเป็น น่ากลัว ในกรณีหนึ่ง ChatGPT สร้างแรงจูงใจในการตอบโต้เบื้องหลังการห้าม TikTok ที่ไม่ปรากฏในแหล่งที่มา:

‘[ใน] คำถามหนึ่ง ChatGPT กล่าวถึงการห้าม TikTok ที่อาจเกิดขึ้นเป็นวิธีการตอบโต้ของนักการเมืองสหรัฐฯ ตอบโต้นโยบายของจีน ซึ่งเป็นการอ้างสิทธิ์ที่ไม่มีอยู่ในเอกสารแหล่งที่มา’

โดยรวมแล้ว 64% ของการหลอกลวงที่มีการตอบสนองแนะนำข้อเท็จจริงที่ไม่ถูกต้องหรือความหลงทาง ซึ่งอาจทำให้เกิดคำถามเกี่ยวกับว่าการใช้ LLM จริงๆ แล้วช่วยประหยัดเวลาในกระบวนการทำงานที่อาศัยข้อมูลประเภทนี้หรือไม่

สรุป

ใครก็ตามที่ได้ทดลองใช้โมเดลทั้งสามที่ศึกษาในเอกสารใหม่นี้จะรู้ว่าแต่ละโมเดลมีข้อดีและข้อเสียที่แตกต่างกัน แม้ว่า NotebookLM จะทำงานได้ดีกว่า ChatGPT หรือ Gemini ในด้านการอ้างอิง แต่ก็อาจพิจารณาว่าได้รับการออกแบบมาโดยเฉพาะสำหรับการทำงานนี้ และยังคงให้อัตราการหลอกลวงที่จะทำให้นักข่าว ผู้วิจัย หรือทนายความส่วนใหญ่ถูกไล่ออก โดยมีการเกิดการหลอกลวงซ้ำๆ

นอกจากนี้ NotebookLM ซึ่งวางตัวเป็นเฟรมเวิร์กการวิจัย ยังคงไม่มีการปรับปรุงด้าน UX ที่ทำให้แพลตฟอร์มอื่นๆ มีความสะดวกในการเขียนมากกว่า

อย่างไรก็ตาม NotebookLM ดูเหมือนจะอ่านเอกสารที่อัปโหลดจริงๆ แทนที่จะล้มลงในนิสัยที่ทำลายล้างของ ChatGPT ในการอนุมานว่าเอกสารที่อัปโหลดอาจพูดอะไรบ้างตามสิ่งที่รู้เกี่ยวกับการกระจายตัวทั่วไปของเอกสารที่คล้ายคลึงกัน มันเป็นการต่อสู้ที่จะทำให้ ChatGPT อ่านเอกสารที่อัปโหลดเต็มรูปแบบ แทนที่จะพึ่งพาเมตาดาต้าหรือการอนุมาน/การหลอกลวงของตนเอง

สำหรับสาขาที่มาตรฐานการอ้างอิงและพิสูจน์เป็นสิ่งสำคัญ เช่น กฎหมาย สื่อสาร และการวิจัยทางวิทยาศาสตร์ ดูเหมือนว่าจะไม่มี การฝึกอบรมที่มีประสิทธิภาพ ใน LLM ที่นำมาใช้ในปัจจุบันที่สามารถปรับปรุงความสามารถที่จำกัดในการดึงและจัดการข้อมูลที่ผู้ใช้ส่ง

ในขณะที่ยังเป็นเช่นนี้ และรอระบบเสริมที่สามารถให้อินเทอร์เฟซที่ดีกว่าสำหรับ LLM มากกว่าคำสั่งระบบหรือการตั้งค่า MCP ทั้งหมดที่ระบบเหล่านี้ผลิตสำหรับภาคส่วนสำคัญเหล่านี้ยังคงต้องตรวจสอบโดย มนุษย์ที่มีค่าใช้จ่ายสูง อันตราย และน่าหงุดหงิด

 

* Google Cloud มีการอธิบายเรื่องนี้อย่างน่าสนใจและครอบคลุม ที่นี่

การเปลี่ยนอ้างอิงแบบอินไลน์ของผู้เขียนให้เป็นลิงก์

เผยแพร่ครั้งแรกวันพุธที่ 1 ตุลาคม 2025 แก้ไขวันพฤหัสบดีที่ 2 ตุลาคม เพื่อแก้ไขข้อผิดพลาดใน TL:DR และแก้ไขข้อผิดพลาดด้านสไตล์ในย่อหน้าแรก

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai