มุมมองของ Anderson
แม้แต่ AI พื้นฐานก็สามารถเขียนข่าวที่มีความน่าเชื่อถือได้แล้ว

การวิจัยใหม่บ่งชี้ว่าแม้แต่โมเดล AI ขนาดเล็กท้องถิ่นก็สามารถเขียนข่าวที่ผู้คนไม่สามารถแยกแยะจากข่าวจริงได้ โดยตรงกับระบบชั้นนำ และทำให้ผู้อ่านไม่สามารถบอกได้ว่าใครเป็นผู้เขียน
ตามการวิจัยร่วมระหว่างเยอรมนีและฝรั่งเศส ผู้คนไม่สามารถบอกได้ว่าบทความข่าวถูกเขียนโดย AI หรือมนุษย์ – แม้แต่เมื่อถูกเขียนโดยโมเดลโอเพ่นซอร์สที่สามารถดาวน์โหลดและรันบนคอมพิวเตอร์เดสก์ท็อประดับเฉลี่ย
ในอีกอาการหนึ่งที่บ่งชี้ว่า AI ขนาดเล็กกำลังเพิ่มขึ้น การสำรวจ 2,318 การตัดสินจาก 1,054 ผู้เข้าร่วมในพอร์ทัลวิจัยทางวิชาการที่อุทิศตนพบว่าผู้อ่านไม่สามารถระบุถึงที่มาของบทความได้ดีกว่าระดับโอกาส โดยไม่คำนึงถึงว่าบทความนั้นถูกสร้างโดยโมเดลที่มีพารามิเตอร์ขนาดเล็ก เช่น Mistral และ Llama variants:

คะแนนเฉลี่ยของแหล่งที่มาและความถูกต้องสำหรับ LLMs ที่ทดสอบ GPT-4o มี 200 พารามิเตอร์亿 แต่ไม่เกิน 7B พารามิเตอร์ของโมเดลขนาดเล็ก ที่ทดสอบสำหรับการศึกษานี้ ได้แก่ Gemma 7B, Phi-3 Mini, LLaMA-2 13B, Mistral 7B, GPT-4o และ GPT-3.5 แหล่งที่มา
ผู้เขียนกลับมาสู่หัวข้อที่พวกเขาตรวจสอบครั้งแรกใน การเปิดตัวปี 2024 บุญหรือคำสาป? การสำรวจเกี่ยวกับผลกระทบของ AI ที่สร้างขึ้นต่อข่าวปลอม ผลการวิจัยเองเป็นผลลัพธ์ใหม่ที่เผยแพร่จากโครงการที่ประกาศครั้งแรกใน เดือนมกราคม และใช้เฟรมเวิร์ก JudgeGPT ของผู้เขียนเอง
พลังเบา
เรียกชื่อว่า มนุษย์สามารถบอกได้หรือไม่? การศึกษาทางการรับรู้ของมนุษย์เกี่ยวกับข่าวที่สร้างโดย LLM และมาจากนักวิจัยสามคนจากมหาวิทยาลัยวิทยาศาสตร์ประยุกต์แฟรงก์เฟิร์ต และหน่วยวิจัย IRISA ที่น็องต์ การศึกษใหม่ นี้มีการแบ่งแยกที่สำคัญระหว่าง ‘ข่าวปลอม’ และ ‘ข่าวที่เขียนโดย AI’ (เนื่องจากข่าวปลอมสามารถเขียนโดยมนุษย์หรือ AI ได้ และทั้งสองแง่มุมไม่จำเป็นต้องเป็นของเดียวกัน)
อย่างไรก็ตาม สิ่งที่น่าสนใจที่สุดอาจเป็นข้อสรุปของเอกสารว่าโมเดลขนาดเล็ก รวมถึง Mistral 7B และ Gemma 7B สามารถต่อสู้กับโมเดล ChatGPT (4o) ที่มี 200 พารามิเตอร์亿 ได้ด้วยความมั่นใจ โดยมีเพียง 7 พารามิเตอร์亿:
‘โมเดลที่มีน้ำหนักเปิดที่มีพารามิเตอร์ขนาดเล็กถึง 7B สร้างข้อความที่ได้รับการจัดอันดับไม่แตกต่างจาก GPT-4o โดยบ่งชี้ว่าความสามารถในการสร้างข้อความที่ไม่สามารถแยกแยะได้ไม่ได้ถูกจำกัดไว้เฉพาะโมเดลระดับแนวหน้าเท่านั้น’
อย่างไรก็ตาม ‘ข่าวที่สร้างโดย AI’ สามารถแสดงถึงการทำงานร่วมกันระหว่างมนุษย์และ AI ได้หลายรูปแบบ ตั้งแต่การตรวจสอบการสะกดไปจนถึงการยอมจำนนในการทำงานเต็มรูปแบบ และการศึกษานี้ไม่ได้ระบุอย่างชัดเจนว่าประเภทใดของเนื้อหาที่สร้างโดย AI ถูกสร้างขึ้นสำหรับการทดสอบ (แม้ว่าจะอธิบายวิธีการสร้างมัน – ดูรายละเอียดด้านล่าง)
วิธีการ
สำหรับผู้เข้าร่วมที่มีส่วนร่วมในแพลตฟอร์ม JudgeGPT แต่ละชิ้นส่วนของข่าวจะถูกประเมินโดยใช้เฟรมเวิร์กแบบคู่แกน โดยที่พวกเขาให้คะแนนสามคะแนนอิสระบนสไลด์ 0-100 ที่ต่อเนื่องกัน:

อินเทอร์เฟซผู้ใช้ JudgeGPT ที่ผู้ให้คะแนนประเมินวัสดุตามการกำหนดแหล่งที่มา; ความถูกต้อง; และความคุ้นเคยของหัวข้อ โปรดอ้างอิงเอกสารต้นฉบับสำหรับการแก้ไขความละเอียด
การประเมินแหล่งที่มา จับได้ว่าข้อความดูเหมือนจะถูกเขียนโดยเครื่องจักรหรือมนุษย์; การประเมินความถูกต้อง ว่ามันถูกมองว่าเป็นของปลอมหรือแท้จริง; และ ความคุ้นเคยของหัวข้อ ว่าผู้อ่านรู้จักหัวข้อนั้นได้ดีเพียงใด
สเกลต่อเนื่องถูกใช้แทน สเกล Likert เพื่อจับระดับความแน่นอนได้แม่นยำยิ่งขึ้น และเพื่อสนับสนุนการวิเคราะห์ทางสถิติ รวมถึง สหสัมพันธ์ของ Pearson และ การรวมกลุ่ม
ชิ้นส่วนข้อความที่สร้างโดยเครื่องจักรถูกสร้างโดยเฟรมเวิร์ก RogueGPT ของผู้เขียน ซึ่งเป็นสถาปัตยกรรมที่ให้อาหารสำหรับ JudgeGPT RogueGPT จัดการการมีส่วนร่วมจากโมเดลภาษาขนาดใหญ่ (LLMs) หกรายการ: ChatGPT-4; ChatGPT-3.5; ChatGPT-4o; LLaMA-2 13B; Gemma 7B; และ Mistral 7B
การกระตุ้นที่ใช้แบบ Persona ถูกใช้ในการสร้างข้อความ และการสร้าง AI ถูกยึดเหนี่ยวโดยหัวข้อข่าวจริง และถูกตรวจสอบความถูกต้องโดยมนุษย์
ในทางกลับกัน ชิ้นส่วนข้อความที่เขียนโดยมนุษย์ถูกตัวอย่างจาก ‘สำนักข่าวที่มีชื่อเสียง’ และ ‘ฐานข้อมูลข้อมูลที่ไม่ระบุ’
ผู้เขียนสังเกตเห็นว่า:
‘ชุดข้อมูลมีความเอนเอียงโดยเจตนาไปที่ชิ้นส่วนที่มาจากเครื่องจักร (∼98%) โดยมีรายการจากมนุษย์ทำหน้าที่เป็นเครื่องหมายการปรับเทียบ’
‘การออกแบบนี้สะท้อนถึงจุดมุ่งเน้นของการศึกษาที่มีต่อการเปลี่ยนแปลงภายใน AI (ระหว่างโมเดล) มากกว่าการเปรียบเทียบระหว่างมนุษย์และ AI; ผู้เข้าร่วมไม่ได้รับแจ้งเกี่ยวกับอัตราฐาน และผลการตรวจจับที่ใกล้เคียงกัน (∼98%) ยังคงอยู่เมื่อวิเคราะห์จากชุดย่อยที่มาจากมนุษย์เท่านั้น’
ผู้เข้าร่วมให้ความยินยอมโดยแจ้งให้ทราบและกรอกแบบสอบถามทางประชากรศาสตร์ที่ครอบคลุมอายุ การศึกษา ทัศนคติทางการเมือง และความคุ้นเคยกับ AI หลังจากนั้นพวกเขาก็ประเมินลำดับของชิ้นส่วนข่าว
แต่ละคนตรวจสอบรายการ 5-87 รายการ โดยมีค่าเฉลี่ย 12 รายการ และลำดับการนำเสนอถูกสุ่ม และการกำหนดแบบจำลองถูกสมดุลระหว่างผู้เข้าร่วม เพื่อลดอคติ แพลตฟอร์มบันทึกคะแนนสไลด์สามคะแนนพร้อมกับเวลาตอบกลับและตัวระบุ匿名 ทำให้สามารถเชื่อมโยงการตัดสินแต่ละรายการกับปัจจัยพื้นหลังได้
ผู้เขียนพยายามชี้ให้เห็นว่ากลุ่มตัวอย่างเอียงไปทางผู้เข้าร่วมที่มีการศึกษาระดับมหาวิทยาลัยในยุโรป โดยมี 68% จบการศึกษาระดับมหาวิทยาลัย และ 74% อาศัยอยู่ในยุโรป – อคติที่เอกสารระบุว่าเป็นข้อจำกัดสำหรับการสรุปผลในวงกว้าง
การทดสอบ
การทดสอบแบ่งออกเป็นห้าประเภท: การแยกความแตกต่างระหว่างข้อความที่สร้างโดยเครื่องจักรและข้อความที่เขียนโดยมนุษย์; การเปรียบเทียบการตรวจจับระหว่าง LLMs ที่แตกต่างกัน; การตรวจสอบผลกระทบของความเชี่ยวชาญในโดเมนเทียบกับทัศนคติทางการเมืองต่อความแม่นยำ; การระบุกลยุทธ์การตอบสนองที่แตกต่างกันในผู้เข้าร่วม; และการติดตามว่าความแม่นยำเปลี่ยนแปลงไปอย่างไรเมื่อมีการประเมินซ้ำๆ เนื่องจาก ความเหนื่อยล้า:
<img class=" wp-image-409104" src="https://www.unite.ai/wp-content/uploads/2026/04/table-1-2.jpg" alt="สรุปผลการค้นพบหลักห้าประการจาก 2,318 การตัดสินจาก 1,054 ผู้เข้าร่วม โดยแสดงให้เห็นว่าการตรวจจับข้อความที่เขียนโดย AI ของมนุษย์ยังคงอยู่ที่ระดับโอกาสทั่วทั้งโมเดลที่แตกต่างกัน และความแม่นยำมีความสัมพันธ์กับความเชี่ยวชาญในโดเมนมากกว่าทัศนคติทางการเมือง ผู้เข้าร่วมรวมตัวกันเป็นโปรไฟล์ความเชื่อถือที่แตกต่างกัน และประสิทธิภาพลดลงหลังจากประมาณ 30 การประเมินเนื่องจากความเหนื่อยล้าทางจิต
การทดสอบไม่พบความแตกต่างที่สำคัญเหนือระดับโอกาสในคะแนนแหล่งที่มาระหว่างเงื่อนไข:
<img class=" wp-image-409105" src="https://www.unite.ai/wp-content/uploads/2026/04/figure-2-3.jpg" alt="การกระจายคะแนนแหล่งที่มาและความถูกต้องสำหรับชิ้นส่วนที่มาจากเครื่องจักรและชิ้นส่วนที่มาจากมนุษย์แสดงให้เห็นถึงการ重叠อย่างมีนัยสำคัญ โดยไม่มีการแบ่งแยกที่มีความหมายระหว่างทั้งสองเงื่อนไข และการทดสอบทางสถิติ – ซึ่งบ่งชี้ว่าผู้เข้าร่วมไม่สามารถแยกแยะข้อความที่สร้างโดย AI จากข้อความที่เขียนโดยมนุษย์ได้อย่างน่าเชื่อถือ
สำหรับด้านที่สอง ตามที่แสดงในแผนภูมิในตอนต้นของบทความ การตรวจจับที่ล้มเหลวไม่แตกต่างกันระหว่างโมเดล เนื่องจากการผลิตจาก LLMs ทั้งหมดรวมกันอยู่ที่ระดับโอกาส โดยไม่มีความแตกต่างที่สำคัญระหว่างพวกมัน แม้แต่ระบบขนาดเล็กแบบเปิดน้ำหนัก เช่น Mistral 7B และ Gemma 7B ก็ได้รับการจัดอันดับไม่แตกต่างจาก GPT-4o ซึ่งบ่งชี้ว่าข้อความที่ไม่สามารถแยกแยะได้ระหว่างมนุษย์และ AI อาจไม่จำกัดอยู่เฉพาะโมเดลที่ใหญ่ที่สุดเท่านั้น
สำหรับด้านที่สาม ความแม่นยำมีความสัมพันธ์กับความเชี่ยวชาญในโดเมนมากกว่าทัศนคติทางการเมือง เนื่องจากการคุ้นเคยกับข่าวปลอมสัมพันธ์กับการตัดสินที่ดีกว่า ในขณะที่ทัศนคติทางการเมืองไม่มีผลกระทบอย่างมีนัยสำคัญ ซึ่งบ่งชี้ว่าความสามารถในการวิเคราะห์ที่ได้รับการฝึกฝนมาอาจมีความสำคัญมากกว่าความคิดเห็น

ผลการวิจัยที่เกี่ยวข้องกับการสืบค้นแนวที่สามแสดงให้เห็นว่าทัศนคติทางการเมืองไม่มีผลกระทบอย่างมีนัยสำคัญต่อการกำหนดแหล่งที่มาหรือการให้คะแนนความถูกต้อง ในขณะที่การคุ้นเคยกับข่าวปลอมสัมพันธ์กับความแม่นยำที่สูงขึ้นในทั้งสองแกน โปรดอ้างอิงเอกสารต้นฉบับสำหรับการแก้ไขความละเอียด
การค้นพบครั้งที่สี่แสดงให้เห็นว่าผู้เข้าร่วมรวมตัวกันเป็นกลุ่มที่มีกลยุทธ์การตอบสนองที่แตกต่างกันสองกลุ่มที่เรียกว่า ‘นักวิพากษ์วิจารณ์’ – ผู้ที่มอบความไว้วางใจต่ำให้กับเนื้อหาทั้งหมดโดยไม่คำนึงถึงที่มา – และ ‘ผู้เชื่อ’ – ผู้ที่รักษาความไว้วางใจในระดับสูงขึ้น
สุดท้าย ในด้านที่ห้า การวิเคราะห์การประเมินตามลำดับแสดงให้เห็นว่าผู้เข้าร่วมเริ่มดีขึ้นในงานนี้ โดยความแม่นยำที่ดีขึ้นในประมาณ 15-20 การประเมินแรกๆ เมื่อพวกเขากำลังปรับตัวเข้ากับรูปแบบ:

ค่าเฉลี่ยการเคลื่อนไหวของการกำหนดแหล่งที่มาและคะแนนความถูกต้องตลอดลำดับการประเมินของผู้เข้าร่วม แสดงให้เห็นถึงระยะการปรับปรุงที่สั้นในตอนต้น เมื่อผู้ใช้ดูเหมือนจะปรับตัวเข้ากับงานในช่วง 15-20 รายการแรก ตามด้วยการลดลงอย่างต่อเนื่องในทั้งสองวัดหลังจากประมาณ 30 การประเมิน โปรดอ้างอิงเอกสารต้นฉบับสำหรับการแก้ไขความละเอียด
อย่างไรก็ตาม ผลกระทบนี้มีระยะเวลาสั้น และประสิทธิภาพเริ่มลดลงหลังจากประมาณ 30 รายการ โดยผู้เข้าร่วมมีแนวโน้มที่จะกลายเป็นการตอบกลับแบบเริ่มต้น – ลักษณะที่ถูกตีความว่าเป็นความเหนื่อยล้าทางจิต
สิ่งนี้อาจแสดงให้เห็นถึงหลักฐานเชิงประจักษ์ที่ว่า เมื่อถึงจุดหนึ่ง เราอาจมีแนวโน้มที่จะกลายเป็นการตอบกลับแบบเริ่มต้น – โดยสันนิษฐานว่าข่าวที่เราเห็นอาจเป็น AI และ/หรือปลอม โดยไม่จำเป็นต้องเป็นเช่นนั้น
ผู้เขียนชี้ให้เห็นว่าความล้มเหลวในการตัดสินของมนุษย์ที่แสดงในผลการวิจัยบ่งชี้ว่าเราอาจต้องถ่ายโอนเรื่องนี้ไปยังเทคโนโลยีหลักฐานการรับรองทางคрипโตกราฟิก เช่น C2PA ของ Adobe
สรุป
ด้านที่น่ากังวลของเอกสารนี้คือเครือข่ายการสนับสนุนโครงการและเอกสารที่ผู้เขียนหรือบางส่วนของผู้เขียนได้สร้างหรือมีส่วนร่วม และจะน่าสนใจถ้าเราสามารถศึกษาตัวอย่างของข้อความที่สร้างโดย AI และมนุษย์ที่ผลิตผลลัพธ์เหล่านี้เพื่อทำความเข้าใจลักษณะของการผลิตที่ใช้ในการทดสอบ
อย่างไรก็ตาม น่าสนใจที่ได้ยินว่าโมเดลที่มีน้ำหนักเปิดและโอเพ่นซอร์สสามารถเทียบได้กับโมเดล API ที่มีประสิทธิภาพสูง เช่น ซีรีส์ ChatGPT – หรือว่างานที่ทำอาจไม่ยากเกินไป และโมเดล 200 พารามิเตอร์亿 อาจเป็นการโอเวอร์คิลสำหรับงานเหล่านี้ เราต้องการทราบเพิ่มเติมเกี่ยวกับตัวอย่างข้อความที่สร้างโดย AI และมนุษย์ที่ใช้ในการทดสอบเพื่อตอบคำถามนี้
ในระหว่างนี้ ตามเว็บไซต์ canirun.ai Mistral 7B (ซึ่งใกล้เคียงกับ ChatGPT-4o ในการทดสอบ) ‘ทำงานได้ดี’ บน NVIDIA RTX 3080 ที่มี 16GB ของ VRAM และ ทำงาน ‘ดี’ บน 3060 ที่มี 6GB ของ VRAM – ไม่ใช่การ์ดจอใหม่หรือที่ดีที่สุดในขณะนี้* ดังนั้นใครก็ตามที่ต้องการสร้างวิธีการส่งตัวอย่างของตนเองสามารถเข้าร่วมการทดลองเหล่านี้ได้
* Gemma 7B ไม่ได้แสดงรายการในเว็บไซต์
เผยแพร่ครั้งแรกวันพฤหัสบดี 9 เมษายน 2569












