ปัญญาประดิษฐ์

โมเดล AI ที่ดีที่สุดกำลังหลงทางในเอกสารยาว

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

การศึกษใหม่จากนักวิจัยที่ LMU Munich, Munich Center for Machine Learning และ Adobe Research ได้เปิดเผยจุดอ่อนในโมเดลภาษา AI: พวกมันพยายามที่จะเข้าใจเอกสารยาวในทางที่คุณอาจตกใจ การค้นพบของทีมวิจัยแสดงให้เห็นว่าแม้แต่โมเดล AI ที่ทันสมัยที่สุดก็มีปัญหาในการเชื่อมโยงสารสนเทศเมื่อพวกมันไม่สามารถพึ่งพาการจับคู่คำที่ง่ายได้

ปัญหาเชิงซ่อนเร้นที่มีอยู่ในทักษะการอ่านของ AI

ลองนึกภาพว่าคุณกำลังพยายามค้นหาข้อมูลเฉพาะในเอกสารวิจัยที่ยาว คุณอาจจะ扫ผ่านมันโดยการสร้างความเชื่อมโยงทางจิตระหว่างส่วนต่างๆ เพื่อรวบรวมข้อมูลที่คุณต้องการ โมเดล AI จำนวนมากกลับไม่ทำงานในแบบนี้เลย แทนที่จะพึ่งพาการค้นหาคำที่ตรงกันอย่างง่ายๆ เช่นการใช้ Ctrl+F บนคอมพิวเตอร์ของคุณ

ทีมวิจัยได้พัฒนาเกณฑ์มาตรฐานใหม่ที่เรียกว่า NOLIMA (No Literal Matching) เพื่อทดสอบโมเดล AI ต่างๆ ผลการวิจัยแสดงให้เห็นว่าเมื่อโมเดล AI จัดการกับข้อความที่ยาวกว่า 2,000 คำ การทำงานของพวกมันจะลดลงอย่างมาก เมื่อถึง 32,000 คำ – ซึ่งยาวประมาณหนังสือสั้น – โมเดลส่วนใหญ่ทำงานได้เพียงครึ่งหนึ่งของความสามารถปกติ ซึ่งรวมถึงการทดสอบโมเดลหลักๆ เช่น GPT-4o, Gemini 1.5 Pro และ Llama 3.3 70B

ลองพิจารณานักวิจัยด้านการแพทย์ที่ใช้ AI เพื่อวิเคราะห์บันทึกผู้ป่วย หรือทีมกฎหมายที่ใช้ AI เพื่อตรวจสอบเอกสารคดี หาก AI พลาดการเชื่อมโยงที่สำคัญเพราะข้อมูลที่เกี่ยวข้องใช้คำที่แตกต่างจากคำค้นหา ผลที่ตามมาอาจจะสำคัญ

ทำไมการจับคู่คำไม่เพียงพอ

โมเดล AI ปัจจุบันประมวลผลข้อความโดยใช้กลไกที่เรียกว่า attention mechanism ระบบนี้ช่วยให้ AI มุ่งเน้นไปที่ส่วนต่างๆ ของข้อความเพื่อเข้าใจความสัมพันธ์ระหว่างคำและแนวคิด เมื่อทำงานกับข้อความที่สั้นกว่านี้ ก็ใช้ได้ดี แต่การวิจัยแสดงให้เห็นว่ากลไกนี้จะถูกครอบงำเมื่อข้อความยาวขึ้น โดยเฉพาะอย่างยิ่งเมื่อไม่สามารถพึ่งพาการจับคู่คำที่ตรงกัน

การทดสอบ NOLIMA เปิดเผยข้อจำกัดนี้โดยการถามคำถามให้โมเดล AI ที่ต้องการความเข้าใจบริบทมากกว่าการค้นหาคำที่ตรงกัน ผลการวิจัยนั้นบอกเล่าเรื่องราว เมื่อโมเดลทำงานได้ดีกับข้อความสั้น ความสามารถในการสร้างความเชื่อมโยงเหล่านี้จะลดลงอย่างมากเมื่อข้อความยาวขึ้น แม้แต่โมเดลที่ออกแบบมาเพื่อทำงานการให้เหตุผลก็ได้คะแนนต่ำกว่า 50% เมื่อจัดการกับเอกสารที่ยาวขึ้น

โดยไม่มีการจับคู่คำ AI โมเดลต่างๆ ต่อสู้ที่จะ:

เชื่อมโยงแนวคิดที่เกี่ยวข้องที่ใช้คำศัพท์ที่แตกต่าง
ติดตามเส้นทางการให้เหตุผลหลายขั้นตอน
ค้นหาข้อมูลที่เกี่ยวข้องเมื่อมันปรากฏหลังบริบทหลัก
เพิกเฉยต่อการจับคู่คำที่หลอกลวงในส่วนที่ไม่เกี่ยวข้อง

ตัวเลขเล่าเรื่องราว

ผลการวิจัยแสดงให้เห็นภาพที่ชัดเจนเกี่ยวกับวิธีการที่โมเดล AI จัดการกับข้อความที่ยาวขึ้น โมเดล GPT-4o แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุด โดยยังคงมีประสิทธิภาพจนถึงประมาณ 8,000 โทเค็น (ประมาณ 6,000 คำ) อย่างไรก็ตาม แม้แต่ผู้แสดงผลที่ดีที่สุดนี้ก็แสดงถึงการลดลงอย่างมีนัยสำคัญเมื่อข้อความยาวขึ้น โมเดลส่วนใหญ่ รวมถึง Gemini 1.5 Pro และ Llama 3.3 70B มีการลดลงอย่างรวดเร็วของประสิทธิภาพระหว่าง 2,000 ถึง 8,000 โทเค็น

การลดลงของประสิทธิภาพกลายเป็นเรื่องที่เห็นได้ชัดเจนเมื่อ任务ต้องการการให้เหตุผลหลายขั้นตอน ตัวอย่างเช่น หากโมเดลต้องสร้างความเชื่อมโยงเชิงตรรกะสองขั้นตอน – เช่น การเข้าใจว่าตัวละครอาศัยอยู่ใกล้สถานที่สำคัญ และสถานที่สำคัญนั้นอยู่ในเมืองใด – อัตราความสำเร็จจะลดลงอย่างมาก การวิจัยแสดงให้เห็นว่าการให้เหตุผลหลายขั้นตอนนี้กลายเป็นเรื่องที่ท้าทายมากขึ้นในข้อความที่ยาวกว่า 16,000 โทเค็น แม้จะใช้เทคนิคที่ออกแบบมาเพื่อปรับปรุงการให้เหตุผล เช่น Chain-of-Thought prompting.

สิ่งที่ทำให้ผลการวิจัยนี้น่าสนใจเป็นพิเศษคือมันท้าทายคำกล่าวอ้างเกี่ยวกับความสามารถของโมเดล AI ในการจัดการบริบทที่ยาว ในขณะที่โมเดลหลายรุ่นโฆษณาว่าสามารถรองรับหน้าต่างบริบทที่กว้าง แต่เกณฑ์มาตรฐาน NOLIMA แสดงให้เห็นว่าความเข้าใจที่มีประสิทธิภาพจะลดลงอย่างรวดเร็วก่อนที่จะถึงขีดจำกัดที่เป็นไปได้

Source: Modarressi et al.

เมื่อ AI พลาดป่าไปตามต้นไม้

ข้อจำกัดเหล่านี้มีผลกระทบอย่างจริงจังต่อวิธีการที่เราสามารถใช้ AI ในการประยุกต์ใช้จริง ลองพิจารณาระบบ AI กฎหมายที่ค้นหาในคดีกฎหมาย มันอาจพลาดหลักการสำคัญเพียงเพราะใช้คำศัพท์ที่แตกต่างจากคำค้นหา ระบบอาจมุ่งเน้นไปที่คดีที่ไม่เกี่ยวข้องซึ่งเกิดขึ้นโดยใช้คำที่เหมือนกับคำค้นหา

ผลกระทบต่อการค้นหาและการวิเคราะห์เอกสารนั้นเป็นเรื่องที่น่ากังวลเป็นพิเศษ ระบบการค้นหาที่ได้รับการเพิ่มประสิทธิภาพด้วย AI มักจะพึ่งพาเทคนิคที่เรียกว่า Retrieval-Augmented Generation (RAG). แม้ว่าระบบเหล่านี้จะสามารถค้นหาเอกสารที่มีข้อมูลที่ถูกต้องได้ แต่ AI อาจล้มเหลวที่จะรับรู้ถึงความเกี่ยวข้องหากคำศัพท์แตกต่างจากคำค้นหา แทนที่จะหันไปหาสิ่งที่ไม่เกี่ยวข้องที่มีลักษณะผิวเผินเหมือนกับคำค้นหา

สำหรับผู้ใช้ AI เหล่านี้ ผลการวิจัยแนะนำให้พิจารณาหลายประการ:

ประการแรก, คำถามและเอกสารที่สั้นกว่าจะให้ผลลัพธ์ที่น่าเชื่อถือมากกว่า เมื่อทำงานกับเอกสารที่ยาวกว่า การแบ่งออกเป็นส่วนๆ ที่มีจุดมุ่งหมายอาจช่วยรักษาความสามารถของ AI

ประการที่สอง, ผู้ใช้ควรระมัดระวังเป็นพิเศษเมื่อขอให้ AI สร้างความเชื่อมโยงระหว่างส่วนต่างๆ ของเอกสารยาว การวิจัยแสดงให้เห็นว่าโมเดล AI ต่อสู้มากที่สุดเมื่อต้องประกอบข้อมูลจากส่วนต่างๆ โดยเฉพาะอย่างยิ่งเมื่อความเชื่อมโยงไม่ชัดเจนผ่านคำศัพท์ที่ใช้ร่วมกัน

ประการที่สาม, ข้อจำกัดเหล่านี้เน้นย้ำถึงความสำคัญของการดูแลของผู้ใช้ AI ในขณะที่ AI เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการประมวลผลและวิเคราะห์ข้อความ แต่ไม่ควรพึ่งพา AI เป็นทางเดียวในการระบุความเชื่อมโยงที่สำคัญในเอกสารที่ซับซ้อนหรือยาว

ผลการวิจัยเหล่านี้เป็นคำเตือนให้เราเข้าใจว่าแม้จะมีการพัฒนาที่รวดเร็วในเทคโนโลยี AI แต่ระบบเหล่านี้ยังคงประมวลผลข้อมูลในลักษณะที่แตกต่างจากมนุษย์ การเข้าใจข้อจำกัดเหล่านี้เป็นสิ่งสำคัญสำหรับการใช้เครื่องมือ AI อย่างมีประสิทธิภาพและรู้ว่าเมื่อใดที่การตัดสินใจของมนุษย์ยังคงจำเป็น

สิ่งที่จะเกิดขึ้นต่อไป

การเข้าใจข้อจำกัดของโมเดล AI ในการประมวลผลข้อความที่ยาวเปิดโอกาสให้เราได้พิจารณาถึงอนาคตของการพัฒนา AI การวิจัยเบื้องหลังเกณฑ์มาตรฐาน NOLIMA เปิดเผยว่าแนวทางปัจจุบันของเราในการประมวลผลข้อความ AI อาจต้องการการปรับปรุงอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งในการจัดการข้อมูลข้ามส่วนต่างๆ

วิธีแก้ปัญหาปัจจุบันแสดงให้เห็นถึงความสำเร็จบางส่วน เทคนิค Chain-of-Thought prompting ซึ่งกระตุ้นให้โมเดล AI แบ่งการให้เหตุผลออกเป็นขั้นตอน ช่วยปรับปรุงประสิทธิภาพบ้าง ตัวอย่างเช่น เมื่อใช้เทคนิคนี้ โมเดล Llama 3.3 70B แสดงให้เห็นถึงความสามารถที่ดีขึ้นในการจัดการกับบริบทที่ยาวกว่า อย่างไรก็ตาม วิธีนี้ยังคงไม่เพียงพอเมื่อจัดการกับข้อความที่ยาวกว่า 16,000 โทเค็น ซึ่งบ่งชี้ว่าเราต้องการวิธีแก้ปัญหาที่มีประสิทธิภาพมากกว่านี้

กลไกการให้ความสนใจซึ่งเป็นรากฐานของวิธีการประมวลผลข้อความของโมเดล AI ปัจจุบันต้องถูกพิจารณาใหม่ ลองนึกภาพว่าคุณพยายามสนทนาในห้องที่มีคนเยอะ – การสนทนาที่ยาวขึ้นจะทำให้ยากต่อการรักษาความสำคัญของจุดเด่นที่กล่าวถึงก่อนหน้านี้ โมเดล AI ปัจจุบันต้องเผชิญกับความท้าทายที่คล้ายกัน แต่ในระดับที่ใหญ่กว่ามาก

เมื่อมองไปสู่อนาคต นักวิจัยกำลังสำรวจหลายทิศทางที่มีแนวโน้ม หนึ่งในแนวทางนี้เกี่ยวข้องกับการพัฒนาวิธีใหม่ๆ สำหรับ AI ในการจัดระเบียบและจัดลำดับความสำคัญของข้อมูลในข้อความยาว โดยพ้นจากการค้นหาคำที่ตรงกันไปสู่การเข้าใจความเชื่อมโยงเชิงแนวคิดที่ลึกกว่า ซึ่งอาจทำงานเหมือนกับวิธีที่มนุษย์สร้างแผนที่จิตของข้อมูล โดยเชื่อมโยงแนวคิดตามความหมายมากกว่าคำศัพท์ที่ใช้ร่วมกัน

พื้นที่การพัฒนาอีกแห่งมุ่งเน้นไปที่การปรับปรุงวิธีการที่โมเดล AI จัดการกับสิ่งที่นักวิจัยเรียกว่า “latent hops” – ขั้นตอนเชิงตรรกะที่จำเป็นในการเชื่อมโยงสารสนเทศที่แตกต่างกัน โมเดลปัจจุบันต่อสู้กับการเชื่อมโยงเหล่านี้ โดยเฉพาะอย่างยิ่งในข้อความที่ยาวกว่า แต่สถาปัตยกรรมใหม่อาจช่วยเชื่อมช่องว่างนี้

สำหรับผู้ที่ทำงานกับเครื่องมือ AI ในปัจจุบัน ผลการวิจัยเหล่านี้แนะนำแนวทางปฏิบัติหลายประการ:

พิจารณาแบ่งเอกสารที่ยาวออกเป็นส่วนๆ ที่มีจุดมุ่งหมายเมื่อทำงานกับ AI ซึ่งช่วยสร้างส่วนต่างๆ ที่รักษาความสำคัญของบริบทไว้ ตัวอย่างเช่น หากคุณกำลันวิเคราะห์เอกสารวิจัย คุณอาจเก็บส่วนวิธีการและผลลัพธ์ไว้ด้วยกันเพราะมักจะมีข้อมูลที่เกี่ยวข้อง

เมื่อขอให้ AI วิเคราะห์ข้อความที่ยาวกว่า ควรชี้แจงให้ชัดเจนเกี่ยวกับความเชื่อมโยงที่คุณต้องการให้ AI สร้าง แทนที่จะถามคำถามทั่วไป ควรชี้นำ AI ไปยังความสัมพันธ์เฉพาะที่คุณสนใจ ซึ่งช่วยชดเชยข้อจำกัดของโมเดลในการสร้างความเชื่อมโยงเหล่านี้โดยอิสระ

สิ่งสำคัญที่สุด คือ ควรยังคงมีความคาดหวังที่สมจริงเกี่ยวกับความสามารถของ AI กับข้อความที่ยาว ในขณะที่เครื่องมือเหล่านี้สามารถเป็นประโยชน์อย่างมากสำหรับงานหลายอย่าง แต่ไม่ควรใช้ AI เป็นตัวแทนการวิเคราะห์ของมนุษย์ในการจัดการเอกสารที่ซับซ้อนหรือยาว ความสามารถของมนุษย์ในการรักษาบริบทและสร้างความเชื่อมโยงเชิงแนวคิดในข้อความที่ยาวยังคงเหนือกว่าความสามารถของ AI ปัจจุบัน

เส้นทางไปสู่การพัฒนา AI ในพื้นที่นี้เป็นทั้งท้าทายและน่าตื่นเต้น เมื่อเรามีความเข้าใจที่ดีขึ้นเกี่ยวกับข้อจำกัดเหล่านี้ เราสามารถทำงานเพื่อสร้างระบบ AI ที่เข้าใจข้อความที่ยาวจริงๆ แทนที่จะเพียงแค่ประมวลผลมัน จนกว่าวันนั้นจะมาถึง การใช้ AI อย่างมีประสิทธิภาพหมายถึงการทำงานร่วมกับข้อจำกัดปัจจุบันในขณะเดียวกันก็ชื่นชมจุดแข็งของมัน