ปัญญาประดิษฐ์

ความสามารถของเอเจนต์ AI ในการวิจัยจริงอยู่ที่ไหน? ด้านในรายงาน Deep Research Bench

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

เมื่อ โมเดลภาษาขนาดใหญ่ (LLMs) พัฒนาอย่างรวดเร็ว ความสามารถของพวกมันในฐานะผู้ช่วยวิจัยที่ทรงพลังก็เพิ่มขึ้นด้วย พวกมันไม่เพียงแต่ตอบคำถามข้อเท็จจริงง่ายๆ เท่านั้น แต่ยังรับมือกับงาน “วิจัยลึก” ที่ต้องใช้เหตุผลหลายขั้นตอน การประเมินข้อมูลที่ขัดแย้งกัน การค้นหาข้อมูลจากทั่วเว็บ และสรุปผลให้เป็นข้อสรุปที่ชัดเจน

ความสามารถที่เกิดขึ้นใหม่นี้ถูกนำมาใช้ภายใต้ชื่อแบรนด์ที่แตกต่างกันโดยห้องปฏิบัติการหลัก – OpenAI เรียกว่า “Deep Research” Anthropic เรียกว่า “การคิดแบบขยาย” ของ Google Gemini มีคุณสมบัติ “ค้นหา + Pro” และ Perplexity ตั้งชื่อว่า “ค้นหาสำหรับมืออาชีพ” หรือ “การวิจัยลึก” แต่ผลิตภัณฑ์เหล่านี้มีประสิทธิภาพอย่างไรในทางปฏิบัติ? รายงานใหม่จาก FutureSearch ที่มีชื่อว่า Deep Research Bench (DRB): การประเมินตัวแทนการวิจัยเว็บ มีการประเมินที่เข้มงวดที่สุดจนถึงปัจจุบัน และผลลัพธ์เผยให้เห็นทั้งความสามารถที่น่าประทับใจและข้อบกพร่องที่สำคัญ

Deep Research Bench คืออะไร?

สร้างโดยทีม FutureSearch Deep Research Bench เป็นมาตรฐานที่สร้างขึ้นอย่างรอบคอบเพื่อประเมินประสิทธิภาพของเอเจนต์ AI ในงานวิจัยหลายขั้นตอนบนเว็บ ซึ่งไม่ใช่คำถามง่ายๆ ที่มีคำตอบที่ชัดเจน แต่สะท้อนถึงความท้าทายที่วุ่นวายและเปิดกว้างที่นักวิเคราะห์ นักกำหนดนโยบาย และนักวิจัยต้องเผชิญในสถานการณ์จริง

มาตรฐานรวม 89 งานที่แตกต่างกันใน 8 หมวดหมู่ เช่น:

ค้นหาตัวเลข: ตัวอย่างเช่น “มีการเรียกคืนอุปกรณ์ทางการแพทย์ Class II ของ FDA กี่ครั้ง?”
ตรวจสอบคำกล่าวอ้าง: ตัวอย่างเช่น “ChatGPT ใช้พลังงานมากกว่า Google Search 10 เท่าหรือไม่?”
รวบรวมข้อมูล: ตัวอย่างเช่น “แนวโน้มงานสำหรับนักพัฒนาซอฟต์แวร์ของสหรัฐฯ ตั้งแต่ปี 2019-2023”

แต่ละประเภทของงานได้รับการออกแบบอย่างรอบคอบพร้อมคำตอบที่ได้รับการยืนยันจากมนุษย์และประเมินโดยใช้ชุดข้อมูลที่ถูกแช่แข็งของหน้าเว็บที่ถูกสแกน ซึ่งเรียกว่า RetroSearch ซึ่งรับประกันความสม่ำเสมอในการประเมินแบบจำลอง โดยหลีกเลี่ยงสถานะที่เปลี่ยนแปลงของเว็บแบบเรียลไทม์

สถาปัตยกรรมเอเจนต์: ReAct และ RetroSearch

ที่ใจกลางของ Deep Research Bench คือสถาปัตยกรรม ReAct ซึ่งย่อมาจาก “Reason + Act” วิธีนี้เลียนแบบวิธีการที่นักวิจัยมนุษย์อาจแก้ไขปัญหา โดยการคิดผ่านงาน การดำเนินการ เช่น การค้นหาเว็บ การสังเกตผลลัพธ์ และการตัดสินใจว่าจะทำซ้ำหรือสรุปผล

ในขณะที่โมเดลก่อนหน้านี้ปฏิบัติตามวงจรนี้อย่างชัดเจน โมเดล “การคิด” ใหม่ๆ มักจะทำให้กระบวนการง่ายขึ้น โดยฝังเหตุผลเข้าไปในกระบวนการของพวกมัน เพื่อให้แน่ใจถึงความสม่ำเสมอในการประเมิน DRB นำเสนอ RetroSearch – เวอร์ชันแบบกำหนดเองและแบบคงที่ของเว็บ แทนที่จะพึ่งพาอินเทอร์เน็ตแบบเรียลไทม์ที่เปลี่ยนแปลงอยู่ตลอดเวลา เอเจนต์จะเข้าถึงคลังข้อมูลเว็บที่ถูกสแกนโดยใช้เครื่องมือ เช่น Serper, Playwright และ ScraperAPI ขนาดของมันคือสิ่งที่น่าประทับใจ: สำหรับงานที่ซับซ้อนสูง เช่น “รวบรวมหลักฐาน” RetroSearch สามารถให้การเข้าถึงหน้าเว็บมากกว่า 189,000 หน้า ทั้งหมดถูกแช่แข็งในเวลา ทำให้เกิดสภาพแวดล้อมทดสอบที่ยุติธรรมและซ้ำได้

เอเจนต์ AI ใดที่มีประสิทธิภาพดีที่สุด?

ในบรรดาผู้เข้าแข่งขันทั้งหมด OpenAI’s o3 เป็นผู้นำ โดยทำคะแนนได้ 0.51 จากคะแนนสูงสุด 1.0 ใน Deep Research Bench แม้ว่าจะดูไม่มากนัก แต่สิ่งสำคัญคือต้องเข้าใจความยากของมาตรฐาน: เนื่องจากความคลุมเครือในคำจำกัดความของงานและการให้คะแนน แม้แต่เอเจนต์ที่สมบูรณ์แบบก็อาจมีคะแนนสูงสุดได้เพียง 0.8 – สิ่งที่นักวิจัยเรียกว่า “เพดานเสียง” ในอีกคำหนึ่ง แม้แต่โมเดลที่ดีที่สุดในปัจจุบันก็ยังตกอยู่เบื้องหลังนักวิจัยมนุษย์ที่มีข้อมูลและวิธีการ

อย่างไรก็ตาม ตารางคะแนนให้ข้อมูลเชิงลึก o3 ไม่เพียงแต่นำหน้า แต่ยังแสดงความเร็วและความสม่ำเสมอ โดยแสดงผลการทำงานที่แข็งแกร่งในเกือบทุกประเภทของงาน Claude 3.7 Sonnet จาก Anthropic ตามมาอย่างใกล้ชิด โดยแสดงความสามารถที่หลากหลายทั้งในโหมด “การคิด” และ “ไม่คิด” Gemini 2.5 Pro ของ Google โดดเด่นด้วยความสามารถในการจัดการกับงานที่ต้องใช้การวางแผนแบบมีโครงสร้างและเหตุผลแบบขั้นตอน ในขณะที่ DeepSeek-R1 ที่มีน้ำหนักเปิดให้ผลลัพธ์ที่น่าพอใจ โดยตามหลัง GPT-4 Turbo และลดช่องว่างในการทำงานระหว่างโมเดลที่เปิดและปิด

ในระดับรวมๆ แล้ว มีรูปแบบที่ชัดเจน: โมเดล “การคิด” ใหม่ๆ ที่มีความสามารถในการคิดอย่างสม่ำเสมอเอาชนะรุ่นก่อนๆ ของพวกมัน และโมเดลที่ปิดใช้งานยังคงความได้เปรียบอย่างเห็นได้ชัดเหนือตัวเลือกที่มีน้ำหนักเปิด

เอเจนต์ AI มีปัญหาตรงจุดไหน?

การอ่านรูปแบบความล้มเหลวที่เน้นในรายงาน Deep Research Bench รู้สึกคุ้นเคยอย่างน่าประหลาดใจ หนึ่งในด้านที่น่าหงุดหงิดที่สุดที่ผมพบว่าตัวเองพบ – โดยเฉพาะในช่วงการวิจัยหรือการสร้างเนื้อหาที่ยาว – คือเมื่อเอเจนต์ AI เพียงแค่ลืมว่าเรากำลังทำอะไรอยู่ เมื่อหน้าต่างบริบทขยายใหญ่ขึ้น โมเดลมักจะเริ่มสูญเสียเส้นทาง: รายละเอียดสำคัญจางหายไป เป้าหมายสับสน และคำตอบที่ได้รับดูไม่สอดคล้องกันหรือไม่มีจุดมุ่งหมาย

การลืมเลือนนั้นไม่ใช่เรื่องเล่าขาน – เป็นตัวทำนายความล้มเหลวที่สำคัญที่สุดในการประเมิน Deep Research Bench แต่ก็ไม่ใช่ปัญหาเดียวที่เกิดขึ้นอย่างต่อเนื่อง รายงานยังเน้นย้ำว่าโมเดลบางรุ่นเข้าไปอยู่ในวงจรการใช้เครื่องมือซ้ำๆ โดยการค้นหาคำตอบเดิมซ้ำๆ ดูเหมือนจะถูกจับเข้าไปในวงจร ในขณะที่คนอื่นๆ แสดงให้เห็นถึงการสร้างคำถามที่ไม่ดี โดยจับคู่คำค้นหาด้วยคำค้นหาแทนการคิดอย่างมีวิจารณญาณเกี่ยวกับวิธีการค้นหาที่มีประสิทธิภาพ

และเกิดขึ้นบ่อยเกินไป เอเจนต์จะถูกจับได้ว่าสรุปผลลัพธ์เร็วเกินไป – โดยส่งมอบคำตอบที่ไม่สมบูรณ์แต่ดูเหมือนจะตอบคำถามได้ แต่ไม่เข้าใกล้ความเข้าใจที่แท้จริงเลย แม้แต่ในหมู่โมเดลที่ดีที่สุด ความแตกต่างก็ชัดเจน GPT-4 Turbo แสดงให้เห็นถึงความโน้มเอียงที่จะลืมขั้นตอนก่อนหน้า ในขณะที่ DeepSeek-R1 มีแนวโน้มที่จะ “เห็นภาพ” หรือสร้างข้อมูลที่น่าเชื่อถือแต่ไม่ถูกต้อง ข้ามๆ ไป

ผลการทำงานที่อาศัยความจำเป็นอย่างไร?

น่าสนใจที่ Deep Research Bench ยังประเมินสิ่งที่เรียกว่า “เอเจนต์แบบไม่มีเครื่องมือ” – โมเดลภาษาที่ทำงานโดยไม่มีการเข้าถึงเครื่องมือภายนอก เช่น การค้นหาเว็บหรือการดึงเอกสาร เอเจนต์เหล่านี้พึ่งพาข้อมูลการฝึกอบรมภายในและความจำเพียงอย่างเดียว โดยสร้างคำตอบโดยอาศัยเพียงสิ่งที่พวกมันเคยเรียนรู้ระหว่างการฝึกอบรม

น่าประหลาดใจที่เอเจนต์แบบไม่มีเครื่องมือเหล่านี้มีประสิทธิภาพเกือบเท่ากับเอเจนต์วิจัยเต็มรูปแบบในบางงาน ตัวอย่างเช่น ในงาน Validate Claim ซึ่งมีเป้าหมายเพื่อประเมินความน่าเชื่อถือของข้อความ – พวกมันทำคะแนนได้ 0.61 ใกล้เคียงกับค่าเฉลี่ย 0.62 ของเอเจนต์ที่มีเครื่องมือเต็มรูปแบบ ซึ่งบ่งชี้ว่าโมเดลอย่าง o3 และ Claude มีแนวโน้มภายในที่แข็งแกร่งและสามารถรับรู้ความจริงของข้อกล่าวอ้างทั่วไปได้โดยไม่ต้องค้นหาเว็บ

แต่ในงานที่ต้องใช้ความต้องการสูง – เช่น Derive Number ซึ่งต้องนำค่าหลายค่ามาจากแหล่งต่างๆ หรือ Gather Evidence ซึ่งต้องค้นหาและประเมินข้อเท็จจริงที่หลากหลายในบริบท – โมเดลเหล่านี้ไม่มีเครื่องมือล้มเหลวทั้งหมด โดยไม่มีข้อมูลใหม่หรือความสามารถในการค้นหาที่มีอยู่ในเวลาจริง พวกมันขาดวิธีการในการสร้างคำตอบที่ถูกต้องหรือครอบคลุม

ความแตกต่างนี้เน้นย้ำถึงความแตกต่างที่สำคัญ: ในขณะที่โมเดลภาษาขนาดใหญ่ในปัจจุบันสามารถเลียนแบบ “การรู้” ได้มาก การวิจัยลึกต้องอาศัยไม่เพียงแต่การเรียกคืน แต่ยังรวมถึงการให้เหตุผลด้วยข้อมูลที่ทันสมัยและตรวจสอบได้ – สิ่งที่เอเจนต์ที่มีเครื่องมือเพิ่มเติมเท่านั้นที่สามารถส่งมอบได้จริงๆ

ความคิดสุดท้าย

รายงาน DRB ทำให้เรารู้สิ่งหนึ่งได้ชัดเจน: ในขณะที่เอเจนต์ AI ที่ดีที่สุดในปัจจุบันสามารถเอาชนะมนุษย์เฉลี่ยในงานที่กำหนดอย่างแคบๆ ได้ พวกมันยังคงตามหลังนักวิจัยทั่วไปที่มีทักษะ – โดยเฉพาะอย่างยิ่งเมื่อมันมาถึงการวางแผนเชิงกลยุทธ์ การปรับตัวระหว่างกระบวนการ และการให้เหตุผลด้วยความละเอียด

ช่องว่างนี้กลายเป็นเห็นได้ชัดเจนมากขึ้นในช่วงการทำงานที่ยาวหรือซับซ้อน – สิ่งที่ผมได้สัมผัสด้วยตัวเอง โดยที่เอเจนต์จะสูญเสียความตั้งใจของงานไปอย่างช้าๆ ส่งผลให้เกิดการล่มสลายของความสอดคล้องและประโยชน์

สิ่งที่ทำให้ Deep Research Bench มีคุณค่านั้น คือ ไม่ใช่แค่ว่ามันจะทดสอบความรู้ในระดับผิวเผิน แต่ยังตรวจสอบจุดตัดกันของการใช้เครื่องมือ ความจำ การให้เหตุผล และการปรับตัว โดยให้การเปรียบเทียบที่ใกล้เคียงกับการวิจัยในโลกแห่งความเป็นจริงมากกว่ามาตรฐานเช่น MMLU หรือ GSM8k

เมื่อโมเดลภาษาขนาดใหญ่รวมเข้ากับการทำงานด้านความรู้อย่างจริงจัง เครื่องมือ FutureSearch เช่น DRB จะเป็นสิ่งจำเป็นสำหรับการประเมินไม่เพียงแต่สิ่งที่ระบบเหล่านี้รู้ แต่ยังรวมถึงวิธีการทำงานของพวกมันด้วย

Antoine Tardif, CEO & Founder of Unite.AI

อ็องตวนเป็นผู้นำที่มีวิสัยทัศน์และเป็นพันธมิตรผู้ก่อตั้งของ Unite.AI โดยมีความหลงใหลที่ไม่สั่นคลอนในการ塑造และส่งเสริมอนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการที่มีประสบการณ์หลายครั้ง และเชื่อว่า AI จะมีผลกระทบต่อสังคมมากเท่ากับไฟฟ้า และมักจะพูดถึงศักยภาพของเทคโนโลยีที่เปลี่ยนแปลงและ AGI

As a futurist เขาได้ให้ความสนใจในการสำรวจว่านวัตกรรมเหล่านี้จะเปลี่ยนแปลงโลกของเราอย่างไร นอกจากนี้เขายังเป็นผู้ก่อตั้ง Securities.io ซึ่งเป็นแพลตฟอร์มที่มุ่งเน้นในการลงทุนในเทคโนโลยีที่ทันสมัยซึ่งกำลังกำหนดอนาคตและเปลี่ยนแปลงภาคส่วนต่างๆ