ปัญญาประดิษฐ์

สิ่งที่ Opus 4.8 เปลี่ยนแปลงสำหรับผู้ที่กำลังใช้งานเอเย่นต์บน Claude

mm

Anthropic ได้เปิดตัว Opus 4.8 เมื่อวันที่ 28 พฤษภาคม 2026 ซึ่งเป็นเวลาเพียงหกสัปดาห์หลังจาก Opus 4.7 นี่เป็นการเปิดตัวที่รวดเร็วยิ่งขึ้น เมื่อเทียบกับ Sonnet และ Haiku และตัวเลขที่ใช้ในการเปรียบเทียบก็เพิ่มขึ้นเช่นกัน หากคุณอ่านข่าวเกี่ยวกับ AI นี่คือเรื่องที่คุณจะพบ

แต่นี่ไม่ใช่เรื่องที่ถูกต้อง

เมื่อคุณได้สร้างงานของคุณบน Claude แล้ว การเปิดตัวแบบจำลองใหม่จะไม่ใช่ข่าวที่คุณอ่านอีกต่อไป แต่จะเป็นการอัปเกรดที่เกิดขึ้นภายในระบบที่คุณได้สร้างขึ้นแล้ว คำถามไม่ใช่ว่า Opus 4.8 ได้รับคะแนนเป็นเท่าใด แต่เป็นสิ่งที่เปลี่ยนแปลงเกี่ยวกับงานที่กำลังดำเนินอยู่ นี่คือคำถามที่แตกต่าง และส่วนใหญ่ของการรายงานไม่ได้ถามคำถามนี้

มีสองสิ่งที่เปลี่ยนแปลงในงานนี้ ไม่ใช่การเปรียบเทียบ

แบบจำลองได้เรียนรู้ที่จะแสดงสิ่งที่ไม่รู้

ใน บันทึกการเปิดตัว ผู้ทดสอบในระยะแรกของ Anthropic พบว่า Opus 4.8 “มีแนวโน้มที่จะแสดงความไม่แน่นอนเกี่ยวกับงานของมันและน้อยกว่าที่จะทำการอ้างสิทธิ์ที่ไม่ได้รับการสนับสนุน” ผู้ทดสอบจาก Bridgewater ที่ถูกอ้างถึงในรายงานกล่าวว่าความแตกต่างที่ใหญ่ที่สุดคือแบบจำลองที่แสดงปัญหาเกี่ยวกับอินพุตและเอาต์พุตของการวิเคราะห์ “สิ่งที่แบบจำลองอื่นๆ มักจะพลาดและปล่อยให้ผู้ใช้ตรวจจับ”

อ่านสิ่งนี้เป็นผู้ดำเนินการและเป็นบรรทัดที่สำคัญที่สุดในโพสต์

นี่คือเหตุผล เมื่อแบบจำลองที่มั่นใจว่าผิดและไม่บอกว่ามันผิด จะทำให้กระบวนการอัตโนมัติหยุดชะงัก ให้ภาพเอเย่นต์ที่ดึงข้อมูลข่าวสาร สร้างบทความ และตรวจสอบข้อเท็จจริงด้วยตนเองโดยไม่มีการดูแลของมนุษย์ ทุกข้ออ้างที่แบบจำลองทำโดยไม่แสดงความไม่แน่นอนจะถูกจับได้หรือส่งออกไป แบบจำลองที่แสดงมือและบอกว่า “อินพุตนี้ดูไม่ถูกต้อง” มีค่ามากกว่าสองจุดในการเปรียบเทียบการเขียนโค้ดที่จะเกิดขึ้น

นี่คือหลักการที่ทุกอย่างทำงานอยู่: เครื่องมือได้รับการปรับปรุง ระบบของคุณได้รับการปรับปรุง แต่เฉพาะเมื่อคุณดูการปรับปรุงที่ถูกต้อง การรายงานส่วนใหญ่ให้คะแนน Opus 4.8 ในด้านความสามารถที่ไม่ได้ถูกบีบอัด ผู้ที่ใช้งานแบบไม่มีการดูแลควรให้คะแนนในการแสดงความไม่แน่นอน และในด้านนี้ การเปิดตัวครั้งนี้ได้เคลื่อนไหว

Dynamic Workflows ทำให้ฝูงเอเย่นต์ย่อยๆ เป็นจริง

พร้อมกับแบบจำลอง Anthropic ได้เปิดตัว Dynamic Workflows ในการตรวจสอบการวิจัย ซึ่งเป็นระบบสำหรับการประสานงานงานที่ซับซ้อนระหว่างเอเย่นต์ย่อยๆ ร้อยๆ ตัวภายใน Claude Code ตัวอย่างที่นำมาใช้คือการย้ายฐานโค้ดขนาดใหญ่ข้ามหลายแสนบรรทัด โดยใช้การทดสอบที่มีอยู่เป็นมาตรฐาน

ผู้ที่เคยพยายามประสานงานเอเย่นต์ย่อยๆ ด้วยตนเองจะรู้ว่าทำไมสิ่งนี้จึงสำคัญ รูปแบบมักจะเป็นแบบเดียวกัน: ผู้ประสานงานที่ส่งต่อให้กับเอเย่นต์ที่เลือก เอเย่นต์เขียน และเอเย่นต์ตรวจสอบข้อเท็จจริง มันทำงานได้ แต่ต้องใช้การออกแบบที่แท้จริงเพื่อให้การถ่ายโอนนั้นเชื่อถือได้ และทุกครั้งที่มีการสร้างไพล์ไลน์ใหม่ คุณจะต้องสร้างลอจิกการประสานงานใหม่จากศูนย์ การประสานงานเอเย่นต์ย่อยๆ เป็นสิ่งที่คุณต้องสร้างขึ้นเอง ไม่ใช่สิ่งที่แพลตฟอร์มให้มา

Dynamic Workflows นำการประสานงานมาไว้ภายในแพลตฟอร์มเอง นี่คือการเปลี่ยนแปลง เมื่อชั้นการประสานงานกลายเป็นปรมาณูแทนที่จะเป็นการสร้างแบบกำหนดเอง ผู้ดำเนการที่คิดในแง่ของเอเย่นต์มากกว่าการพูดคุยจะได้ข้ามส่วนที่ยากๆ ในการสร้างไพล์ไลน์ใหม่ ผู้ที่ได้รับประโยชน์มากที่สุดไม่ใช่ผู้ที่เริ่มต้นในวันนี้ แต่เป็นผู้ที่สร้างฝูงเอเย่นต์ย่อยๆ ด้วยตนเองและตอนนี้สามารถทิ้งสิ่งเหล่านั้นไปได้

มีเรื่องที่ต้องกล่าวถึง คือเป็นการตรวจสอบการวิจัย ดังนั้นจึงเป็นเรื่องแรก และ Anthropic ยังคงระงับแบบจำลอง Mythos ที่ทันสมัยที่สุดเนื่องจากความกังวลเรื่องความปลอดภัยของไซเบอร์ การประสานงานเอเย่นต์ย่อยๆ หลายร้อยตัวเป็นความสามารถที่ทรงพลังและอันตรายในเวลาเดียวกัน “มีให้ใช้ในรูปแบบการตรวจสอบการวิจัย” คือ Anthropic ที่บอกคุณให้ทดสอบก่อนที่จะวางใจในการผลิต นี่คือสัญชาตญาณที่ถูกต้อง ควรทำเช่นนั้น

รูปแบบที่อยู่ภายใต้การเปิดตัว

ถอยหลังจากหมายเลขรุ่นและดูรูปแบบที่เป็นไป การเปิดตัว Opus ล่าสุดได้เดินไปอย่างตั้งใจสู่เอเย่นต์ที่ทำงานนานขึ้น ประสานงานกว้างขึ้น และต้องการการดูแลน้อยลง การแสดงความไม่แน่นอนและการมีชั้นการประสานงานที่แท้จริงเป็นสองขั้นตอนใหม่ในเส้นทางนี้

หากคุณกำลังสร้างบนมัน การเพิ่มขึ้นคือเกมทั้งหมด ทุกความสามารถที่ลงจอดคือสิ่งที่คุณไม่ต้องสร้างขึ้นเอง ผู้ดำเนการที่สร้างการตรวจสอบความไม่แน่นอนด้วยตนเองเมื่อเดือนที่แล้วจะได้รับ 版ที่ฟรีในเดือนนี้และขยับขึ้นระดับ ผู้ที่สร้างการประสานงานเอเย่นต์ย่อยๆ ได้ลบมันออกไป นี่คือการเพิ่มขึ้นที่สะสมผ่านระบบที่คุณเป็นเจ้าของแล้ว: แบบจำลองดีขึ้น และทุกสิ่งที่คุณวางบนมันจะดีขึ้นด้วย

ผู้คนส่วนใหญ่อ่าน “Opus 4.8” เป็นตัวเลขที่เพิ่มขึ้น ผู้ที่ใช้งานจริงบน Claude ควรอ่านมันเป็นแพลตฟอร์มที่ทำงานมากขึ้นสำหรับพวกเขา นี่คือสิ่งที่เกิดขึ้นเมื่อคุณมุ่งมั่นในการใช้ระบบหนึ่งๆ จนกว่าการปรับปรุงจะลงจอดทับกัน ไม่ใช่เริ่มต้นใหม่ทุกครั้งที่สาขานี้เคลื่อนไหว

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก