Connect with us

Anthropic เปิดตัว Claude Opus 4.1 ทำลายสถิติบンチมาร์กการเขียนโค้ด

ประกาศ

Anthropic เปิดตัว Claude Opus 4.1 ทำลายสถิติบンチมาร์กการเขียนโค้ด

mm

Anthropic เปิดตัว Claude Opus 4.1 วันนี้ โดยเป็นรุ่นที่ได้รับการอัปเกรดของโมเดล AI ที่มีชื่อเสียงของบริษัท ซึ่งสามารถทำความถูกต้องได้ถึง 74.5% ในงานเขียนโค้ดในโลกแห่งความเป็นจริง และสร้างสถิติบンチมาร์กใหม่ในขณะที่ยังคงราคาเหมือนกับรุ่นก่อนหน้า

การอัปเดตนี้เป็นยุทธวิธี เนื่องจากอุตสาหกรรม AI คาดว่า OpenAI จะเปิดตัว GPT-5 โดย Anthropic จัดตำแหน่งโมเดลใหม่ของตนให้เป็นทางเลือกที่แข่งขันได้ซึ่งโดดเด่นในความท้าทายการเขียนโค้ดที่ซับซ้อนและการทำงานอัตโนมัติ บริษัทสัญญาว่าจะมีการปรับปรุงที่สำคัญยิ่งขึ้นในอีกไม่กี่สัปดาห์ข้างหน้า ซึ่งบ่งชี้ถึงการแข่งขันที่รุนแรงขึ้นระหว่างผู้พัฒนา AI ชั้นนำ

การปรับปรุงประสิทธิภาพหลัก

ตามที่ Anthropic ประกาศ โมเดล Claude Opus 4.1 มีการปรับปรุงประสิทธิภาพเหนือรุ่นก่อนหน้าในสามด้านหลัก ได้แก่ งานที่ต้องใช้เหตุผลหลายขั้นตอน การใช้งานโค้ดในโลกแห่งความเป็นจริง และความสามารถในการให้เหตุผลเชิงวิเคราะห์

โมเดลนี้ทำได้ 74.5% ใน SWE-bench Verified benchmark ซึ่งวัดความสามารถของ AI ในการระบุและแก้ไขบั๊กที่แท้จริงในซอฟต์แวร์โอเพ่นซอร์ส—ทำลายสถิติของ Claude Opus 4 ที่ 72.5% และทำได้ดีกว่าโมเดล o-series ของ OpenAI ประมาณห้าเปอร์เซ็นต์

GitHub ชี้ให้เห็นถึงการปรับปรุงที่แข็งแกร่งอย่างมากในความสามารถในการปรับโค้ดหลายไฟล์ ในขณะที่ Rakuten Group เน้นย้ำถึงความแม่นยำของโมเดลในการระบุการแก้ไขภายในฐานโค้ดขนาดใหญ่โดยไม่แนะนำบั๊กใหม่ Windsurf สตาร์ทอัพด้านการเขียนโค้ด รายงานว่า Opus 4.1 ส่งมอบการปรับปรุงที่ดีขึ้นหนึ่งมาตรฐานเทียบกับ Opus 4 ในบンチมาร์กของนักพัฒนาจูเนียร์ โดยเปรียบเทียบการกระโดดดังกล่าวกับการกระโดดจาก Sonnet 3.7 ไปเป็น Sonnet 4

การเข้าถึงและการรวมระบบ

โมเดลที่ได้รับการอัปเกรดมีให้ใช้งานทันทีสำหรับผู้ใช้ Claude ที่จ่ายเงินผ่านอินเทอร์เฟซเว็บและ Claude Code เช่นเดียวกับ API ของ Anthropic Amazon Bedrock และ Google Cloud’s Vertex AI นักพัฒนาสามารถเข้าถึงโมเดลใหม่โดยใช้แท็ก API โดยไม่มีการเพิ่มราคาจากเวอร์ชันก่อนหน้า ทำให้ โครงสร้างราคา ที่ทำให้ Claude มีความสามารถในการแข่งขันในตลาดองค์กร

นอกเหนือจากการเขียนโค้ดแล้ว Claude Opus 4.1 ยังแสดงให้เห็นถึงความสามารถที่ดีขึ้นในงานวิเคราะห์ข้อมูลและการวิจัย Anthropic เน้นย้ำถึงการปรับปรุงใน “การ跟踪รายละเอียดและการค้นหาที่ใช้เหตุผล” ซึ่งหมายถึงความสามารถของโมเดลในการรักษาบริบทข้ามการดำเนินการที่ซับซ้อนหลายขั้นตอน—คุณลักษณะที่สำคัญสำหรับ แอปพลิเคชันองค์กร ที่ต้องการการแก้ปัญหาแบบอัตโนมัติ

บริบทอุตสาหกรรมและการแข่งขัน

การวางจำหน่ายดูเหมือนจะเป็นกลยุทธ์ เนื่องจากรายงานอุตสาหกรรมชี้ให้เห็นว่า OpenAI วางแผนจะเผยโฉม GPT-5 ในอนาคตอันใกล้ ตาม The Information GPT-5 คาดว่าจะมุ่งเน้นในพื้นที่ที่คล้ายกัน—การเขียนโค้ด คณิตศาสตร์ และงานที่ใช้เอเย่นต์—แม้ว่านักวิเคราะห์จะคาดการณ์ว่าการปรับปรุงอาจเป็นเพียงการปรับปรุงที่ไม่มากนัก

การอัปเดตโมเดล Claude อย่างรวดเร็ว—ด้วยการอัปเดตนี้มาเพียงสามเดือนหลังจากการเปิดตัวครอบครัวโมเดล Claude 4 ในเดือนพฤษภาคม—สะท้อนถึงความเร็วที่เพิ่มขึ้นของการพัฒนา AI เมื่อบริษัทต่างๆ แข่งขันกันเพื่อสร้างตำแหน่งในตลาดเครื่องมือสำหรับนักพัฒนาและองค์กร ซึ่งตามมาจากประวัติศาสตร์ของ Anthropic ในการวางตัวเป็นทางเลือกที่มุ่งเน้นด้านความปลอดภัยมากกว่า OpenAI ในขณะเดียวกันก็รักษาความสามารถในการแข่งขัน

รายละเอียดทางเทคนิคและการใช้งาน

การ์ดระบบ เปิดเผยว่า Claude Opus 4.1 เป็นโมเดลการให้เหตุผลแบบไฮบริดที่สามารถทำงานได้ด้วยหรือไม่ใช้โหมดการคิดที่ขยายสำหรับการทดสอบบンチมาร์ก เช่น SWE-bench Verified และ Terminal-Bench โมเดลได้รับผลลัพธ์โดยไม่ต้องใช้การคิดที่ขยาย ในขณะที่บンチมาร์กอื่นๆ เช่น GPQA Diamond และ MMMU ใช้ความสามารถในการคิดที่ขยายสูงสุด 64K โทเคน

โมเดลยังคงใช้โครงสร้างที่เรียบง่ายสำหรับการทดสอบ SWE-bench ที่ Anthropic ใช้กับครอบครัวโมเดล Claude 4—โดยให้โมเดลพร้อมกับเครื่องมือ bash และเครื่องมือแก้ไขไฟล์ที่ทำงานผ่านการแทนที่สตริง—แนวทางที่เรียบง่ายนี้แตกต่างจากการนำไปใช้ที่ซับซ้อนกว่า แต่ยังคงให้ผลลัพธ์ที่เป็นผู้นำในอุตสาหกรรม

มองไปข้างหน้า

Anthropic แนะนำให้ผู้ใช้ Opus 4 ทั้งหมดอัปเกรดเป็นเวอร์ชันใหม่สำหรับทุกกรณีการใช้งาน บริษัทได้เผยแพร่เอกสารประกอบที่ครอบคลุม รวมถึง หน้าโมเดล และคุณลักษณะทางเทคนิคสำหรับนักพัฒนาที่สนใจในการใช้เทคโนโลยีนี้

เมื่อ Anthropic และ OpenAI เตรียมการเปิดตัวที่สำคัญ สัปดาห์ที่จะมาถึงอาจเป็นจุดเปลี่ยนสำคัญในการกำหนดผู้นำในยุคใหม่ของความสามารถ AI เมื่อโมเดล AI มีความซับซ้อนมากขึ้นในด้านการให้เหตุผลและการเขียนโค้ด การแข่งขันกำลังเปลี่ยนจากเมตริกการแสดงผลดิบไปสู่การนำไปใช้จริงและความน่าเชื่อถือในสภาพแวดล้อมการผลิต

คำถามที่พบบ่อย (Claude Opus 4.1)

Claude Opus 4.1 ปรับปรุงงานเขียนโค้ดและการให้เหตุผลอย่างไรเมื่อเทียบกับรุ่นก่อนหน้า?

Claude Opus 4.1 ทำได้ 74.5% ใน SWE-bench Verified (เพิ่มขึ้นจาก 72.5% ใน Opus 4) โดยมีการปรับปรุงที่สำคัญในด้านการปรับโค้ดหลายไฟล์ การติดตามรายละเอียดในฐานโค้ดขนาดใหญ่ และความสามารถในการค้นหาที่ใช้เหตุผลซึ่งช่วยให้สามารถจัดการกับงานที่ต้องใช้เหตุผลหลายขั้นตอนได้อย่างมีประสิทธิภาพ

การประยุกต์ใช้โลกแห่งความเป็นจริงหลักๆ ของ Claude Opus 4.1 ในการเขียนโค้ดและเอเย่นต์ AI คืออะไร?

โมเดลนี้โดดเด่นในด้านการแก้บั๊กในฐานโค้ดขนาดใหญ่โดยไม่แนะนำบั๊กใหม่ การปรับโค้ดอัตโนมัติหลายไฟล์ การวิเคราะห์ข้อมูลลึก และงานวิจัยที่ต้องใช้การรักษาบริบท—ทำให้เหมาะสำหรับการพัฒนาซอฟต์แวร์องค์กรและเพิ่มประสิทธิภาพการทำงานอัตโนมัติ

ผลการทำงานของ Claude Opus 4.1 ใน SWE-bench สะท้อนถึงความสามารถในการเขียนโค้ดอย่างไร?

SWE-bench Verified วัดความสามารถของ AI ในการระบุและแก้ไขบั๊กที่แท้จริงในซอฟต์แวร์โอเพ่นซอร์ส และคะแนน 74.5% ของ Claude Opus 4.1 แสดงถึงผลการทำงานที่สูงที่สุดที่รายงานสาธารณะ ซึ่งทำได้ดีกว่าโมเดล o-series ของ OpenAI ประมาณห้าเปอร์เซ็นต์

ความแตกต่างหลักระหว่าง Claude Opus 4.1 และโมเดล AI อื่นๆ เช่น GitHub Copilot หรือ ChatGPT คืออะไร?

ไม่เหมือนกับ GitHub Copilot ที่เน้นการเติมโค้ด Claude Opus 4.1 จัดการการทำงานการแก้ปัญหาแบบเต็มรูปแบบ รวมถึงการแก้บั๊กและการปรับโค้ด ในขณะที่ยังเสนอรูปแบบการให้เหตุผลแบบไฮบริดที่สามารถเปลี่ยนระหว่างการตอบสนองอย่างรวดเร็วและการคิดที่ขยายสำหรับงานที่ซับซ้อน—ความสามารถที่ไม่มีในตัวติดตั้งมาตรฐานของ ChatGPT

นักพัฒนาและธุรกิจสามารถรวม Claude Opus 4.1 เข้ากับเวิร์กโฟลว์และแพลตฟอร์มของตนได้อย่างไร?

นักพัฒนาสามารถเข้าถึง Claude Opus 4.1 ผ่าน API โดยใช้แท็ก “claude-opus-4-1-20250805” ผ่าน Amazon Bedrock, Google Cloud Vertex AI หรือผ่าน Claude Code สำหรับการรวมเข้ากับบรรทัดคำสั่ง โดยมีราคาเหมือนกับ Opus 4 และไม่ต้องมีการเปลี่ยนแปลงโค้ดสำหรับการใช้งานที่มีอยู่

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก