ปัญญาประดิษฐ์

ไม่ พวกเขาไม่ได้จำกัด Claude – มันแย่กว่านั้น

mm

ทุกคนมาพูดถึงสิ่งที่เกิดขึ้นกับ Claude กัน เพราะ ถ้าคุณใช้มันในช่วงเดือนที่แล้ว คุณอาจสังเกตเห็นว่ามีบางอย่างผิดปกติ

ในช่วงหกสัปดาห์ที่ผ่านมา ผู้ใช้ Claude ได้สูญเสียความสามารถในการใช้งานไปแล้ว ตั้งแต่ต้นเดือนสิงหาคม เรื่องร้องเรียนเริ่มหลั่งไหลเข้ามาใน Reddit, X, และฟอรัมนักพัฒนา ปัญหาเกิดขึ้นทุกที่:

  • โค้ดที่เคยทำงานได้ดี突然ทำงานไม่ได้
  • Claude อ้างว่าได้ทำการเปลี่ยนแปลงไฟล์ แต่ไม่ได้ทำ
  • ตัวอักษรไทยหรือจีนปรากฏในคำตอบภาษาอังกฤษ
  • คำสั่งถูกเพิกเฉย
  • คำตอบที่ได้รับจากคำสั่งเดียวกันมีคุณภาพแตกต่างกันมาก
  • ผู้ใช้ Claude Code กล่าวว่ามันรู้สึก “ถูกตัดสมอง” เมื่อเทียบกับก่อนหน้านี้

เรื่องร้องเรียนนั้นรุนแรงจนกระทั่งปลายเดือนสิงหาคม ผู้คนเชื่อว่า Anthropic กำลังจำกัด Claude เพื่อประหยัดเงิน ทฤษฎีสมคบคิดอยู่ทุกที่ – บางทีมันอาจลดคุณภาพในช่วงเวลาสูงสุด บางทีมันอาจเปลี่ยนเป็นโมเดลที่ถูกกวนในความเงียบ หรือบางทีนี่อาจเป็นการเสื่อมสภาพที่ตั้งใจเพื่อจัดการค่าใช้จ่ายของเซิร์ฟเวอร์

ผู้ใช้กำลังจ่ายเงินสำหรับ Claude Pro และได้รับสิ่งที่รู้สึกเหมือน Claude Lite นักพัฒนาที่สร้าง 워크โฟลว์โดยรอบ Claude กำลังดูผลผลิตของตนลดลง ด้วยความที่บางผู้ใช้ไม่ได้ประสบปัญหาใดๆ เลย ทำให้ทุกอย่างยิ่งซับซ้อน

Anthropic ยอมรับว่ามีปัญหา

หลังจากหลายสัปดาห์ของการร้องเรียนของผู้ใช้และความ沮หายที่เพิ่มขึ้น Anthropic เพิ่งเผยแพร่โพสต์หลังการเสียชีวิตทางเทคนิคขนาดใหญ่ ซึ่งพูดว่า “คุณพูดถูก Claude มีปัญหา นี่คือสิ่งที่เกิดขึ้น”

และคำตอบนั้นน่าสนใจ

ผลลัพธ์คือไม่ใช่ปัญหาเดียว มันเป็นสามปัญหาโครงสร้างพื้นฐานที่แยกจากกัน ทั้งหมดเกิดขึ้นในเวลาเดียวกัน ทำให้เกิดพายุพอดีของการเสื่อมสภาพ AI พวกเขาไม่ได้จำกัด มันไม่ได้ลดมุมมอง พวกเขามีสามสิ่งที่แตกหักในเวลาเดียวกัน ซึ่งใช้เวลาหกสัปดาห์ในการเข้าใจและแก้ไข

ให้ฉันพูดถึงสิ่งที่ผิดพลาดอย่างแน่นอน เพราะ นี่คือการดูว่าระบบ AI สามารถล้มเหลวได้อย่างไรโดยไม่มีใครคาดคิด

การล่มสลายของสามข้อผิดพลาด: เส้นเวลาแห่งความโกลกกก

Source: Anthropic

ข้อผิดพลาด #1: ปัญหาเซิร์ฟเวอร์ที่ผิด

นี่เกือบจะตลกหากคุณไม่ใช่คนที่ประสบปัญหา Claude Sonnet 4 ได้รับการออกแบบมาเพื่อรับมือกับบริบท 200,000 โทเค็น แต่เริ่มตั้งแต่วันที่ 5 สิงหาคม บางคำขอถูกส่งไปยังเซิร์ฟเวอร์ที่กำหนดไว้สำหรับบริบท 1 ล้านโทเค็น

ในตอนแรก มีเพียง 0.8% ของคำขอที่ได้รับผลกระทบ ไม่ใช่เรื่องใหญ่ ใช่ไหม? ไม่

เมื่อวันที่ 29 สิงหาคม การอัปเดตโหลดบาลานเซอร์ปกติทำให้ปัญหาเล็กนี้กลายเป็นปัญหาใหญ่ ขณะสูงสุด 16% ของคำขอ Sonnet 4 ถูกส่งไปยังเซิร์ฟเวอร์ที่ไม่ถูกต้อง และการกำหนดเส้นทางนั้น “ติด” เมื่อคุณถูกส่งผิด คุณจะยังคงถูกส่งผิด

ผลกระทบ:

  • ประมาณ 30% ของผู้ใช้ Claude Code ที่ใช้งานในช่วงเวลานั้นมีคำขออย่างน้อยหนึ่งคำที่ถูกส่งผิด
  • เวลาในการตอบสนองลดลงสำหรับผู้ใช้ที่ได้รับผลกระทบ
  • ผู้ใช้เดียวกันจะประสบปัญหานี้ซ้ำๆ ในขณะที่คนอื่นๆ ไม่มีปัญหาใดๆ

ข้อผิดพลาด #2: เครื่องสร้างตัวอักษรแบบสุ่ม

เมื่อวันที่ 25 สิงหาคม Anthropic ติดตั้งการกำหนดค่าที่ไม่ถูกต้องไปยังเซิร์ฟเวอร์ TPU ผลลัพธ์คือ Claude เริ่มแทรกตัวอักษรไทยและจีนเข้าไปในคำตอบภาษาอังกฤษ

ลองนึกภาพว่าคุณขอให้ Claude ขัดข้องโค้ด Python ของคุณและได้รับสิ่งนี้:

def calculate_total(items):

total = 0

for item in items:

รวม += item.price # <- อะไร?

return ผลรวม

สิ่งนี้ส่งผลกระทบต่อ:

  • Opus 4.1 และ Opus 4: 25-28 สิงหาคม
  • Sonnet 4: 25 สิงหาคม – 2 กันยายน

สาเหตุทางเทคนิคคือข้อผิดพลาดในการสร้างโทเค็นที่กำหนดความน่าจะเป็นสูงให้กับตัวอักษรที่ไม่ควรอยู่ที่นั่น มันแทบจะทำลายกลไกพื้นฐานของวิธีที่ Claude เลือกคำต่อไปที่จะพูด

ข้อผิดพลาด #3: ข้อผิดพลาดคอมไพล์เลอร์ที่มองไม่เห็น

สิ่งนี้คือสิ่งที่น่ากลัวจากมุมมองของวิศวกร มีข้อผิดพลาดที่ซ่อนอยู่ในคอมไพล์เลอร์ XLA ของ Google ที่นั่งอยู่อย่างไม่มีการเคลื่อนไหว เมื่อ Anthropic ติดตั้งโค้ดเพื่อปรับปรุงการเลือกโทเค็นเมื่อวันที่ 25 สิงหาคม พวกเขันก็กระตุ้นข้อผิดพลาดโดยไม่ตั้งใจ

สิ่งที่ข้อผิดพลาดนี้ทำคือแทบจะแปลกประหลาด – มันทำให้ Claude ไม่รวมโทเค็นที่น่าจะเป็นไปได้มากที่สุดเมื่อสร้างข้อความ Claude รู้คำตอบที่ถูกต้อง แต่ถูกขัดขวางไม่ให้พูด

ส่วนที่ยุ่งยากจริงๆ คือพวกเขาทำงานโดยรอบข้อผิดพลาดนี้ในเดือนธันวาคม 2024 โดยไม่ทราบ เมื่อพวกเขาทำ “การแก้ไข” สิ่งที่พวกเขาคิดว่าเป็นสาเหตุในเดือนสิงหาคม พวกเขาลบการทำงานโดยรอบและปล่อยปัญหาจริงออกมา

ทำไมถึงใช้เวลาหกสัปดาห์ในการแก้ไข

คุณอาจสงสัยว่า: ทำไมบริษัทอย่าง Anthropic ที่มีวิศวกรชั้นนำใช้เวลาหกสัปดาห์ในการแก้ไขปัญหา?

คำตอบแสดงให้เห็นว่าระบบเหล่านี้ซับซ้อนจริงๆ:

1. การควบคุมความเป็นส่วนตัวขัดขวางการแก้ปัญหา

“การควบคุมความเป็นส่วนตัวและความปลอดภัยภายในของเราจำกัดว่าวิศวกรสามารถเข้าถึงการโต้ตอบของผู้ใช้กับ Claude ได้อย่างไร และเมื่อใด โดยเฉพาะอย่างยิ่งเมื่อการโต้ตอบเหล่านั้นไม่ได้รายงานให้เราเป็นข้อเสนอแนะ”

พวกเขาไม่สามารถเห็นปัญหาได้เลยหากผู้ใช้ไม่รายงานโดยตรงพร้อมข้อเสนอแนะ

2. ข้อผิดพลาดซ่อนตัว

Claude มักจะฟื้นตัวจากข้อผิดพลาดแต่ละครั้ง ทำให้การเสื่อมสภาพดูเหมือนการแปรผันปกติมากกว่าการล้มเหลวแบบระบบ การทดสอบและประเมินผลของพวกเขาก็ไม่ได้จับปัญหาเพราะโมเดลจะแก้ไขตัวเองเพียงพอในการผ่านการทดสอบ

3. ความโกลกกกของแพลตฟอร์มหลายแพลตฟอร์ม

Claude ใช้งานบน AWS Trainium, NVIDIA GPU และ Google TPUs – สามแพลตฟอร์มฮาร์ดแวร์ที่แตกต่างกันโดยสิ้นเชิง ข้อผิดพลาดแต่ละข้อแสดงออกต่างกันบนแต่ละแพลตฟอร์ม:

  • AWS Bedrock: 0.18% ของคำขอ Sonnet 4 ที่ได้รับผลกระทบสูงสุด
  • Google Vertex AI: ต่ำกว่า 0.0004% ที่ได้รับผลกระทบ
  • API โดยตรง: สูงสุด 16% ที่ได้รับผลกระทบ

สิ่งนี้ทำให้ดูเหมือนปัญหาหลายอย่างที่ไม่เกี่ยวข้องกันมากกว่าข้อผิดพลาดสามข้อที่เฉพาะเจาะจง

4. อาการที่ทับซ้อนกัน

ด้วยข้อผิดพลาดสามข้อที่ทำงานพร้อมกัน อาการจะกระจายไปทุกที่ ผู้ใช้หนึ่งคนอาจได้รับตัวอักษรไทย อีกคนอาจได้รับคำตอบที่เสื่อมสภาพ และอีกคนอาจเห็นประสิทธิภาพที่สมบูรณ์แบบ ไม่มีรูปแบบที่ชัดเจนให้ติดตาม

สิ่งนี้หมายความว่าอะไรสำหรับความน่าเชื่อถือของ AI

เรื่องราวนี้แสดงให้เห็นถึงสิ่งสำคัญเกี่ยวกับสภาพปัจจุบันของระบบ AI: มันห่างไกลจากความที่ดูเหมือนจะแข็งแกร่ง

เราไม่ได้พูดถึงเพียงโมเดล AI เอง แต่ยังรวมถึง:

  • โครงสร้างพื้นฐานสำหรับการกำหนดเส้นทางที่สามารถส่งคำขอไปยังที่ที่ไม่ถูกต้อง
  • การนำไปใช้ฮาร์ดแวร์ที่แตกต่างกันซึ่งแสดงพฤติกรรมที่แตกต่างกัน
  • ข้อผิดพลาดคอมไพล์เลอร์ที่สามารถนอนหลับเป็นเดือน
  • โหลดบาลานเซอร์ที่สามารถขยายปัญหาเล็กๆ ให้กลายเป็นการหยุดทำงานครั้งใหญ่

การกำหนดค่าผิดเพียงครั้งเดียว ข้อผิดพลาดคอมไพล์เลอร์หนึ่งข้อ หรือข้อผิดพลาดการกำหนดเส้นทาง – และ突然 AI ที่ช่วยเหลือของคุณลืมวิธีการเขียนโค้ดหรือเริ่มพูดภาษาที่ไม่ควรพูด

มันถูกแก้ไขแล้วหรือไม่?

Anthropic กล่าวว่าพวกเขาได้แก้ไขปัญหาแล้วทั้งสามข้อเมื่อวันที่ 16 กันยายน พวกเขาได้:

  • แก้ไขตรรกะการกำหนดเส้นทาง
  • กลับไปยังการกำหนดค่าที่ไม่มีปัญหา
  • เปลี่ยนจากการดำเนินการแบบใกล้เคียงเป็นการดำเนินการแบบถูกต้อง (โดยรับผลกระทบต่อประสิทธิภาพ)
  • เพิ่มการตรวจสอบการผลิตอย่างต่อเนื่อง

แต่ ผู้ใช้ยังคงรายงานปัญหา บางนักพัฒนาอ้างว่า Claude Code ยังคงรู้สึกเสื่อมสภาพเมื่อเทียบกับประสิทธิภาพก่อนหน้านี้ ไม่ว่ามันจะเป็น:

  • ผลกระทบที่ยังคงอยู่จากข้อผิดพลาด
  • ปัญหาใหม่ที่ยังไม่ได้รับการระบุ
  • ความลำเอียงทางจิตหลังจากหลายสัปดาห์ของปัญหา
  • หรือการเสื่อมสภาพที่แท้จริงที่ยังคงดำเนินต่อไป

…เรายังไม่รู้

สรุป

สถานการณ์นี้เป็นกรณีศึกษาที่สมบูรณ์แบบเกี่ยวกับว่าระบบ AI ที่ซับซ้อนสามารถล้มเหลวได้อย่างไม่คาดคิดอย่างไร ข้อผิดพลาดสามข้อที่แตกต่างกัน ทั้งหมดเกิดขึ้นภายในไม่กี่สัปดาห์ ทำให้เกิดการเสื่อมสภาพที่มองเห็นได้ซึ่งใช้เวลาหกสัปดาห์ในการวินิจฉัยและแก้ไข

เราสามารถให้เครดิตกับ Anthropic สำหรับการเปิดเผย แต่สิ่งนี้ยังแสดงให้เห็นว่าสามารถเกิดอะไรผิดพลาดได้มากนักภายใต้พายุของระบบเหล่านี้ที่เรากำลังพึ่งพามากขึ้น

สำหรับทุกคนที่สร้างบน Claude หรือ LLM ใดๆ: คุณต้องการความหลากหลาย การตรวจสอบ และแผนการสำรอง เพราะ ตามที่เราเพิ่งเห็น แม้แต่ระบบ AI ที่ดีที่สุดก็สามารถมีปัญหาหลายอย่างในเวลาเดียวกัน และอาจใช้เวลาสองสามสัปดาห์ก่อนที่ใครจะเข้าใจว่าเกิดอะไรขึ้น

โครงสร้างพื้นฐานที่รองรับโมเดล AI เหล่านี้มีความสำคัญไม่แพ้กับโมเดลเอง และตอนนี้โครงสร้างพื้นฐานนั้นแสดงให้เห็นถึงการเติบโตที่ยากลำบาก

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก