ปัญญาประดิษฐ์
Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

หัวข้อข่าวยังคงมาไม่หยุด โมเดลของ DeepSeek ได้ท้าทายมาตรฐานใหม่และสร้างความสนใจอย่างมาก แต่สิ่งที่น่าสนใจเพิ่งเกิดขึ้นในฉากการวิจัย AI ที่คุณควรให้ความสนใจ
Allen AI ได้เปิดตัว Tülu 3 อย่างเงียบๆ โดยเวอร์ชัน 405B parameter ไม่เพียงแต่แข่งขันกับ DeepSeek แต่ยังสามารถเทียบหรือทำได้ดีกว่าในมาตรฐานสำคัญหลายอย่าง
มาทำความเข้าใจกัน
โมเดล Tülu 3 ขนาด 405B parameter ได้เข้าแข่งขันกับโมเดลที่มีประสิทธิภาพสูงสุด เช่น DeepSeek V3 ในหลายๆ งาน และแสดงผลลัพธ์ที่เทียบเท่าหรือเหนือกว่าในด้านการแก้ปัญหาทางคณิตศาสตร์, ทักษะการเขียนโค้ด และการปฏิบัติตามคำสั่งโดยเฉพาะ
และพวกเขาทำสิ่งนี้ด้วยวิธีการที่เปิดกว้างทั้งหมด
พวกเขาได้เผยแพร่กระบวนการฝึกอบรมที่สมบูรณ์, โค้ด และวิธีการเรียนรู้แบบเสริมใหม่ๆ ที่เรียกว่า Reinforcement Learning with Verifiable Rewards (RLVR) ที่ทำให้สิ่งนี้เป็นไปได้
การพัฒนาดังกล่าวในช่วงไม่กี่สัปดาห์ที่ผ่านมาจริงๆ แล้วเปลี่ยนแปลงวิธีการพัฒนา AI ระดับบน เมื่อโมเดลที่เปิดกว้างสามารถเทียบเท่ากับโมเดลที่ปิดที่ดีที่สุดได้ มันจะเปิดโอกาสที่เคยถูกปิดอยู่หลังกำแพงองค์กรส่วนตัว
การประลองทางเทคนิค
สิ่งที่ทำให้ Tülu 3 โดดเด่นคืออะไร มันมาจากกระบวนการฝึกอบรมสี่ขั้นตอนที่พัฒนาไปมากกว่าวิธีการแบบดั้งเดิม
มาทำความเข้าใจกันว่า Allen AI สร้างโมเดลนี้ขึ้นมาได้อย่างไร:
ขั้นตอนที่ 1: การเลือกข้อมูลเชิงกลยุทธ์
ทีมงานรู้ว่าคุณภาพของโมเดลเริ่มต้นจากคุณภาพของข้อมูล พวกเขาได้รวมข้อมูลที่มีอยู่แล้ว เช่น WildChat และ Open Assistant พร้อมกับเนื้อหาที่สร้างขึ้นเอง แต่นี่คือข้อคิดที่สำคัญ: พวกเขาไม่ได้เพียงแค่รวบรวมข้อมูล แต่ยังสร้างชุดข้อมูลที่มุ่งเป้าไปที่ทักษะเฉพาะ เช่น การให้เหตุผลทางคณิตศาสตร์และทักษะการเขียนโค้ด
ขั้นตอนที่ 2: การสร้างคำตอบที่ดีขึ้น
ในขั้นตอนที่สอง Allen AI มุ่งเน้นไปที่การสอนโมเดลทักษะเฉพาะ พวกเขาได้สร้างชุดข้อมูลฝึกอบรมที่แตกต่างกัน – บางส่วนสำหรับ数学, บางส่วนสำหรับการเขียนโค้ด และอื่นๆ สำหรับงานทั่วไป โดยการทดสอบการผสมผสานเหล่านี้ซ้ำๆ พวกเขาสามารถเห็นได้อย่างชัดเจนว่าโมเดลมีศักยภาพจริงๆ ในแต่ละด้าน
ขั้นตอนที่ 3: การเรียนรู้จาก比较
สิ่งนี้คือจุดที่ Allen AI ได้แสดงความสร้างสรรค์ พวกเขาได้สร้างระบบที่สามารถเปรียบเทียบคำตอบของ Tülu 3 กับโมเดลอื่นๆ ที่ดีที่สุดได้ทันที แต่พวกเขายังแก้ไขปัญหาที่ยั่งยืนใน AI – ความโน้มเอียงของโมเดลที่จะเขียนคำตอบยาวเพียงเพื่อความยาว โมเดลของพวกเขาโดยใช้ การปรับยาวแบบตรง (DPO) ที่ปกติ ทำให้โมเดลเรียนรู้ที่จะให้คุณค่ากับคุณภาพมากกว่าปริมาณ
ผลลัพธ์? คำตอบที่แม่นยำและเป็นประโยชน์
ขั้นตอนที่ 4: การนวัตกรรม RLVR
สิ่งนี้คือการผิดพลาดทางเทคนิคที่ควรได้รับความสนใจ RLVR แทนที่โมเดลรางวัลที่มีความเห็นอกเห็นใจด้วยการยืนยันที่เป็นรูปธรรม
โมเดล AI ส่วนใหญ่เรียนรู้ผ่านระบบรางวัลที่ซับซ้อน – โดยพื้นฐานแล้วเป็นการเดาเกี่ยวกับสิ่งที่ทำให้คำตอบดี แต่ Allen AI ได้เลือกเส้นทางที่แตกต่างด้วย RLVR
การมองเห็นในตัวเลข
เวอร์ชัน 405B parameter ของ Tülu 3 แข่งขันกับโมเดลชั้นนำในสนาม มาทำความเข้าใจกันว่าทำไมมันจึงโดดเด่นและหมายความว่าอย่างไรสำหรับ AI ที่เปิดกว้าง
คณิตศาสตร์
Tülu 3 โดดเด่นในด้านการให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน ในมาตรฐานเช่น GSM8K และ MATH มันสามารถเทียบเท่ากับผลลัพธ์ของ DeepSeek ได้ โมเดลจัดการปัญหาหลายขั้นตอนและแสดงความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่แข็งแกร่ง
โค้ด
ผลลัพธ์ของการเขียนโค้ดก็ยังน่าประทับใจไม่แพ้กัน ขอบคุณการฝึกอบรม RLVR Tülu 3 สามารถเขียนโค้ดที่แก้ปัญหาได้อย่างมีประสิทธิภาพ จุดแข็งของมันอยู่ที่ความเข้าใจคำสั่งการเขียนโค้ดและการผลิตโซลูชันที่ใช้การทำงานได้
การปฏิบัติตามคำสั่งโดยเฉพาะ
ความสามารถของโมเดลในการปฏิบัติตามคำสั่งโดดเด่นเป็นจุดแข็งหลัก โมเดล Tülu 3 แสดงความแม่นยำที่น่าประทับใจในการดำเนินการตามคำสั่งโดยเฉพาะ
การเปิดกล่องดำของการพัฒนา AI
Allen AI ไม่เพียงแต่เปิดตัวโมเดลที่มีประสิทธิภาพเท่านั้น แต่ยังเปิดเผยกระบวนการพัฒนาทั้งหมด
ทุกด้านของกระบวนการฝึกอบรมได้รับการบันทึกและเปิดให้เข้าถึง ตั้งแต่กระบวนการฝึกอบรมสี่ขั้นตอนไปจนถึงวิธีการเตรียมข้อมูลและวิธีการ RLVR – กระบวนการทั้งหมดเปิดกว้างสำหรับการศึกษาและทำซ้ำ
คำถามที่พบบ่อย (FAQ) เกี่ยวกับ Tülu 3
อะไรคือ Tülu 3 และคุณสมบัติหลักๆ ของมัน?
Tülu 3 คือชุดโมเดล LLM ที่เปิดกว้างที่พัฒนาโดย Allen AI โดยสร้างบนโครงสร้าง Llama 3.1 มันมาในหลายขนาด (8B, 70B และ 405B พารามิเตอร์) Tülu 3 ได้รับการออกแบบสำหรับการปรับปรุงประสิทธิภาพในการทำงานที่หลากหลาย รวมถึงความรู้, การให้เหตุผล, คณิตศาสตร์, การเขียนโค้ด, การปฏิบัติตามคำสั่ง และความปลอดภัย
กระบวนการฝึกอบรม Tülu 3 คืออะไร และใช้ข้อมูลอะไร?
การฝึกอบรม Tülu 3 เกี่ยวข้องกับหลายขั้นตอนสำคัญ ขั้นแรก ทีมงานรวบรวมชุดคำสั่งซื้อที่หลากหลายจากทั้งฐานข้อมูลสาธารณะและข้อมูลสังเคราะห์ที่มุ่งเน้นไปที่ทักษะเฉพาะ เพื่อให้แน่ใจว่าข้อมูลนั้นไม่มีการปนเปื้อนกับมาตรฐานที่ใช้ในการทดสอบ
วิธีการที่ Tülu 3 จัดการเรื่องความปลอดภัยและใช้มาตรการอะไรในการประเมิน?
ความปลอดภัยเป็นส่วนสำคัญในการพัฒนา Tülu 3 โดยได้รับการแก้ไขตลอดกระบวนการฝึกอบรม ชุดข้อมูลที่เกี่ยวข้องกับความปลอดภัยได้รับการใช้ในช่วงการฝึกอบรมแบบกำกับ (SFT) ซึ่งพบว่าไม่เกี่ยวข้องกับข้อมูลอื่นๆ ที่เน้นงาน
อะไรคือ RLVR?
RLVR คือเทคนิคที่โมเดลได้รับการฝึกอบรมเพื่อปรับให้เหมาะสมกับรางวัลที่สามารถตรวจสอบได้ เช่น ความถูกต้องของคำตอบ ซึ่งไม่เหมือนกับ RLHF ที่ใช้โมเดลรางวัล













