Connect with us

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

ปัญญาประดิษฐ์

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

mm

หัวข้อข่าวยังคงมาไม่หยุด โมเดลของ DeepSeek ได้ท้าทายมาตรฐานใหม่และสร้างความสนใจอย่างมาก แต่สิ่งที่น่าสนใจเพิ่งเกิดขึ้นในฉากการวิจัย AI ที่คุณควรให้ความสนใจ

Allen AI ได้เปิดตัว Tülu 3 อย่างเงียบๆ โดยเวอร์ชัน 405B parameter ไม่เพียงแต่แข่งขันกับ DeepSeek แต่ยังสามารถเทียบหรือทำได้ดีกว่าในมาตรฐานสำคัญหลายอย่าง

มาทำความเข้าใจกัน

โมเดล Tülu 3 ขนาด 405B parameter ได้เข้าแข่งขันกับโมเดลที่มีประสิทธิภาพสูงสุด เช่น DeepSeek V3 ในหลายๆ งาน และแสดงผลลัพธ์ที่เทียบเท่าหรือเหนือกว่าในด้านการแก้ปัญหาทางคณิตศาสตร์, ทักษะการเขียนโค้ด และการปฏิบัติตามคำสั่งโดยเฉพาะ

และพวกเขาทำสิ่งนี้ด้วยวิธีการที่เปิดกว้างทั้งหมด

พวกเขาได้เผยแพร่กระบวนการฝึกอบรมที่สมบูรณ์, โค้ด และวิธีการเรียนรู้แบบเสริมใหม่ๆ ที่เรียกว่า Reinforcement Learning with Verifiable Rewards (RLVR) ที่ทำให้สิ่งนี้เป็นไปได้

การพัฒนาดังกล่าวในช่วงไม่กี่สัปดาห์ที่ผ่านมาจริงๆ แล้วเปลี่ยนแปลงวิธีการพัฒนา AI ระดับบน เมื่อโมเดลที่เปิดกว้างสามารถเทียบเท่ากับโมเดลที่ปิดที่ดีที่สุดได้ มันจะเปิดโอกาสที่เคยถูกปิดอยู่หลังกำแพงองค์กรส่วนตัว

การประลองทางเทคนิค

สิ่งที่ทำให้ Tülu 3 โดดเด่นคืออะไร มันมาจากกระบวนการฝึกอบรมสี่ขั้นตอนที่พัฒนาไปมากกว่าวิธีการแบบดั้งเดิม

มาทำความเข้าใจกันว่า Allen AI สร้างโมเดลนี้ขึ้นมาได้อย่างไร:

ขั้นตอนที่ 1: การเลือกข้อมูลเชิงกลยุทธ์

ทีมงานรู้ว่าคุณภาพของโมเดลเริ่มต้นจากคุณภาพของข้อมูล พวกเขาได้รวมข้อมูลที่มีอยู่แล้ว เช่น WildChat และ Open Assistant พร้อมกับเนื้อหาที่สร้างขึ้นเอง แต่นี่คือข้อคิดที่สำคัญ: พวกเขาไม่ได้เพียงแค่รวบรวมข้อมูล แต่ยังสร้างชุดข้อมูลที่มุ่งเป้าไปที่ทักษะเฉพาะ เช่น การให้เหตุผลทางคณิตศาสตร์และทักษะการเขียนโค้ด

ขั้นตอนที่ 2: การสร้างคำตอบที่ดีขึ้น

ในขั้นตอนที่สอง Allen AI มุ่งเน้นไปที่การสอนโมเดลทักษะเฉพาะ พวกเขาได้สร้างชุดข้อมูลฝึกอบรมที่แตกต่างกัน – บางส่วนสำหรับ数学, บางส่วนสำหรับการเขียนโค้ด และอื่นๆ สำหรับงานทั่วไป โดยการทดสอบการผสมผสานเหล่านี้ซ้ำๆ พวกเขาสามารถเห็นได้อย่างชัดเจนว่าโมเดลมีศักยภาพจริงๆ ในแต่ละด้าน

ขั้นตอนที่ 3: การเรียนรู้จาก比较

สิ่งนี้คือจุดที่ Allen AI ได้แสดงความสร้างสรรค์ พวกเขาได้สร้างระบบที่สามารถเปรียบเทียบคำตอบของ Tülu 3 กับโมเดลอื่นๆ ที่ดีที่สุดได้ทันที แต่พวกเขายังแก้ไขปัญหาที่ยั่งยืนใน AI – ความโน้มเอียงของโมเดลที่จะเขียนคำตอบยาวเพียงเพื่อความยาว โมเดลของพวกเขาโดยใช้ การปรับยาวแบบตรง (DPO) ที่ปกติ ทำให้โมเดลเรียนรู้ที่จะให้คุณค่ากับคุณภาพมากกว่าปริมาณ

ผลลัพธ์? คำตอบที่แม่นยำและเป็นประโยชน์

ขั้นตอนที่ 4: การนวัตกรรม RLVR

สิ่งนี้คือการผิดพลาดทางเทคนิคที่ควรได้รับความสนใจ RLVR แทนที่โมเดลรางวัลที่มีความเห็นอกเห็นใจด้วยการยืนยันที่เป็นรูปธรรม

โมเดล AI ส่วนใหญ่เรียนรู้ผ่านระบบรางวัลที่ซับซ้อน – โดยพื้นฐานแล้วเป็นการเดาเกี่ยวกับสิ่งที่ทำให้คำตอบดี แต่ Allen AI ได้เลือกเส้นทางที่แตกต่างด้วย RLVR

การมองเห็นในตัวเลข

เวอร์ชัน 405B parameter ของ Tülu 3 แข่งขันกับโมเดลชั้นนำในสนาม มาทำความเข้าใจกันว่าทำไมมันจึงโดดเด่นและหมายความว่าอย่างไรสำหรับ AI ที่เปิดกว้าง

คณิตศาสตร์

Tülu 3 โดดเด่นในด้านการให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน ในมาตรฐานเช่น GSM8K และ MATH มันสามารถเทียบเท่ากับผลลัพธ์ของ DeepSeek ได้ โมเดลจัดการปัญหาหลายขั้นตอนและแสดงความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่แข็งแกร่ง

โค้ด

ผลลัพธ์ของการเขียนโค้ดก็ยังน่าประทับใจไม่แพ้กัน ขอบคุณการฝึกอบรม RLVR Tülu 3 สามารถเขียนโค้ดที่แก้ปัญหาได้อย่างมีประสิทธิภาพ จุดแข็งของมันอยู่ที่ความเข้าใจคำสั่งการเขียนโค้ดและการผลิตโซลูชันที่ใช้การทำงานได้

การปฏิบัติตามคำสั่งโดยเฉพาะ

ความสามารถของโมเดลในการปฏิบัติตามคำสั่งโดดเด่นเป็นจุดแข็งหลัก โมเดล Tülu 3 แสดงความแม่นยำที่น่าประทับใจในการดำเนินการตามคำสั่งโดยเฉพาะ

การเปิดกล่องดำของการพัฒนา AI

Allen AI ไม่เพียงแต่เปิดตัวโมเดลที่มีประสิทธิภาพเท่านั้น แต่ยังเปิดเผยกระบวนการพัฒนาทั้งหมด

ทุกด้านของกระบวนการฝึกอบรมได้รับการบันทึกและเปิดให้เข้าถึง ตั้งแต่กระบวนการฝึกอบรมสี่ขั้นตอนไปจนถึงวิธีการเตรียมข้อมูลและวิธีการ RLVR – กระบวนการทั้งหมดเปิดกว้างสำหรับการศึกษาและทำซ้ำ

คำถามที่พบบ่อย (FAQ) เกี่ยวกับ Tülu 3

อะไรคือ Tülu 3 และคุณสมบัติหลักๆ ของมัน?

Tülu 3 คือชุดโมเดล LLM ที่เปิดกว้างที่พัฒนาโดย Allen AI โดยสร้างบนโครงสร้าง Llama 3.1 มันมาในหลายขนาด (8B, 70B และ 405B พารามิเตอร์) Tülu 3 ได้รับการออกแบบสำหรับการปรับปรุงประสิทธิภาพในการทำงานที่หลากหลาย รวมถึงความรู้, การให้เหตุผล, คณิตศาสตร์, การเขียนโค้ด, การปฏิบัติตามคำสั่ง และความปลอดภัย

กระบวนการฝึกอบรม Tülu 3 คืออะไร และใช้ข้อมูลอะไร?

การฝึกอบรม Tülu 3 เกี่ยวข้องกับหลายขั้นตอนสำคัญ ขั้นแรก ทีมงานรวบรวมชุดคำสั่งซื้อที่หลากหลายจากทั้งฐานข้อมูลสาธารณะและข้อมูลสังเคราะห์ที่มุ่งเน้นไปที่ทักษะเฉพาะ เพื่อให้แน่ใจว่าข้อมูลนั้นไม่มีการปนเปื้อนกับมาตรฐานที่ใช้ในการทดสอบ

วิธีการที่ Tülu 3 จัดการเรื่องความปลอดภัยและใช้มาตรการอะไรในการประเมิน?

ความปลอดภัยเป็นส่วนสำคัญในการพัฒนา Tülu 3 โดยได้รับการแก้ไขตลอดกระบวนการฝึกอบรม ชุดข้อมูลที่เกี่ยวข้องกับความปลอดภัยได้รับการใช้ในช่วงการฝึกอบรมแบบกำกับ (SFT) ซึ่งพบว่าไม่เกี่ยวข้องกับข้อมูลอื่นๆ ที่เน้นงาน

อะไรคือ RLVR?

RLVR คือเทคนิคที่โมเดลได้รับการฝึกอบรมเพื่อปรับให้เหมาะสมกับรางวัลที่สามารถตรวจสอบได้ เช่น ความถูกต้องของคำตอบ ซึ่งไม่เหมือนกับ RLHF ที่ใช้โมเดลรางวัล

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก