Connect with us

วิธีการที่ DeepSeek ทลายกำแพงราคา ด้วยเงิน 5.6 ล้านเหรียญ

ปัญญาประดิษฐ์

วิธีการที่ DeepSeek ทลายกำแพงราคา ด้วยเงิน 5.6 ล้านเหรียญ

mm

ความเชื่อของ AI ทั่วไปบอกว่าการสร้าง โมเดลภาษาขนาดใหญ่ (LLMs) ต้องใช้เงินจำนวนมาก – โดยทั่วไปแล้วจะอยู่ที่หลายพันล้านเหรียญ แต่ DeepSeek สตาร์ทอัพ AI จากจีนเพิ่งทำลายพาราได้ม์นี้ด้วยความสำเร็จล่าสุด: พัฒนาโมเดล AI ระดับโลกด้วยเงินเพียง 5.6 ล้านเหรียญ

โมเดล V3 ของ DeepSeek สามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรม เช่น Google’s Gemini และ OpenAI’s latest offerings โดยใช้ทรัพยากรการประมวลผลเพียงเศษเสี้ยวของที่ต้องการทั่วไป ความสำเร็จนี้ได้รับความสนใจจากผู้นำในอุตสาหกรรมหลายคน และสิ่งที่ทำให้นี่น่าประทับใจเป็นพิเศษคือบริษัทสามารถทำได้แม้จะเผชิญกับการจำกัดการส่งออกของสหรัฐฯ ที่จำกัดการเข้าถึงชิป Nvidia ล่าสุด

เศรษฐศาสตร์ของ AI ที่มีประสิทธิภาพ

ตัวเลขบอกเล่าเรื่องราวที่น่าประทับใจเกี่ยวกับประสิทธิภาพ ในขณะที่โมเดล AI ที่ทันสมัยส่วนใหญ่ต้องการ GPU ระหว่าง 16,000 ถึง 100,000 ชิ้นสำหรับการฝึกอบรม DeepSeek สามารถทำได้ด้วย GPU เพียง 2,048 ชิ้นในการทำงานเป็นเวลา 57 วัน การฝึกอบรมของโมเดลใช้เวลา 2.78 ล้านชั่วโมง GPU บนชิป H800 ของ Nvidia – นี่เป็นตัวเลขที่น่าประทับใจสำหรับโมเดล 671-พารามิเตอร์

เพื่อเปรียบเทียบ Meta ต้องการประมาณ 30.8 ล้านชั่วโมง GPU – ประมาณ 11 เท่าของพลังการประมวลผล – เพื่อฝึก Llama 3 model ของพวกเขา ซึ่งมีพารามิเตอร์น้อยกว่า 405 พันพารามิเตอร์ วิธีการของ DeepSeek เหมือนกับการสอนให้ใช้ทรัพยากรอย่างมีประสิทธิภาพภายใต้ข้อจำกัด โดยใช้ GPU H800 – ชิป AI ที่ Nvidia ออกแบบสำหรับตลาดจีนโดยมีความสามารถที่ลดลง – บริษัทได้เปลี่ยนข้อจำกัดที่อาจเกิดขึ้นให้เป็นนวัตกรรม แทนที่จะใช้โซลูชันที่มีอยู่แล้วสำหรับการสื่อสารระหว่างโปรเซสเซอร์ พวกเขาได้พัฒนาวิธีแก้ปัญหาแบบกำหนดเองที่เพิ่มประสิทธิภาพสูงสุด

ในขณะที่คู่แข่งยังคงดำเนินธุรกิจภายใต้สมมติฐานที่ว่าการลงทุนจำนวนมากเป็นสิ่งจำเป็น DeepSeek กำลังแสดงให้เห็นว่าความฉลาดและใช้ทรัพยากรอย่างมีประสิทธิภาพสามารถสร้างความเท่าเทียมกันในสนามได้

วิศวกรรมสิ่งที่เป็นไปไม่ได้

ความสำเร็จของ DeepSeek อยู่ที่แนวทางทางเทคนิคที่เป็นนวัตกรรมใหม่ โดยแสดงให้เห็นว่าบางครั้งการผิดพลาดที่มีผลกระทบมากที่สุดมาจากการทำงานภายในข้อจำกัดมากกว่าการโยนทรัพยากรที่ไม่มีจำกัดเข้าไปในปัญหา

ที่ใจกลางของนวัตกรรมนี้คือกลยุทธ์ที่เรียกว่า “auxiliary-loss-free load balancing” คิดว่ามันเป็นการกำกับระบบประมวลผลขนานขนาดใหญ่ โดยทั่วไปคุณจะต้องมีกฎและค่าปรับที่ซับซ้อนเพื่อรักษาให้ทุกอย่างทำงานได้อย่างราบรื่น DeepSeek ได้พลิกความคิดที่เป็นแบบฉบับโดยพัฒนาระบบที่รักษาสมดุลโดยธรรมชาติโดยไม่ต้องมีค่าใช้จ่ายของแนวทางแบบดั้งเดิม

ทีมงานยังเป็นผู้บุกเบิกเทคนิคที่เรียกว่า “การคาดการณ์หลายโทเคน” (MTP) – เทคนิคที่ทำให้โมเดลสามารถคิดล่วงหน้าโดยการคาดการณ์หลายโทเคนในครั้งเดียว ในทางปฏิบัติ สิ่งนี้จะแปลเป็นอัตราการยอมรับ 85-90% สำหรับการคาดการณ์เหล่านี้ในหัวข้อต่างๆ โดยให้ความเร็วในการประมวลผลที่เร็วกว่า 1.8 เท่าเมื่อเทียบกับแนวทางก่อนหน้านี้

โครงสร้างทางเทคนิคเองเป็นชิ้นงานที่มีประสิทธิภาพ โมเดล V3 ของ DeepSeek ใช้แนวทางผสมผสานผู้เชี่ยวชาญด้วยพารามิเตอร์ทั้งหมด 671 พันล้านพารามิเตอร์ แต่นี่คือส่วนที่ชาญฉลาด – มันจะทำงานเฉพาะ 37 พันล้านพารามิเตอร์สำหรับแต่ละโทเคน การกระตุ้นที่เลือกนี้หมายความว่าพวกเขาจะได้รับประโยชน์จากโมเดลขนาดใหญ่ในขณะเดียวกันก็รักษาประสิทธิภาพในทางปฏิบัติ

การฝึกอบรมแบบ FP8 ที่ผสมผสานความแม่นยำเป็นอีกก้าวหนึ่งในการพัฒนา แทนที่จะยอมรับข้อจำกัดที่ลดลงตามปกติ พวกเขาพัฒนาวิธีแก้ปัญหาแบบกำหนดเองที่รักษาความแม่นยำในขณะเดียวกันก็ลดความต้องการหน่วยความจำและคำนวณอย่างมีนัยสำคัญ

ผลกระทบในระบบนิเวศของ AI

ผลกระทบของความสำเร็จของ DeepSeek แพร่กระจายออกไปไกลเกินกว่าแค่โมเดลที่ประสบความสำเร็จเพียงอย่างเดียว

สำหรับการพัฒนา AI ในยุโรป ความสำเร็จนี้มีความสำคัญอย่างยิ่ง โมเดลที่ทันสมัยหลายรุ่นไม่สามารถเข้าสู่ EU ได้ เนื่องจากบริษัทต่างๆ เช่น Meta และ OpenAI ไม่สามารถหรือไม่เต็มใจที่จะปรับให้เข้ากับ EU AI Act แนวทางของ DeepSeek แสดงให้เห็นว่าการสร้าง AI ระดับแนวหน้าไม่จำเป็นต้องใช้คลัสเตอร์ GPU ระดับใหญ่ – มันคือการใช้ทรัพยากรที่มีอยู่อย่างมีประสิทธิภาพ

การพัฒนานี้ยังแสดงให้เห็นว่าข้อจำกัดในการส่งออกสามารถขับเคลื่อนนวัตกรรมได้อย่างไร การเข้าถึงฮาร์ดแวร์ระดับสูงของ DeepSeek ที่จำกัดทำให้พวกเขาต้องคิดแตกต่างออกไป ส่งผลให้เกิดการปรับเปลี่ยนซอฟต์แวร์ที่อาจไม่เคยเกิดขึ้นในบรรยากาศที่มีทรัพยากรมาก นี่คือหลักการที่สามารถเปลี่ยนแปลงวิธีการพัฒนา AI ทั่วโลก

ผลกระทบต่อการทำให้ AI มีความเท่าเทียมกันนั้นลึกซึ้ง ในขณะที่ยักษ์ใหญ่ในอุตสาหกรรมยังคงเผาเงินหลายพันล้าน DeepSeek ได้สร้างแบบจำลองสำหรับการพัฒนา AI ที่มีประสิทธิภาพและคุ้มค่า ซึ่งอาจเปิดโอกาสให้กับบริษัทขนาดเล็กและสถาบันวิจัยที่ไม่สามารถแข่งขันได้เนื่องจากข้อจำกัดด้านทรัพยากร

อย่างไรก็ตาม สิ่งนี้ไม่ได้หมายความว่าโครงสร้างพื้นฐานการประมวลผลขนาดใหญ่จะล้าสมัย อุตสาหกรรมกำลังเปลี่ยนโฟกัสไปที่การปรับขนาดเวลาอนุมาน – เวลาที่โมเดลใช้ในการสร้างคำตอบ เมื่อแนวโน้มนี้ดำเนินต่อไป ทรัพยากรการประมวลผลที่สำคัญจะยังคงจำเป็น และอาจจำเป็นมากขึ้นในอนาคต

แต่ DeepSeek ได้เปลี่ยนแปลงการอภิปรายพื้นฐานแล้ว ผลกระทบในระยะยาวชัดเจน: เรากำลังเข้าสู่ยุคที่ความคิดสร้างสรรค์และการใช้ทรัพยากรอย่างมีประสิทธิภาพอาจมีความสำคัญมากกว่าพลังการประมวลผลที่บรute สำหรับชุมชน AI สิ่งนี้หมายความว่าไม่เพียงแต่เน้นไปที่ทรัพยากรที่เรามี แต่ยังเน้นไปที่วิธีการใช้ทรัพยากรเหล่านั้นด้วยความสร้างสรรค์และประสิทธิภาพ

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก