ปัญญาประดิษฐ์
ทำไม AI Inference ไม่ใช่การฝึกอบรมคือความท้าทายทางวิศวกรรมครั้งใหญ่ต่อไป

ในทศวรรษที่ผ่านมา การฝึกอบรมได้รับความสนใจเป็นหลักในด้านปัญญาประดิษฐ์ การพัฒนาที่สำคัญส่วนใหญ่มาจากการคำนวณขนาดใหญ่ โมเดลที่มีพารามิเตอร์หลายล้านและเงินหลายพันล้านที่ใช้ในการสอนระบบให้ “คิด” เราได้รักษาการพัฒนา AI ไว้โดยส่วนใหญ่ในฐานะโครงการก่อสร้าง: การสร้างอาคารที่มีความฉลาด แต่ตอนนี้ที่อาคารแห่งนี้ได้ถูกสร้างขึ้นแล้ว ความท้าทายที่แท้จริงคือการหาวิธีให้คนหลายล้านที่ต้องการใช้งานและดำเนินการภายในอาคารแห่งนี้พร้อมกัน ซึ่งเปลี่ยนโฟกัสของนักวิจัยและวิศวกร AI จากการฝึกอบรม (การสร้างความฉลาด) ไปสู่การอนุมาน (การใช้ความฉลาด) ในขณะที่การฝึกอบรมเป็นการลงทุนครั้งเดียวที่มีค่าใช้จ่ายมาก (CapEx) การอนุมานคือค่าใช้จ่ายในการดำเนินงานที่เกิดขึ้นอย่างต่อเนื่อง (OpEx) ที่ดำเนินต่อไปอย่างไม่มีกำหนด เมื่อองค์กรต่างๆ ติดตั้งเอเย่นต์ที่ให้บริการผู้ใช้หลายล้านคนตลอด 24 ชั่วโมง พวกเขากำลังพบกับความเป็นจริงที่รุนแรง: การอนุมานไม่ใช่แค่ “การฝึกอบรมในทางกลับกัน” แต่เป็นความท้าทายทางวิศวกรรมที่แตกต่างและอาจยากกว่า
ทำไมต้นทุนการอนุมานมีความสำคัญมากกว่าที่เคย
เพื่อทำความเข้าใจความท้าทายทางวิศวกรรม เราต้องเข้าใจก่อนว่าความจำเป็นทางเศรษฐกิจที่ซ่อนอยู่คืออะไร ในช่วงการฝึกอบรม การไม่มีประสิทธิภาพสามารถทนได้ หากการฝึกอบรมใช้เวลา 4 สัปดาห์แทน 3 สัปดาห์ จะเป็นเรื่องที่น่ารำคาญ แต่ในการอนุมาน การไม่มีประสิทธิภาพอาจเป็นอันตรายต่อธุรกิจได้ ตัวอย่างเช่น การฝึกโมเดลแนวหน้าอาจมีค่าใช้จ่าย 100 ล้านเหรียญสหรัฐ แต่การนำโมเดลนั้นไปใช้เพื่อตอบคำถาม 10 ล้านคำถามต่อวันสามารถ เกินค่าใช้จ่าย ในเวลาไม่กี่เดือนหากไม่ได้รับการปรับให้เหมาะสม ซึ่งเป็นเหตุผลที่เรากำลังเห็นการเปลี่ยนแปลงของตลาด โดยที่การลงทุนในการอนุมาน คาดว่าจะเกิน การลงทุนในการฝึกอบรม
สำหรับวิศวกร สิ่งนี้เปลี่ยนเป้าหมายของพวกเขา เราไม่ได้เพิ่มประสิทธิภาพสำหรับการประมวลผลข้อมูลขนาดใหญ่อีกต่อไป (เราสามารถประมวลผลข้อมูลขนาดใหญ่นี้ได้เร็วแค่ไหน) แต่เรากำลังเพิ่มประสิทธิภาพสำหรับการตอบสนอง (เราสามารถตอบกลับโทเค็นเดียวได้เร็วแค่ไหน) และความพร้อมใช้งาน (เราสามารถให้บริการผู้ใช้ได้มากแค่ไหนบน GPU เดียว) วิธีการ “ใช้กำลังอย่างรุนแรง” ที่ครอบงำช่วงการฝึกอบรมโดยการเพิ่มคอมพิวเตอร์มากขึ้นไม่ทำงานที่นี่ คุณไม่สามารถโยน H100 มากขึ้นเพื่อแก้ปัญหาการตอบสนองได้หากปัญหาคือความกว้างของแบนด์วิธหน่วยความจำ
กำแพงหน่วยความจำ: อุปสรรคที่แท้จริง
ความจริงที่ไม่ค่อยเป็นที่รู้จักเกี่ยวกับการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) คือมันไม่ค่อยถูกจำกัดโดยการคำนวณ แต่ถูกจำกัดโดยหน่วยความจำ ในช่วงการฝึกอบรม เราประมวลผลข้อมูลในล็อตขนาดใหญ่ ทำให้หน่วยประมวลผลของ GPU ใช้งานอย่างเต็มที่ ในการอนุมาน โดยเฉพาะสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น แชทบอทหรือเอเย่นต์ คำขอจะเข้ามาแบบลำดับ สำหรับโทเค็นที่สร้างขึ้นทุกครั้ง โมเดลจะต้องโหลดพารามิเตอร์หลายพันล้านจาก หน่วยความจำแบนด์วิธสูง (HBM) เข้าสู่แกนประมวลผล นี่คือ “กำแพงหน่วยความจำ” มันเหมือนกับการมีเครื่องยนต์เฟอร์รารี่ (แกนประมวลผล) ติดอยู่ใน交通จาม (ความกว้างของแบนด์วิธหน่วยความจำที่จำกัด)
ความท้าทายนี้ทำให้ทีมวิศวกรต้องคิดใหม่เกี่ยวกับสถาปัตยกรรมระบบลงไปถึงระดับซิลิกอน ซึ่งเป็นเหตุผลที่เรากำลังเห็นการเพิ่มขึ้นของ หน่วยประมวลผลเชิงเส้น (LPUs) เช่นของ Groq และ หน่วยประมวลผลประสาท (NPUs) ที่ถูกออกแบบมาเพื่อข้ามอุปสรรคของ HBM โดยใช้ SRAM บนชิปขนาดใหญ่ และรับหน่วยความจำเป็นกระบวนการข้อมูลแบบต่อเนื่อง ไม่ใช่การดึงข้อมูลแบบง่ายๆ สำหรับวิศวกรซอฟต์แวร์ สิ่งนี้บ่งบอกถึงการสิ้นสุดของยุค “CUDA เป็นค่าเริ่มต้น” เราต้องเขียนโค้ดที่ตระหนักถึงฮาร์ดแวร์ และเข้าใจว่าข้อมูลเคลื่อนที่ผ่านสายอย่างไร
ด้านใหม่ของประสิทธิภาพ AI
เนื่องจากเราไม่สามารถเปลี่ยนฮาร์ดแวร์ได้เสมอไป ด้านใหม่ของวิศวกรรมจึงอยู่ที่การปรับให้เหมาะสมของซอฟต์แวร์ ซึ่งเป็นที่ที่มีการพัฒนาอย่างสร้างสรรค์เกิดขึ้นอย่างมาก เรากำลังเห็นการฟื้นคืนของเทคนิคที่กำลังเปลี่ยนแนวทางใหม่ในการนำระบบประสาทไปใช้และดำเนินการ
- การแบตช์แบบต่อเนื่อง: การแบตช์แบบดั้งเดิมจะรอจนกว่า “รถบัส” จะเต็มก่อนที่จะออกเดินทาง ซึ่งทำให้เกิดความล่าช้า การแบตช์แบบต่อเนื่อง (ที่ถูกนำมาใช้โดยเฟรมเวิร์กอย่าง vLLM) ทำงานเหมือนระบบขนส่งมวลชน โดยอนุญาตให้คำขอใหม่เข้าร่วมหรือออกจากรถไฟประมวลผลของ GPU ที่แต่ละรอบการวนซ้ำ มันเพิ่มประสิทธิภาพสูงสุดโดยไม่สูญเสียความล่าช้า และแก้ปัญหาการจัดตารางที่ซับซ้อนซึ่งต้องใช้ความเชี่ยวชาญระดับระบบปฏิบัติการลึกๆ
- การถอดรหัสแบบคาดเดา: เทคนิคนี้ใช้โมเดลขนาดเล็กที่เร็วและราคาไม่แพงในการสร้างร่างคำตอบ ในขณะที่โมเดลที่ใหญ่กว่าและช้ากว่าทำการตรวจสอบแบบขนาน มันพึ่งพาความจริงที่ว่าการตรวจสอบข้อความมีค่าใช้จ่ายการคำนวณน้อยกว่าการสร้างข้อความ
- การจัดการแคช KV: ในการคุยกันยาวๆ “ประวัติ” (แคช Key-Value) จะเติบโตอย่างรวดเร็วและใช้หน่วยความจำ GPU จำนวนมาก วิศวกรกำลังนำเทคนิค “PagedAttention” มาใช้ ซึ่งเป็นเทคนิคที่ได้รับแรงบันดาลใจจากการจัดการหน่วยความจำแบบหน้าในระบบปฏิบัติการ เทคนิคนี้แบ่งหน่วยความจำออกเป็นชิ้นเล็กๆ และจัดการมันอย่างไม่ต่อเนื่อง
ความซับซ้อนของตัวแทน
หากการอนุมานมาตรฐานยาก การอนุมาน AI ที่มีตัวแทนจะยากกว่าหลายเท่า แชทบอทมาตรฐานไม่มีสถานะ: ผู้ใช้ถาม AI ตอบ กระบวนจบ ตัวแทน AI มีลูป: วางแผน ใช้เครื่องมือ สังเกตผลลัพธ์ และวนซ้ำ จากมุมมองของวิศวกรรม สิ่งนี้เป็นฝันร้าย สถาปัตยกรรมนี้นำเสนอความท้าทายหลักๆ ดังนี้:
- การจัดการสถานะ: เครื่องมือการอนุมานต้องรักษาสถานะของกระบวนการคิดของตัวแทนในช่วงหลายขั้นตอน ซึ่งอาจใช้เวลาหลายนาที
- ลูปอินฟินิต: ไม่เหมือนกับการผ่านไปข้างหน้าที่คาดการณ์ได้ ตัวแทนสามารถติดอยู่ในลูปการให้เหตุผลได้ การสร้าง “คนดู” และ “เครื่องตัดวงจร” สำหรับโค้ดแบบสุ่มเป็นสาขาใหม่ทั้งหมด
- การคำนวณที่เปลี่ยนแปลง: คำขอของผู้ใช้หนึ่งอาจกระตุ้นการเรียกการอนุมานเพียงครั้งเดียว ในขณะที่อีกคำขอหนึ่งอาจกระตุ้นได้ถึง 50 ครั้ง การจัดการโหลดและโครงสร้างพื้นฐานแบบอัตโนมัติเมื่อคำขอแต่ละครั้งมีความแปรผันอย่างมากต้องการตรรกะการกำกับดูแลใหม่ทั้งหมด
เรากำลังย้ายจาก “การเสิร์ฟโมเดล” ไปสู่ “การกำกับดูแลสถาปัตยกรรมการรับรู้”
การนำ AI มาสู่อุปกรณ์ทั่วไป
สุดท้าย ข้อจำกัดของพลังงานและความล่าช้าของเครือข่ายจะบังคับให้การอนุมานไปสู่ด้านข้าง เราไม่สามารถคาดหวังว่าหลอดไฟอัจฉริยะรถยนต์ไร้คนขับหรือหุ่นยนต์โรงงานจะส่งคำขอผ่านศูนย์ข้อมูลได้ ความท้าทายทางวิศวกรรมที่นี่คือการบีบอัด เทคนิคอย่าง การปรับขนาดโมเดล (ลดความแม่นยำจาก 16 บิตเป็น 4 บิตหรือแม้กระทั่ง 1 บิต) และ การกลั่นโมเดล (สอนโมเดลขนาดเล็กให้เลียนแบบโมเดลขนาดใหญ่) กำลังกลายเป็นมาตรฐาน แต่ความท้าทายที่แท้จริงคือการนำโมเดลเหล่านี้ไปใช้กับระบบนิเวศที่กระจัดกระจายของอุปกรณ์หลายพันล้าน เช่น Android, iOS, Embedded Linux, เซ็นเซอร์แบบกำหนดเอง โดยมีข้อจำกัดของฮาร์ดแวร์เป็นของตัวเอง
สรุป
เรากำลังเข้าสู่ยุค “วันที่ 2” ของ AI ที่สร้างขึ้น วันที่ 1 คือการแสดงให้เห็นว่า AI สามารถเขียนบทกวีได้ วันที่ 2 คือการสร้างวิศวกรรมให้ความสามารถนี้มีความน่าเชื่อถือ มีราคาไม่แพง และแพร่หลาย วิศวกรที่จะกำหนดรูปแบบทศวรรษหน้าไม่จำเป็นต้องเป็นผู้ที่คิดค้นสถาปัตยกรรมโมเดลใหม่ แต่เป็น วิศวกรระบบ ผู้ที่สามารถหาวิธีให้บริการหนึ่งพันล้านโทเค็นต่อวินาทีโดยไม่ทำให้เครือข่ายไฟฟ้าล่มหรือทำให้บริษัทล้มละลาย การอนุมาน AI ไม่ใช่แค่รายละเอียดการทำงานอีกต่อไป มันเป็นผลิตภัณฑ์ และการปรับให้เหมาะสมคือความท้าทายทางวิศวกรรมครั้งใหญ่ต่อไป












