ปัญญาประดิษฐ์

ทำไม AI Inference ไม่ใช่การฝึกอบรมคือความท้าทายทางวิศวกรรมครั้งใหญ่ต่อไป

mm

ในทศวรรษที่ผ่านมา การฝึกอบรมได้รับความสนใจเป็นหลักในด้านปัญญาประดิษฐ์ การพัฒนาที่สำคัญส่วนใหญ่มาจากการคำนวณขนาดใหญ่ โมเดลที่มีพารามิเตอร์หลายล้านและเงินหลายพันล้านที่ใช้ในการสอนระบบให้ “คิด” เราได้รักษาการพัฒนา AI ไว้โดยส่วนใหญ่ในฐานะโครงการก่อสร้าง: การสร้างอาคารที่มีความฉลาด แต่ตอนนี้ที่อาคารแห่งนี้ได้ถูกสร้างขึ้นแล้ว ความท้าทายที่แท้จริงคือการหาวิธีให้คนหลายล้านที่ต้องการใช้งานและดำเนินการภายในอาคารแห่งนี้พร้อมกัน ซึ่งเปลี่ยนโฟกัสของนักวิจัยและวิศวกร AI จากการฝึกอบรม (การสร้างความฉลาด) ไปสู่การอนุมาน (การใช้ความฉลาด) ในขณะที่การฝึกอบรมเป็นการลงทุนครั้งเดียวที่มีค่าใช้จ่ายมาก (CapEx) การอนุมานคือค่าใช้จ่ายในการดำเนินงานที่เกิดขึ้นอย่างต่อเนื่อง (OpEx) ที่ดำเนินต่อไปอย่างไม่มีกำหนด เมื่อองค์กรต่างๆ ติดตั้งเอเย่นต์ที่ให้บริการผู้ใช้หลายล้านคนตลอด 24 ชั่วโมง พวกเขากำลังพบกับความเป็นจริงที่รุนแรง: การอนุมานไม่ใช่แค่ “การฝึกอบรมในทางกลับกัน” แต่เป็นความท้าทายทางวิศวกรรมที่แตกต่างและอาจยากกว่า

ทำไมต้นทุนการอนุมานมีความสำคัญมากกว่าที่เคย

เพื่อทำความเข้าใจความท้าทายทางวิศวกรรม เราต้องเข้าใจก่อนว่าความจำเป็นทางเศรษฐกิจที่ซ่อนอยู่คืออะไร ในช่วงการฝึกอบรม การไม่มีประสิทธิภาพสามารถทนได้ หากการฝึกอบรมใช้เวลา 4 สัปดาห์แทน 3 สัปดาห์ จะเป็นเรื่องที่น่ารำคาญ แต่ในการอนุมาน การไม่มีประสิทธิภาพอาจเป็นอันตรายต่อธุรกิจได้ ตัวอย่างเช่น การฝึกโมเดลแนวหน้าอาจมีค่าใช้จ่าย 100 ล้านเหรียญสหรัฐ แต่การนำโมเดลนั้นไปใช้เพื่อตอบคำถาม 10 ล้านคำถามต่อวันสามารถ เกินค่าใช้จ่าย ในเวลาไม่กี่เดือนหากไม่ได้รับการปรับให้เหมาะสม ซึ่งเป็นเหตุผลที่เรากำลังเห็นการเปลี่ยนแปลงของตลาด โดยที่การลงทุนในการอนุมาน คาดว่าจะเกิน การลงทุนในการฝึกอบรม

สำหรับวิศวกร สิ่งนี้เปลี่ยนเป้าหมายของพวกเขา เราไม่ได้เพิ่มประสิทธิภาพสำหรับการประมวลผลข้อมูลขนาดใหญ่อีกต่อไป (เราสามารถประมวลผลข้อมูลขนาดใหญ่นี้ได้เร็วแค่ไหน) แต่เรากำลังเพิ่มประสิทธิภาพสำหรับการตอบสนอง (เราสามารถตอบกลับโทเค็นเดียวได้เร็วแค่ไหน) และความพร้อมใช้งาน (เราสามารถให้บริการผู้ใช้ได้มากแค่ไหนบน GPU เดียว) วิธีการ “ใช้กำลังอย่างรุนแรง” ที่ครอบงำช่วงการฝึกอบรมโดยการเพิ่มคอมพิวเตอร์มากขึ้นไม่ทำงานที่นี่ คุณไม่สามารถโยน H100 มากขึ้นเพื่อแก้ปัญหาการตอบสนองได้หากปัญหาคือความกว้างของแบนด์วิธหน่วยความจำ

กำแพงหน่วยความจำ: อุปสรรคที่แท้จริง

ความจริงที่ไม่ค่อยเป็นที่รู้จักเกี่ยวกับการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) คือมันไม่ค่อยถูกจำกัดโดยการคำนวณ แต่ถูกจำกัดโดยหน่วยความจำ ในช่วงการฝึกอบรม เราประมวลผลข้อมูลในล็อตขนาดใหญ่ ทำให้หน่วยประมวลผลของ GPU ใช้งานอย่างเต็มที่ ในการอนุมาน โดยเฉพาะสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น แชทบอทหรือเอเย่นต์ คำขอจะเข้ามาแบบลำดับ สำหรับโทเค็นที่สร้างขึ้นทุกครั้ง โมเดลจะต้องโหลดพารามิเตอร์หลายพันล้านจาก หน่วยความจำแบนด์วิธสูง (HBM) เข้าสู่แกนประมวลผล นี่คือ “กำแพงหน่วยความจำ” มันเหมือนกับการมีเครื่องยนต์เฟอร์รารี่ (แกนประมวลผล) ติดอยู่ใน交通จาม (ความกว้างของแบนด์วิธหน่วยความจำที่จำกัด)

ความท้าทายนี้ทำให้ทีมวิศวกรต้องคิดใหม่เกี่ยวกับสถาปัตยกรรมระบบลงไปถึงระดับซิลิกอน ซึ่งเป็นเหตุผลที่เรากำลังเห็นการเพิ่มขึ้นของ หน่วยประมวลผลเชิงเส้น (LPUs) เช่นของ Groq และ หน่วยประมวลผลประสาท (NPUs) ที่ถูกออกแบบมาเพื่อข้ามอุปสรรคของ HBM โดยใช้ SRAM บนชิปขนาดใหญ่ และรับหน่วยความจำเป็นกระบวนการข้อมูลแบบต่อเนื่อง ไม่ใช่การดึงข้อมูลแบบง่ายๆ สำหรับวิศวกรซอฟต์แวร์ สิ่งนี้บ่งบอกถึงการสิ้นสุดของยุค “CUDA เป็นค่าเริ่มต้น” เราต้องเขียนโค้ดที่ตระหนักถึงฮาร์ดแวร์ และเข้าใจว่าข้อมูลเคลื่อนที่ผ่านสายอย่างไร

ด้านใหม่ของประสิทธิภาพ AI

เนื่องจากเราไม่สามารถเปลี่ยนฮาร์ดแวร์ได้เสมอไป ด้านใหม่ของวิศวกรรมจึงอยู่ที่การปรับให้เหมาะสมของซอฟต์แวร์ ซึ่งเป็นที่ที่มีการพัฒนาอย่างสร้างสรรค์เกิดขึ้นอย่างมาก เรากำลังเห็นการฟื้นคืนของเทคนิคที่กำลังเปลี่ยนแนวทางใหม่ในการนำระบบประสาทไปใช้และดำเนินการ

  • การแบตช์แบบต่อเนื่อง: การแบตช์แบบดั้งเดิมจะรอจนกว่า “รถบัส” จะเต็มก่อนที่จะออกเดินทาง ซึ่งทำให้เกิดความล่าช้า การแบตช์แบบต่อเนื่อง (ที่ถูกนำมาใช้โดยเฟรมเวิร์กอย่าง vLLM) ทำงานเหมือนระบบขนส่งมวลชน โดยอนุญาตให้คำขอใหม่เข้าร่วมหรือออกจากรถไฟประมวลผลของ GPU ที่แต่ละรอบการวนซ้ำ มันเพิ่มประสิทธิภาพสูงสุดโดยไม่สูญเสียความล่าช้า และแก้ปัญหาการจัดตารางที่ซับซ้อนซึ่งต้องใช้ความเชี่ยวชาญระดับระบบปฏิบัติการลึกๆ
  • การถอดรหัสแบบคาดเดา: เทคนิคนี้ใช้โมเดลขนาดเล็กที่เร็วและราคาไม่แพงในการสร้างร่างคำตอบ ในขณะที่โมเดลที่ใหญ่กว่าและช้ากว่าทำการตรวจสอบแบบขนาน มันพึ่งพาความจริงที่ว่าการตรวจสอบข้อความมีค่าใช้จ่ายการคำนวณน้อยกว่าการสร้างข้อความ
  • การจัดการแคช KV: ในการคุยกันยาวๆ “ประวัติ” (แคช Key-Value) จะเติบโตอย่างรวดเร็วและใช้หน่วยความจำ GPU จำนวนมาก วิศวกรกำลังนำเทคนิค “PagedAttention” มาใช้ ซึ่งเป็นเทคนิคที่ได้รับแรงบันดาลใจจากการจัดการหน่วยความจำแบบหน้าในระบบปฏิบัติการ เทคนิคนี้แบ่งหน่วยความจำออกเป็นชิ้นเล็กๆ และจัดการมันอย่างไม่ต่อเนื่อง

ความซับซ้อนของตัวแทน

หากการอนุมานมาตรฐานยาก การอนุมาน AI ที่มีตัวแทนจะยากกว่าหลายเท่า แชทบอทมาตรฐานไม่มีสถานะ: ผู้ใช้ถาม AI ตอบ กระบวนจบ ตัวแทน AI มีลูป: วางแผน ใช้เครื่องมือ สังเกตผลลัพธ์ และวนซ้ำ จากมุมมองของวิศวกรรม สิ่งนี้เป็นฝันร้าย สถาปัตยกรรมนี้นำเสนอความท้าทายหลักๆ ดังนี้:

  1. การจัดการสถานะ: เครื่องมือการอนุมานต้องรักษาสถานะของกระบวนการคิดของตัวแทนในช่วงหลายขั้นตอน ซึ่งอาจใช้เวลาหลายนาที
  2. ลูปอินฟินิต: ไม่เหมือนกับการผ่านไปข้างหน้าที่คาดการณ์ได้ ตัวแทนสามารถติดอยู่ในลูปการให้เหตุผลได้ การสร้าง “คนดู” และ “เครื่องตัดวงจร” สำหรับโค้ดแบบสุ่มเป็นสาขาใหม่ทั้งหมด
  3. การคำนวณที่เปลี่ยนแปลง: คำขอของผู้ใช้หนึ่งอาจกระตุ้นการเรียกการอนุมานเพียงครั้งเดียว ในขณะที่อีกคำขอหนึ่งอาจกระตุ้นได้ถึง 50 ครั้ง การจัดการโหลดและโครงสร้างพื้นฐานแบบอัตโนมัติเมื่อคำขอแต่ละครั้งมีความแปรผันอย่างมากต้องการตรรกะการกำกับดูแลใหม่ทั้งหมด

เรากำลังย้ายจาก “การเสิร์ฟโมเดล” ไปสู่ “การกำกับดูแลสถาปัตยกรรมการรับรู้”

การนำ AI มาสู่อุปกรณ์ทั่วไป

สุดท้าย ข้อจำกัดของพลังงานและความล่าช้าของเครือข่ายจะบังคับให้การอนุมานไปสู่ด้านข้าง เราไม่สามารถคาดหวังว่าหลอดไฟอัจฉริยะรถยนต์ไร้คนขับหรือหุ่นยนต์โรงงานจะส่งคำขอผ่านศูนย์ข้อมูลได้ ความท้าทายทางวิศวกรรมที่นี่คือการบีบอัด เทคนิคอย่าง การปรับขนาดโมเดล (ลดความแม่นยำจาก 16 บิตเป็น 4 บิตหรือแม้กระทั่ง 1 บิต) และ การกลั่นโมเดล (สอนโมเดลขนาดเล็กให้เลียนแบบโมเดลขนาดใหญ่) กำลังกลายเป็นมาตรฐาน แต่ความท้าทายที่แท้จริงคือการนำโมเดลเหล่านี้ไปใช้กับระบบนิเวศที่กระจัดกระจายของอุปกรณ์หลายพันล้าน เช่น Android, iOS, Embedded Linux, เซ็นเซอร์แบบกำหนดเอง โดยมีข้อจำกัดของฮาร์ดแวร์เป็นของตัวเอง

สรุป

เรากำลังเข้าสู่ยุค “วันที่ 2” ของ AI ที่สร้างขึ้น วันที่ 1 คือการแสดงให้เห็นว่า AI สามารถเขียนบทกวีได้ วันที่ 2 คือการสร้างวิศวกรรมให้ความสามารถนี้มีความน่าเชื่อถือ มีราคาไม่แพง และแพร่หลาย วิศวกรที่จะกำหนดรูปแบบทศวรรษหน้าไม่จำเป็นต้องเป็นผู้ที่คิดค้นสถาปัตยกรรมโมเดลใหม่ แต่เป็น วิศวกรระบบ ผู้ที่สามารถหาวิธีให้บริการหนึ่งพันล้านโทเค็นต่อวินาทีโดยไม่ทำให้เครือข่ายไฟฟ้าล่มหรือทำให้บริษัทล้มละลาย การอนุมาน AI ไม่ใช่แค่รายละเอียดการทำงานอีกต่อไป มันเป็นผลิตภัณฑ์ และการปรับให้เหมาะสมคือความท้าทายทางวิศวกรรมครั้งใหญ่ต่อไป

ดร. Tehseen Zia เป็น Professor ที่ COMSATS University Islamabad โดยได้รับ PhD ใน AI จาก Vienna University of Technology, Austria มีเชี่ยวชาญด้าน Artificial Intelligence, Machine Learning, Data Science, และ Computer Vision โดยมีส่วนร่วมที่สำคัญด้วยการเผยแพร่ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังได้ดำเนินโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และให้บริการเป็นที่ปรึกษาด้าน AI