เชื่อมต่อกับเรา

ผู้นำทางความคิด

วิวัฒนาการของการฝึกอบรมโมเดล AI: เกินขนาดไปสู่ประสิทธิภาพ

mm

การตีพิมพ์

 on

ในภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ วิธีการแบบดั้งเดิมในการปรับปรุงโมเดลภาษาโดยการเพิ่มขนาดโมเดลเพียงอย่างเดียวกำลังอยู่ระหว่างการเปลี่ยนแปลงที่สำคัญ การเปลี่ยนแปลงนี้ตอกย้ำแนวทางเชิงกลยุทธ์ที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้น ดังตัวอย่างจากการพัฒนาล่าสุดในรูปแบบต่างๆ เช่น ลามะ3.

ข้อมูลคือสิ่งที่คุณต้องการ

ในอดีต ความเชื่อที่มีอยู่ทั่วไปในการพัฒนาขีดความสามารถของ AI นั้นยิ่งใหญ่กว่าก็ยิ่งดี

ในอดีต เราได้เห็นความสามารถในการเรียนรู้เชิงลึกเพิ่มขึ้นอย่างมาก เพียงเพิ่มเลเยอร์ให้กับโครงข่ายประสาทเทียมมากขึ้น อัลกอริธึมและการประยุกต์ใช้งาน เช่น การจดจำภาพ ซึ่งครั้งหนึ่งเคยเป็นไปได้ในทางทฤษฎีเท่านั้นก่อนการถือกำเนิดของ การเรียนรู้ลึก ๆได้รับการยอมรับอย่างกว้างขวางอย่างรวดเร็ว การพัฒนากราฟิกการ์ดได้ขยายแนวโน้มนี้มากขึ้น ทำให้โมเดลขนาดใหญ่สามารถทำงานได้อย่างมีประสิทธิภาพเพิ่มขึ้น แนวโน้มนี้ได้ส่งต่อไปยังโมเดลภาษาขนาดใหญ่ในปัจจุบันเช่นกัน

เราพบประกาศจากบริษัท AI รายใหญ่เป็นระยะๆ ที่ออกโมเดลที่มีพารามิเตอร์หลายสิบหรือหลายแสนล้านรายการ เหตุผลง่ายต่อการเข้าใจ: ยิ่งโมเดลมีพารามิเตอร์มากเท่าใด ก็จะยิ่งมีความเชี่ยวชาญมากขึ้นเท่านั้น อย่างไรก็ตาม วิธีการปรับขนาดแบบเดรัจฉานนี้ถึงจุดที่ผลตอบแทนลดลง โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงความคุ้มทุนของโมเดลดังกล่าวในการใช้งานจริง การประกาศล่าสุดของ Meta เกี่ยวกับแนวทาง Llama3 ซึ่งใช้พารามิเตอร์ 8 พันล้านพารามิเตอร์ แต่เสริมด้วยข้อมูลการฝึกอบรมคุณภาพสูง การจับคู่การแข่งขัน—และในบางสถานการณ์ก็มีประสิทธิภาพเหนือกว่า—ประสิทธิภาพของรุ่นก่อนหน้า เช่น GPT6 ซึ่ง มีพารามิเตอร์มากกว่า 7 พันล้านพารามิเตอร์ สิ่งนี้ถือเป็นจุดเปลี่ยนที่สำคัญในกฎหมายมาตราส่วนสำหรับโมเดลภาษา ซึ่งคุณภาพและปริมาณของข้อมูลเริ่มมีความสำคัญมากกว่าขนาดที่แท้จริง

ต้นทุนเทียบกับประสิทธิภาพ: ความสมดุลที่ละเอียดอ่อน

เนื่องจากโมเดลปัญญาประดิษฐ์ (AI) ย้ายจากการพัฒนาไปสู่การใช้งานจริง ผลกระทบทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งต้นทุนการดำเนินงานที่สูงของโมเดลขนาดใหญ่ จึงมีความสำคัญมากขึ้นเรื่อยๆ ค่าใช้จ่ายเหล่านี้มักจะเกินกว่าค่าใช้จ่ายในการฝึกอบรมเบื้องต้น โดยเน้นถึงความจำเป็นสำหรับแนวทางการพัฒนาที่ยั่งยืนที่ให้ความสำคัญกับการใช้ข้อมูลอย่างมีประสิทธิภาพมากกว่าการขยายขนาดแบบจำลอง กลยุทธ์เช่น การเสริมข้อมูล และ ถ่ายทอดการเรียนรู้ สามารถปรับปรุงชุดข้อมูลและลดความจำเป็นในการฝึกอบรมใหม่อย่างกว้างขวาง การปรับปรุงโมเดลด้วยการเลือกคุณสมบัติและการลดขนาดช่วยเพิ่มประสิทธิภาพในการคำนวณและลดต้นทุน เทคนิคต่างๆ เช่น การออกกลางคันและการหยุดก่อนกำหนดจะปรับปรุงลักษณะทั่วไป ทำให้แบบจำลองสามารถทำงานได้อย่างมีประสิทธิภาพโดยใช้ข้อมูลน้อยลง กลยุทธ์การปรับใช้ทางเลือก เช่น การประมวลผลแบบ Edge ช่วยลดการพึ่งพาโครงสร้างพื้นฐานระบบคลาวด์ที่มีค่าใช้จ่ายสูง ในขณะที่การประมวลผลแบบไร้เซิร์ฟเวอร์ให้การใช้ทรัพยากรที่ปรับขนาดได้และคุ้มค่า ด้วยการมุ่งเน้นไปที่การพัฒนาที่เน้นข้อมูลเป็นศูนย์กลางและการสำรวจวิธีการปรับใช้ที่ประหยัด องค์กรต่างๆ จะสามารถสร้างระบบนิเวศ AI ที่ยั่งยืนมากขึ้น ซึ่งสร้างสมดุลระหว่างประสิทธิภาพและความคุ้มทุน

ผลตอบแทนที่ลดลงของโมเดลขนาดใหญ่

ภูมิทัศน์ของการพัฒนา AI กำลังอยู่ระหว่างการเปลี่ยนกระบวนทัศน์ โดยเน้นที่การใช้ข้อมูลอย่างมีประสิทธิภาพและการเพิ่มประสิทธิภาพแบบจำลองเพิ่มมากขึ้น บริษัท AI แบบรวมศูนย์มักจะอาศัยการสร้างแบบจำลองที่ใหญ่ขึ้นเรื่อยๆ เพื่อให้ได้ผลลัพธ์ที่ล้ำสมัย อย่างไรก็ตาม กลยุทธ์นี้เริ่มไม่ยั่งยืนมากขึ้น ทั้งในแง่ของทรัพยากรการคำนวณและความสามารถในการขยายขนาด

ในทางกลับกัน AI แบบกระจายอำนาจนำเสนอชุดความท้าทายและโอกาสที่แตกต่างกัน เครือข่ายบล็อกเชนแบบกระจายอำนาจ ซึ่งเป็นรากฐานของ AI แบบกระจายอำนาจ มีการออกแบบที่แตกต่างกันโดยพื้นฐานเมื่อเปรียบเทียบกับบริษัท AI แบบรวมศูนย์ สิ่งนี้ทำให้เกิดความท้าทายสำหรับการลงทุนด้าน AI แบบกระจายอำนาจที่จะแข่งขันกับหน่วยงานแบบรวมศูนย์ในแง่ของการขยายขนาดโมเดลที่ใหญ่ขึ้นในขณะที่ยังคงรักษาประสิทธิภาพในการดำเนินการแบบกระจายอำนาจ

นี่คือจุดที่ชุมชนที่มีการกระจายอำนาจสามารถเพิ่มศักยภาพสูงสุดและสร้างกลุ่มเฉพาะในภูมิทัศน์ของ AI ด้วยการใช้ประโยชน์จากข้อมูลและทรัพยากรโดยรวม ชุมชนที่มีการกระจายอำนาจสามารถพัฒนาและปรับใช้โมเดล AI ที่ซับซ้อนซึ่งทั้งมีประสิทธิภาพและปรับขนาดได้ สิ่งนี้จะช่วยให้พวกเขาสามารถแข่งขันอย่างมีประสิทธิภาพกับบริษัท AI แบบรวมศูนย์ และขับเคลื่อนอนาคตของการพัฒนา AI

มองไปข้างหน้า: เส้นทางสู่การพัฒนา AI ที่ยั่งยืน

แนวทางการพัฒนา AI ในอนาคตควรมุ่งเน้นไปที่การสร้างแบบจำลองที่ไม่เพียงแต่เป็นนวัตกรรมเท่านั้น แต่ยังบูรณาการและประหยัดอีกด้วย การเน้นควรเปลี่ยนไปสู่ระบบที่สามารถบรรลุความถูกต้องแม่นยำและประโยชน์ใช้สอยในระดับสูง โดยมีต้นทุนและการใช้ทรัพยากรที่สามารถจัดการได้ กลยุทธ์ดังกล่าวจะไม่เพียงแต่รับประกันความสามารถในการปรับขนาดของเทคโนโลยี AI แต่ยังรวมถึงการเข้าถึงและความยั่งยืนในระยะยาวอีกด้วย

เมื่อสาขาปัญญาประดิษฐ์เติบโตขึ้น กลยุทธ์ในการพัฒนา AI จึงต้องพัฒนาตามไปด้วย การเปลี่ยนจากการประเมินขนาดไปเป็นการจัดลำดับความสำคัญของประสิทธิภาพและความคุ้มค่าในการฝึกโมเดลไม่ได้เป็นเพียงทางเลือกทางเทคนิคเท่านั้น แต่ยังเป็นความจำเป็นเชิงกลยุทธ์ที่จะกำหนดแอปพลิเคชัน AI รุ่นต่อไป แนวทางนี้มีแนวโน้มที่จะกระตุ้นยุคใหม่ของนวัตกรรม โดยที่การพัฒนา AI ได้รับการขับเคลื่อนด้วยแนวทางปฏิบัติที่ชาญฉลาดและยั่งยืน ซึ่งสัญญาว่าจะนำไปใช้ในวงกว้างและสร้างผลกระทบที่มากขึ้น​​​​​​​​​​​​

เจียห่าว ซุน ผู้ก่อตั้งและซีอีโอของ FLock.ioเป็นศิษย์เก่าของ Oxford และเป็นผู้เชี่ยวชาญด้าน AI และบล็อกเชน ด้วยบทบาทก่อนหน้านี้ในฐานะผู้อำนวยการฝ่าย AI ของ Royal Bank of Canada และนักวิจัย AI ที่ Imperial College London เขาก่อตั้ง FLock.io เพื่อมุ่งเน้นไปที่โซลูชัน AI ที่เน้นความเป็นส่วนตัว ด้วยความเป็นผู้นำของเขา FLock.io กำลังบุกเบิกความก้าวหน้าในการฝึกอบรมและปรับใช้โมเดล AI ที่ปลอดภัยและทำงานร่วมกัน โดยแสดงให้เห็นถึงความทุ่มเทของเขาในการใช้เทคโนโลยีเพื่อความก้าวหน้าทางสังคม