เชื่อมต่อกับเรา

MILS ของ Meta AI: ผู้เปลี่ยนเกมสำหรับ AI มัลติโมดัลแบบ Zero-Shot

ปัญญาประดิษฐ์

MILS ของ Meta AI: ผู้เปลี่ยนเกมสำหรับ AI มัลติโมดัลแบบ Zero-Shot

mm

การตีพิมพ์

 on

MILS ของ Meta AI: ผู้เปลี่ยนเกมสำหรับ AI มัลติโมดัลแบบ Zero-Shot

ปีที่ผ่านมา ปัญญาประดิษฐ์ (AI) ได้มีการพัฒนาอย่างน่าประทับใจ แต่ AI ยังคงมีข้อจำกัดพื้นฐานอยู่เสมอในการประมวลผลข้อมูลประเภทต่างๆ ในแบบเดียวกับที่มนุษย์ทำได้ โมเดล AI ส่วนใหญ่เป็นแบบยูนิโมดัล ซึ่งหมายความว่า AI เชี่ยวชาญในรูปแบบเดียว เช่น ข้อความ รูปภาพ วิดีโอ หรือเสียง แม้ว่าจะเพียงพอสำหรับงานเฉพาะ แต่แนวทางนี้ทำให้ AI มีลักษณะยืดหยุ่น ซึ่งทำให้ไม่สามารถเชื่อมโยงจุดต่างๆ ข้ามประเภทข้อมูลต่างๆ และไม่สามารถเข้าใจบริบทได้อย่างแท้จริง

เพื่อแก้ปัญหานี้ AI หลายรูปแบบ ได้ถูกนำเสนอ ทำให้โมเดลสามารถทำงานกับอินพุตหลายรูปแบบได้ อย่างไรก็ตาม การสร้างระบบเหล่านี้ไม่ใช่เรื่องง่าย เนื่องจากต้องใช้ชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับ ซึ่งไม่เพียงแต่ค้นหาได้ยากเท่านั้น แต่ยังมีราคาแพงและใช้เวลานานในการสร้างอีกด้วย นอกจากนี้ โมเดลเหล่านี้มักต้องปรับแต่งให้เหมาะกับงาน ทำให้ต้องใช้ทรัพยากรจำนวนมากและปรับขนาดให้เหมาะกับโดเมนใหม่ได้ยาก

เมตาเอไอ ตัวแก้ปัญหา LLM แบบวนซ้ำหลายโหมด (MILS) เป็นการพัฒนาที่เปลี่ยนแปลงสิ่งนี้ ซึ่งแตกต่างจากโมเดลดั้งเดิมที่ต้องมีการฝึกอบรมใหม่สำหรับทุกๆ งานใหม่ MILS ใช้ การเรียนรู้แบบไม่มีช็อต เพื่อตีความและประมวลผลรูปแบบข้อมูลที่ไม่เคยเห็นมาก่อนโดยไม่ต้องเปิดเผยข้อมูลก่อน แทนที่จะพึ่งพาฉลากที่มีอยู่ก่อน ระบบจะปรับปรุงผลลัพธ์แบบเรียลไทม์โดยใช้ระบบการให้คะแนนแบบวนซ้ำ เพื่อปรับปรุงความแม่นยำอย่างต่อเนื่องโดยไม่ต้องมีการฝึกอบรมเพิ่มเติม

ปัญหาของ AI มัลติโหมดแบบดั้งเดิม

AI แบบมัลติโหมด ซึ่งประมวลผลและบูรณาการข้อมูลจากแหล่งต่าง ๆ เพื่อสร้างแบบจำลองรวม มีศักยภาพมหาศาลในการเปลี่ยนแปลงวิธีที่ AI โต้ตอบกับโลก ซึ่งแตกต่างจาก AI แบบดั้งเดิม ซึ่งอาศัยข้อมูลอินพุตประเภทเดียว AI แบบมัลติโหมดสามารถเข้าใจและประมวลผลข้อมูลหลายประเภท เช่น การแปลงรูปภาพเป็นข้อความ สร้างคำบรรยายสำหรับวิดีโอ หรือการสังเคราะห์เสียงพูดจากข้อความ

อย่างไรก็ตาม ระบบ AI แบบมัลติโหมดดั้งเดิมเผชิญกับความท้าทายที่สำคัญ รวมถึงความซับซ้อน ความต้องการข้อมูลจำนวนมาก และความยากลำบากในการจัดเรียงข้อมูล โดยทั่วไปแล้ว โมเดลเหล่านี้มีความซับซ้อนมากกว่าโมเดลยูนิโหมด ซึ่งต้องใช้ทรัพยากรการคำนวณจำนวนมากและเวลาในการฝึกอบรมนานกว่า ความหลากหลายของข้อมูลที่เกี่ยวข้องก่อให้เกิดความท้าทายที่สำคัญสำหรับคุณภาพข้อมูล การจัดเก็บ และความซ้ำซ้อน ทำให้ปริมาณข้อมูลดังกล่าวมีราคาแพงในการจัดเก็บและมีค่าใช้จ่ายสูงในการประมวลผล

เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ AI แบบมัลติโหมดต้องใช้ข้อมูลคุณภาพสูงจำนวนมากจากโหมดต่างๆ และคุณภาพข้อมูลที่ไม่สม่ำเสมอในทุกโหมดอาจส่งผลต่อประสิทธิภาพของระบบเหล่านี้ นอกจากนี้ การจัดตำแหน่งข้อมูลที่มีความหมายจากประเภทข้อมูลต่างๆ อย่างเหมาะสม ซึ่งเป็นข้อมูลที่แสดงเวลาและพื้นที่เดียวกันนั้นมีความซับซ้อน การรวมข้อมูลจากโหมดต่างๆ มีความซับซ้อน เนื่องจากแต่ละโหมดมีโครงสร้าง รูปแบบ และข้อกำหนดในการประมวลผลที่แตกต่างกัน ทำให้การผสมผสานที่มีประสิทธิภาพทำได้ยาก นอกจากนี้ ชุดข้อมูลที่มีป้ายกำกับคุณภาพสูงที่ประกอบด้วยโหมดต่างๆ มักมีไม่เพียงพอ และการรวบรวมและใส่คำอธิบายประกอบข้อมูลมัลติโหมดนั้นใช้เวลานานและมีค่าใช้จ่ายสูง

เมื่อตระหนักถึงข้อจำกัดเหล่านี้ MILS ของ Meta AI จึงใช้ประโยชน์จากการเรียนรู้แบบ Zero-Shot ซึ่งช่วยให้ AI สามารถทำงานที่ไม่เคยได้รับการฝึกอบรมอย่างชัดเจนมาก่อน และสรุปความรู้ในบริบทต่างๆ ได้ ด้วยการเรียนรู้แบบ Zero-Shot MILS จะปรับและสร้างเอาต์พุตที่แม่นยำโดยไม่ต้องใช้ข้อมูลที่มีป้ายกำกับเพิ่มเติม ซึ่งนำแนวคิดนี้ไปอีกขั้นด้วยการวนซ้ำเอาต์พุตที่สร้างโดย AI หลายรายการ และปรับปรุงความแม่นยำผ่านระบบการให้คะแนนอัจฉริยะ

เหตุใดการเรียนรู้แบบ Zero-Shot จึงถือเป็นตัวเปลี่ยนเกม

ความก้าวหน้าที่สำคัญที่สุดประการหนึ่งใน AI คือการเรียนรู้แบบ zero-shot ซึ่งช่วยให้โมเดล AI สามารถดำเนินการงานหรือจดจำวัตถุได้โดยไม่ต้องมีการฝึกอบรมเฉพาะเจาะจงล่วงหน้า เรียนรู้เครื่อง ต้องใช้ชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับสำหรับงานใหม่ทุกงาน ซึ่งหมายความว่าจะต้องมีการฝึกโมเดลอย่างชัดเจนในแต่ละหมวดหมู่ที่จำเป็นต้องจดจำ แนวทางนี้ใช้ได้ผลดีเมื่อมีข้อมูลฝึกมากมาย แต่จะกลายเป็นความท้าทายในสถานการณ์ที่ข้อมูลที่มีป้ายกำกับมีน้อย มีราคาแพง หรือไม่สามารถหาได้

การเรียนรู้แบบ Zero-Shot เปลี่ยนแปลงสิ่งนี้ด้วยการทำให้ AI สามารถนำความรู้ที่มีอยู่ไปใช้กับสถานการณ์ใหม่ๆ ได้ ซึ่งก็คล้ายกับวิธีที่มนุษย์อนุมานความหมายจากประสบการณ์ในอดีต แทนที่จะพึ่งพาตัวอย่างที่มีป้ายกำกับเพียงอย่างเดียว โมเดลแบบ Zero-Shot จะใช้ข้อมูลเสริม เช่น คุณลักษณะทางความหมายหรือความสัมพันธ์ตามบริบท เพื่อสรุปผลทั่วทั้งงาน ความสามารถนี้ช่วยเพิ่มความสามารถในการปรับขนาด ลดการพึ่งพาข้อมูล และปรับปรุงความสามารถในการปรับตัว ทำให้ AI มีความยืดหยุ่นมากขึ้นในการใช้งานจริง

ตัวอย่างเช่น หากจู่ๆ โมเดล AI แบบดั้งเดิมที่ฝึกด้วยข้อความเพียงอย่างเดียวถูกขอให้บรรยายภาพ โมเดลดังกล่าวจะประสบปัญหาหากไม่ได้รับการฝึกที่ชัดเจนเกี่ยวกับข้อมูลภาพ ในทางกลับกัน โมเดลแบบ zero-shot เช่น MILS สามารถประมวลผลและตีความภาพได้โดยไม่ต้องใช้ตัวอย่างที่มีป้ายกำกับเพิ่มเติม MILS ปรับปรุงแนวคิดนี้เพิ่มเติมโดยทำซ้ำเอาต์พุตที่สร้างโดย AI หลายรายการและปรับปรุงการตอบสนองโดยใช้ระบบการให้คะแนนอัจฉริยะ

แนวทางนี้มีประโยชน์อย่างยิ่งในสาขาที่ข้อมูลที่มีคำอธิบายประกอบมีจำกัดหรือมีราคาแพงในการได้มา เช่น การสร้างภาพทางการแพทย์ การแปลภาษาที่หายาก และการวิจัยทางวิทยาศาสตร์ที่เพิ่งเกิดขึ้น ความสามารถของโมเดลแบบ Zero-Shot ที่จะปรับตัวให้เข้ากับงานใหม่ได้อย่างรวดเร็วโดยไม่ต้องฝึกอบรมใหม่ ทำให้โมเดลเหล่านี้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการใช้งานที่หลากหลาย ตั้งแต่ การจดจำภาพ ไปยัง การประมวลผลภาษาธรรมชาติ.

MILS ของ Meta AI ช่วยเพิ่มความเข้าใจแบบหลายโหมดได้อย่างไร

MILS ของ Meta AI นำเสนอวิธีที่ชาญฉลาดยิ่งขึ้นสำหรับ AI ในการตีความและปรับแต่งข้อมูลหลายโหมดโดยไม่ต้องฝึกอบรมซ้ำอย่างละเอียด โดยทำได้โดยใช้กระบวนการแบบวนซ้ำสองขั้นตอนที่ขับเคลื่อนด้วยส่วนประกอบสำคัญสองส่วน:

  • เครื่องกำเนิดไฟฟ้า: โมเดลภาษาขนาดใหญ่ (LLM)เช่น LLaMA-3.1-8B ที่สร้างการตีความอินพุตที่เป็นไปได้หลายแบบ
  • ผู้ทำคะแนน: โมเดลมัลติโหมดที่ผ่านการฝึกอบรมล่วงหน้า เช่น CLIP จะประเมินการตีความเหล่านี้ และจัดอันดับตามความแม่นยำและความเกี่ยวข้อง

กระบวนการนี้จะเกิดขึ้นซ้ำในวงจรข้อเสนอแนะ โดยจะปรับแต่งเอาต์พุตอย่างต่อเนื่องจนกว่าจะได้รับการตอบสนองที่แม่นยำที่สุดและถูกต้องตามบริบท ทั้งหมดนี้เกิดขึ้นโดยไม่ต้องปรับเปลี่ยนพารามิเตอร์หลักของแบบจำลองเลย

สิ่งที่ทำให้ MILS โดดเด่นคือการปรับให้เหมาะสมแบบเรียลไทม์ โมเดล AI ดั้งเดิมจะอาศัยน้ำหนักที่ผ่านการฝึกมาแล้วล่วงหน้าและต้องฝึกใหม่อย่างหนักสำหรับงานใหม่ ในทางกลับกัน MILS จะปรับตัวแบบไดนามิกในเวลาทดสอบ โดยปรับปรุงการตอบสนองตามคำติชมทันทีจาก Scorer ซึ่งทำให้มีประสิทธิภาพ ยืดหยุ่น และพึ่งพาชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับน้อยลง

MILS สามารถจัดการงานหลายโหมดได้หลากหลาย เช่น:

  • คำบรรยายภาพ:ปรับแต่งคำบรรยายอย่างต่อเนื่องด้วย LLaMA-3.1-8B และ CLIP
  • การวิเคราะห์วิดีโอ:การใช้ ViCLIP เพื่อสร้างคำอธิบายเนื้อหาวิดีโอที่สอดคล้องกัน
  • การประมวลผลภาพและเสียง:การใช้ประโยชน์จาก ImageBind เพื่ออธิบายเสียงในภาษาธรรมชาติ
  • การสร้างข้อความเป็นรูปภาพ:ปรับปรุงคำเตือนก่อนที่จะป้อนเข้าสู่โมเดลการแพร่กระจายเพื่อคุณภาพของภาพที่ดีขึ้น
  • การถ่ายโอนสไตล์:การสร้างคำเตือนการแก้ไขที่เหมาะสมที่สุดเพื่อให้แน่ใจว่าการเปลี่ยนแปลงมีความสอดคล้องกันทางภาพ

การใช้โมเดลที่ผ่านการฝึกอบรมล่วงหน้าเป็นกลไกการให้คะแนนแทนที่จะต้องใช้การฝึกอบรมแบบมัลติโมดัลโดยเฉพาะ ทำให้ MILS มอบประสิทธิภาพแบบ Zero Shot ที่ทรงพลังสำหรับงานต่างๆ ซึ่งทำให้เป็นแนวทางการเปลี่ยนแปลงสำหรับนักพัฒนาและนักวิจัย ช่วยให้สามารถผสานการใช้เหตุผลแบบมัลติโมดัลเข้ากับแอปพลิเคชันได้โดยไม่ต้องมีภาระในการฝึกอบรมซ้ำอีกครั้ง

MILS เหนือกว่า AI แบบดั้งเดิมอย่างไร

MILS มีประสิทธิภาพเหนือกว่าโมเดล AI ดั้งเดิมอย่างเห็นได้ชัดในหลาย ๆ ด้าน โดยเฉพาะในด้านประสิทธิภาพการฝึกอบรมและการลดต้นทุน ระบบ AI ทั่วไปมักต้องการการฝึกอบรมแยกกันสำหรับข้อมูลแต่ละประเภท ซึ่งไม่เพียงแต่ต้องการชุดข้อมูลที่มีป้ายกำกับจำนวนมากเท่านั้น แต่ยังมีค่าใช้จ่ายในการคำนวณสูงอีกด้วย การแยกนี้สร้างอุปสรรคต่อการเข้าถึงสำหรับธุรกิจหลายแห่ง เนื่องจากทรัพยากรที่จำเป็นสำหรับการฝึกอบรมอาจสูงเกินไป

ในทางตรงกันข้าม MILS ใช้โมเดลที่ผ่านการฝึกอบรมล่วงหน้าและปรับแต่งผลลัพธ์อย่างไดนามิก ซึ่งช่วยลดต้นทุนการคำนวณเหล่านี้ได้อย่างมาก แนวทางนี้ช่วยให้องค์กรสามารถนำความสามารถขั้นสูงของ AI มาใช้ได้โดยไม่ต้องแบกรับภาระทางการเงินที่มักเกิดขึ้นจากการฝึกอบรมโมเดลอย่างครอบคลุม

นอกจากนี้ MILS ยังแสดงให้เห็นถึงความแม่นยำและประสิทธิภาพสูงเมื่อเทียบกับโมเดล AI ที่มีอยู่ในเกณฑ์มาตรฐานต่างๆ สำหรับการสร้างคำบรรยายวิดีโอ กระบวนการปรับแต่งแบบวนซ้ำช่วยให้สามารถสร้างผลลัพธ์ที่แม่นยำและเกี่ยวข้องกับบริบทมากกว่าโมเดล AI แบบช็อตเดียว ซึ่งมักประสบปัญหาในการสร้างคำอธิบายที่แม่นยำจากประเภทข้อมูลใหม่ โดยการปรับปรุงเอาต์พุตอย่างต่อเนื่องผ่านวงจรป้อนกลับระหว่างส่วนประกอบของตัวสร้างและตัวให้คะแนน MILS จึงมั่นใจได้ว่าผลลัพธ์สุดท้ายไม่เพียงแต่มีคุณภาพสูงเท่านั้น แต่ยังปรับให้เข้ากับความแตกต่างเฉพาะของแต่ละงานได้อีกด้วย

ความสามารถในการปรับขนาดและความสามารถในการปรับตัวเป็นจุดแข็งเพิ่มเติมของ MILS ที่ทำให้แตกต่างจากระบบ AI ดั้งเดิม เนื่องจากไม่จำเป็นต้องมีการฝึกอบรมใหม่สำหรับงานหรือประเภทข้อมูลใหม่ MILS จึงสามารถรวมเข้ากับระบบต่างๆ ที่ขับเคลื่อนด้วย AI ในอุตสาหกรรมต่างๆ ได้ ความยืดหยุ่นโดยธรรมชาตินี้ทำให้ MILS ปรับขนาดได้สูงและพร้อมสำหรับอนาคต ช่วยให้องค์กรต่างๆ สามารถใช้ประโยชน์จากความสามารถของ MILS ได้เมื่อความต้องการเปลี่ยนแปลงไป ในขณะที่ธุรกิจต่างๆ พยายามใช้ประโยชน์จาก AI มากขึ้นโดยปราศจากข้อจำกัดของรูปแบบดั้งเดิม MILS จึงกลายมาเป็นโซลูชันที่เปลี่ยนแปลงไปซึ่งช่วยเพิ่มประสิทธิภาพในขณะที่มอบประสิทธิภาพที่เหนือกว่าในแอปพลิเคชันต่างๆ

บรรทัดด้านล่าง

MILS ของ Meta AI กำลังเปลี่ยนแปลงวิธีที่ AI จัดการข้อมูลประเภทต่างๆ แทนที่จะพึ่งพาชุดข้อมูลที่มีป้ายกำกับจำนวนมากหรือการฝึกอบรมซ้ำๆ กัน MILS จะเรียนรู้และปรับปรุงขณะทำงาน ซึ่งทำให้ AI มีความยืดหยุ่นและมีประโยชน์มากขึ้นในสาขาต่างๆ ไม่ว่าจะเป็นการวิเคราะห์ภาพ การประมวลผลเสียง หรือการสร้างข้อความ

MILS ทำให้ AI เข้าใกล้กระบวนการประมวลผลข้อมูลของมนุษย์มากขึ้น โดยเรียนรู้จากข้อเสนอแนะและตัดสินใจได้ดีขึ้นในแต่ละขั้นตอน แนวทางนี้ไม่ได้มุ่งหวังแค่การทำให้ AI ฉลาดขึ้นเท่านั้น แต่ยังมุ่งหวังที่จะทำให้ AI ใช้งานได้จริงและปรับให้เข้ากับความท้าทายในโลกแห่งความเป็นจริงได้อีกด้วย

ดร. อัสซาด อับบาส, ก รองศาสตราจารย์ ที่มหาวิทยาลัย COMSATS อิสลามาบัด ประเทศปากีสถาน สำเร็จการศึกษาระดับปริญญาเอก จากมหาวิทยาลัยรัฐนอร์ธดาโกตา สหรัฐอเมริกา งานวิจัยของเขามุ่งเน้นไปที่เทคโนโลยีขั้นสูง รวมถึงคลาวด์ หมอก และการประมวลผลแบบเอดจ์ การวิเคราะห์ข้อมูลขนาดใหญ่ และ AI ดร. อับบาสได้มีส่วนร่วมอย่างมากกับสิ่งตีพิมพ์ในวารสารและการประชุมทางวิทยาศาสตร์ที่มีชื่อเสียง