ปัญญาประดิษฐ์
การเรียนรู้หลายโหมดกำลังเป็นที่นิยมในหมู่นักพัฒนา AI

Venture Beat (VB) ได้พิจารณาหนึ่งในรายงานสัปดาห์เกี่ยวกับข้อดีของการเรียนรู้หลายโหมดในการพัฒนา AI ของพวกเขา สิ่งกระตุ้นนี้คือ รายงาน โดย ABI Research เกี่ยวกับเรื่องนี้
แนวคิดหลักอยู่ในข้อเท็จจริงที่ว่า “ชุดข้อมูลเป็นบล็อกสร้างของระบบ AI” และที่ไม่มีชุดข้อมูล “โมเดลไม่สามารถเรียนรู้ความสัมพันธ์ที่ให้ข้อมูลในการทำนายของพวกเขา” ABI รายงานคาดการณ์ว่า “ในขณะที่ฐานการติดตั้งอุปกรณ์ AI ทั้งหมดจะเติบโตจาก 2.69 พันล้านในปี 2019 เป็น 4.47 พันล้านในปี 2024 แต่ในทางกลับกันจะไม่ทำงานร่วมกันในระยะสั้น”
สิ่งนี้อาจแสดงถึงการสูญเสียเวลา พลังงาน และทรัพยากรที่สำคัญ “แทนที่จะรวมข้อมูลหลายกิกะไบต์ถึงเปตะไบต์ที่ไหลผ่านพวกมันเข้าไปในโมเดล AI หรือโครงสร้างเดียว พวกมันจะทำงานอิสระและไม่เหมือนกันเพื่อทำความเข้าใจข้อมูลที่พวกมันได้รับ”
เพื่อเอาชนะสิ่งนี้ ABI เสนอ การเรียนรู้หลายโหมด ซึ่งเป็นวิธีการที่สามารถรวม ข้อมูล “จากเซ็นเซอร์และอินพุตต่างๆ เข้าสู่ระบบเดียว การเรียนรู้หลายโหมดสามารถนำข้อมูลที่เสริมหรือแนวโน้มที่มักจะปรากฏชัดเจนเมื่อพวกมันรวมอยู่ในการเรียนรู้”
VB นำเสนอตัวอย่างที่เป็นไปได้ซึ่งพิจารณารูปภาพและคำบรรยายข้อความ “ หากคำที่แตกต่างกันจับคู่กับรูปภาพที่คล้ายกัน คำเหล่านั้นมีแนวโน้มที่จะใช้ในการอธิบายสิ่งหรือวัตถุเดียวกัน ในทางกลับกัน หากคำบางคำปรากฏข้างๆ รูปภาพที่แตกต่างกัน สิ่งนี้แสดงว่ารูปภาพเหล่านั้นแสดงถึงวัตถุเดียวกัน ดังนั้นจึงควรเป็นไปได้สำหรับโมเดล AI ที่จะทำนายวัตถุในรูปภาพจากคำบรรยายข้อความ และแท้จริงแล้ว วรรณกรรมทางวิชาการได้พิสูจน์แล้วว่าสิ่งนี้เป็นจริง”
尽管มีข้อได้เปรียบที่เป็นไปได้ ABI หมายเหตุว่าแม้แต่ไททันแห่งเทคโนโลยี เช่น IBM, Microsoft, Amazon และ Google ยังคงมุ่งเน้นไปที่ระบบไมโหมดเป็นหลัก สาเหตุหนึ่งคือความท้าทายที่การเปลี่ยนแปลงดังกล่าวจะนำมาซึ่ง
อย่างไรก็ตาม นักวิจัยของ ABI คาดการณ์ว่า “จำนวนอุปกรณ์ที่จัดส่งจะเติบโตจาก 3.94 ล้านในปี 2017 เป็น 514.12 ล้านในปี 2023 ซึ่งได้รับการสนับสนุนจากการนำไปใช้ในด้านหุ่นยนต์ ผู้บริโภค การดูแลสุขภาพ และสื่อและความบันเทิง” ตัวอย่างของบริษัทที่กำลังใช้การเรียนรู้หลายโหมดแล้ว ได้แก่ Waymo ซึ่งใช้แนวทางเหล่านี้ในการสร้าง “ยานพาหนะขับเคลื่อนอัตโนมัติที่ตระหนักรู้สูง” และ Intel Labs ซึ่งทีมวิศวกรของบริษัทกำลัง “ตรวจสอบเทคนิคสำหรับการรวบรวมข้อมูลเซ็นเซอร์ในสภาพแวดล้อมจริง”
วิศวกรหลักของ Intel Labs Omesh Tickoo อธิบายกับ VB ว่า “สิ่งที่เราทำคือ โดยใช้เทคนิคในการระบุบริบท เช่น เวลาในหนึ่งวัน เราได้สร้างระบบที่บอกเราว่าเมื่อข้อมูลของเซ็นเซอร์ไม่มีคุณภาพสูงสุด เมื่อพิจารณาค่าความมั่นใจนั้น ระบบจะชั่งน้ำหนักเซ็นเซอร์ต่างๆ ในช่วงเวลาที่แตกต่างกันและเลือกส่วนผสมที่ถูกต้องเพื่อให้เราได้รับคำตอบที่เรากำลังมองหา”
VB ระบุว่า การเรียนรู้ไมโหมดจะยังคงโดดเด่นในสถานที่ที่มีประสิทธิภาพสูง เช่น ในแอปพลิเคชันการรู้จำภาพและประมวลผลภาษา自然 ในขณะเดียวกันก็คาดการณ์ว่า “เมื่ออิเล็กทรอนิกส์变得ถูกกว่าและคอมพิวเตอร์มีความสามารถในการปรับขนาดมากขึ้น การเรียนรู้หลายโหมดมีแนวโน้มที่จะเพิ่มขึ้นในความสำคัญ”












