ต้นขั้ว YOLO-World: การตรวจจับวัตถุคำศัพท์เปิดแบบเรียลไทม์ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

YOLO-World: การตรวจจับวัตถุคำศัพท์เปิดแบบเรียลไทม์

mm

การตีพิมพ์

 on

การตรวจจับวัตถุถือเป็นความท้าทายขั้นพื้นฐานใน วิสัยทัศน์คอมพิวเตอร์ อุตสาหกรรมที่มีการประยุกต์ในด้านหุ่นยนต์ การทำความเข้าใจภาพ ยานพาหนะขับเคลื่อนอัตโนมัติ และ การจดจำภาพ. ในช่วงไม่กี่ปีที่ผ่านมา การทำงานที่ก้าวล้ำใน AI โดยเฉพาะอย่างยิ่งผ่านโครงข่ายประสาทเทียมระดับลึก มีการตรวจจับวัตถุขั้นสูงอย่างมีนัยสำคัญ อย่างไรก็ตาม โมเดลเหล่านี้มีคำศัพท์คงที่ ซึ่งจำกัดเฉพาะการตรวจจับวัตถุภายใน 80 หมวดหมู่ของชุดข้อมูล COCO ข้อจำกัดนี้เกิดจากกระบวนการฝึกอบรม โดยที่เครื่องตรวจจับวัตถุได้รับการฝึกอบรมให้จดจำเฉพาะหมวดหมู่ที่เฉพาะเจาะจง จึงจำกัดความสามารถในการนำไปใช้

เพื่อเอาชนะสิ่งนี้ เราขอแนะนำ YOLO-World ซึ่งเป็นแนวทางใหม่ที่มุ่งปรับปรุงกรอบงาน YOLO (คุณดูเพียงครั้งเดียว) ด้วยความสามารถในการตรวจจับคำศัพท์แบบเปิด ซึ่งสามารถทำได้โดยการฝึกอบรมกรอบงานล่วงหน้าเกี่ยวกับชุดข้อมูลขนาดใหญ่ และการนำแนวทางการสร้างแบบจำลองภาษาวิสัยทัศน์ไปใช้ โดยเฉพาะอย่างยิ่ง YOLO-World ใช้เครือข่ายการรวมเส้นทางการมองเห็นและภาษาที่สามารถกำหนดพารามิเตอร์ใหม่ได้ (RepVL-PAN) และการสูญเสียคอนทราสต์ของข้อความภูมิภาคเพื่อส่งเสริมปฏิสัมพันธ์ระหว่างข้อมูลทางภาษาและภาพ ด้วย RepVL-PAN และการสูญเสียคอนทราสต์ของข้อความตามขอบเขต YOLO-World สามารถตรวจจับวัตถุที่หลากหลายได้อย่างแม่นยำในการตั้งค่าแบบ Zero-shot ซึ่งแสดงประสิทธิภาพที่โดดเด่นในการแบ่งส่วนคำศัพท์แบบเปิดและงานการตรวจจับวัตถุ

บทความนี้มีวัตถุประสงค์เพื่อให้ความเข้าใจอย่างถ่องแท้เกี่ยวกับพื้นฐานทางเทคนิค สถาปัตยกรรมแบบจำลอง กระบวนการฝึกอบรม และสถานการณ์การใช้งานของ YOLO-World มาดำดิ่งกัน

YOLO-World: การตรวจจับวัตถุคำศัพท์เปิดแบบเรียลไทม์

YOLO หรือ You Only Look Once เป็นหนึ่งในวิธีที่ได้รับความนิยมมากที่สุดสำหรับการตรวจจับวัตถุยุคใหม่ในอุตสาหกรรมคอมพิวเตอร์วิทัศน์ มีชื่อเสียงในด้านความเร็วและประสิทธิภาพอันเหลือเชื่อ การถือกำเนิดของ YOLO กลไกได้ปฏิวัติวิธีที่เครื่องตีความและตรวจจับวัตถุเฉพาะภายในรูปภาพและวิดีโอแบบเรียลไทม์ เฟรมเวิร์กการตรวจจับวัตถุแบบดั้งเดิมใช้วิธีการตรวจจับวัตถุสองขั้นตอน: ในขั้นตอนแรก เฟรมเวิร์กจะเสนอขอบเขตที่อาจมีออบเจ็กต์ และเฟรมเวิร์กจะแยกประเภทออบเจ็กต์ในขั้นตอนถัดไป ในทางกลับกัน กรอบงาน YOLO จะรวมสองขั้นตอนนี้ไว้ในโมเดลโครงข่ายประสาทเทียมเดียว ซึ่งเป็นแนวทางที่ช่วยให้กรอบงานดูภาพเพียงครั้งเดียวเพื่อทำนายวัตถุและตำแหน่งของวัตถุภายในภาพ และด้วยเหตุนี้จึงมีชื่อ YOLO หรือคุณ ดูเพียงครั้งเดียว 

นอกจากนี้ กรอบงาน YOLO ยังถือว่าการตรวจจับวัตถุเป็นปัญหาการถดถอย และคาดการณ์ความน่าจะเป็นของคลาสและกรอบขอบเขตโดยตรงจากภาพเต็มด้วยการมองแวบเดียว การใช้วิธีนี้ไม่เพียงเพิ่มความเร็วของกระบวนการตรวจจับเท่านั้น แต่ยังเพิ่มความสามารถของแบบจำลองในการสรุปข้อมูลที่ซับซ้อนและหลากหลาย ทำให้เป็นตัวเลือกที่เหมาะสมสำหรับแอปพลิเคชันที่ทำงานแบบเรียลไทม์ เช่น การขับขี่อัตโนมัติ การตรวจจับความเร็ว หรือตัวเลข การจดจำจาน นอกจากนี้ ความก้าวหน้าที่สำคัญของโครงข่ายประสาทเชิงลึกในช่วงไม่กี่ปีที่ผ่านมายังมีส่วนสำคัญในการพัฒนาเฟรมเวิร์กการตรวจจับวัตถุ แต่ความสำเร็จของเฟรมเวิร์กการตรวจจับวัตถุยังคงมีจำกัด เนื่องจากสามารถตรวจจับวัตถุได้เฉพาะด้วยคำศัพท์ที่จำกัดเท่านั้น สาเหตุหลักมาจากเมื่อกำหนดและติดป้ายกำกับหมวดหมู่ออบเจ็กต์ในชุดข้อมูลแล้ว ตัวตรวจจับที่ได้รับการฝึกอบรมในเฟรมเวิร์กจะสามารถจดจำเฉพาะหมวดหมู่เฉพาะเหล่านี้ได้ ซึ่งจำกัดความสามารถในการนำไปใช้และความสามารถในการปรับใช้โมเดลการตรวจจับออบเจ็กต์ในสถานการณ์แบบเรียลไทม์และแบบเปิด 

ต่อไปโมเดลภาษาการมองเห็นที่พัฒนาขึ้นเมื่อเร็ว ๆ นี้ใช้ความรู้คำศัพท์ที่กลั่นกรองจากตัวเข้ารหัสภาษาเพื่อจัดการกับการตรวจจับคำศัพท์แบบเปิด แม้ว่าเฟรมเวิร์กเหล่านี้จะทำงานได้ดีกว่าโมเดลการตรวจจับวัตถุแบบดั้งเดิมในการตรวจจับคำศัพท์แบบเปิด แต่เฟรมเวิร์กเหล่านี้ยังคงมีการนำไปใช้ที่จำกัด เนื่องจากข้อมูลการฝึกอบรมมีน้อยและมีความหลากหลายของคำศัพท์ที่จำกัด นอกจากนี้ เฟรมเวิร์กที่เลือกจะฝึกตัวตรวจจับวัตถุคำศัพท์แบบเปิดตามขนาด และจัดหมวดหมู่ตัวตรวจจับวัตถุการฝึกอบรมเป็นการฝึกอบรมล่วงหน้าภาษาการมองเห็นระดับภูมิภาค อย่างไรก็ตาม วิธีการนี้ยังคงประสบปัญหาในการตรวจจับวัตถุแบบเรียลไทม์เนื่องจากสาเหตุหลักสองประการ: กระบวนการปรับใช้ที่ซับซ้อนสำหรับอุปกรณ์ Edge และข้อกำหนดด้านการคำนวณที่หนักหน่วง ในแง่บวก กรอบการทำงานเหล่านี้ได้แสดงให้เห็นผลลัพธ์เชิงบวกจากการฝึกอบรมเครื่องตรวจจับขนาดใหญ่ล่วงหน้าเพื่อใช้งานด้วยความสามารถในการจดจำแบบเปิด 

กรอบงาน YOLO-World มีเป้าหมายเพื่อให้บรรลุการตรวจจับวัตถุคำศัพท์แบบเปิดที่มีประสิทธิภาพสูง และสำรวจความเป็นไปได้ของแนวทางการฝึกอบรมล่วงหน้าขนาดใหญ่เพื่อเพิ่มประสิทธิภาพของเครื่องตรวจจับ YOLO แบบดั้งเดิมสำหรับการตรวจจับวัตถุคำศัพท์แบบเปิด ตรงกันข้ามกับงานก่อนหน้านี้ในการตรวจจับวัตถุ เฟรมเวิร์ก YOLO-World แสดงประสิทธิภาพที่น่าทึ่งด้วยความเร็วในการอนุมานสูง และสามารถปรับใช้บนแอปพลิเคชันดาวน์สตรีมได้อย่างง่ายดาย โมเดล YOLO-World เป็นไปตามสถาปัตยกรรม YOLO แบบดั้งเดิม และเข้ารหัสข้อความที่ป้อนโดยใช้ประโยชน์จากความสามารถของตัวเข้ารหัสข้อความ CLIP ที่ได้รับการฝึกอบรมล่วงหน้า นอกจากนี้ กรอบงาน YOLO-World ยังรวมส่วนประกอบ Vision-Language Path Aggregation Network (RepVL-PAN) ที่สามารถกำหนดพารามิเตอร์ใหม่ได้ในสถาปัตยกรรมเพื่อเชื่อมต่อคุณสมบัติรูปภาพและข้อความสำหรับการแสดงภาพและความหมายที่ได้รับการปรับปรุง ในระหว่างขั้นตอนการอนุมาน เฟรมเวิร์กจะลบตัวเข้ารหัสข้อความ และกำหนดพารามิเตอร์ใหม่ให้กับข้อความที่ฝังลงในน้ำหนัก RepVL-PAN ส่งผลให้การปรับใช้มีประสิทธิภาพ กรอบการทำงานยังรวมถึงการเรียนรู้เชิงเปรียบเทียบข้อความภูมิภาคในกรอบงานเพื่อศึกษาวิธีการฝึกอบรมล่วงหน้าแบบเปิดคำศัพท์สำหรับโมเดล YOLO แบบดั้งเดิม วิธีการเรียนรู้แบบเปรียบเทียบข้อความภูมิภาคจะรวมข้อมูลข้อความรูปภาพ ข้อมูลการต่อสายดิน และข้อมูลการตรวจจับเข้าเป็นคู่ข้อความภูมิภาค จากสิ่งนี้ กรอบงาน YOLO-World ที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคู่ข้อความภูมิภาคแสดงให้เห็นถึงความสามารถที่น่าทึ่งในการตรวจจับคำศัพท์แบบเปิดและขนาดใหญ่ นอกจากนี้ กรอบงาน YOLO-World ยังสำรวจกระบวนทัศน์การตรวจจับทันทีโดยมีเป้าหมายเพื่อเพิ่มประสิทธิภาพในการตรวจจับวัตถุคำศัพท์แบบเปิดในสถานการณ์แบบเรียลไทม์และในโลกแห่งความเป็นจริง 

ดังที่แสดงในภาพต่อไปนี้ ตัวตรวจจับวัตถุแบบดั้งเดิมมุ่งเน้นไปที่ชุดระยะใกล้ของการตรวจจับคำศัพท์คงที่ด้วยหมวดหมู่ที่กำหนดไว้ล่วงหน้า ในขณะที่ตัวตรวจจับคำศัพท์แบบเปิดจะตรวจจับวัตถุโดยการเข้ารหัสข้อความแจ้งของผู้ใช้ด้วยตัวเข้ารหัสข้อความสำหรับคำศัพท์แบบเปิด ในการเปรียบเทียบ วิธีการตรวจจับทันทีของ YOLO-World จะสร้างคำศัพท์ออฟไลน์ขึ้นมาก่อน (คำศัพท์ที่แตกต่างกันสำหรับความต้องการที่แตกต่างกัน) โดยการเข้ารหัสข้อความแจ้งของผู้ใช้ ทำให้เครื่องมือตรวจจับสามารถตีความคำศัพท์ออฟไลน์แบบเรียลไทม์โดยไม่ต้องเข้ารหัสข้อความแจ้งอีกครั้ง 

YOLO-World: วิธีการและสถาปัตยกรรม

คู่ภูมิภาค-ข้อความ

ตามเนื้อผ้า กรอบการตรวจจับวัตถุรวมถึง YOLO กลุ่มเครื่องตรวจจับวัตถุได้รับการฝึกฝนโดยใช้คำอธิบายประกอบอินสแตนซ์ที่มีป้ายกำกับหมวดหมู่และกล่องขอบเขต ในทางตรงกันข้าม กรอบงาน YOLO-World จะกำหนดสูตรคำอธิบายประกอบอินสแตนซ์ใหม่เป็นคู่ข้อความภูมิภาค โดยที่ข้อความสามารถเป็นคำอธิบายของวัตถุ วลีคำนาม หรือชื่อหมวดหมู่ได้ เป็นที่น่าสังเกตว่ากรอบงาน YOLO-World ใช้ทั้งข้อความและรูปภาพเป็นกล่องคาดการณ์อินพุตและเอาต์พุตพร้อมการฝังวัตถุที่สอดคล้องกัน 

สถาปัตยกรรมจำลอง

โดยแก่นแท้แล้ว โมเดล YOLO-World ประกอบด้วย Text Encoder ตัวตรวจจับ YOLO และส่วนประกอบ Vision-Language Path Aggregation Network (RepVL-PAN) ที่สามารถกำหนดพารามิเตอร์ใหม่ได้ ดังที่แสดงในภาพต่อไปนี้ 

สำหรับข้อความอินพุต ส่วนประกอบตัวเข้ารหัสข้อความจะเข้ารหัสข้อความเป็นการฝังข้อความ ตามด้วยการดึงคุณสมบัติหลายระดับจากรูปภาพอินพุตโดยตัวตรวจจับรูปภาพในส่วนประกอบตัวตรวจจับ YOLO จากนั้นคอมโพเนนต์ Vision-Language Path Aggregation Network (RepVL-PAN) ที่สามารถกำหนดพารามิเตอร์ใหม่ได้ จะใช้ประโยชน์จากการผสมผสานข้ามรูปแบบระหว่างข้อความและคุณลักษณะที่ฝังไว้ เพื่อปรับปรุงการแสดงข้อความและรูปภาพ 

เครื่องตรวจจับ YOLO

โมเดล YOLO-World สร้างขึ้นบนเฟรมเวิร์ก YOLOv8 ที่มีอยู่ซึ่งมีส่วนประกอบ Darknet backbone เป็นตัวเข้ารหัสรูปภาพ หัวสำหรับการฝังวัตถุและการถดถอยของกล่องขอบเขต และ PAN หรือ Path Aggression Network สำหรับปิรามิดที่มีฟีเจอร์หลายขนาด 

ตัวเข้ารหัสข้อความ

สำหรับข้อความที่กำหนด โมเดล YOLO-World จะแยกการฝังข้อความที่สอดคล้องกันโดยการนำตัวเข้ารหัสข้อความ CLIP Transformer ที่ได้รับการฝึกมาล่วงหน้ามาใช้กับคำนามและมิติการฝังจำนวนหนึ่ง เหตุผลหลักที่เฟรมเวิร์ก YOLO-World ใช้ตัวเข้ารหัสข้อความ CLIP ก็เพราะว่ามันให้ประสิทธิภาพการมองเห็นและความหมายที่ดีกว่าสำหรับการเชื่อมต่อข้อความกับวัตถุภาพ ซึ่งมีประสิทธิภาพเหนือกว่าตัวเข้ารหัสภาษาข้อความอย่างเดียวแบบดั้งเดิมอย่างมาก อย่างไรก็ตาม หากข้อความที่ป้อนเป็นคำบรรยายหรือนิพจน์อ้างอิง โมเดล YOLO-World จะเลือกใช้อัลกอริทึม n-gram ที่ง่ายกว่าในการแยกวลี จากนั้นวลีเหล่านี้จะถูกส่งไปยังตัวเข้ารหัสข้อความ 

ข้อความที่ตัดกันหัว

ส่วนหัวแบบแยกส่วนเป็นส่วนประกอบที่ใช้โดยโมเดลการตรวจจับวัตถุรุ่นก่อนๆ และเฟรมเวิร์ก YOLO-World ใช้ส่วนหัวแบบแยกส่วนที่มีการบิดแบบ 3×3 แบบคู่เพื่อถดถอยการฝังวัตถุและกล่องขอบเขตสำหรับจำนวนวัตถุคงที่ กรอบงาน YOLO-World ใช้หัวข้อความที่ตัดกันเพื่อให้ได้ความคล้ายคลึงกันของข้อความวัตถุโดยใช้วิธีการทำให้เป็นมาตรฐาน L2 และการฝังข้อความ นอกจากนี้ โมเดล YOLO-World ยังใช้วิธีการเปลี่ยนแปลงความสัมพันธ์ด้วยปัจจัยการขยับและปัจจัยการปรับขนาดที่สามารถเรียนรู้ได้ ด้วยการทำให้เป็นมาตรฐาน L2 และการเปลี่ยนแปลงความสัมพันธ์จะช่วยเพิ่มเสถียรภาพของแบบจำลองในระหว่างการฝึกอบรมข้อความภูมิภาค 

การฝึกอบรมคำศัพท์ออนไลน์

ในระหว่างขั้นตอนการฝึกอบรม โมเดล YOLO-World จะสร้างคำศัพท์ออนไลน์สำหรับตัวอย่างภาพโมเสคแต่ละภาพ โดยแต่ละภาพมี 4 ภาพ แบบจำลองจะสุ่มตัวอย่างคำนามเชิงบวกทั้งหมดที่รวมอยู่ในภาพโมเสก และสุ่มตัวอย่างคำนามเชิงลบบางคำจากชุดข้อมูลที่เกี่ยวข้อง คำศัพท์สำหรับแต่ละตัวอย่างประกอบด้วยคำนามสูงสุด n คำ โดยค่าเริ่มต้นคือ 80 

การอนุมานคำศัพท์แบบออฟไลน์

ในระหว่างการอนุมาน โมเดล YOLO-World นำเสนอกลยุทธ์การตรวจจับทันทีพร้อมคำศัพท์ออฟไลน์ เพื่อเพิ่มประสิทธิภาพของแบบจำลองให้ดียิ่งขึ้น ขั้นแรกผู้ใช้จะกำหนดชุดของพรอมต์แบบกำหนดเองซึ่งอาจรวมถึงหมวดหมู่หรือแม้แต่คำอธิบายภาพ จากนั้นโมเดล YOLO-World จะได้รับการฝังคำศัพท์แบบออฟไลน์โดยใช้ตัวเข้ารหัสข้อความเพื่อเข้ารหัสพร้อมท์เหล่านี้ ด้วยเหตุนี้ คำศัพท์แบบออฟไลน์สำหรับการอนุมานจึงช่วยให้แบบจำลองหลีกเลี่ยงการคำนวณสำหรับแต่ละอินพุต และยังช่วยให้แบบจำลองสามารถปรับคำศัพท์ได้อย่างยืดหยุ่นตามความต้องการ 

เครือข่ายการรุกรานเส้นทางการมองเห็นและภาษาที่สามารถกำหนดพารามิเตอร์ใหม่ได้ (RevVL-PAN)

รูปต่อไปนี้แสดงโครงสร้างของเครือข่ายการรุกรานเส้นทางการมองเห็นและภาษาที่สามารถกำหนดพารามิเตอร์ใหม่ได้ ซึ่งเป็นไปตามเส้นทางจากบนลงล่างและจากล่างขึ้นบนเพื่อสร้างปิรามิดคุณลักษณะด้วยรูปภาพคุณลักษณะหลายขนาด 

เพื่อปรับปรุงการโต้ตอบระหว่างคุณสมบัติข้อความและรูปภาพ โมเดล YOLO-World เสนอ Image-Pooling Attention และ Text-guided CSPLayer (Cross-Stage Partial Layers) โดยมีจุดมุ่งหมายสูงสุดในการปรับปรุงการแสดงภาพและความหมายสำหรับความสามารถด้านคำศัพท์แบบเปิด ในระหว่างการอนุมาน โมเดล YOLO-World จะกำหนดพารามิเตอร์ใหม่ของคำศัพท์ออฟไลน์ที่ฝังอยู่ในน้ำหนักของเลเยอร์เชิงเส้นหรือแบบม้วนเพื่อการปรับใช้ที่มีประสิทธิภาพ 

ดังที่เห็นในรูปด้านบน โมเดล YOLO-World ใช้ CSPLayer หลังจากการผสมจากบนลงล่างหรือจากล่างขึ้นบน และรวมคำแนะนำข้อความเข้ากับคุณสมบัติภาพหลายขนาด สร้าง Text-Guided CSPLayer ซึ่งขยายออกไป ซีเอสพีเลเยอร์ สำหรับคุณลักษณะรูปภาพที่กำหนดและการฝังข้อความที่เกี่ยวข้อง โมเดลจะใช้ความสนใจซิกมอยด์สูงสุดหลังจากบล็อกคอขวดสุดท้าย เพื่อรวมคุณลักษณะข้อความให้เป็นคุณลักษณะของรูปภาพ จากนั้นฟีเจอร์รูปภาพที่อัปเดตจะเชื่อมโยงกับฟีเจอร์ข้ามสเตจ และแสดงเป็นเอาต์พุต 

 ต่อไป โมเดล YOLO-World จะรวมคุณสมบัติรูปภาพเพื่ออัปเดตข้อความที่ฝังโดยการแนะนำเลเยอร์ Image Pooling Attention เพื่อปรับปรุงการฝังข้อความด้วยข้อมูลที่รับรู้ถึงรูปภาพ แทนที่จะใช้การสนใจข้ามคุณสมบัติรูปภาพโดยตรง โมเดลจะใช้ประโยชน์จากการรวมกลุ่มสูงสุดในคุณสมบัติหลายขนาดเพื่อให้ได้ขอบเขต 3 × 3 ส่งผลให้มีโทเค็นแพตช์ 27 รายการ โดยโมเดลจะอัปเดตการฝังข้อความในขั้นตอนถัดไป 

แผนการฝึกอบรมก่อนการฝึกอบรม

โมเดล YOLO-World เป็นไปตามแผนการฝึกอบรมเบื้องต้นสองแผน: การเรียนรู้จากการสูญเสียคอนทราสต์ของข้อความตามภูมิภาค และการติดป้ายกำกับหลอกด้วยข้อมูลรูปภาพและข้อความ สำหรับแผนการฝึกอบรมเบื้องต้น แบบจำลองจะแสดงการทำนายวัตถุพร้อมกับคำอธิบายประกอบสำหรับข้อความที่กำหนดและตัวอย่างโมเสก กรอบงาน YOLO-World จับคู่การทำนายด้วยคำอธิบายประกอบความจริงโดยการติดตามและใช้ประโยชน์จากการมอบหมายป้ายกำกับที่มอบหมายงาน และกำหนดการทำนายเชิงบวกแต่ละรายการด้วยดัชนีข้อความที่ทำหน้าที่เป็นป้ายกำกับการจำแนกประเภท ในทางกลับกัน โครงการฝึกอบรมล่วงหน้าการติดป้ายกำกับหลอกด้วยข้อมูลข้อความรูปภาพ เสนอให้ใช้แนวทางการติดป้ายกำกับอัตโนมัติ แทนการใช้คู่ข้อความรูปภาพเพื่อสร้างคู่ข้อความขอบเขต วิธีการติดฉลากที่นำเสนอประกอบด้วยสามขั้นตอน: แยกคำนามวลี การติดฉลากหลอก และการกรอง ขั้นตอนแรกใช้อัลกอริธึม n-gram เพื่อแยกวลีคำนามออกจากข้อความที่ป้อน ขั้นตอนที่สองใช้ตัวตรวจจับคำศัพท์แบบเปิดที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อสร้างกล่องหลอกสำหรับวลีคำนามที่กำหนดสำหรับแต่ละภาพ ในขณะที่ขั้นตอนที่สามและขั้นตอนสุดท้ายใช้ กรอบงาน CLIP ที่ได้รับการฝึกอบรมล่วงหน้าเพื่อประเมินความเกี่ยวข้องของคู่ภูมิภาค-ข้อความและข้อความ-รูปภาพ หลังจากนั้นโมเดลจะกรองรูปภาพหลอกและคำอธิบายประกอบที่มีความเกี่ยวข้องต่ำ 

YOLO-โลก : ผลลัพธ์

เมื่อโมเดล YOLO-World ได้รับการฝึกอบรมล่วงหน้าแล้ว ก็จะได้รับการประเมินโดยตรงบนชุดข้อมูล LVIS ในการตั้งค่าแบบ Zero-shot โดยชุดข้อมูล LVIS ประกอบด้วยมากกว่า 1200 หมวดหมู่ ซึ่งมากกว่าชุดข้อมูลก่อนการฝึกอบรมที่ใช้โดยเฟรมเวิร์กที่มีอยู่สำหรับการทดสอบอย่างมีนัยสำคัญ ประสิทธิภาพในการตรวจหาคำศัพท์ขนาดใหญ่ รูปภาพต่อไปนี้แสดงให้เห็นถึงประสิทธิภาพของกรอบงาน YOLO-World กับกรอบงานการตรวจจับวัตถุที่ทันสมัยบางส่วนที่มีอยู่ในชุดข้อมูล LVIS ในการตั้งค่าแบบ Zero-shot 

ดังที่สังเกตได้ กรอบงาน YOLO-World มีประสิทธิภาพเหนือกว่ากรอบงานส่วนใหญ่ที่มีอยู่ในแง่ของความเร็วในการอนุมาน และประสิทธิภาพการทำงานเป็นศูนย์ แม้ว่าจะมีกรอบงานอย่าง Grounding DINO, GLIP และ GLIPv2 ที่รวมข้อมูลมากกว่าก็ตาม โดยรวมแล้ว ผลลัพธ์แสดงให้เห็นว่าโมเดลการตรวจจับวัตถุขนาดเล็ก เช่น YOLO-World-S ที่มีพารามิเตอร์เพียง 13 ล้านพารามิเตอร์ สามารถนำไปใช้ในการฝึกอบรมล่วงหน้าเกี่ยวกับงานภาษาที่มีการมองเห็นพร้อมความสามารถด้านคำศัพท์แบบเปิดที่น่าทึ่ง 

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ YOLO-World ซึ่งเป็นแนวทางเชิงนวัตกรรมที่มีจุดมุ่งหมายเพื่อเพิ่มความสามารถของกรอบงาน YOLO หรือ You Only Look Once ด้วยความสามารถในการตรวจจับคำศัพท์แบบเปิดโดยการฝึกอบรมกรอบงานล่วงหน้าบนชุดข้อมูลขนาดใหญ่ และการนำ แนวทางการสร้างแบบจำลองภาษาวิสัยทัศน์ เพื่อให้เฉพาะเจาะจงมากขึ้น กรอบงาน YOLO-World เสนอให้ใช้เครือข่ายการรวมเส้นทางภาษาการมองเห็นแบบกำหนดพารามิเตอร์ใหม่ได้ หรือ RepVL-PAN พร้อมกับการสูญเสียความเปรียบต่างของข้อความภูมิภาคเพื่ออำนวยความสะดวกในการโต้ตอบระหว่างข้อมูลทางภาษาและข้อมูลภาพ ด้วยการใช้ RepVL-PAN และการสูญเสียคอนทราสต์ของข้อความภูมิภาค กรอบงาน YOLO-World จึงสามารถตรวจจับวัตถุที่หลากหลายได้อย่างแม่นยำและมีประสิทธิภาพในการตั้งค่าแบบ Zero-shot

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ