ปัญญาประดิษฐ์
โยโล-เวิลด์: การตรวจจับวัตถุแบบเปิดในเวลาจริง
การตรวจจับวัตถุเป็นความท้าทายพื้นฐานในอุตสาหกรรมคอมพิวเตอร์วิชั่น โดยมีการใช้งานในด้านหุ่นยนต์ การทำความเข้าใจภาพ รถยนต์ไร้คนขับ และการรู้จำภาพ ในช่วงไม่กี่ปีที่ผ่านมา การทำงานที่เป็นรากฐานในด้าน AI โดยเฉพาะด้านเครือข่ายประสาทเทียม ได้พัฒนาไปอย่างมากในการตรวจจับวัตถุ อย่างไรก็ตาม โมเดลเหล่านี้มีคำศัพท์ที่จำกัด ซึ่งสามารถตรวจจับวัตถุได้เพียง 80 หมวดหมู่ของฐานข้อมูล COCO ซึ่งเป็นข้อจำกัดที่เกิดจากกระบวนการฝึกอบรม โดยที่ตัวตรวจจับวัตถุถูกฝึกให้รู้จักหมวดหมู่เฉพาะ ทำให้ขาดความสามารถในการใช้งานในสถานการณ์จริงและเปิดกว้าง
เพื่อแก้ไขปัญหานี้ เราแนะนำ โยโล-เวิลด์ ซึ่งเป็นแนวทางใหม่ที่มุ่งเพิ่มความสามารถของโครงสร้าง โยโล (You Only Look Once) ด้วยการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมโครงสร้างบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ โยโล-เวิลด์ใช้เครือข่าย RepVL-PAN (Re-parameterizable Vision-Language Path Aggregation Network) และการเรียนรู้แบบสอดคล้องกันระหว่างข้อความและภาพ เพื่อเพิ่มความสามารถในการตรวจจับวัตถุในสถานการณ์เปิดและ零ช็อต โดยแสดงผลลัพธ์ที่น่าประทับใจในการตรวจจับวัตถุและแบ่งส่วนภาพแบบเปิด
บทความนี้มีจุดมุ่งหมายเพื่อให้ความเข้าใจที่ครอบคลุมเกี่ยวกับรากฐานทางเทคนิค โครงสร้างแบบจำลอง การฝึกอบรม และสถานการณ์การใช้งานของโยโล-เวิลด์ มาเริ่มกันเลย
โยโล-เวิลด์: การตรวจจับวัตถุแบบเปิดในเวลาจริง
โยโลหรือ You Only Look Once เป็นวิธีการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุดในอุตสาหกรรมคอมพิวเตอร์วิชั่นในปัจจุบัน โดยมีชื่อเสียงในเรื่องความเร็วและประสิทธิภาพสูง การมาถึงของกลไกโยโลได้ปฏิวัติวิธีการที่เครื่องจักรตีความและตรวจจับวัตถุเฉพาะภายในภาพและวิดีโอในเวลาจริง โครงสร้างการตรวจจับวัตถุแบบดั้งเดิมใช้วิธีการตรวจจับวัตถุสองขั้นตอน ในขั้นตอนแรก โครงสร้างจะเสนอภูมิภาคที่อาจมีวัตถุ และในขั้นตอนที่สอง จะจัดหมวดหมู่วัตถุ โครงสร้างโยโลรวมขั้นตอนเหล่านี้เข้าด้วยกันในแบบจำลองเครือข่ายประสาทเทียมเดียว ซึ่งช่วยให้โครงสร้างสามารถมองภาพเพียงครั้งเดียวเพื่อคาดการณ์วัตถุและตำแหน่งภายในภาพ และดังนั้นจึงได้ชื่อว่า โยโลหรือ You Only Look Once
นอกจากนี้ โครงสร้างโยโลยังรักษาการตรวจจับวัตถุเป็นปัญหาในการถดถอย และคาดการณ์ความน่าจะเป็นของหมวดหมู่และกล่องขอบเขตโดยตรงจากภาพเต็มในครั้งเดียว การใช้วิธีนี้ไม่เพียงแต่เพิ่มความเร็วของกระบวนการตรวจจับ แต่ยังช่วยให้แบบจำลองสามารถสร้างความสัมพันธ์กับข้อมูลที่ซับซ้อนและหลากหลายได้ดีขึ้น ทำให้เหมาะสำหรับการใช้งานในเวลาจริง เช่น การขับขี่อัตโนมัติ การตรวจจัดความเร็ว หรือการรู้จำป้ายทะเบียน
การทำงานที่สำคัญในด้าน AI ในช่วงไม่กี่ปีที่ผ่านมาได้พัฒนาไปอย่างมากในการสร้างโครงสร้างการตรวจจับวัตถุ แต่ความสำเร็จของโครงสร้างเหล่านี้ยังคงถูกจำกัดเนื่องจากสามารถตรวจจับวัตถุได้เพียงหมวดหมู่ที่กำหนดและจำกัดเมื่อเทียบกับสถานการณ์จริงและเปิดกว้าง
โครงสร้างการตรวจจับวัตถุแบบใหม่ที่พัฒนาขึ้นเมื่อเร็วๆ นี้ใช้การสร้างแบบจำลองภาษาและภาพเพื่อแก้ไขปัญหาการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมแบบจำลองบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ โยโล-เวิลด์ใช้เครือข่าย RepVL-PAN และการเรียนรู้แบบสอดคล้องกันระหว่างข้อความและภาพ เพื่อเพิ่มความสามารถในการตรวจจับวัตถุในสถานการณ์เปิดและ零ช็อต
โครงสร้างโยโล-เวิลด์มีจุดมุ่งหมายเพื่อให้การตรวจจับวัตถุแบบเปิดที่มีประสิทธิภาพสูง และสำรวจความเป็นไปได้ของการฝึกอบรมแบบจำลองขนาดใหญ่เพื่อเพิ่มประสิทธิภาพของตัวตรวจจับวัตถุแบบดั้งเดิมสำหรับการตรวจจับวัตถุแบบเปิด
โดยทั่วไป โครงสร้างการตรวจจับวัตถุแบบดั้งเดิมใช้การตรวจจับวัตถุสองขั้นตอน ในขั้นตอนแรก โครงสร้างจะเสนอภูมิภาคที่อาจมีวัตถุ และในขั้นตอนที่สอง จะจัดหมวดหมู่วัตถุ โครงสร้างโยโลรวมขั้นตอนเหล่านี้เข้าด้วยกันในแบบจำลองเครือข่ายประสาทเทียมเดียว ซึ่งช่วยให้โครงสร้างสามารถมองภาพเพียงครั้งเดียวเพื่อคาดการณ์วัตถุและตำแหน่งภายในภาพ
โยโล-เวิลด์: วิธีการและโครงสร้าง
คู่ข้อความและภาพ
โดยทั่วไป โครงสร้างการตรวจจับวัตถุ รวมถึงตระกูลโยโล ใช้การฝึกอบรมด้วยการบันทึกข้อมูลที่มีหมวดหมู่และกล่องขอบเขต ในทางกลับกัน โยโล-เวิลด์เปลี่ยนการบันทึกข้อมูลเหล่านี้ให้เป็นคู่ข้อความและภาพ โดยที่ข้อความสามารถเป็นคำอธิบายของวัตถุ นิพจน์หรือชื่อหมวดหมู่
โครงสร้างแบบจำลอง
โครงสร้างโยโล-เวิลด์ประกอบด้วยตัวเข้ารหัสข้อความ ตัวตรวจจับโยโล และส่วนประกอบ RepVL-PAN
ตัวตรวจจับโยโล
โครงสร้างโยโล-เวิลด์สร้างขึ้นบนโครงสร้างโยโลว8 ที่มีเครือข่ายดาร์กเน็ตเป็นตัวเข้ารหัสภาพ
ตัวเข้ารหัสข้อความ
สำหรับข้อความที่กำหนด ตัวเข้ารหัสข้อความของโยโล-เวิลด์จะเข้ารหัสข้อความเป็นเวกเตอร์ข้อความ
หัวการเรียนรู้แบบสอดคล้องกัน
โครงสร้างโยโล-เวิลด์ใช้หัวการเรียนรู้แบบสอดคล้องกันเพื่อคำนวณความคล้ายคลึงระหว่างเวกเตอร์ข้อความและเวกเตอร์ภาพ
การฝึกอบรมพจนานุกรมออนไลน์
ในระหว่างการฝึกอบรม โยโล-เวิลด์สร้างพจนานุกรมออนไลน์สำหรับแต่ละตัวอย่างโมเสค
การอนุมานพจนานุกรมออฟไลน์
ในระหว่างการอนุมาน โยโล-เวิลด์ใช้กลยุทธ์ “prompt-then-detect” โดยใช้พจนานุกรมออฟไลน์
เครือข่าย RepVL-PAN ที่สามารถปรับเปลี่ยนได้
เครือข่าย RepVL-PAN ของโยโล-เวิลด์ใช้การรวมกันของการเรียนรู้แบบสอดคล้องกันและแบบจำลองภาษาและภาพ
การฝึกอบรมก่อนการเรียนรู้
โครงสร้างโยโล-เวิลด์ใช้สองวิธีการฝึกอบรมก่อนการเรียนรู้
โยโล-เวิลด์: ผลลัพธ์
หลังจากที่โครงสร้างโยโล-เวิลด์ถูกฝึกอบรมแล้ว จะถูกประเมินบนฐานข้อมูล LVIS ในสถานการณ์零ช็อต
ความคิดสุดท้าย
ในบทความนี้ เราได้พูดถึงโยโล-เวิลด์ ซึ่งเป็นแนวทางใหม่ที่มุ่งเพิ่มความสามารถของโครงสร้างโยโลด้วยการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมโครงสร้างบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ












