ปัญญาประดิษฐ์

โยโล-เวิลด์: การตรวจจับวัตถุแบบเปิดในเวลาจริง

mm

การตรวจจับวัตถุเป็นความท้าทายพื้นฐานในอุตสาหกรรมคอมพิวเตอร์วิชั่น โดยมีการใช้งานในด้านหุ่นยนต์ การทำความเข้าใจภาพ รถยนต์ไร้คนขับ และการรู้จำภาพ ในช่วงไม่กี่ปีที่ผ่านมา การทำงานที่เป็นรากฐานในด้าน AI โดยเฉพาะด้านเครือข่ายประสาทเทียม ได้พัฒนาไปอย่างมากในการตรวจจับวัตถุ อย่างไรก็ตาม โมเดลเหล่านี้มีคำศัพท์ที่จำกัด ซึ่งสามารถตรวจจับวัตถุได้เพียง 80 หมวดหมู่ของฐานข้อมูล COCO ซึ่งเป็นข้อจำกัดที่เกิดจากกระบวนการฝึกอบรม โดยที่ตัวตรวจจับวัตถุถูกฝึกให้รู้จักหมวดหมู่เฉพาะ ทำให้ขาดความสามารถในการใช้งานในสถานการณ์จริงและเปิดกว้าง

เพื่อแก้ไขปัญหานี้ เราแนะนำ โยโล-เวิลด์ ซึ่งเป็นแนวทางใหม่ที่มุ่งเพิ่มความสามารถของโครงสร้าง โยโล (You Only Look Once) ด้วยการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมโครงสร้างบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ โยโล-เวิลด์ใช้เครือข่าย RepVL-PAN (Re-parameterizable Vision-Language Path Aggregation Network) และการเรียนรู้แบบสอดคล้องกันระหว่างข้อความและภาพ เพื่อเพิ่มความสามารถในการตรวจจับวัตถุในสถานการณ์เปิดและ零ช็อต โดยแสดงผลลัพธ์ที่น่าประทับใจในการตรวจจับวัตถุและแบ่งส่วนภาพแบบเปิด

บทความนี้มีจุดมุ่งหมายเพื่อให้ความเข้าใจที่ครอบคลุมเกี่ยวกับรากฐานทางเทคนิค โครงสร้างแบบจำลอง การฝึกอบรม และสถานการณ์การใช้งานของโยโล-เวิลด์ มาเริ่มกันเลย

โยโล-เวิลด์: การตรวจจับวัตถุแบบเปิดในเวลาจริง

โยโลหรือ You Only Look Once เป็นวิธีการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุดในอุตสาหกรรมคอมพิวเตอร์วิชั่นในปัจจุบัน โดยมีชื่อเสียงในเรื่องความเร็วและประสิทธิภาพสูง การมาถึงของกลไกโยโลได้ปฏิวัติวิธีการที่เครื่องจักรตีความและตรวจจับวัตถุเฉพาะภายในภาพและวิดีโอในเวลาจริง โครงสร้างการตรวจจับวัตถุแบบดั้งเดิมใช้วิธีการตรวจจับวัตถุสองขั้นตอน ในขั้นตอนแรก โครงสร้างจะเสนอภูมิภาคที่อาจมีวัตถุ และในขั้นตอนที่สอง จะจัดหมวดหมู่วัตถุ โครงสร้างโยโลรวมขั้นตอนเหล่านี้เข้าด้วยกันในแบบจำลองเครือข่ายประสาทเทียมเดียว ซึ่งช่วยให้โครงสร้างสามารถมองภาพเพียงครั้งเดียวเพื่อคาดการณ์วัตถุและตำแหน่งภายในภาพ และดังนั้นจึงได้ชื่อว่า โยโลหรือ You Only Look Once

นอกจากนี้ โครงสร้างโยโลยังรักษาการตรวจจับวัตถุเป็นปัญหาในการถดถอย และคาดการณ์ความน่าจะเป็นของหมวดหมู่และกล่องขอบเขตโดยตรงจากภาพเต็มในครั้งเดียว การใช้วิธีนี้ไม่เพียงแต่เพิ่มความเร็วของกระบวนการตรวจจับ แต่ยังช่วยให้แบบจำลองสามารถสร้างความสัมพันธ์กับข้อมูลที่ซับซ้อนและหลากหลายได้ดีขึ้น ทำให้เหมาะสำหรับการใช้งานในเวลาจริง เช่น การขับขี่อัตโนมัติ การตรวจจัดความเร็ว หรือการรู้จำป้ายทะเบียน

การทำงานที่สำคัญในด้าน AI ในช่วงไม่กี่ปีที่ผ่านมาได้พัฒนาไปอย่างมากในการสร้างโครงสร้างการตรวจจับวัตถุ แต่ความสำเร็จของโครงสร้างเหล่านี้ยังคงถูกจำกัดเนื่องจากสามารถตรวจจับวัตถุได้เพียงหมวดหมู่ที่กำหนดและจำกัดเมื่อเทียบกับสถานการณ์จริงและเปิดกว้าง

โครงสร้างการตรวจจับวัตถุแบบใหม่ที่พัฒนาขึ้นเมื่อเร็วๆ นี้ใช้การสร้างแบบจำลองภาษาและภาพเพื่อแก้ไขปัญหาการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมแบบจำลองบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ โยโล-เวิลด์ใช้เครือข่าย RepVL-PAN และการเรียนรู้แบบสอดคล้องกันระหว่างข้อความและภาพ เพื่อเพิ่มความสามารถในการตรวจจับวัตถุในสถานการณ์เปิดและ零ช็อต

โครงสร้างโยโล-เวิลด์มีจุดมุ่งหมายเพื่อให้การตรวจจับวัตถุแบบเปิดที่มีประสิทธิภาพสูง และสำรวจความเป็นไปได้ของการฝึกอบรมแบบจำลองขนาดใหญ่เพื่อเพิ่มประสิทธิภาพของตัวตรวจจับวัตถุแบบดั้งเดิมสำหรับการตรวจจับวัตถุแบบเปิด

โดยทั่วไป โครงสร้างการตรวจจับวัตถุแบบดั้งเดิมใช้การตรวจจับวัตถุสองขั้นตอน ในขั้นตอนแรก โครงสร้างจะเสนอภูมิภาคที่อาจมีวัตถุ และในขั้นตอนที่สอง จะจัดหมวดหมู่วัตถุ โครงสร้างโยโลรวมขั้นตอนเหล่านี้เข้าด้วยกันในแบบจำลองเครือข่ายประสาทเทียมเดียว ซึ่งช่วยให้โครงสร้างสามารถมองภาพเพียงครั้งเดียวเพื่อคาดการณ์วัตถุและตำแหน่งภายในภาพ

โยโล-เวิลด์: วิธีการและโครงสร้าง

คู่ข้อความและภาพ

โดยทั่วไป โครงสร้างการตรวจจับวัตถุ รวมถึงตระกูลโยโล ใช้การฝึกอบรมด้วยการบันทึกข้อมูลที่มีหมวดหมู่และกล่องขอบเขต ในทางกลับกัน โยโล-เวิลด์เปลี่ยนการบันทึกข้อมูลเหล่านี้ให้เป็นคู่ข้อความและภาพ โดยที่ข้อความสามารถเป็นคำอธิบายของวัตถุ นิพจน์หรือชื่อหมวดหมู่

โครงสร้างแบบจำลอง

โครงสร้างโยโล-เวิลด์ประกอบด้วยตัวเข้ารหัสข้อความ ตัวตรวจจับโยโล และส่วนประกอบ RepVL-PAN

ตัวตรวจจับโยโล

โครงสร้างโยโล-เวิลด์สร้างขึ้นบนโครงสร้างโยโลว8 ที่มีเครือข่ายดาร์กเน็ตเป็นตัวเข้ารหัสภาพ

ตัวเข้ารหัสข้อความ

สำหรับข้อความที่กำหนด ตัวเข้ารหัสข้อความของโยโล-เวิลด์จะเข้ารหัสข้อความเป็นเวกเตอร์ข้อความ

หัวการเรียนรู้แบบสอดคล้องกัน

โครงสร้างโยโล-เวิลด์ใช้หัวการเรียนรู้แบบสอดคล้องกันเพื่อคำนวณความคล้ายคลึงระหว่างเวกเตอร์ข้อความและเวกเตอร์ภาพ

การฝึกอบรมพจนานุกรมออนไลน์

ในระหว่างการฝึกอบรม โยโล-เวิลด์สร้างพจนานุกรมออนไลน์สำหรับแต่ละตัวอย่างโมเสค

การอนุมานพจนานุกรมออฟไลน์

ในระหว่างการอนุมาน โยโล-เวิลด์ใช้กลยุทธ์ “prompt-then-detect” โดยใช้พจนานุกรมออฟไลน์

เครือข่าย RepVL-PAN ที่สามารถปรับเปลี่ยนได้

เครือข่าย RepVL-PAN ของโยโล-เวิลด์ใช้การรวมกันของการเรียนรู้แบบสอดคล้องกันและแบบจำลองภาษาและภาพ

การฝึกอบรมก่อนการเรียนรู้

โครงสร้างโยโล-เวิลด์ใช้สองวิธีการฝึกอบรมก่อนการเรียนรู้

โยโล-เวิลด์: ผลลัพธ์

หลังจากที่โครงสร้างโยโล-เวิลด์ถูกฝึกอบรมแล้ว จะถูกประเมินบนฐานข้อมูล LVIS ในสถานการณ์零ช็อต

ความคิดสุดท้าย

ในบทความนี้ เราได้พูดถึงโยโล-เวิลด์ ซึ่งเป็นแนวทางใหม่ที่มุ่งเพิ่มความสามารถของโครงสร้างโยโลด้วยการตรวจจับวัตถุแบบเปิด โดยการฝึกอบรมโครงสร้างบนฐานข้อมูลขนาดใหญ่และใช้การสร้างแบบจำลองภาษาและภาพ

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล