ต้นขั้ว YOLOv9: การก้าวกระโดดในการตรวจจับวัตถุแบบเรียลไทม์ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

YOLOv9: การก้าวกระโดดในการตรวจจับวัตถุแบบเรียลไทม์

mm

การตีพิมพ์

 on

การตรวจจับวัตถุ ได้เห็นความก้าวหน้าอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมาด้วย การเรียนรู้ลึก ๆ อัลกอริธึมเช่น YOLO (คุณดูเพียงครั้งเดียว) การทำซ้ำครั้งล่าสุด โยลอฟ9นำมาซึ่งการปรับปรุงที่สำคัญในด้านความแม่นยำ ประสิทธิภาพ และการบังคับใช้มากกว่าเวอร์ชันก่อนหน้า ในโพสต์นี้ เราจะเจาะลึกนวัตกรรมที่ทำให้ YOLOv9 เป็นเทคโนโลยีล้ำสมัยใหม่สำหรับการตรวจจับวัตถุแบบเรียลไทม์

ไพรเมอร์ด่วนเกี่ยวกับการตรวจจับวัตถุ

ก่อนที่จะรู้ว่ามีอะไรใหม่ใน YOLOv9 เรามาทบทวนสั้นๆ ว่าการตรวจจับวัตถุทำงานอย่างไร เป้าหมายของการตรวจจับวัตถุคือการระบุและค้นหาวัตถุภายในภาพ เช่น รถยนต์ คน หรือสัตว์ เป็นความสามารถหลักสำหรับการใช้งานต่างๆ เช่น รถยนต์ไร้คนขับ ระบบเฝ้าระวัง และการค้นหารูปภาพ

อุปกรณ์ตรวจจับจะถ่ายภาพเป็นกล่องล้อมรอบอินพุตและเอาต์พุตรอบๆ วัตถุที่ตรวจพบ โดยแต่ละกล่องจะมีป้ายกำกับคลาสที่เกี่ยวข้องกัน ชุดข้อมูลยอดนิยม เช่น MS COCO มีรูปภาพที่มีป้ายกำกับหลายพันรายการเพื่อฝึกฝนและประเมินโมเดลเหล่านี้

มีสองวิธีหลักในการตรวจจับวัตถุ:

  • เครื่องตรวจจับแบบสองขั้นตอน เช่น Faster R-CNN จะสร้างข้อเสนอระดับภูมิภาคก่อน จากนั้นจึงจัดประเภทและปรับแต่งขอบเขตของแต่ละภูมิภาค มีแนวโน้มที่จะแม่นยำกว่าแต่ช้ากว่า
  • เครื่องตรวจจับแบบขั้นตอนเดียว เช่น YOLO ใช้โมเดลกับรูปภาพโดยตรงในรอบเดียว พวกเขาแลกความแม่นยำบางอย่างกับเวลาอนุมานที่รวดเร็วมาก

YOLO เป็นผู้บุกเบิกแนวทางขั้นตอนเดียว มาดูกันว่ามีการพัฒนาอย่างไรในหลายๆ เวอร์ชันเพื่อปรับปรุงความแม่นยำและประสิทธิภาพ

ตรวจสอบเวอร์ชัน YOLO ก่อนหน้า

กลุ่มโมเดล YOLO (คุณดูเพียงครั้งเดียว) อยู่ในระดับแนวหน้าของการตรวจจับวัตถุที่รวดเร็วนับตั้งแต่เวอร์ชันดั้งเดิมเผยแพร่ในปี 2016 ต่อไปนี้เป็นภาพรวมโดยย่อว่า YOLO มีความก้าวหน้าอย่างไรในการวนซ้ำหลายครั้ง:

  • โยลอฟ1 เสนอแบบจำลองแบบรวมเพื่อทำนายกรอบขอบเขตและความน่าจะเป็นของคลาสโดยตรงจากรูปภาพเต็มในการส่งผ่านครั้งเดียว ทำให้ทำงานได้เร็วมากเมื่อเทียบกับรุ่นสองขั้นตอนก่อนหน้า
  • โยลอฟ2 ปรับปรุงจากต้นฉบับโดยใช้การทำให้เป็นมาตรฐานแบบแบตช์เพื่อความเสถียรที่ดีขึ้น การยึดกล่องด้วยขนาดและอัตราส่วนภาพที่หลากหลายเพื่อตรวจจับขนาดต่างๆ และการปรับแต่งอื่นๆ ที่หลากหลาย
  • โยลอฟ3 เพิ่มตัวแยกฟีเจอร์ใหม่ที่เรียกว่า Darknet-53 พร้อมเลเยอร์และทางลัดระหว่างเลเยอร์มากขึ้น ปรับปรุงความแม่นยำให้ดียิ่งขึ้น
  • โยลอฟ4 ผสมผสานแนวคิดจากเครื่องตรวจจับวัตถุและโมเดลการแบ่งส่วนอื่นๆ เพื่อเพิ่มความแม่นยำให้สูงขึ้นในขณะที่ยังคงการอนุมานที่รวดเร็ว
  • โยลอฟ5 เขียน YOLOv4 ใหม่ทั้งหมดใน PyTorch และเพิ่มฟีเจอร์การแยกแบ็คโบนใหม่ที่เรียกว่า CSPDarknet พร้อมกับการปรับปรุงอื่นๆ อีกมากมาย
  • โยลอฟ6 เพิ่มประสิทธิภาพสถาปัตยกรรมและกระบวนการฝึกอบรมอย่างต่อเนื่อง โดยมีโมเดลที่ได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลภายนอกขนาดใหญ่เพื่อเพิ่มประสิทธิภาพให้ดียิ่งขึ้น

โดยสรุป YOLO เวอร์ชันก่อนหน้าได้รับความแม่นยำสูงกว่าผ่านการปรับปรุงสถาปัตยกรรมโมเดล เทคนิคการฝึกอบรม และการฝึกอบรมล่วงหน้า แต่เมื่อโมเดลมีขนาดใหญ่ขึ้นและซับซ้อนมากขึ้น ความเร็วและประสิทธิภาพก็เริ่มลดลง

ความต้องการประสิทธิภาพที่ดีขึ้น

แอปพลิเคชันจำนวนมากต้องการการตรวจจับวัตถุเพื่อให้ทำงานแบบเรียลไทม์บนอุปกรณ์ที่มีทรัพยากรการประมวลผลจำกัด เมื่อโมเดลมีขนาดใหญ่ขึ้นและมีความเข้มข้นในการคำนวณมากขึ้น โมเดลเหล่านั้นจึงใช้งานไม่ได้

ตัวอย่างเช่น รถยนต์ที่ขับเคลื่อนด้วยตนเองจำเป็นต้องตรวจจับวัตถุที่อัตราเฟรมสูงโดยใช้โปรเซสเซอร์ภายในรถยนต์ กล้องรักษาความปลอดภัยจำเป็นต้องเรียกใช้การตรวจจับวัตถุบนฟีดวิดีโอภายในฮาร์ดแวร์ที่ฝังตัวของตัวเอง โทรศัพท์และอุปกรณ์ผู้บริโภคอื่นๆ มีข้อจำกัดด้านพลังงานและความร้อนที่จำกัดมาก

YOLO เวอร์ชันล่าสุดได้รับความแม่นยำสูงด้วยพารามิเตอร์จำนวนมากและการดำเนินการคูณ (FLOP) แต่สิ่งนี้ต้องแลกมาด้วยความเร็ว ขนาด และประสิทธิภาพการใช้พลังงาน

ตัวอย่างเช่น YOLOv5-L ต้องใช้ FLOP มากกว่า 100 ล้าน FLOP ในการประมวลผลภาพขนาด 1280×1280 ภาพเดียว ซึ่งช้าเกินไปสำหรับกรณีการใช้งานแบบเรียลไทม์หลายๆ กรณี แนวโน้มของโมเดลที่ใหญ่ขึ้นเรื่อยๆ ยังเพิ่มความเสี่ยงในการติดตั้งมากเกินไป และทำให้สรุปได้ยากขึ้น

ดังนั้น เพื่อขยายความสามารถในการบังคับใช้การตรวจจับวัตถุ เราจำเป็นต้องปรับปรุงประสิทธิภาพ โดยได้รับความแม่นยำที่ดีขึ้นโดยใช้พารามิเตอร์และการคำนวณน้อยลง มาดูเทคนิคที่ใช้ใน YOLOv9 เพื่อรับมือกับความท้าทายนี้กัน

YOLOv9 – แม่นยำยิ่งขึ้นด้วยทรัพยากรน้อยลง

นักวิจัยที่อยู่เบื้องหลัง YOLOv9 มุ่งเน้นไปที่การปรับปรุงประสิทธิภาพเพื่อให้ได้ประสิทธิภาพแบบเรียลไทม์ในอุปกรณ์ที่หลากหลายยิ่งขึ้น พวกเขานำเสนอนวัตกรรมที่สำคัญสองประการ:

  1. สถาปัตยกรรมรูปแบบใหม่ที่เรียกว่า เครือข่ายการรวมเลเยอร์ที่มีประสิทธิภาพทั่วไป (GELAN) ที่เพิ่มความแม่นยำสูงสุดในขณะที่ลดพารามิเตอร์และ FLOP ให้เหลือน้อยที่สุด
  2. มีเทคนิคการฝึกที่เรียกว่า ข้อมูลการไล่ระดับสีแบบโปรแกรมได้ (PGI) ที่ให้การไล่ระดับการเรียนรู้ที่เชื่อถือได้มากขึ้น โดยเฉพาะสำหรับโมเดลขนาดเล็ก

มาดูกันว่าความก้าวหน้าแต่ละอย่างเหล่านี้ช่วยปรับปรุงประสิทธิภาพได้อย่างไร

สถาปัตยกรรมที่มีประสิทธิภาพมากขึ้นด้วย GELAN

สถาปัตยกรรมแบบจำลองมีความสำคัญอย่างยิ่งต่อการรักษาสมดุลระหว่างความแม่นยำกับความเร็วและการใช้ทรัพยากรในระหว่างการอนุมาน โครงข่ายประสาทเทียมต้องการความลึกและความกว้างเพียงพอที่จะจับภาพคุณสมบัติที่เกี่ยวข้องจากรูปภาพอินพุต แต่การมีเลเยอร์หรือฟิลเตอร์มากเกินไปทำให้โมเดลช้าและป่อง

ผู้เขียนออกแบบ GELAN โดยเฉพาะเพื่อบีบความแม่นยำสูงสุดออกจากสถาปัตยกรรมที่เล็กที่สุดเท่าที่จะเป็นไปได้

GELAN ใช้สองหน่วยการสร้างหลักซ้อนกัน:

  • บล็อกการรวมเลเยอร์ที่มีประสิทธิภาพ – การเปลี่ยนแปลงแบบรวมทั่วทั้งเครือข่ายหลายสาขาเพื่อรวบรวมคุณสมบัติหลายขนาดได้อย่างมีประสิทธิภาพ
  • บล็อกการคำนวณ – บล็อก CSPNet ช่วยเผยแพร่ข้อมูลข้ามเลเยอร์ บล็อกใดๆ สามารถทดแทนได้ขึ้นอยู่กับข้อจำกัดในการประมวลผล

ด้วยการปรับสมดุลและรวมบล็อกเหล่านี้เข้าด้วยกันอย่างระมัดระวัง GELAN จึงได้จุดที่น่าสนใจระหว่างประสิทธิภาพ พารามิเตอร์ และความเร็ว สถาปัตยกรรมโมดูลาร์เดียวกันสามารถเพิ่มหรือลดขนาดโมเดลและฮาร์ดแวร์ขนาดต่างๆ ได้

การทดลองแสดงให้เห็นว่า GELAN ปรับประสิทธิภาพให้เหมาะกับโมเดลขนาดเล็กกว่าเมื่อเทียบกับสถาปัตยกรรม YOLO รุ่นก่อนๆ ตัวอย่างเช่น GELAN-Small ที่มีพารามิเตอร์ 7M มีประสิทธิภาพเหนือกว่าพารามิเตอร์ 11M YOLOv7-Nano และ GELAN-Medium ที่มีพารามิเตอร์ 20M มีประสิทธิภาพเทียบเท่ากับรุ่นกลาง YOLOv7 ที่ต้องใช้พารามิเตอร์ 35-40M

ดังนั้นด้วยการออกแบบสถาปัตยกรรมแบบกำหนดพารามิเตอร์ที่ได้รับการปรับให้เหมาะสมเพื่อประสิทธิภาพโดยเฉพาะ GELAN ช่วยให้โมเดลทำงานได้เร็วขึ้นและบนอุปกรณ์ที่มีทรัพยากรจำกัดมากขึ้น ต่อไปเรามาดูกันว่า PGI ช่วยให้พวกเขาฝึกฝนได้ดีขึ้นอย่างไร

การฝึกอบรมที่ดีขึ้นด้วยข้อมูลการไล่ระดับสีแบบโปรแกรมได้ (PGI)

การฝึกโมเดลมีความสำคัญไม่แพ้กันในการเพิ่มความแม่นยำสูงสุดด้วยทรัพยากรที่จำกัด ผู้เขียน YOLOv9 ระบุปัญหาในการฝึกโมเดลขนาดเล็กที่เกิดจากข้อมูลการไล่ระดับสีที่ไม่น่าเชื่อถือ

การไล่ระดับสี กำหนดจำนวนน้ำหนักของแบบจำลองที่ได้รับการอัปเดตระหว่างการฝึก การไล่ระดับสีที่มีเสียงดังหรือทำให้เข้าใจผิดทำให้เกิดการบรรจบกันที่ไม่ดี ปัญหานี้เด่นชัดมากขึ้นสำหรับเครือข่ายขนาดเล็ก

เทคนิคของ การกำกับดูแลเชิงลึก แก้ไขปัญหานี้ด้วยการเพิ่มสาขาด้านข้างเพิ่มเติมที่มีการสูญเสียเพื่อเผยแพร่สัญญาณเกรเดียนต์ที่ดีขึ้นผ่านเครือข่าย แต่มีแนวโน้มที่จะพังทลายและทำให้เกิดความแตกต่างสำหรับรุ่นน้ำหนักเบาที่เล็กกว่า

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลการไล่ระดับสีแบบตั้งโปรแกรมได้

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลการไล่ระดับที่ตั้งโปรแกรมได้ https://arxiv.org/abs/2402.13616

เพื่อเอาชนะข้อจำกัดนี้ YOLOv9 ขอแนะนำ ข้อมูลการไล่ระดับสีแบบโปรแกรมได้ (PGI). PGI มีสององค์ประกอบหลัก:

  • กิ่งก้านแบบพลิกกลับได้เสริม – สิ่งเหล่านี้ให้การไล่ระดับสีที่สะอาดยิ่งขึ้นโดยรักษาการเชื่อมต่อแบบย้อนกลับไปยังอินพุตได้โดยใช้บล็อกเช่น RevCols
  • การบูรณาการการไล่ระดับสีหลายระดับ – สิ่งนี้จะหลีกเลี่ยงการเบี่ยงเบนจากกิ่งก้านด้านต่าง ๆ ที่รบกวน โดยจะรวมการไล่ระดับสีจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก

ด้วยการสร้างการไล่ระดับสีที่เชื่อถือได้มากขึ้น PGI ช่วยให้โมเดลขนาดเล็กฝึกได้อย่างมีประสิทธิภาพพอๆ กับโมเดลที่ใหญ่กว่า:

การทดลองแสดงให้เห็นว่า PGI ปรับปรุงความแม่นยำในแบบจำลองทุกขนาด โดยเฉพาะการกำหนดค่าที่เล็กลง ตัวอย่างเช่น เพิ่มคะแนน AP ของ YOLOv9-Small 0.1-0.4% เหนือ GELAN-Small พื้นฐาน การเพิ่มขึ้นนั้นสำคัญยิ่งขึ้นสำหรับรุ่นที่ลึกกว่าเช่น YOLOv9-E ที่ 55.6% mAP

ดังนั้น PGI จึงช่วยให้โมเดลที่มีขนาดเล็กลงและมีประสิทธิภาพสามารถฝึกให้มีระดับความแม่นยำที่สูงขึ้นได้ ซึ่งก่อนหน้านี้ทำได้โดยโมเดลที่มีพารามิเตอร์มากเกินไปเท่านั้น

YOLOv9 กำหนดความล้ำหน้าใหม่เพื่อประสิทธิภาพ

ด้วยการรวมความก้าวหน้าทางสถาปัตยกรรมของ GELAN เข้ากับการปรับปรุงการฝึกอบรมจาก PGI ทำให้ YOLOv9 บรรลุประสิทธิภาพและประสิทธิภาพที่ไม่เคยมีมาก่อน:

  • เมื่อเปรียบเทียบกับ YOLO เวอร์ชันก่อนหน้า YOLOv9 จะได้รับ ความแม่นยำดีขึ้นด้วยพารามิเตอร์น้อยลง 10-15% และการคำนวณน้อยลง 25%. สิ่งนี้นำมาซึ่งการปรับปรุงที่สำคัญในด้านความเร็วและความสามารถในขนาดรุ่นต่างๆ
  • YOLOv9 เหนือกว่าเครื่องตรวจจับแบบเรียลไทม์อื่นๆ เช่น YOLO-MS และ RT-DETR ในแง่ของ ประสิทธิภาพของพารามิเตอร์และ FLOP. ต้องใช้ทรัพยากรน้อยกว่ามากในการบรรลุระดับประสิทธิภาพที่กำหนด
  • รุ่น YOLOv9 ที่เล็กกว่ายังเอาชนะรุ่นก่อนการฝึกที่ใหญ่กว่าอย่าง RT-DETR-X ได้ด้วย ทั้งๆที่ใช้. พารามิเตอร์น้อยลง 36%, YOLOv9-E ประสบความสำเร็จ AP ดีขึ้น 55.6% ผ่านสถาปัตยกรรมที่มีประสิทธิภาพมากขึ้น

ดังนั้น ด้วยการจัดการประสิทธิภาพในระดับสถาปัตยกรรมและการฝึกอบรม YOLOv9 จึงสร้างสิ่งล้ำสมัยใหม่สำหรับการเพิ่มประสิทธิภาพสูงสุดภายในทรัพยากรที่มีจำกัด

GELAN – สถาปัตยกรรมที่ได้รับการปรับปรุงเพื่อประสิทธิภาพ

YOLOv9 แนะนำสถาปัตยกรรมใหม่ที่เรียกว่า General Efficient Layer Aggregation Network (GELAN) ที่เพิ่มความแม่นยำสูงสุดภายในงบประมาณพารามิเตอร์ขั้นต่ำ มันสร้างจากรุ่น YOLO รุ่นก่อนๆ แต่ปรับส่วนประกอบต่างๆ ให้เหมาะสมเพื่อประสิทธิภาพโดยเฉพาะ

https://arxiv.org/abs/2402.13616

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลการไล่ระดับสีแบบตั้งโปรแกรมได้
https://arxiv.org/abs/2402.13616

ความเป็นมาของ CSPNet และ ELAN

YOLO เวอร์ชันล่าสุดตั้งแต่ v5 ได้ใช้แบ็คโบนที่อิงตาม Cross-Stage Partial Network (CSPNet) เพื่อประสิทธิภาพที่ดีขึ้น CSPNet ช่วยให้สามารถรวมแผนผังคุณลักษณะข้ามสาขาเครือข่ายแบบขนานในขณะที่เพิ่มค่าใช้จ่ายน้อยที่สุด:

วิธีนี้จะมีประสิทธิภาพมากกว่าการซ้อนเลเยอร์แบบอนุกรม ซึ่งมักจะนำไปสู่การคำนวณซ้ำซ้อนและการกำหนดพารามิเตอร์มากเกินไป

YOLOv7 อัปเกรด CSPNet เป็น Efficient Layer Aggregation Network (ELAN) ซึ่งทำให้โครงสร้างบล็อกง่ายขึ้น:

ELAN ลบการเชื่อมต่อทางลัดระหว่างเลเยอร์เพื่อสนับสนุนโหนดการรวมที่เอาต์พุต พารามิเตอร์และ FLOPs ที่ได้รับการปรับปรุงเพิ่มเติมนี้

การวางระบบ ELAN ทั่วไปเพื่อประสิทธิภาพที่ยืดหยุ่น

ผู้เขียนได้สรุป ELAN ให้ดียิ่งขึ้นเพื่อสร้าง เกลันกระดูกสันหลังที่ใช้ใน YOLOv9 GELAN ทำการปรับเปลี่ยนที่สำคัญเพื่อปรับปรุงความยืดหยุ่นและประสิทธิภาพ:

  • บล็อกการคำนวณที่เปลี่ยนได้ – ELAN ก่อนหน้านี้มีเลเยอร์การบิดแบบคงที่ GELAN อนุญาตให้แทนที่บล็อกการคำนวณใดๆ เช่น ResNets หรือ CSPNet ซึ่งให้ตัวเลือกทางสถาปัตยกรรมเพิ่มเติม
  • การกำหนดพารามิเตอร์เชิงลึก – แยกความลึกของบล็อกสำหรับสาขาหลักและสาขาผู้รวบรวมช่วยลดความยุ่งยากในการปรับแต่งการใช้ทรัพยากร
  • ประสิทธิภาพที่มั่นคงในการกำหนดค่า – GELAN รักษาความแม่นยำด้วยประเภทบล็อกและความลึกที่แตกต่างกัน ช่วยให้ปรับขนาดได้อย่างยืดหยุ่น

การเปลี่ยนแปลงเหล่านี้ทำให้ GELAN เป็นแกนหลักที่แข็งแกร่งแต่สามารถกำหนดค่าได้เพื่อเพิ่มประสิทธิภาพสูงสุด:

ในการทดลอง โมเดล GELAN มีประสิทธิภาพเหนือกว่าสถาปัตยกรรม YOLO รุ่นก่อนหน้าอย่างต่อเนื่องในด้านความแม่นยำต่อพารามิเตอร์:

  • GELAN-Small ที่มีพารามิเตอร์ 7M เอาชนะพารามิเตอร์ 7M ของ YOLOv11-Nano
  • GELAN-Medium จับคู่รุ่นกลาง YOLOv7 ที่หนักกว่า

ดังนั้น GELAN จึงมอบแกนหลักที่ได้รับการปรับปรุงเพื่อขยาย YOLO ไปตามเป้าหมายด้านประสิทธิภาพที่แตกต่างกัน ต่อไปเรามาดูกันว่า PGI ช่วยให้พวกเขาฝึกฝนได้ดีขึ้นอย่างไร

PGI – การฝึกอบรมที่ได้รับการปรับปรุงสำหรับรุ่นทุกขนาด

แม้ว่าตัวเลือกสถาปัตยกรรมจะส่งผลต่อประสิทธิภาพในเวลาอนุมาน แต่กระบวนการฝึกอบรมยังส่งผลต่อการใช้ทรัพยากรแบบจำลองด้วย YOLOv9 ใช้เทคนิคใหม่ที่เรียกว่า Programmable Gradient Information (PGI) เพื่อปรับปรุงการฝึกสำหรับโมเดลขนาดและความซับซ้อนต่างๆ

ปัญหาการไล่ระดับสีที่ไม่น่าเชื่อถือ

ในระหว่างการฝึก ฟังก์ชันการสูญเสียจะเปรียบเทียบเอาต์พุตของโมเดลกับป้ายกำกับความจริงภาคพื้นดิน และคำนวณการไล่ระดับข้อผิดพลาดเพื่ออัปเดตพารามิเตอร์ การไล่ระดับสีที่มีเสียงดังหรือทำให้เข้าใจผิด นำไปสู่การบรรจบกันและประสิทธิภาพที่ไม่ดี

เครือข่ายที่ลึกมากทำให้สิ่งนี้รุนแรงขึ้นผ่านทาง คอขวดข้อมูล – การไล่ระดับสีจากชั้นลึกเสียหายจากสัญญาณที่สูญหายหรือถูกบีบอัด

การกำกับดูแลเชิงลึก ช่วยโดยการแนะนำกิ่งก้านเสริมด้านข้างที่มีการสูญเสียเพื่อให้การไล่ระดับสีที่สะอาดยิ่งขึ้น แต่ก็บ่อยครั้ง แบ่งย่อยสำหรับรุ่นเล็กทำให้เกิดการรบกวนและความแตกต่างระหว่างสาขาต่างๆ

ดังนั้นเราจึงต้องมีวิธีในการไล่ระดับสีที่เชื่อถือได้ ซึ่งใช้ได้กับโมเดลทุกขนาด โดยเฉพาะโมเดลที่เล็กกว่า

ขอแนะนำข้อมูลการไล่ระดับสีแบบโปรแกรมได้ (PGI)

เพื่อจัดการกับการไล่ระดับสีที่ไม่น่าเชื่อถือ YOLOv9 เสนอข้อมูลการไล่ระดับสีแบบโปรแกรมได้ (PGI) PGI มีองค์ประกอบหลักสองประการที่ออกแบบมาเพื่อปรับปรุงคุณภาพการไล่ระดับสี:

1. กิ่งก้านเสริมแบบพลิกกลับได้

สาขาเพิ่มเติมจัดให้ การเชื่อมต่อแบบย้อนกลับ กลับไปที่อินพุตโดยใช้บล็อกเช่น RevCols สิ่งนี้จะรักษาการไล่ระดับสีที่สะอาดเพื่อหลีกเลี่ยงปัญหาคอขวดของข้อมูล

2. การบูรณาการการไล่ระดับสีหลายระดับ

ฟิวชันบล็อกจะรวมการไล่ระดับสีจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก สิ่งนี้จะช่วยป้องกันความแตกต่างระหว่างสาขา

ด้วยการสร้างการไล่ระดับสีที่เชื่อถือได้มากขึ้น PGI ปรับปรุงการบรรจบกันและประสิทธิภาพของการฝึกในโมเดลทุกขนาด:

  • รุ่นน้ำหนักเบา ได้รับประโยชน์จากการควบคุมดูแลเชิงลึกที่พวกเขาไม่สามารถทำได้มาก่อน
  • รุ่นใหญ่ ได้รับการไล่ระดับสีที่สะอาดขึ้นทำให้สามารถวางลักษณะทั่วไปได้ดีขึ้น

การทดลองแสดงให้เห็นว่า PGI เพิ่มความแม่นยำสำหรับการกำหนดค่า YOLOv9 ขนาดเล็กและขนาดใหญ่ผ่าน GELAN พื้นฐาน:

  • +0.1-0.4% AP สำหรับ YOLOv9-เล็ก
  • +0.5-0.6% AP สำหรับรุ่น YOLOv9 ที่ใหญ่กว่า

ดังนั้นการไล่ระดับสีที่ตั้งโปรแกรมได้ของ PGI ช่วยให้โมเดลทั้งขนาดใหญ่และขนาดเล็กสามารถฝึกฝนได้อย่างมีประสิทธิภาพมากขึ้น

YOLOv9 สร้างความแม่นยำอันล้ำสมัยแบบใหม่

ด้วยการรวมการปรับปรุงสถาปัตยกรรมจาก GELAN และการปรับปรุงการฝึกอบรมจาก PGI ทำให้ YOLOv9 บรรลุผลลัพธ์ที่ล้ำสมัยใหม่สำหรับการตรวจจับวัตถุแบบเรียลไทม์

การทดลองบนชุดข้อมูล COCO แสดงให้เห็นว่า YOLOv9 เหนือกว่า YOLO เวอร์ชันก่อนๆ รวมถึงเครื่องตรวจจับแบบเรียลไทม์อื่นๆ เช่น YOLO-MS ในเรื่องความแม่นยำและประสิทธิภาพ:

ไฮไลท์สำคัญบางประการ:

  • YOLOv9-Small เหนือกว่า YOLO-MS-Small โดยมีพารามิเตอร์และการคำนวณน้อยลง 10%
  • YOLOv9-Medium จับคู่โมเดล YOLOv7 ที่หนักกว่าโดยใช้ทรัพยากรน้อยกว่าครึ่งหนึ่ง
  • YOLOv9-Large มีประสิทธิภาพเหนือกว่า YOLOv8-X ด้วยพารามิเตอร์น้อยลง 15% และ FLOPs น้อยลง 25%

เป็นที่น่าสังเกตว่ารุ่น YOLOv9 ที่เล็กกว่านั้นยังเหนือกว่ารุ่นที่หนักกว่าจากเครื่องตรวจจับอื่นๆ ที่ใช้การฝึกล่วงหน้าเช่น RT-DETR-X อีกด้วย แม้จะมีพารามิเตอร์น้อยกว่า 4 เท่า แต่ YOLOv9-E ก็มีประสิทธิภาพเหนือกว่า RT-DETR-X ในด้านความแม่นยำ

ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของ YOLOv9 การปรับปรุงช่วยให้การตรวจจับวัตถุมีความแม่นยำสูงในกรณีการใช้งานจริงมากขึ้น

ประเด็นสำคัญในการอัพเกรด YOLOv9

เรามาสรุปการอัปเกรดและนวัตกรรมที่สำคัญบางส่วนที่ช่วยให้ YOLOv9 มีประสิทธิภาพที่ล้ำสมัยครั้งใหม่กัน:

  • สถาปัตยกรรมที่ปรับให้เหมาะสมที่สุด GELAN – ปรับปรุงประสิทธิภาพของพารามิเตอร์ผ่านบล็อกการรวมที่ยืดหยุ่น อนุญาตให้ปรับขนาดโมเดลสำหรับเป้าหมายที่แตกต่างกัน
  • ข้อมูลการไล่ระดับที่ตั้งโปรแกรมได้ – ให้การไล่ระดับสีที่เชื่อถือได้ผ่านการเชื่อมต่อแบบย้อนกลับและฟิวชั่น ปรับปรุงการฝึกในขนาดโมเดลต่างๆ
  • แม่นยำยิ่งขึ้นด้วยทรัพยากรน้อยลง – ลดพารามิเตอร์และการคำนวณลง 10-15% เมื่อเทียบกับ YOLOv8 ด้วยความแม่นยำที่ดีขึ้น ช่วยให้การอนุมานมีประสิทธิภาพมากขึ้น
  • ผลลัพธ์ที่เหนือกว่าในขนาดรุ่น – ตั้งค่าความล้ำสมัยใหม่สำหรับการกำหนดค่าโมเดลน้ำหนักเบา ขนาดกลาง และขนาดใหญ่ มีประสิทธิภาพเหนือกว่าโมเดลที่ได้รับการฝึกมาล่วงหน้าอย่างหนัก
  • การบังคับใช้ที่ขยายออกไป – ประสิทธิภาพที่สูงขึ้นจะขยายกรณีการใช้งานที่เป็นไปได้ เช่น การตรวจจับแบบเรียลไทม์บนอุปกรณ์ Edge

ด้วยการระบุถึงความแม่นยำ ประสิทธิภาพ และการบังคับใช้โดยตรง YOLOv9 จึงขับเคลื่อนการตรวจจับวัตถุไปข้างหน้าเพื่อตอบสนองความต้องการที่หลากหลายในโลกแห่งความเป็นจริง การอัพเกรดดังกล่าวถือเป็นรากฐานที่แข็งแกร่งสำหรับนวัตกรรมในอนาคตในด้านความสามารถด้านคอมพิวเตอร์วิทัศน์ที่สำคัญนี้

ฉันใช้เวลาห้าปีที่ผ่านมาหมกมุ่นอยู่กับโลกแห่งการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่น่าสนใจ ความหลงใหลและความเชี่ยวชาญของฉันทำให้ฉันมีส่วนร่วมในโครงการวิศวกรรมซอฟต์แวร์ที่หลากหลายกว่า 50 โครงการ โดยเน้นเฉพาะที่ AI/ML ความอยากรู้อยากเห็นอย่างต่อเนื่องของฉันยังดึงฉันไปสู่การประมวลผลภาษาธรรมชาติ ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม