āļāļąāļāļāļēāļāļĢāļ°āļāļīāļĐāļāđ
YOLOv9: āļāļēāļĢāļāļĢāļ°āđāļāļāļŦāļāļķāđāļāđāļāļāļēāļĢāļāļĢāļ§āļāļāļąāļāļ§āļąāļāļāļļāđāļāļāđāļĢāļĩāļĒāļĨāđāļāļĄāđ
การตรวจจับวัตถุ ได้พัฒนาไปอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา เนื่องจากอัลกอริทึม การเรียนรู้ลึก เช่น YOLO (You Only Look Once) รุ่นล่าสุด YOLOv9 นำเสนอการปรับปรุงความแม่นยำ ประสิทธิภาพ และความสามารถเหนือรุ่นก่อนๆ ในบทความนี้ เราจะดูนวัตกรรมที่ทำให้ YOLOv9 เป็นรุ่นใหม่ที่มีประสิทธิภาพสูงสุดในการตรวจจับวัตถุแบบเรียลไทม์
การแนะนำการตรวจจับวัตถุแบบเร็ว
ก่อนที่จะเข้าสู่สิ่งที่ใหม่ใน YOLOv9 มาทำความเข้าใจกันก่อนว่าการตรวจจับวัตถุทำงานอย่างไร วัตถุประสงค์ของการตรวจจับวัตถุคือการระบุและติดตามวัตถุภายในภาพ เช่น รถยนต์ คน หรือสัตว์ เป็นความสามารถสำคัญสำหรับการใช้งาน เช่น รถยนต์ไร้คนขับ ระบบเฝ้าระวัง และการค้นหาภาพ
ตัวตรวจจับจะรับภาพเป็นข้อมูลเข้าและผลิตกล่องขอบเขตรอบวัตถุที่ตรวจจับได้ แต่ละกล่องมีฉลากชั้นเรียนที่เกี่ยวข้อง ชุดข้อมูลที่ได้รับความนิยม เช่น MS COCO มีภาพที่มีฉลากหลายพันภาพเพื่อฝึกและประเมินโมเดลเหล่านี้
มีสองวิธีหลักในการตรวจจับวัตถุ:
- ตัวตรวจจับสองขั้นตอน เช่น Faster R-CNN จะสร้างข้อเสนอภูมิภาคก่อน จากนั้นจึงจำแนกและปรับขอบเขตของแต่ละภูมิภาค พวกมันมักจะมีความแม่นยำมากกว่า แต่ช้ากว่า
- ตัวตรวจจับหนึ่งขั้นตอน เช่น YOLO จะใช้โมเดลโดยตรงบนภาพในหนึ่งการผ่าน พวกมันแลกเปลี่ยนความแม่นยำบางส่วนเพื่อความเร็วในการอนุมาน
YOLO เป็นผู้บุกเบิกวิธีการหนึ่งขั้นตอน มาทำความเข้าใจกันว่า YOLO พัฒนาไปอย่างไรในช่วงหลายรุ่นเพื่อปรับปรุงความแม่นยำและประสิทธิภาพ
การตรวจสอบรุ่นก่อนของ YOLO
ตระกูลโมเดล YOLO (You Only Look Once) เป็นผู้นำในการตรวจจับวัตถุแบบเร็วตั้งแต่การเผยแพร่ครั้งแรกในปี 2016 มาทำความเข้าใจกันว่า YOLO พัฒนาไปอย่างไรในช่วงหลายรุ่น:
- YOLOv1 เสนอโมเดลที่รวมเพื่อคาดการณ์กล่องขอบเขตและความน่าจะเป็นของชั้นเรียนโดยตรงจากภาพเต็มในหนึ่งการผ่าน ทำให้มันเร็วมากเมื่อเทียบกับโมเดลสองขั้นตอนก่อนหน้า
- YOLOv2 ปรับปรุงจากต้นฉบับโดยใช้การปรับขนาดชั้นแบตช์เพื่อเสถียรภาพที่ดีกว่า กล่องขอบเขตที่มีหลายขนาดและอัตราส่วนเพื่อตรวจจับวัตถุหลายขนาด และการปรับปรุงอื่นๆ
- YOLOv3 เพิ่มเครื่อง추출คุณลักษณะใหม่ชื่อ Darknet-53 ที่มีชั้นและทางลัดระหว่างชั้นมากขึ้น ทำให้ความแม่นยำดีขึ้น
- YOLOv4 รวมแนวคิดจากตัวตรวจจับวัตถุและโมเดลการแบ่งส่วนอื่นๆ เพื่อผลักดันความแม่นยำให้สูงขึ้นในขณะที่ยังคงอนุมานเร็ว
- YOLOv5 เขียน YOLOv4 ใหม่ใน PyTorch และเพิ่มเครื่อง추출คุณลักษณะใหม่ชื่อ CSPDarknet พร้อมกับการปรับปรุงอื่นๆ
- YOLOv6 ต่อด้วยการปรับโมเดลและกระบวนการฝึกเพื่อเพิ่มประสิทธิภาพโดยใช้โมเดลที่ฝึกไว้ก่อนบนชุดข้อมูลภายนอกขนาดใหญ่
โดยสรุป รุ่นก่อนของ YOLO ได้เพิ่มความแม่นยำผ่านการปรับปรุงโครงสร้างโมเดล เทคนิคการฝึก และการฝึกไว้ก่อน แต่เมื่อโมเดลใหญ่ขึ้นและซับซ้อน ความเร็วและประสิทธิภาพเริ่มเสื่อมลง
ความจำเป็นในการมีประสิทธิภาพที่ดีกว่า
หลายๆ การใช้งานต้องการให้การตรวจจับวัตถุทำงานในแบบเรียลไทม์บนอุปกรณ์ที่มีทรัพยากรคำนวณจำกัด เมื่อโมเดลใหญ่ขึ้นและใช้การคำนวณมากขึ้น มันจะไม่เหมาะสมที่จะใช้งาน
ตัวอย่างเช่น รถยนต์ไร้คนขับต้องการตรวจจับวัตถุในอัตราเฟรมสูงโดยใช้โปรเซสเซอร์ภายในรถยนต์ ระบบเฝ้าระวังต้องการให้การตรวจจับวัตถุทำงานบนฟีดวิดีโอภายในฮาร์ดแวร์ที่ฝังตัว โทรศัพท์มือถือและอุปกรณ์ผู้บริโภคอื่นๆ มีข้อจำกัดด้านพลังงานและอุณหภูมิที่เข้มงวด
รุ่น YOLO ล่าสุดได้รับผลลัพธ์ที่แม่นยำสูงด้วยจำนวนพารามิเตอร์และการดำเนินการ (FLOPs) จำนวนมาก แต่นี่มีค่าใช้จ่ายในด้านความเร็ว ขนาด และประสิทธิภาพด้านพลังงาน
ตัวอย่างเช่น YOLOv5-L ต้องการมากกว่า 100 พันล้าน FLOPs เพื่อประมวลผลภาพ 1280×1280 เพียงภาพเดียว ซึ่งช้าเกินไปสำหรับการใช้งานหลายๆ อย่างที่ต้องการความเร็ว
ดังนั้น เพื่อขยายความสามารถในการใช้งานการตรวจจับวัตถุ เราต้องการวิธีการเพิ่มประสิทธิภาพ – ได้รับผลลัพธ์ที่ดีกว่าด้วยพารามิเตอร์และการคำนวณที่น้อยลง
YOLOv9 – ความแม่นยำที่ดีกว่าด้วยทรัพยากรที่น้อยลง
นักวิจัยที่อยู่เบื้องหลัง YOLOv9 มุ่งเน้นในการปรับปรุงประสิทธิภาพเพื่อให้ได้ผลลัพธ์ในแบบเรียลไทม์บนอุปกรณ์หลากหลาย พวกเขาแนะนำสองนวัตกรรมหลัก:
- โครงสร้างโมเดลใหม่ชื่อ General Efficient Layer Aggregation Network (GELAN) ที่เพิ่มความแม่นยำสูงสุดในขณะที่ลดพารามิเตอร์และ FLOPs
- เทคนิคการฝึกใหม่ชื่อ Programmable Gradient Information (PGI) ที่ให้กราเดียนที่เชื่อถือได้มากขึ้น โดยเฉพาะสำหรับโมเดลขนาดเล็ก
มาทำความเข้าใจกันว่าแต่ละนวัตกรรมเหล่านี้ช่วยให้ประสิทธิภาพดีขึ้นได้อย่างไร
โครงสร้างที่มีประสิทธิภาพมากขึ้นด้วย GELAN
โครงสร้างโมเดลมีผลกระทบอย่างมากต่อความสมดุลระหว่างความแม่นยำและความเร็วในการอนุมาน โมเดลต้องการความลึกและความกว้างเพียงพอเพื่อจับ特徵ที่เกี่ยวข้องจากภาพเข้า แต่ชั้นหรือฟิลเตอร์ที่มากเกินไปจะทำให้โมเดลช้าและใหญ่เกินไป
ผู้เขียนออกแบบ GELAN เพื่อเพิ่มความแม่นยำสูงสุดจากโครงสร้างที่เล็กที่สุด
GELAN ใช้สองบล็อกหลัก:
- บล็อกการรวมชั้นที่มีประสิทธิภาพ – เหล่านี้รวมการแปลงข้ามสาขาต่างๆ ของเครือข่ายเพื่อจับ特徵หลายขนาดได้อย่างมีประสิทธิภาพ
- บล็อกคำนวณ – บล็อก CSPNet ช่วยให้ข้อมูลแพร่กระจายข้ามชั้นได้ บล็อกใดๆ สามารถถูกแทนที่ตามข้อจำกัดการคำนวณ
โดยการปรับและรวมบล็อกเหล่านี้อย่างระมัดระวัง GELAN พบจุดสมดุลที่เหมาะสมระหว่างประสิทธิภาพ พารามิเตอร์ และความเร็ว โครงสร้างแบบโมดูลาร์นี้สามารถปรับขนาดขึ้นหรือลงสำหรับโมเดลและฮาร์ดแวร์ที่หลากหลาย
การทดลองแสดงให้เห็นว่า GELAN มีประสิทธิภาพมากกว่าโครงสร้าง YOLO ก่อนหน้าสำหรับโมเดลขนาดเล็ก: GELAN-Small ที่มีพารามิเตอร์ 7 ล้านตัวสามารถเอาชนะ YOLOv7-Nano ที่มีพารามิเตอร์ 11 ล้านตัว และ GELAN-Medium ที่มีพารามิเตอร์ 20 ล้านตัวสามารถทำงานได้เทียบเท่ากับ YOLOv7-Medium ที่ต้องการพารามิเตอร์ 35-40 ล้านตัว
ดังนั้น โดยการออกแบบโครงสร้างที่ปรับให้เหมาะสมสำหรับประสิทธิภาพ GELAN ช่วยให้โมเดลสามารถทำงานได้เร็วขึ้นและบนอุปกรณ์ที่มีทรัพยากรจำกัดมากขึ้น ต่อไปเราจะดูว่า PGI ช่วยให้การฝึกได้ดีขึ้นได้อย่างไร
การฝึกที่ดีกว่าด้วย Programmable Gradient Information (PGI)
การฝึกโมเดลมีความสำคัญไม่แพ้กับการออกแบบโครงสร้างโมเดล นักวิจัยที่อยู่เบื้องหลัง YOLOv9 ระบุปัญหาในการฝึกโมเดลขนาดเล็กที่เกิดจากกราเดียนที่ไม่น่าเชื่อถือ
กราเดียนตัดสินว่าโมเดลจะอัปเดตพารามิเตอร์ระหว่างการฝึกอย่างไร กราเดียนที่มีเสียงรบกวนหรือไม่น่าเชื่อถือจะนำไปสู่การรวมตัวที่ไม่ดีและประสิทธิภาพที่ไม่ดี
เทคนิคการดูแลลึกช่วยแก้ปัญหานี้โดยการแนะนำสาขาเสริมที่มีการสูญเสียเพื่อให้กราเดียนที่ดีขึ้น แต่มัน往往ล้มเหลวและทำให้เกิดการเบี่ยงเบนสำหรับโมเดลขนาดเล็ก

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลกราเดียนแบบโปรแกรม https://arxiv.org/abs/2402.13616
เพื่อแก้ปัญหานี้ YOLOv9 เสนอ Programmable Gradient Information (PGI) ซึ่งมีสองส่วนหลัก:
- สาขาเสริมที่สามารถย้อนกลับได้ – เหล่านี้ให้กราเดียนที่สะอาดกว่าโดยการรักษาการเชื่อมต่อที่ย้อนกลับไปยังอินพุตโดยใช้บล็อก เช่น RevCols
- การรวมกราเดียนหลายระดับ – บล็อกการหลอมรวมรวมกราเดียนจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก ซึ่งป้องกันการเบี่ยงเบนระหว่างสาขาต่างๆ
โดยการสร้างกราเดียนที่เชื่อถือได้มากขึ้น PGI ช่วยให้การฝึกได้ดีขึ้นสำหรับโมเดลทุกขนาด:
การทดลองแสดงให้เห็นว่า PGI เพิ่มความแม่นยำสำหรับขนาดโมเดล YOLOv9 ทุกขนาด โดยเฉพาะขนาดเล็ก: PGI เพิ่มคะแนน AP ของ YOLOv9-Small 0.1-0.4% เมื่อเทียบกับ GELAN-Small พื้นฐาน และการเพิ่มขึ้นยิ่งมากขึ้นสำหรับโมเดลที่ใหญ่กว่า เช่น YOLOv9-E ที่ 55.6% mAP
ดังนั้น PGI จึงช่วยให้โมเดลขนาดเล็กและประสิทธิภาพดีสามารถฝึกได้ดีขึ้นและให้ผลลัพธ์ที่ดีกว่า
YOLOv9 ตั้งค่าระดับใหม่สำหรับประสิทธิภาพ
โดยการรวมการปรับปรุงโครงสร้างจาก GELAN และการปรับปรุงการฝึกจาก PGI YOLOv9 ให้ประสิทธิภาพและความสามารถที่ไม่เคยเห็นมาก่อน:
- เมื่อเทียบกับรุ่นก่อนของ YOLO YOLOv9 ให้ผลลัพธ์ที่ดีกว่าด้วยพารามิเตอร์น้อยลง 10-15% และการคำนวณน้อยลง 25% ซึ่งนำไปสู่การปรับปรุงความเร็วและความสามารถในการใช้งานที่สำคัญ
- YOLOv9 เหนือกว่าตัวตรวจจับวัตถุแบบเรียลไทม์อื่นๆ เช่น YOLO-MS และ RT-DETR ในด้านประสิทธิภาพของพารามิเตอร์และ FLOPs ต้องใช้ทรัพยากรน้อยกว่าเพื่อให้ได้ผลลัพธ์ที่กำหนด
- แม้แต่โมเดล YOLOv9 ขนาดเล็กก็สามารถเอาชนะโมเดลที่ใหญ่กว่าและฝึกไว้ก่อน เช่น RT-DETR-X ได้ โดยใช้พารามิเตอร์น้อยกว่า 36% YOLOv9-E ให้ผลลัพธ์ที่ดีกว่า 55.6% AP
ดังนั้น โดยการแก้ไขปัญหาด้านประสิทธิภาพทั้งในด้านโครงสร้างและกระบวนการฝึก YOLOv9 ตั้งค่าระดับใหม่สำหรับการเพิ่มประสิทธิภาพสูงสุดภายใต้ทรัพยากรที่จำกัด
GELAN – โครงสร้างที่ได้รับการปรับให้เหมาะสมสำหรับประสิทธิภาพ
YOLOv9 นำเสนอโครงสร้างใหม่ชื่อ General Efficient Layer Aggregation Network (GELAN) ที่เพิ่มความแม่นยำสูงสุดภายใต้พารามิเตอร์ที่น้อยที่สุด GELAN สร้างขึ้นจากโมเดล YOLO ก่อนหน้า แต่ปรับแต่งส่วนประกอบต่างๆ เพื่อประสิทธิภาพ

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลกราเดียนแบบโปรแกรม
https://arxiv.org/abs/2402.13616
พื้นหลังของ CSPNet และ ELAN
รุ่น YOLO ที่ผ่านมา ตั้งแต่ v5 เป็นต้นมา ได้ใช้เครื่องหลังที่ขึ้นอยู่กับ Cross-Stage Partial Network (CSPNet) สำหรับการปรับปรุงประสิทธิภาพ CSPNet ช่วยให้สามารถรวมแผนที่คุณลักษณะข้ามสาขาต่างๆ ของเครือข่ายได้โดยไม่ต้องเพิ่มการคำนวณมาก
สิ่งนี้มีประสิทธิภาพมากกว่าการวางชั้นแบบซีรีส์ ซึ่งมักจะนำไปสู่การคำนวณที่ซ้ำซ้อนและพารามิเตอร์ที่มากเกินไป
YOLOv7 ปรับปรุง CSPNet เป็น Efficient Layer Aggregation Network (ELAN) ซึ่งทำให้โครงสร้างของบล็อกง่ายขึ้น:
ELAN ลบการเชื่อมต่อทางลัดระหว่างชั้นและแทนที่ด้วยโหนดรวมที่ปลายออก ซึ่งปรับปรุงประสิทธิภาพของพารามิเตอร์และ FLOPs
การทำให้ ELAN เป็นแบบทั่วไปสำหรับประสิทธิภาพที่ยืดหยุ่น
ผู้เขียนทำให้ ELAN ทั่วไปมากขึ้นเพื่อสร้าง GELAN ซึ่งเป็นโครงสร้างหลักที่ใช้ใน YOLOv9 GELAN มีการเปลี่ยนแปลงที่สำคัญเพื่อปรับปรุงความยืดหยุ่นและประสิทธิภาพ:
- บล็อกคำนวณที่สามารถเปลี่ยนได้ – ELAN ก่อนหน้านี้มีชั้นการรวมที่ตายตัว GELAN ช่วยให้สามารถแทนที่บล็อกคำนวณใดๆ เช่น ResNets หรือ CSPNet ได้ โดยให้ตัวเลือกโครงสร้างที่หลากหลาย
- การปรับพารามิเตอร์ตามความลึก – การมีระดับความลึกที่แยกจากกันสำหรับสาขาหลักและอกรองทำให้ง่ายต่อการปรับใช้ทรัพยากร
- ประสิทธิภาพที่เสถียรทั่วการกำหนดค่า – GELAN รักษาความแม่นยำไว้แม้จะเปลี่ยนประเภทและความลึกของบล็อก ทำให้สามารถปรับขนาดได้อย่างยืดหยุ่น
การเปลี่ยนแปลงเหล่านี้ทำให้ GELAN เป็นโครงสร้างหลังที่แข็งแกร่งและปรับให้เหมาะสมสำหรับประสิทธิภาพ:
การทดลองแสดงให้เห็นว่า GELAN มีประสิทธิภาพมากกว่าโครงสร้าง YOLO ก่อนหน้าในด้านความแม่นยำต่อพารามิเตอร์:
- GELAN-Small ที่มีพารามิเตอร์ 7 ล้านตัวสามารถเอาชนะ YOLOv7-Nano ที่มีพารามิเตอร์ 11 ล้านตัว
- GELAN-Medium ที่มีพารามิเตอร์ 20 ล้านตัวสามารถทำงานได้เทียบเท่ากับ YOLOv7-Medium ที่ต้องการพารามิเตอร์ 35-40 ล้านตัว
ดังนั้น GELAN จึงให้โครงสร้างหลังที่ได้รับการปรับให้เหมาะสมสำหรับการเพิ่มประสิทธิภาพของ YOLO ต่อไปเราจะดูว่า PGI ช่วยให้การฝึกได้ดีขึ้นได้อย่างไร
PGI – การฝึกที่ดีขึ้นสำหรับขนาดโมเดลทั้งหมด
ในขณะที่การเลือกโครงสร้างส่งผลต่อประสิทธิภาพในขณะอนุมาน กระบวนการฝึกก็มีผลต่อการใช้ทรัพยากรของโมเดล YOLOv9 ใช้เทคนิคใหม่ชื่อ Programmable Gradient Information (PGI) เพื่อปรับปรุงการฝึกสำหรับขนาดและความซับซ้อนของโมเดลที่หลากหลาย
ปัญหาของกราเดียนที่ไม่น่าเชื่อถือ
ระหว่างการฝึก ฟังก์ชันการสูญเสียจะคำนวณความแตกต่างระหว่างการผลิตของโมเดลและฉลากที่แท้จริง และคำนวณกราเดียนของข้อผิดพลาดเพื่ออัปเดตพารามิเตอร์ กราเดียนที่มีเสียงรบกวนหรือไม่น่าเชื่อถือ นำไปสู่การรวมตัวที่ไม่ดีและประสิทธิภาพที่ไม่ดี
เครือข่ายที่ลึกมากขึ้นจะทำให้ปัญหานี้รุนแรงขึ้นผ่าน ปัญหาการขาดข้อมูล – กราเดียนจากชั้นลึกถูกบิดเบือนหรือบีบอัด
การดูแลลึก ช่วยโดยการแนะนำสาขาเสริมที่มีการสูญเสียเพื่อให้กราเดียนที่สะอาดกว่า แต่มัน往往ล้มเหลวและทำให้เกิดการเบี่ยงเบนสำหรับโมเดลขนาดเล็ก
ดังนั้น เราต้องการวิธีการให้กราเดียนที่เชื่อถือได้ซึ่งทำงานสำหรับขนาดโมเดลทั้งหมด โดยเฉพาะขนาดเล็ก
การแนะนำ Programmable Gradient Information (PGI)
เพื่อแก้ไขปัญหาของกราเดียนที่ไม่น่าเชื่อถือ YOLOv9 เสนอ Programmable Gradient Information (PGI) ซึ่งมีสองส่วนหลัก:
1. สาขาเสริมที่สามารถย้อนกลับได้
สาขาเสริมเหล่านี้ให้ การเชื่อมต่อที่ย้อนกลับ ไปยังอินพุตโดยใช้บล็อก เช่น RevCols ซึ่งรักษากราเดียนที่สะอาดและหลีกเลี่ยงปัญหาการขาดข้อมูล
2. การรวมกราเดียนหลายระดับ
บล็อกการหลอมรวมรวมกราเดียนจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก ซึ่งป้องกันการเบี่ยงเบนระหว่างสาขาต่างๆ
โดยการสร้างกราเดียนที่เชื่อถือได้มากขึ้น PGI ปรับปรุงการรวมตัวและประสิทธิภาพสำหรับขนาดโมเดลทั้งหมด:
- โมเดลขนาดเล็ก ได้รับประโยชน์จากการดูแลลึกที่ไม่สามารถใช้ได้ก่อนหน้านี้
- โมเดลขนาดใหญ่ ได้รับกราเดียนที่สะอาดกว่า ซึ่งช่วยให้การรวมตัวดีขึ้น
การทดลองแสดงให้เห็นว่า PGI เพิ่มความแม่นยำสำหรับขนาด YOLOv9 ทุกขนาด:
- +0.1-0.4% AP สำหรับ YOLOv9-Small
- +0.5-0.6% AP สำหรับ YOLOv9 ขนาดใหญ่
ดังนั้น กราเดียนแบบโปรแกรมของ PGI ช่วยให้โมเดลทุกขนาดฝึกได้ดีขึ้น
YOLOv9 ตั้งค่าระดับใหม่สำหรับความแม่นยำ
โดยการรวมการปรับปรุงโครงสร้างจาก GELAN และการปรับปรุงการฝึกจาก PGI YOLOv9 ตั้งค่าระดับใหม่สำหรับความแม่นยำในการตรวจจับวัตถุแบบเรียลไทม์
การทดลองบนชุดข้อมูล COCO แสดงให้เห็นว่า YOLOv9 เหนือกว่ารุ่นก่อนของ YOLO และตัวตรวจจับวัตถุแบบเรียลไทม์อื่นๆ เช่น YOLO-MS ในด้านความแม่นยำและประสิทธิภาพ:
บางจุดสำคัญ:
- YOLOv9-Small เหนือกว่า YOLO-MS-Small ด้วยพารามิเตอร์และการคำนวณที่น้อยกว่า 10%
- YOLOv9-Medium เหมือนกับ YOLOv7-Medium ที่ต้องการทรัพยากรน้อยกว่าครึ่งหนึ่ง
- YOLOv9-Large เหนือกว่า YOLOv8-X ด้วยพารามิเตอร์น้อยกว่า 15% และ FLOPs น้อยกว่า 25%
น่าประทับใจที่ YOLOv9 ขนาดเล็กสามารถเอาชนะโมเดลที่ใหญ่กว่าจากตัวตรวจจับวัตถุอื่นๆ ที่ใช้การฝึกไว้ก่อน เช่น RT-DETR-X ได้ แม้จะมีพารามิเตอร์น้อยกว่า 4 เท่า YOLOv9-E ก็สามารถเอาชนะ RT-DETR-X ในด้านความแม่นยำ
ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของ YOLOv9 การปรับปรุงเหล่านี้ช่วยให้การตรวจจับวัตถุแบบเรียลไทม์มีความสามารถในการใช้งานในสถานการณ์จริงมากขึ้น
ข้อสรุปหลักเกี่ยวกับการอัปเดต YOLOv9
มาทำความเข้าใจกันว่าข้ออัปเดตและนวัตกรรมหลักๆ ที่ทำให้ YOLOv9 มีประสิทธิภาพสูงสุดใหม่:
- โครงสร้าง GELAN ที่ได้รับการปรับให้เหมาะสม – ปรับปรุงประสิทธิภาพพารามิเตอร์ผ่านบล็อกการรวมที่ยืดหยุ่น ช่วยให้สามารถปรับขนาดโมเดลสำหรับเป้าหมายที่หลากหลาย
- ข้อมูลกราเดียนแบบโปรแกรม – ให้กราเดียนที่เชื่อถือได้มากขึ้นผ่านการเชื่อมต่อที่ย้อนกลับและฟิวชั่น ช่วยให้การฝึกได้ดีขึ้นสำหรับขนาดโมเดลทั้งหมด
- ความแม่นยำที่ดีกว่าด้วยทรัพยากรที่น้อยลง – ลดพารามิเตอร์และการคำนวณลง 10-15% เมื่อเทียบกับ YOLOv8 ในขณะที่ให้ผลลัพธ์ที่ดีกว่า ทำให้สามารถอนุมานได้อย่างมีประสิทธิภาพมากขึ้น
- ผลลัพธ์ที่เหนือกว่าสำหรับขนาดโมเดลทั้งหมด – ตั้งค่าระดับใหม่สำหรับขนาดโมเดลเล็ก กลาง และใหญ่ เหนือกว่าโมเดลที่ฝึกไว้ก่อนหน้า
- การขยายความสามารถในการใช้งาน – ประสิทธิภาพที่สูงขึ้นขยายสถานการณ์ที่ใช้งานได้จริง เช่น การตรวจจับวัตถุแบบเรียลไทม์บนอุปกรณ์ขอบ
โดยการแก้ไขปัญหาโดยตรงเกี่ยวกับความแม่นยำ ประสิทธิภาพ และความสามารถในการใช้งาน YOLOv9 ขยับขอบเขตของการตรวจจับวัตถุไปสู่การตอบสนองความต้องการในโลกแห่งความเป็นจริงที่หลากหลาย การอัปเดตเหล่านี้ให้พื้นฐานที่แข็งแกร่งสำหรับการนวัตกรรมในอนาคตในความสามารถในการมองเห็นของเครื่องจักรที่สำคัญนี้












