āļ›āļąāļāļāļēāļ›āļĢāļ°āļ”āļīāļĐāļāđŒ

YOLOv9: āļāļēāļĢāļāļĢāļ°āđ‚āļ”āļ”āļŦāļ™āļķāđˆāļ‡āđƒāļ™āļāļēāļĢāļ•āļĢāļ§āļˆāļˆāļąāļšāļ§āļąāļ•āļ–āļļāđāļšāļšāđ€āļĢāļĩāļĒāļĨāđ„āļ—āļĄāđŒ

mm

การตรวจจับวัตถุ ได้พัฒนาไปอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา เนื่องจากอัลกอริทึม การเรียนรู้ลึก เช่น YOLO (You Only Look Once) รุ่นล่าสุด YOLOv9 นำเสนอการปรับปรุงความแม่นยำ ประสิทธิภาพ และความสามารถเหนือรุ่นก่อนๆ ในบทความนี้ เราจะดูนวัตกรรมที่ทำให้ YOLOv9 เป็นรุ่นใหม่ที่มีประสิทธิภาพสูงสุดในการตรวจจับวัตถุแบบเรียลไทม์

การแนะนำการตรวจจับวัตถุแบบเร็ว

ก่อนที่จะเข้าสู่สิ่งที่ใหม่ใน YOLOv9 มาทำความเข้าใจกันก่อนว่าการตรวจจับวัตถุทำงานอย่างไร วัตถุประสงค์ของการตรวจจับวัตถุคือการระบุและติดตามวัตถุภายในภาพ เช่น รถยนต์ คน หรือสัตว์ เป็นความสามารถสำคัญสำหรับการใช้งาน เช่น รถยนต์ไร้คนขับ ระบบเฝ้าระวัง และการค้นหาภาพ

ตัวตรวจจับจะรับภาพเป็นข้อมูลเข้าและผลิตกล่องขอบเขตรอบวัตถุที่ตรวจจับได้ แต่ละกล่องมีฉลากชั้นเรียนที่เกี่ยวข้อง ชุดข้อมูลที่ได้รับความนิยม เช่น MS COCO มีภาพที่มีฉลากหลายพันภาพเพื่อฝึกและประเมินโมเดลเหล่านี้

มีสองวิธีหลักในการตรวจจับวัตถุ:

  • ตัวตรวจจับสองขั้นตอน เช่น Faster R-CNN จะสร้างข้อเสนอภูมิภาคก่อน จากนั้นจึงจำแนกและปรับขอบเขตของแต่ละภูมิภาค พวกมันมักจะมีความแม่นยำมากกว่า แต่ช้ากว่า
  • ตัวตรวจจับหนึ่งขั้นตอน เช่น YOLO จะใช้โมเดลโดยตรงบนภาพในหนึ่งการผ่าน พวกมันแลกเปลี่ยนความแม่นยำบางส่วนเพื่อความเร็วในการอนุมาน

YOLO เป็นผู้บุกเบิกวิธีการหนึ่งขั้นตอน มาทำความเข้าใจกันว่า YOLO พัฒนาไปอย่างไรในช่วงหลายรุ่นเพื่อปรับปรุงความแม่นยำและประสิทธิภาพ

การตรวจสอบรุ่นก่อนของ YOLO

ตระกูลโมเดล YOLO (You Only Look Once) เป็นผู้นำในการตรวจจับวัตถุแบบเร็วตั้งแต่การเผยแพร่ครั้งแรกในปี 2016 มาทำความเข้าใจกันว่า YOLO พัฒนาไปอย่างไรในช่วงหลายรุ่น:

  • YOLOv1 เสนอโมเดลที่รวมเพื่อคาดการณ์กล่องขอบเขตและความน่าจะเป็นของชั้นเรียนโดยตรงจากภาพเต็มในหนึ่งการผ่าน ทำให้มันเร็วมากเมื่อเทียบกับโมเดลสองขั้นตอนก่อนหน้า
  • YOLOv2 ปรับปรุงจากต้นฉบับโดยใช้การปรับขนาดชั้นแบตช์เพื่อเสถียรภาพที่ดีกว่า กล่องขอบเขตที่มีหลายขนาดและอัตราส่วนเพื่อตรวจจับวัตถุหลายขนาด และการปรับปรุงอื่นๆ
  • YOLOv3 เพิ่มเครื่อง추출คุณลักษณะใหม่ชื่อ Darknet-53 ที่มีชั้นและทางลัดระหว่างชั้นมากขึ้น ทำให้ความแม่นยำดีขึ้น
  • YOLOv4 รวมแนวคิดจากตัวตรวจจับวัตถุและโมเดลการแบ่งส่วนอื่นๆ เพื่อผลักดันความแม่นยำให้สูงขึ้นในขณะที่ยังคงอนุมานเร็ว
  • YOLOv5 เขียน YOLOv4 ใหม่ใน PyTorch และเพิ่มเครื่อง추출คุณลักษณะใหม่ชื่อ CSPDarknet พร้อมกับการปรับปรุงอื่นๆ
  • YOLOv6 ต่อด้วยการปรับโมเดลและกระบวนการฝึกเพื่อเพิ่มประสิทธิภาพโดยใช้โมเดลที่ฝึกไว้ก่อนบนชุดข้อมูลภายนอกขนาดใหญ่

โดยสรุป รุ่นก่อนของ YOLO ได้เพิ่มความแม่นยำผ่านการปรับปรุงโครงสร้างโมเดล เทคนิคการฝึก และการฝึกไว้ก่อน แต่เมื่อโมเดลใหญ่ขึ้นและซับซ้อน ความเร็วและประสิทธิภาพเริ่มเสื่อมลง

ความจำเป็นในการมีประสิทธิภาพที่ดีกว่า

หลายๆ การใช้งานต้องการให้การตรวจจับวัตถุทำงานในแบบเรียลไทม์บนอุปกรณ์ที่มีทรัพยากรคำนวณจำกัด เมื่อโมเดลใหญ่ขึ้นและใช้การคำนวณมากขึ้น มันจะไม่เหมาะสมที่จะใช้งาน

ตัวอย่างเช่น รถยนต์ไร้คนขับต้องการตรวจจับวัตถุในอัตราเฟรมสูงโดยใช้โปรเซสเซอร์ภายในรถยนต์ ระบบเฝ้าระวังต้องการให้การตรวจจับวัตถุทำงานบนฟีดวิดีโอภายในฮาร์ดแวร์ที่ฝังตัว โทรศัพท์มือถือและอุปกรณ์ผู้บริโภคอื่นๆ มีข้อจำกัดด้านพลังงานและอุณหภูมิที่เข้มงวด

รุ่น YOLO ล่าสุดได้รับผลลัพธ์ที่แม่นยำสูงด้วยจำนวนพารามิเตอร์และการดำเนินการ (FLOPs) จำนวนมาก แต่นี่มีค่าใช้จ่ายในด้านความเร็ว ขนาด และประสิทธิภาพด้านพลังงาน

ตัวอย่างเช่น YOLOv5-L ต้องการมากกว่า 100 พันล้าน FLOPs เพื่อประมวลผลภาพ 1280×1280 เพียงภาพเดียว ซึ่งช้าเกินไปสำหรับการใช้งานหลายๆ อย่างที่ต้องการความเร็ว

ดังนั้น เพื่อขยายความสามารถในการใช้งานการตรวจจับวัตถุ เราต้องการวิธีการเพิ่มประสิทธิภาพ – ได้รับผลลัพธ์ที่ดีกว่าด้วยพารามิเตอร์และการคำนวณที่น้อยลง

YOLOv9 – ความแม่นยำที่ดีกว่าด้วยทรัพยากรที่น้อยลง

นักวิจัยที่อยู่เบื้องหลัง YOLOv9 มุ่งเน้นในการปรับปรุงประสิทธิภาพเพื่อให้ได้ผลลัพธ์ในแบบเรียลไทม์บนอุปกรณ์หลากหลาย พวกเขาแนะนำสองนวัตกรรมหลัก:

  1. โครงสร้างโมเดลใหม่ชื่อ General Efficient Layer Aggregation Network (GELAN) ที่เพิ่มความแม่นยำสูงสุดในขณะที่ลดพารามิเตอร์และ FLOPs
  2. เทคนิคการฝึกใหม่ชื่อ Programmable Gradient Information (PGI) ที่ให้กราเดียนที่เชื่อถือได้มากขึ้น โดยเฉพาะสำหรับโมเดลขนาดเล็ก

มาทำความเข้าใจกันว่าแต่ละนวัตกรรมเหล่านี้ช่วยให้ประสิทธิภาพดีขึ้นได้อย่างไร

โครงสร้างที่มีประสิทธิภาพมากขึ้นด้วย GELAN

โครงสร้างโมเดลมีผลกระทบอย่างมากต่อความสมดุลระหว่างความแม่นยำและความเร็วในการอนุมาน โมเดลต้องการความลึกและความกว้างเพียงพอเพื่อจับ特徵ที่เกี่ยวข้องจากภาพเข้า แต่ชั้นหรือฟิลเตอร์ที่มากเกินไปจะทำให้โมเดลช้าและใหญ่เกินไป

ผู้เขียนออกแบบ GELAN เพื่อเพิ่มความแม่นยำสูงสุดจากโครงสร้างที่เล็กที่สุด

GELAN ใช้สองบล็อกหลัก:

  • บล็อกการรวมชั้นที่มีประสิทธิภาพ – เหล่านี้รวมการแปลงข้ามสาขาต่างๆ ของเครือข่ายเพื่อจับ特徵หลายขนาดได้อย่างมีประสิทธิภาพ
  • บล็อกคำนวณ – บล็อก CSPNet ช่วยให้ข้อมูลแพร่กระจายข้ามชั้นได้ บล็อกใดๆ สามารถถูกแทนที่ตามข้อจำกัดการคำนวณ

โดยการปรับและรวมบล็อกเหล่านี้อย่างระมัดระวัง GELAN พบจุดสมดุลที่เหมาะสมระหว่างประสิทธิภาพ พารามิเตอร์ และความเร็ว โครงสร้างแบบโมดูลาร์นี้สามารถปรับขนาดขึ้นหรือลงสำหรับโมเดลและฮาร์ดแวร์ที่หลากหลาย

การทดลองแสดงให้เห็นว่า GELAN มีประสิทธิภาพมากกว่าโครงสร้าง YOLO ก่อนหน้าสำหรับโมเดลขนาดเล็ก: GELAN-Small ที่มีพารามิเตอร์ 7 ล้านตัวสามารถเอาชนะ YOLOv7-Nano ที่มีพารามิเตอร์ 11 ล้านตัว และ GELAN-Medium ที่มีพารามิเตอร์ 20 ล้านตัวสามารถทำงานได้เทียบเท่ากับ YOLOv7-Medium ที่ต้องการพารามิเตอร์ 35-40 ล้านตัว

ดังนั้น โดยการออกแบบโครงสร้างที่ปรับให้เหมาะสมสำหรับประสิทธิภาพ GELAN ช่วยให้โมเดลสามารถทำงานได้เร็วขึ้นและบนอุปกรณ์ที่มีทรัพยากรจำกัดมากขึ้น ต่อไปเราจะดูว่า PGI ช่วยให้การฝึกได้ดีขึ้นได้อย่างไร

การฝึกที่ดีกว่าด้วย Programmable Gradient Information (PGI)

การฝึกโมเดลมีความสำคัญไม่แพ้กับการออกแบบโครงสร้างโมเดล นักวิจัยที่อยู่เบื้องหลัง YOLOv9 ระบุปัญหาในการฝึกโมเดลขนาดเล็กที่เกิดจากกราเดียนที่ไม่น่าเชื่อถือ

กราเดียนตัดสินว่าโมเดลจะอัปเดตพารามิเตอร์ระหว่างการฝึกอย่างไร กราเดียนที่มีเสียงรบกวนหรือไม่น่าเชื่อถือจะนำไปสู่การรวมตัวที่ไม่ดีและประสิทธิภาพที่ไม่ดี

เทคนิคการดูแลลึกช่วยแก้ปัญหานี้โดยการแนะนำสาขาเสริมที่มีการสูญเสียเพื่อให้กราเดียนที่ดีขึ้น แต่มัน往往ล้มเหลวและทำให้เกิดการเบี่ยงเบนสำหรับโมเดลขนาดเล็ก

YOLOv9: āļāļēāļĢāđ€āļĢāļĩāļĒāļ™āļĢāļđāđ‰āļŠāļīāđˆāļ‡āļ—āļĩāđˆāļ„āļļāļ“āļ•āđ‰āļ­āļ‡āļāļēāļĢāđ€āļĢāļĩāļĒāļ™āļĢāļđāđ‰āđ‚āļ”āļĒāđƒāļŠāđ‰āļ‚āđ‰āļ­āļĄāļđāļĨāļāļĢāļēāđ€āļ”āļĩāļĒāļ™āđāļšāļšāđ‚āļ›āļĢāđāļāļĢāļĄ

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลกราเดียนแบบโปรแกรม https://arxiv.org/abs/2402.13616

เพื่อแก้ปัญหานี้ YOLOv9 เสนอ Programmable Gradient Information (PGI) ซึ่งมีสองส่วนหลัก:

  • สาขาเสริมที่สามารถย้อนกลับได้ – เหล่านี้ให้กราเดียนที่สะอาดกว่าโดยการรักษาการเชื่อมต่อที่ย้อนกลับไปยังอินพุตโดยใช้บล็อก เช่น RevCols
  • การรวมกราเดียนหลายระดับ – บล็อกการหลอมรวมรวมกราเดียนจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก ซึ่งป้องกันการเบี่ยงเบนระหว่างสาขาต่างๆ

โดยการสร้างกราเดียนที่เชื่อถือได้มากขึ้น PGI ช่วยให้การฝึกได้ดีขึ้นสำหรับโมเดลทุกขนาด:

การทดลองแสดงให้เห็นว่า PGI เพิ่มความแม่นยำสำหรับขนาดโมเดล YOLOv9 ทุกขนาด โดยเฉพาะขนาดเล็ก: PGI เพิ่มคะแนน AP ของ YOLOv9-Small 0.1-0.4% เมื่อเทียบกับ GELAN-Small พื้นฐาน และการเพิ่มขึ้นยิ่งมากขึ้นสำหรับโมเดลที่ใหญ่กว่า เช่น YOLOv9-E ที่ 55.6% mAP

ดังนั้น PGI จึงช่วยให้โมเดลขนาดเล็กและประสิทธิภาพดีสามารถฝึกได้ดีขึ้นและให้ผลลัพธ์ที่ดีกว่า

YOLOv9 ตั้งค่าระดับใหม่สำหรับประสิทธิภาพ

โดยการรวมการปรับปรุงโครงสร้างจาก GELAN และการปรับปรุงการฝึกจาก PGI YOLOv9 ให้ประสิทธิภาพและความสามารถที่ไม่เคยเห็นมาก่อน:

  • เมื่อเทียบกับรุ่นก่อนของ YOLO YOLOv9 ให้ผลลัพธ์ที่ดีกว่าด้วยพารามิเตอร์น้อยลง 10-15% และการคำนวณน้อยลง 25% ซึ่งนำไปสู่การปรับปรุงความเร็วและความสามารถในการใช้งานที่สำคัญ
  • YOLOv9 เหนือกว่าตัวตรวจจับวัตถุแบบเรียลไทม์อื่นๆ เช่น YOLO-MS และ RT-DETR ในด้านประสิทธิภาพของพารามิเตอร์และ FLOPs ต้องใช้ทรัพยากรน้อยกว่าเพื่อให้ได้ผลลัพธ์ที่กำหนด
  • แม้แต่โมเดล YOLOv9 ขนาดเล็กก็สามารถเอาชนะโมเดลที่ใหญ่กว่าและฝึกไว้ก่อน เช่น RT-DETR-X ได้ โดยใช้พารามิเตอร์น้อยกว่า 36% YOLOv9-E ให้ผลลัพธ์ที่ดีกว่า 55.6% AP

ดังนั้น โดยการแก้ไขปัญหาด้านประสิทธิภาพทั้งในด้านโครงสร้างและกระบวนการฝึก YOLOv9 ตั้งค่าระดับใหม่สำหรับการเพิ่มประสิทธิภาพสูงสุดภายใต้ทรัพยากรที่จำกัด

GELAN – โครงสร้างที่ได้รับการปรับให้เหมาะสมสำหรับประสิทธิภาพ

YOLOv9 นำเสนอโครงสร้างใหม่ชื่อ General Efficient Layer Aggregation Network (GELAN) ที่เพิ่มความแม่นยำสูงสุดภายใต้พารามิเตอร์ที่น้อยที่สุด GELAN สร้างขึ้นจากโมเดล YOLO ก่อนหน้า แต่ปรับแต่งส่วนประกอบต่างๆ เพื่อประสิทธิภาพ

https://arxiv.org/abs/2402.13616

YOLOv9: การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลกราเดียนแบบโปรแกรม
https://arxiv.org/abs/2402.13616

พื้นหลังของ CSPNet และ ELAN

รุ่น YOLO ที่ผ่านมา ตั้งแต่ v5 เป็นต้นมา ได้ใช้เครื่องหลังที่ขึ้นอยู่กับ Cross-Stage Partial Network (CSPNet) สำหรับการปรับปรุงประสิทธิภาพ CSPNet ช่วยให้สามารถรวมแผนที่คุณลักษณะข้ามสาขาต่างๆ ของเครือข่ายได้โดยไม่ต้องเพิ่มการคำนวณมาก

สิ่งนี้มีประสิทธิภาพมากกว่าการวางชั้นแบบซีรีส์ ซึ่งมักจะนำไปสู่การคำนวณที่ซ้ำซ้อนและพารามิเตอร์ที่มากเกินไป

YOLOv7 ปรับปรุง CSPNet เป็น Efficient Layer Aggregation Network (ELAN) ซึ่งทำให้โครงสร้างของบล็อกง่ายขึ้น:

ELAN ลบการเชื่อมต่อทางลัดระหว่างชั้นและแทนที่ด้วยโหนดรวมที่ปลายออก ซึ่งปรับปรุงประสิทธิภาพของพารามิเตอร์และ FLOPs

การทำให้ ELAN เป็นแบบทั่วไปสำหรับประสิทธิภาพที่ยืดหยุ่น

ผู้เขียนทำให้ ELAN ทั่วไปมากขึ้นเพื่อสร้าง GELAN ซึ่งเป็นโครงสร้างหลักที่ใช้ใน YOLOv9 GELAN มีการเปลี่ยนแปลงที่สำคัญเพื่อปรับปรุงความยืดหยุ่นและประสิทธิภาพ:

  • บล็อกคำนวณที่สามารถเปลี่ยนได้ – ELAN ก่อนหน้านี้มีชั้นการรวมที่ตายตัว GELAN ช่วยให้สามารถแทนที่บล็อกคำนวณใดๆ เช่น ResNets หรือ CSPNet ได้ โดยให้ตัวเลือกโครงสร้างที่หลากหลาย
  • การปรับพารามิเตอร์ตามความลึก – การมีระดับความลึกที่แยกจากกันสำหรับสาขาหลักและอกรองทำให้ง่ายต่อการปรับใช้ทรัพยากร
  • ประสิทธิภาพที่เสถียรทั่วการกำหนดค่า – GELAN รักษาความแม่นยำไว้แม้จะเปลี่ยนประเภทและความลึกของบล็อก ทำให้สามารถปรับขนาดได้อย่างยืดหยุ่น

การเปลี่ยนแปลงเหล่านี้ทำให้ GELAN เป็นโครงสร้างหลังที่แข็งแกร่งและปรับให้เหมาะสมสำหรับประสิทธิภาพ:

การทดลองแสดงให้เห็นว่า GELAN มีประสิทธิภาพมากกว่าโครงสร้าง YOLO ก่อนหน้าในด้านความแม่นยำต่อพารามิเตอร์:

  • GELAN-Small ที่มีพารามิเตอร์ 7 ล้านตัวสามารถเอาชนะ YOLOv7-Nano ที่มีพารามิเตอร์ 11 ล้านตัว
  • GELAN-Medium ที่มีพารามิเตอร์ 20 ล้านตัวสามารถทำงานได้เทียบเท่ากับ YOLOv7-Medium ที่ต้องการพารามิเตอร์ 35-40 ล้านตัว

ดังนั้น GELAN จึงให้โครงสร้างหลังที่ได้รับการปรับให้เหมาะสมสำหรับการเพิ่มประสิทธิภาพของ YOLO ต่อไปเราจะดูว่า PGI ช่วยให้การฝึกได้ดีขึ้นได้อย่างไร

PGI – การฝึกที่ดีขึ้นสำหรับขนาดโมเดลทั้งหมด

ในขณะที่การเลือกโครงสร้างส่งผลต่อประสิทธิภาพในขณะอนุมาน กระบวนการฝึกก็มีผลต่อการใช้ทรัพยากรของโมเดล YOLOv9 ใช้เทคนิคใหม่ชื่อ Programmable Gradient Information (PGI) เพื่อปรับปรุงการฝึกสำหรับขนาดและความซับซ้อนของโมเดลที่หลากหลาย

ปัญหาของกราเดียนที่ไม่น่าเชื่อถือ

ระหว่างการฝึก ฟังก์ชันการสูญเสียจะคำนวณความแตกต่างระหว่างการผลิตของโมเดลและฉลากที่แท้จริง และคำนวณกราเดียนของข้อผิดพลาดเพื่ออัปเดตพารามิเตอร์ กราเดียนที่มีเสียงรบกวนหรือไม่น่าเชื่อถือ นำไปสู่การรวมตัวที่ไม่ดีและประสิทธิภาพที่ไม่ดี

เครือข่ายที่ลึกมากขึ้นจะทำให้ปัญหานี้รุนแรงขึ้นผ่าน ปัญหาการขาดข้อมูล – กราเดียนจากชั้นลึกถูกบิดเบือนหรือบีบอัด

การดูแลลึก ช่วยโดยการแนะนำสาขาเสริมที่มีการสูญเสียเพื่อให้กราเดียนที่สะอาดกว่า แต่มัน往往ล้มเหลวและทำให้เกิดการเบี่ยงเบนสำหรับโมเดลขนาดเล็ก

ดังนั้น เราต้องการวิธีการให้กราเดียนที่เชื่อถือได้ซึ่งทำงานสำหรับขนาดโมเดลทั้งหมด โดยเฉพาะขนาดเล็ก

การแนะนำ Programmable Gradient Information (PGI)

เพื่อแก้ไขปัญหาของกราเดียนที่ไม่น่าเชื่อถือ YOLOv9 เสนอ Programmable Gradient Information (PGI) ซึ่งมีสองส่วนหลัก:

1. สาขาเสริมที่สามารถย้อนกลับได้

สาขาเสริมเหล่านี้ให้ การเชื่อมต่อที่ย้อนกลับ ไปยังอินพุตโดยใช้บล็อก เช่น RevCols ซึ่งรักษากราเดียนที่สะอาดและหลีกเลี่ยงปัญหาการขาดข้อมูล

2. การรวมกราเดียนหลายระดับ

บล็อกการหลอมรวมรวมกราเดียนจากทุกสาขาก่อนที่จะส่งกลับไปยังโมเดลหลัก ซึ่งป้องกันการเบี่ยงเบนระหว่างสาขาต่างๆ

โดยการสร้างกราเดียนที่เชื่อถือได้มากขึ้น PGI ปรับปรุงการรวมตัวและประสิทธิภาพสำหรับขนาดโมเดลทั้งหมด:

  • โมเดลขนาดเล็ก ได้รับประโยชน์จากการดูแลลึกที่ไม่สามารถใช้ได้ก่อนหน้านี้
  • โมเดลขนาดใหญ่ ได้รับกราเดียนที่สะอาดกว่า ซึ่งช่วยให้การรวมตัวดีขึ้น

การทดลองแสดงให้เห็นว่า PGI เพิ่มความแม่นยำสำหรับขนาด YOLOv9 ทุกขนาด:

  • +0.1-0.4% AP สำหรับ YOLOv9-Small
  • +0.5-0.6% AP สำหรับ YOLOv9 ขนาดใหญ่

ดังนั้น กราเดียนแบบโปรแกรมของ PGI ช่วยให้โมเดลทุกขนาดฝึกได้ดีขึ้น

YOLOv9 ตั้งค่าระดับใหม่สำหรับความแม่นยำ

โดยการรวมการปรับปรุงโครงสร้างจาก GELAN และการปรับปรุงการฝึกจาก PGI YOLOv9 ตั้งค่าระดับใหม่สำหรับความแม่นยำในการตรวจจับวัตถุแบบเรียลไทม์

การทดลองบนชุดข้อมูล COCO แสดงให้เห็นว่า YOLOv9 เหนือกว่ารุ่นก่อนของ YOLO และตัวตรวจจับวัตถุแบบเรียลไทม์อื่นๆ เช่น YOLO-MS ในด้านความแม่นยำและประสิทธิภาพ:

บางจุดสำคัญ:

  • YOLOv9-Small เหนือกว่า YOLO-MS-Small ด้วยพารามิเตอร์และการคำนวณที่น้อยกว่า 10%
  • YOLOv9-Medium เหมือนกับ YOLOv7-Medium ที่ต้องการทรัพยากรน้อยกว่าครึ่งหนึ่ง
  • YOLOv9-Large เหนือกว่า YOLOv8-X ด้วยพารามิเตอร์น้อยกว่า 15% และ FLOPs น้อยกว่า 25%

น่าประทับใจที่ YOLOv9 ขนาดเล็กสามารถเอาชนะโมเดลที่ใหญ่กว่าจากตัวตรวจจับวัตถุอื่นๆ ที่ใช้การฝึกไว้ก่อน เช่น RT-DETR-X ได้ แม้จะมีพารามิเตอร์น้อยกว่า 4 เท่า YOLOv9-E ก็สามารถเอาชนะ RT-DETR-X ในด้านความแม่นยำ

ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของ YOLOv9 การปรับปรุงเหล่านี้ช่วยให้การตรวจจับวัตถุแบบเรียลไทม์มีความสามารถในการใช้งานในสถานการณ์จริงมากขึ้น

ข้อสรุปหลักเกี่ยวกับการอัปเดต YOLOv9

มาทำความเข้าใจกันว่าข้ออัปเดตและนวัตกรรมหลักๆ ที่ทำให้ YOLOv9 มีประสิทธิภาพสูงสุดใหม่:

  • โครงสร้าง GELAN ที่ได้รับการปรับให้เหมาะสม – ปรับปรุงประสิทธิภาพพารามิเตอร์ผ่านบล็อกการรวมที่ยืดหยุ่น ช่วยให้สามารถปรับขนาดโมเดลสำหรับเป้าหมายที่หลากหลาย
  • ข้อมูลกราเดียนแบบโปรแกรม – ให้กราเดียนที่เชื่อถือได้มากขึ้นผ่านการเชื่อมต่อที่ย้อนกลับและฟิวชั่น ช่วยให้การฝึกได้ดีขึ้นสำหรับขนาดโมเดลทั้งหมด
  • ความแม่นยำที่ดีกว่าด้วยทรัพยากรที่น้อยลง – ลดพารามิเตอร์และการคำนวณลง 10-15% เมื่อเทียบกับ YOLOv8 ในขณะที่ให้ผลลัพธ์ที่ดีกว่า ทำให้สามารถอนุมานได้อย่างมีประสิทธิภาพมากขึ้น
  • ผลลัพธ์ที่เหนือกว่าสำหรับขนาดโมเดลทั้งหมด – ตั้งค่าระดับใหม่สำหรับขนาดโมเดลเล็ก กลาง และใหญ่ เหนือกว่าโมเดลที่ฝึกไว้ก่อนหน้า
  • การขยายความสามารถในการใช้งาน – ประสิทธิภาพที่สูงขึ้นขยายสถานการณ์ที่ใช้งานได้จริง เช่น การตรวจจับวัตถุแบบเรียลไทม์บนอุปกรณ์ขอบ

โดยการแก้ไขปัญหาโดยตรงเกี่ยวกับความแม่นยำ ประสิทธิภาพ และความสามารถในการใช้งาน YOLOv9 ขยับขอบเขตของการตรวจจับวัตถุไปสู่การตอบสนองความต้องการในโลกแห่งความเป็นจริงที่หลากหลาย การอัปเดตเหล่านี้ให้พื้นฐานที่แข็งแกร่งสำหรับการนวัตกรรมในอนาคตในความสามารถในการมองเห็นของเครื่องจักรที่สำคัญนี้

āļ‰āļąāļ™āđƒāļŠāđ‰āđ€āļ§āļĨāļēāļ—āļĩāđˆāļœāđˆāļēāļ™āļĄāļē 5 āļ›āļĩāđƒāļ™āļāļēāļĢāļĻāļķāļāļĐāļēāļŠāļīāđˆāļ‡āļ—āļĩāđˆāļ™āđˆāļēāļŠāļ™āđƒāļˆāđ€āļāļĩāđˆāļĒāļ§āļāļąāļš Machine Learning āđāļĨāļ° Deep Learning āļ„āļ§āļēāļĄāđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļāđāļĨāļ°āļ„āļ§āļēāļĄāļŦāļĨāļ‡āđƒāļŦāļĨāļ‚āļ­āļ‡āļ‰āļąāļ™āļ—āļģāđƒāļŦāđ‰āļ‰āļąāļ™āđ€āļ‚āđ‰āļēāļĢāđˆāļ§āļĄāđƒāļ™āđ‚āļ„āļĢāļ‡āļāļēāļĢāļžāļąāļ’āļ™āļēāļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒāļĄāļēāļāļāļ§āđˆāļē 50 āđ‚āļ„āļĢāļ‡āļāļēāļĢāļ—āļĩāđˆāļĄāļĩāļ„āļ§āļēāļĄāļŦāļĨāļēāļāļŦāļĨāļēāļĒ āđ‚āļ”āļĒāļĄāļļāđˆāļ‡āđ€āļ™āđ‰āļ™āđ„āļ›āļ—āļĩāđˆ AI/ML āļ„āļ§āļēāļĄāļ­āļĒāļēāļāļĢāļđāđ‰āļ­āļĒāļēāļāđ€āļŦāđ‡āļ™āļ‚āļ­āļ‡āļ‰āļąāļ™āļĒāļąāļ‡āļ—āļģāđƒāļŦāđ‰āļ‰āļąāļ™āļŠāļ™āđƒāļˆāđƒāļ™āļ”āđ‰āļēāļ™ Natural Language Processing āļ‹āļķāđˆāļ‡āđ€āļ›āđ‡āļ™āļŠāļēāļ‚āļēāļ—āļĩāđˆāļ‰āļąāļ™āļ•āđ‰āļ­āļ‡āļāļēāļĢāļŠāļģāļĢāļ§āļˆāļ•āđˆāļ­āđ„āļ›