ปัญญาประดิษฐ์

YOLOv7: อัลกอริทึมการตรวจจับวัตถุที่ทันสมัยที่สุด?

เผยแพร่ 24 กรกฎาคม 2023

อัปเดต 23 พฤษภาคม 2026

Kunal Kejriwal

วันที่ 6 กรกฎาคม 2022 จะเป็นวันที่สำคัญในประวัติศาสตร์ AI เนื่องจากเป็นวันที่ YOLOv7 ถูกปล่อยออกมา YOLOv7 ได้รับความสนใจอย่างมากใน cộng đồngนักพัฒนา Computer Vision และมีเหตุผลที่ดี YOLOv7 ถือเป็น里程碑ในอุตสาหกรรมการตรวจจับวัตถุ

ไม่นานหลังจากที่ YOLOv7 paper ถูกตีพิมพ์ มันกลายเป็นแบบจำลองการตรวจจับวัตถุในเวลาจริงที่เร็วที่สุดและแม่นยำที่สุด แต่ YOLOv7 มีอะไรที่ทำให้มันเหนือกว่าบรรพบุรุษของมัน? อะไรที่ทำให้ YOLOv7 มีประสิทธิภาพสูงในการทำงานด้านการมองเห็นของคอมพิวเตอร์?

ในบทความนี้ เราจะพยายามวิเคราะห์แบบจำลอง YOLOv7 และพยายามหาคำตอบว่าทำไม YOLOv7 จึงกลายเป็นมาตรฐานในอุตสาหกรรม

การตรวจจับวัตถุ คืออะไร?

การตรวจจับวัตถุเป็นสาขาหนึ่งในด้านการมองเห็นของคอมพิวเตอร์ ที่สามารถระบุและตั้งตำแหน่งวัตถุในภาพหรือไฟล์วิดีโอ การตรวจจับวัตถุเป็นบล็อกการสร้างสำหรับหลาย ๆ แอปพลิเคชัน รวมถึงรถยนต์ไร้คนขับ การ giám sát และหุ่นยนต์

แบบจำลองการตรวจจับวัตถุสามารถแบ่งออกเป็นสองประเภท การตรวจจับวัตถุแบบช็อตเดียว และ การตรวจจับวัตถุแบบหลายช็อต

การตรวจจับวัตถุในเวลาจริง

เพื่อเข้าใจว่า YOLOv7 ทำงานอย่างไร เราต้องเข้าใจวัตถุประสงค์หลักของ YOLOv7 คือ การตรวจจับวัตถุในเวลาจริง การตรวจจับวัตถุในเวลาจริงเป็นส่วนสำคัญของการมองเห็นของคอมพิวเตอร์แบบสมัยใหม่ แบบจำลองการตรวจจับวัตถุในเวลาจริงพยายามระบุและตั้งตำแหน่งวัตถุของความสนใจในเวลาจริง

แบบจำลองการตรวจจับวัตถุในเวลาจริงมีประสิทธิภาพมากกว่าแบบจำลองการตรวจจับวัตถุแบบดั้งเดิม เนื่องจากสามารถติดตามวัตถุในไฟล์วิดีโอหรือการ giám sátแบบสดได้

ดังนั้น แบบจำลองการตรวจจับวัตถุในเวลาจริงจึงมีประสิทธิภาพสูงสำหรับการวิเคราะห์วิดีโอ ยานพาหนะอัตโนมัติ การนับวัตถุ การติดตามวัตถุหลายชิ้น และอื่น ๆ

YOLO คืออะไร?

YOLO หรือ คุณมองเห็นเพียงครั้งเดียว เป็นครอบครัวของแบบจำลองการตรวจจับวัตถุในเวลาจริง คอนเซปต์ YOLO ถูกนำเสนอครั้งแรกในปี 2016 โดย Joseph Redmon และมันกลายเป็น话题ที่ถูกพูดถึงอย่างมากในเวลานั้น เนื่องจากมันเร็วและแม่นยำกว่าแบบจำลองการตรวจจับวัตถุแบบดั้งเดิม

คอนเซปต์พื้นฐานที่ YOLO เสนอแนะคือการใช้เครือข่ายประสาทเทียมแบบ end-to-end โดยใช้กล่องขอบเขตและความน่าจะเป็นของคลาสเพื่อทำการคาดการณ์ในเวลาจริง YOLO ต่างจากแบบจำลองการตรวจจับวัตถุแบบดั้งเดิมในด้านการเข้าใกล้การตรวจจับวัตถุโดยการเปลี่ยนคลาสสิฟายเออร์

การเปลี่ยนแปลงในด้านการเข้าใกล้นี้ทำให้ YOLO กลายเป็นมาตรฐานในอุตสาหกรรม เนื่องจากมันสามารถแยกความแตกต่างระหว่าง YOLO และแบบจำลองการตรวจจับวัตถุในเวลาจริงอื่น ๆ ได้อย่างชัดเจน

เมื่อเปรียบเทียบกับ YOLO แบบจำลองการตรวจจับวัตถุในเวลาจริงแบบดั้งเดิมใช้เครือข่ายการเสนอแนะข้อมูลเพื่อตรวจจับพื้นที่ที่น่าสนใจ การยอมรับถูกทำในแต่ละพื้นที่แยกกัน ซึ่งทำให้แบบจำลองเหล่านี้ทำการวนซ้ำหลายครั้งบนภาพเดียวกัน และด้วยเหตุนี้จึงขาดความแม่นยำและใช้เวลาในการประมวลผลมากกว่า ในทางกลับกัน YOLO ใช้เลเยอร์ที่เชื่อมต่อแบบเต็มเพื่อทำการคาดการณ์ในครั้งเดียว

YOLO ทำงานอย่างไร?

มีสามขั้นตอนที่อธิบายว่า YOLO ทำงานอย่างไร

การตรวจจับวัตถุเป็นปัญหาแบบการถดถอย

YOLO พยายามที่จะเปลี่ยนการตรวจจับวัตถุให้เป็นปัญหาแบบการถดถอยเพียงครั้งเดียว รวมถึงพิกเซลของภาพ คลาสความน่าจะเป็น และพิกัดของกล่องขอบเขต ดังนั้น YOLO จึงต้องมองเห็นภาพเพียงครั้งเดียวเพื่อคาดการณ์และตั้งตำแหน่งวัตถุในภาพ

การให้เหตุผลกับภาพทั่วโลก

นอกจากนี้ เมื่อ YOLO ทำการคาดการณ์ มันจะให้เหตุผลกับภาพทั่วโลก มันแตกต่างจากเทคนิคการเสนอแนะข้อมูลและเทคนิคการลื่นไถล เนื่องจาก YOLO มองเห็นภาพทั้งหมดระหว่างการฝึกอบรมและการทดสอบบนเซตข้อมูล และสามารถเข้ารหัสข้อมูลบริบทเกี่ยวกับคลาสและวิธีการปรากฏของมัน

ก่อนที่ YOLO จะถูกนำเสนอ Fast R-CNN เป็นหนึ่งในแบบจำลองการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุด แต่ไม่สามารถมองเห็นบริบทที่กว้างขึ้นในภาพได้ เนื่องจากมันใช้พื้นหลังในภาพเป็นวัตถุ YOLO มีประสิทธิภาพมากกว่า Fast R-CNN ถึง 50% เมื่อพูดถึงข้อผิดพลาดของพื้นหลัง

การสร้างแบบจำลองวัตถุ

สุดท้าย YOLO พยายามที่จะสร้างแบบจำลองวัตถุในภาพให้มากขึ้น เมื่อ YOLO ถูกทดสอบบนเซตข้อมูลที่มีภาพธรรมชาติและทดสอบผลลัพธ์ YOLO เหนือกว่าแบบจำลอง R-CNN ที่มีอยู่ด้วยช่องว่างที่กว้าง

YOLOv7: อะไรที่ใหม่?

ตอนนี้ที่เรามีความเข้าใจพื้นฐานเกี่ยวกับแบบจำลองการตรวจจับวัตถุในเวลาจริงและ YOLO มันถึงเวลาที่จะพูดถึง YOLOv7

การปรับให้เหมาะสมของกระบวนการฝึกอบรม

YOLOv7 ไม่เพียงแต่พยายามปรับให้เหมาะสมกับโครงสร้างแบบจำลองเท่านั้น แต่ยังพยายามปรับให้เหมาะสมกับกระบวนการฝึกอบรมด้วย มันพยายามใช้โมดูลการปรับให้เหมาะสมและการวิธีการเพื่อปรับปรุงความแม่นยำของการตรวจจับวัตถุโดยการเสริมสร้างต้นทุนในการฝึกอบรมในขณะที่รักษาต้นทุนการแทรกแซงไว้ โมดูลการปรับให้เหมาะสมเหล่านี้สามารถเรียกว่า ถุงฟรีบี

การกำหนดลักษณะแบบ Coarse to Fine Lead Guided

YOLOv7 ตั้งใจที่จะใช้การกำหนดลักษณะแบบ Coarse to Fine Lead Guided แทนการกำหนดลักษณะแบบ Dynamic Label Assignment มันเป็นเพราะว่าการกำหนดลักษณะแบบไดนามิกมีปัญหาเมื่อฝึกอบรมแบบจำลองที่มีหลายเลเยอร์ออกพุต

การกำหนดพารามิเตอร์แบบโมเดล

การกำหนดพารามิเตอร์แบบโมเดลเป็นแนวคิดที่สำคัญในการตรวจจับวัตถุ และมักจะมีปัญหาในการฝึกอบรม YOLOv7 ตั้งใจที่จะใช้แนวคิดของ เส้นทางการแพร่กระจายของเกรเดียนต์ เพื่อวิเคราะห์นโยบายการกำหนดพารามิเตอร์แบบโมเดลที่ใช้กับเลเยอร์ต่าง ๆ ในเครือข่าย

การขยายและการปรับขนาดแบบประกอบ

YOLOv7 นำเสนอวิธีการขยายและการปรับขนาดแบบประกอบเพื่อใช้พารามิเตอร์และการคำนวณสำหรับการตรวจจับวัตถุในเวลาจริง

YOLOv7: งานที่เกี่ยวข้อง

การตรวจจับวัตถุในเวลาจริง

YOLO เป็นมาตรฐานในอุตสาหกรรมในปัจจุบัน และแบบจำลองการตรวจจับวัตถุในเวลาจริงส่วนใหญ่จะใช้ YOLO และ FCOS (Fully Convolutional One-Stage Object-Detection) แบบจำลองการตรวจจับวัตถุในเวลาจริงที่ทันสมัยมักจะมีลักษณะดังต่อไปนี้

โครงสร้างเครือข่ายที่แข็งแกร่งและเร็ว
วิธีการรวมคุณลักษณะที่มีประสิทธิภาพ
วิธีการตรวจจับวัตถุที่แม่นยำ
ฟังก์ชันขาดที่แข็งแกร่ง
วิธีการกำหนดลักษณะที่มีประสิทธิภาพ
วิธีการฝึกอบรมที่มีประสิทธิภาพ

YOLOv7 ไม่ใช้การเรียนรู้แบบไม่มีการกำกับและการกลั่นกรองซึ่งมักต้องการข้อมูลจำนวนมาก ในทางกลับกัน YOLOv7 ใช้ถุงฟรีบี

การกำหนดพารามิเตอร์แบบโมเดล

เทคนิคการกำหนดพารามิเตอร์แบบโมเดลถือเป็นเทคนิคアンサンブルที่รวมโมดูลการคำนวณหลายตัวเข้าด้วยกันในขั้นตอนการแทรกแซง เทคนิคนี้สามารถแบ่งออกเป็นสองประเภท ได้แก่ การกำหนดพารามิเตอร์แบบโมเดล และ การกำหนดพารามิเตอร์แบบโมดูล

เพื่อให้ได้แบบจำลองการแทรกแซงที่สุดท้าย เทคนิคการกำหนดพารามิเตอร์แบบโมเดลใช้สองวิธี วิธีแรกใช้ข้อมูลฝึกอบรมที่แตกต่างกันเพื่อฝึกอบรมแบบจำลองที่เหมือนกันหลายตัว แล้วค่าเฉลี่ยของน้ำหนักของแบบจำลองที่ฝึกอบรมแล้ว วิธีที่สองค่าเฉลี่ยน้ำหนักของแบบจำลองระหว่างการวนซ้ำที่แตกต่างกัน

การกำหนดพารามิเตอร์แบบโมดูลเป็นที่นิยมมากขึ้นเนื่องจากมันแบ่งโมดูลออกเป็นสาขาที่แตกต่างกันหรือสาขาที่เหมือนกันระหว่างขั้นตอนการฝึกอบรม แล้วรวมสาขาเหล่านี้เข้าด้วยกันเพื่อสร้างโมดูลที่เทียบเท่ากันระหว่างการแทรกแซง

อย่างไรก็ตาม เทคนิคการกำหนดพารามิเตอร์ไม่สามารถใช้กับโครงสร้างทุกแบบได้ ดังนั้น YOLOv7 จึงใช้เทคนิคการกำหนดพารามิเตอร์แบบใหม่เพื่อออกแบบกลยุทธ์ที่เหมาะสมสำหรับโครงสร้างที่แตกต่างกัน

การปรับขนาดแบบโมเดล

การปรับขนาดแบบโมเดลเป็นกระบวนการปรับขนาดแบบจำลองที่มีอยู่เพื่อให้เหมาะสมกับอุปกรณ์คำนวณที่แตกต่างกัน การปรับขนาดแบบโมเดลมักใช้ปัจจัยต่าง ๆ เช่น จำนวนเลเยอร์ (ความลึก) ขนาดของภาพเข้า (ความละเอียด) จำนวนพีระมิดคุณลักษณะ (ขั้นตอน) และจำนวนช่อง (ความกว้าง) ปัจจัยเหล่านี้มีบทบาทสำคัญในการรักษาสมดุลระหว่างพารามิเตอร์ของเครือข่าย ความเร็วในการแทรกแซง การคำนวณ และความแม่นยำของแบบจำลอง

วิธีการปรับขนาดที่ใช้กันมากที่สุดคือ การค้นหาสถาปัตยกรรมเครือข่าย ที่ค้นหาปัจจัยการปรับขนาดที่เหมาะสมจากเครื่องมือค้นหาที่ไม่มีกฎที่ซับซ้อน วิธีการปรับขนาดที่สำคัญของการค้นหาสถาปัตยกรรมเครือข่ายคือมันค้นหาปัจจัยการปรับขนาดที่เหมาะสมโดยอัตโนมัติ แต่ข้อเสียของการค้นหาสถาปัตยกรรมเครือข่ายคือมันเป็นวิธีการที่มีค่าใช้จ่ายสูงในการค้นหาปัจจัยการปรับขนาดที่เหมาะสม

เกือบทุกแบบจำลองการกำหนดพารามิเตอร์แบบโมเดลวิเคราะห์ปัจจัยการปรับขนาดที่ไม่เกี่ยวข้องแต่ละตัวแยกกัน และเพิ่มเติมยังปรับขนาดเหล่านี้แยกกัน เนื่องจากสถาปัตยกรรมเครือข่ายทำงานร่วมกับปัจจัยการปรับขนาดที่ไม่เกี่ยวข้อง

ควรทราบว่าแบบจำลองการปรับขนาดแบบต่อเนื่อง เช่น VoVNet หรือ DenseNet จะเปลี่ยนความกว้างของช่องเข้าเลเยอร์บางตัวเมื่อความลึกของแบบจำลองถูกปรับขนาด YOLOv7 ทำงานบนโครงสร้างแบบต่อเนื่องและดังนั้นจึงใช้วิธีการปรับขนาดแบบประกอบ

รูปด้านบนเปรียบเทียบเครือข่ายการรวมเลเยอร์ที่มีประสิทธิภาพแบบขยาย (E-ELAN) ของแบบจำลองต่าง ๆ วิธีการ E-ELAN ที่เสนอไว้จะรักษาเส้นทางการแพร่กระจายเกรเดียนต์ของโครงสร้างดั้งเดิม แต่พยายามที่จะเพิ่มคาร์ดินัลลิตี้ของคุณลักษณะที่เพิ่มโดยใช้การคำนวณแบบกลุ่ม

สถาปัตยกรรม YOLOv7

แบบจำลอง YOLOv7 ใช้ YOLOv4, YOLO-R และ YOLOv4 ที่ปรับขนาดเป็นแบบจำลองฐาน YOLOv7 เป็นผลมาจากการทดลองที่ทำบนแบบจำลองเหล่านี้เพื่อปรับปรุงผลลัพธ์และทำให้แบบจำลองแม่นยำยิ่งขึ้น

เครือข่ายการรวมเลเยอร์ที่มีประสิทธิภาพแบบขยายหรือ E-ELAN

E-ELAN เป็นบล็อกการสร้างพื้นฐานของแบบจำลอง YOLOv7 และมันถูกสร้างขึ้นจากแบบจำลองที่มีอยู่เกี่ยวกับประสิทธิภาพเครือข่าย โดยเฉพาะ ELAN

การพิจารณาหลักในการออกแบบโครงสร้างที่มีประสิทธิภาพคือจำนวนพารามิเตอร์ ความหนาแน่นในการคำนวณ และปริมาณการคำนวณ พิจารณาอื่น ๆ เช่น อิทธิพลของอัตราส่วนช่องเข้า/ออก ช่องสาขาในเครือข่าย การแทรกแซง ความเร็วของเครือข่าย จำนวนองค์ประกอบในเทนเซอร์ของเครือข่ายการคำนวณ และอื่น ๆ

แบบจำลอง CSPVoNet ไม่เพียงแต่พิจารณาปัจจัยเหล่านี้เท่านั้น แต่ยังวิเคราะห์เส้นทางเกรเดียนต์เพื่อเรียนรู้คุณลักษณะที่หลากหลายโดยการเปิดใช้งานน้ำหนักของเลเยอร์ต่าง ๆ วิธีนี้ช่วยให้การแทรกแซงเร็วและแม่นยำยิ่งขึ้น สถาปัตยกรรม ELAN มีเป้าหมายที่จะออกแบบเครือข่ายที่มีประสิทธิภาพเพื่อควบคุมเส้นทางเกรเดียนต์ที่สั้นที่สุดเพื่อให้เครือข่ายเรียนรู้และ hội tụ ได้ดีขึ้น

ELAN ได้ถึงขั้นตอนที่มั่นคงแล้ว โดยไม่คำนึงถึงจำนวนบล็อกการคำนวณที่ถูกซ้อนและความยาวของเส้นทางเกรเดียนต์ สถานะที่มั่นคงอาจถูกทำลายได้หากบล็อกการคำนวณถูกซ้อนอย่างไม่มีกฎเกณฑ์ และอัตราการใช้พารามิเตอร์จะลดลง สถาปัตยกรรม E-ELAN ที่เสนอสามารถแก้ไขปัญหานี้ได้โดยใช้การขยาย การสับเปลี่ยนและการรวมคาร์ดินัลลิตี้เพื่อเพิ่มความสามารถในการเรียนรู้ของเครือข่ายอย่างต่อเนื่องในขณะที่รักษาเส้นทางเกรเดียนต์ดั้งเดิมไว้

นอกจากนี้ เมื่อเปรียบเทียบสถาปัตยกรรม E-ELAN กับ ELAN ความแตกต่างเพียงอย่างเดียวคือในบล็อกการคำนวณ ในขณะที่โครงสร้างเลเยอร์การเปลี่ยนแปลงยังคงไม่เปลี่ยนแปลง

E-ELAN เสนอแนะให้ขยายคาร์ดินัลลิตี้ของบล็อกการคำนวณและขยายช่องโดยใช้การคำนวณแบบกลุ่ม แผนที่คุณลักษณะจะถูกคำนวณและสับเปลี่ยนเป็นกลุ่มตามพารามิเตอร์กลุ่ม จากนั้นจะถูกต่อด้วยการบวกเพื่อทำการคาร์ดินัลลิตี้ จำนวนช่องในแต่ละกลุ่มจะยังคงเท่าเดิมกับโครงสร้างดั้งเดิม

การปรับขนาดแบบโมเดลสำหรับแบบจำลองแบบต่อเนื่อง

การปรับขนาดแบบโมเดลช่วยให้สามารถปรับขนาดแบบจำลองที่มีอยู่เพื่อให้เหมาะสมกับอุปกรณ์คำนวณต่าง ๆ และสร้างแบบจำลองที่มีขนาดต่าง ๆ เพื่อตอบสนองความต้องการการแทรกแซงที่แตกต่างกัน

รูปด้านบนแสดงการปรับขนาดแบบโมเดลสำหรับแบบจำลองแบบต่อเนื่องต่าง ๆ เมื่อดูรูป (a) และ (b) จะเห็นว่าความกว้างของช่องออกของบล็อกการคำนวณเพิ่มขึ้นเมื่อความลึกของแบบจำลองถูกปรับขนาดขึ้น ซึ่งทำให้ความกว้างของช่องเข้าของเลเยอร์การเปลี่ยนแปลงเพิ่มขึ้น หากวิธีการเหล่านี้ถูกนำไปใช้กับแบบจำลองแบบต่อเนื่อง การปรับขนาดจะถูกทำในความลึก และแสดงไว้ในรูป (c)

ดังนั้น สามารถสรุปได้ว่าไม่สามารถวิเคราะห์ปัจจัยการปรับขนาดได้อย่างอิสระสำหรับแบบจำลองแบบต่อเนื่อง และต้องวิเคราะห์ปัจจัยเหล่านี้ร่วมกัน ดังนั้น สำหรับแบบจำลองแบบต่อเนื่อง จึงเหมาะสมที่จะใช้วิธีการปรับขนาดแบบประกอบ

ถุงฟรีบี

ถุงฟรีบีเป็นชุดวิธีการหรือเทคนิคที่สามารถเปลี่ยนแปลงกลยุทธ์การฝึกอบรมหรือต้นทุนเพื่อเพิ่มความแม่นยำของแบบจำลอง

การกำหนดพารามิเตอร์แบบการถดถอยแบบวางแผน

YOLOv7 ใช้เส้นทางการแพร่กระจายของเกรเดียนต์เพื่อกำหนดวิธีการรวมเครือข่ายกับการกำหนดพารามิเตอร์แบบการถดถอย

เพื่อกำหนดการเชื่อมต่อในเลเยอร์การถดถอย RepConv จะรวมการถดถอย 3×3 และการถดถอย 1×1 หากวิเคราะห์ RepConv จะพบว่ามันทำลายการรวมใน DenseNet และการเหลื่อมใน ResNet

รูปด้านบนแสดงแบบจำลองการกำหนดพารามิเตอร์แบบวางแผน YOLOv7 พบว่าเลเยอร์ในเครือข่ายที่มีการเชื่อมต่อแบบการรวมหรือการเหลื่อมไม่ควรจะมีการเชื่อมต่อแบบอัตลักษณ์ใน RepConv

การกำหนดลักษณะแบบ Coarse สำหรับหัวข้อเสริมและการกำหนดลักษณะแบบ Fine สำหรับหัวข้อหลัก

การดูแลลึกเป็นหนึ่งในสาขาใน khoa họcคอมพิวเตอร์ที่มักใช้ในการฝึกอบรมเครือข่ายลึก

YOLOv7 ใช้หัวข้อเสริมในเลเยอร์กลางของเครือข่ายพร้อมกับน้ำหนักตื้น ๆ และการสูญเสียที่ช่วยในการฝึกอบรม

นอกจากนี้ YOLOv7 ใช้วิธีการกำหนดลักษณะที่แตกต่าง หัวข้อหลักจะถูกใช้ในการสร้างลักษณะที่ช่วยในการฝึกอบรม

นอกจากนี้ วิธีการกำหนดลักษณะใหม่ของ YOLOv7 ใช้การคาดการณ์ของหัวข้อหลักเพื่อชี้นำทั้งหัวข้อหลักและหัวข้อเสริม

หัวข้อหลักแบบ Coarse-to-Fine Guided

กลยุทธ์นี้ยังใช้การคาดการณ์ของหัวข้อหลักและข้อเท็จจริงพื้นฐานเพื่อสร้างลักษณะที่นุ่มนวล

ลักษณะที่นุ่มนวลจะถูกสร้างขึ้นโดยการผ่อนคลายข้อจำกัดในการกำหนดลักษณะบวก

เพื่อหลีกเลี่ยงความเสี่ยงของการสูญเสียข้อมูลเนื่องจากความแข็งแกร่งในการเรียนรู้ที่อ่อนของหัวข้อเสริม

รูปด้านบนแสดงถุงฟรีบีใน YOLOv7

รูป (b) มีหัวข้อเสริม ในขณะที่รูป (a) ไม่มี

ถุงฟรีบีอื่น ๆ

นอกเหนือจากที่กล่าวมาแล้ว YOLOv7 ใช้ถุงฟรีบีเพิ่มเติม

การปรับขนาดแบบชั้นใน Conv-Bn-Activation
ความรู้ที่ไม่ได้แสดงออกมาใน YOLOR
แบบจำลอง EMA

YOLOv7: การทดลอง

การกำหนดค่าการทดลอง

YOLOv7 ใช้ เซตข้อมูล Microsoft COCO สำหรับการฝึกอบรมและการตรวจสอบแบบจำลองการตรวจจับวัตถุ

นักพัฒนาออกแบบแบบจำลองพื้นฐานสำหรับ GPU เอดจ์ (YOLOv7-tiny), GPU ปกติ (YOLOv7) และ GPU คลาวด์ (YOLOv7-W6)

แบบจำลองพื้นฐาน

YOLOv7 ใช้แบบจำลอง YOLO ก่อนหน้าและ YOLOR เป็นแบบจำลองพื้นฐาน

รูปด้านบนเปรียบเทียบ YOLOv7 กับแบบจำลองการตรวจจับวัตถุอื่น ๆ

การเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ

รูปด้านบนแสดงผลลัพธ์เมื่อ YOLOv7 ถูกเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ สำหรับ GPU มือถือและ GPU ทั่วไป

การศึกษาการลบ: วิธีการปรับขนาดแบบประกอบที่เสนอ

รูปด้านบนเปรียบเทียบผลลัพธ์ของการใช้กลยุทธ์ต่าง ๆ ในการปรับขนาดแบบจำลอง

เมื่อเปรียบเทียบกับแบบจำลองที่เพิ่มความลึกเท่านั้น YOLOv7 มีประสิทธิภาพดีกว่า 0.5% โดยใช้พารามิเตอร์และการคำนวณน้อยลง

แบบจำลองการกำหนดพารามิเตอร์แบบวางแผน

เพื่อยืนยันความทั่วไปของแบบจำลองการกำหนดพารามิเตอร์แบบวางแผน YOLOv7 ใช้มันบนแบบจำลองที่มีพื้นฐานและแบบจำลองที่มีการเชื่อมต่อแบบต่อเนื่อง

สำหรับแบบจำลองที่มีการเชื่อมต่อแบบต่อเนื่อง YOLOv7 แทนที่เลเยอร์การถดถอย 3×3 ใน ELAN 3 ชั้นด้วย RepConv

นอกจากนี้ สำหรับแบบจำลองที่มีพื้นฐาน YOLOv7 ใช้บล็อกมืดที่กลับด้านเนื่องจากบล็อกมืดดั้งเดิมไม่มีเลเยอร์การถดถอย 3×3

การกำหนดลักษณะแบบเสริมสำหรับหัวข้อเสริม

สำหรับการกำหนดลักษณะแบบเสริมสำหรับหัวข้อเสริม YOLOv7 เปรียบเทียบการกำหนดลักษณะแบบอิสระสำหรับหัวข้อเสริมและหัวข้อหลัก

รูปด้านบนแสดงผลลัพธ์ของการศึกษาการกำหนดลักษณะแบบเสริมที่เสนอ

ผลลัพธ์ YOLOv7

ตามการทดลองข้างต้น นี่คือผลลัพธ์ของ YOLOv7 เมื่อเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ

รูปด้านบนเปรียบเทียบ YOLOv7 กับแบบจำลองการตรวจจับวัตถุอื่น ๆ

นอกจากนี้ รูปด้านล่างเปรียบเทียบผลลัพธ์ของ YOLOv7 กับแบบจำลองการตรวจจับวัตถุในเวลาจริงอื่น ๆ

นี่คือการสังเกตเพิ่มเติมจากผลลัพธ์ของ YOLOv7

YOLOv7-Tiny เป็นแบบจำลองที่เล็กที่สุดในครอบครัว YOLO โดยมีพารามิเตอร์มากกว่า 6 ล้านตัว YOLOv7-Tiny มีความแม่นยำเฉลี่ย 35.2% และมีประสิทธิภาพเหนือ YOLOv4-Tiny ที่มีพารามิเตอร์เทียบเท่า
YOLOv7 มีพารามิเตอร์มากกว่า 37 ล้านตัว และมีประสิทธิภาพเหนือแบบจำลองที่มีพารามิเตอร์สูงกว่า เช่น YOLov4
YOLOv7 มีค่า mAP และ FPS สูงสุดในช่วง 5-160 FPS

สรุป

YOLO หรือ You Only Look Once เป็นแบบจำลองการตรวจจับวัตถุที่ทันสมัยที่สุดในด้านการมองเห็นของคอมพิวเตอร์แบบสมัยใหม่ YOLO มีประสิทธิภาพสูงและความแม่นยำ และด้วยเหตุนี้จึงมีการใช้งานอย่างกว้างขวางในอุตสาหกรรมการตรวจจับวัตถุในเวลาจริง

YOLOv7 เป็นแบบจำลองล่าสุดในครอบครัว YOLO และเป็นแบบจำลอง YOLO ที่มีประสิทธิภาพสูงสุดจนถึงปัจจุบัน ในบทความนี้ เราได้พูดถึงพื้นฐานของ YOLOv7 และพยายามอธิบายว่าอะไรที่ทำให้ YOLOv7 มีประสิทธิภาพสูง

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล