āļāļąāļāļāļēāļāļĢāļ°āļāļīāļĐāļāđ
YOLOv7: āļāļąāļĨāļāļāļĢāļīāļāļķāļĄāļāļēāļĢāļāļĢāļ§āļāļāļąāļāļ§āļąāļāļāļļāļāļĩāđāļāļąāļāļŠāļĄāļąāļĒāļāļĩāđāļŠāļļāļ?

วันที่ 6 กรกฎาคม 2022 จะเป็นวันที่สำคัญในประวัติศาสตร์ AI เนื่องจากเป็นวันที่ YOLOv7 ถูกปล่อยออกมา YOLOv7 ได้รับความสนใจอย่างมากใน cộng đồngนักพัฒนา Computer Vision และมีเหตุผลที่ดี YOLOv7 ถือเป็น里程碑ในอุตสาหกรรมการตรวจจับวัตถุ
ไม่นานหลังจากที่ YOLOv7 paper ถูกตีพิมพ์ มันกลายเป็นแบบจำลองการตรวจจับวัตถุในเวลาจริงที่เร็วที่สุดและแม่นยำที่สุด แต่ YOLOv7 มีอะไรที่ทำให้มันเหนือกว่าบรรพบุรุษของมัน? อะไรที่ทำให้ YOLOv7 มีประสิทธิภาพสูงในการทำงานด้านการมองเห็นของคอมพิวเตอร์?
ในบทความนี้ เราจะพยายามวิเคราะห์แบบจำลอง YOLOv7 และพยายามหาคำตอบว่าทำไม YOLOv7 จึงกลายเป็นมาตรฐานในอุตสาหกรรม
การตรวจจับวัตถุ คืออะไร?
การตรวจจับวัตถุเป็นสาขาหนึ่งในด้านการมองเห็นของคอมพิวเตอร์ ที่สามารถระบุและตั้งตำแหน่งวัตถุในภาพหรือไฟล์วิดีโอ การตรวจจับวัตถุเป็นบล็อกการสร้างสำหรับหลาย ๆ แอปพลิเคชัน รวมถึงรถยนต์ไร้คนขับ การ giám sát และหุ่นยนต์
แบบจำลองการตรวจจับวัตถุสามารถแบ่งออกเป็นสองประเภท การตรวจจับวัตถุแบบช็อตเดียว และ การตรวจจับวัตถุแบบหลายช็อต
การตรวจจับวัตถุในเวลาจริง
เพื่อเข้าใจว่า YOLOv7 ทำงานอย่างไร เราต้องเข้าใจวัตถุประสงค์หลักของ YOLOv7 คือ การตรวจจับวัตถุในเวลาจริง การตรวจจับวัตถุในเวลาจริงเป็นส่วนสำคัญของการมองเห็นของคอมพิวเตอร์แบบสมัยใหม่ แบบจำลองการตรวจจับวัตถุในเวลาจริงพยายามระบุและตั้งตำแหน่งวัตถุของความสนใจในเวลาจริง

แบบจำลองการตรวจจับวัตถุในเวลาจริงมีประสิทธิภาพมากกว่าแบบจำลองการตรวจจับวัตถุแบบดั้งเดิม เนื่องจากสามารถติดตามวัตถุในไฟล์วิดีโอหรือการ giám sátแบบสดได้
ดังนั้น แบบจำลองการตรวจจับวัตถุในเวลาจริงจึงมีประสิทธิภาพสูงสำหรับการวิเคราะห์วิดีโอ ยานพาหนะอัตโนมัติ การนับวัตถุ การติดตามวัตถุหลายชิ้น และอื่น ๆ
YOLO คืออะไร?
YOLO หรือ คุณมองเห็นเพียงครั้งเดียว เป็นครอบครัวของแบบจำลองการตรวจจับวัตถุในเวลาจริง คอนเซปต์ YOLO ถูกนำเสนอครั้งแรกในปี 2016 โดย Joseph Redmon และมันกลายเป็น话题ที่ถูกพูดถึงอย่างมากในเวลานั้น เนื่องจากมันเร็วและแม่นยำกว่าแบบจำลองการตรวจจับวัตถุแบบดั้งเดิม

คอนเซปต์พื้นฐานที่ YOLO เสนอแนะคือการใช้เครือข่ายประสาทเทียมแบบ end-to-end โดยใช้กล่องขอบเขตและความน่าจะเป็นของคลาสเพื่อทำการคาดการณ์ในเวลาจริง YOLO ต่างจากแบบจำลองการตรวจจับวัตถุแบบดั้งเดิมในด้านการเข้าใกล้การตรวจจับวัตถุโดยการเปลี่ยนคลาสสิฟายเออร์
การเปลี่ยนแปลงในด้านการเข้าใกล้นี้ทำให้ YOLO กลายเป็นมาตรฐานในอุตสาหกรรม เนื่องจากมันสามารถแยกความแตกต่างระหว่าง YOLO และแบบจำลองการตรวจจับวัตถุในเวลาจริงอื่น ๆ ได้อย่างชัดเจน
เมื่อเปรียบเทียบกับ YOLO แบบจำลองการตรวจจับวัตถุในเวลาจริงแบบดั้งเดิมใช้เครือข่ายการเสนอแนะข้อมูลเพื่อตรวจจับพื้นที่ที่น่าสนใจ การยอมรับถูกทำในแต่ละพื้นที่แยกกัน ซึ่งทำให้แบบจำลองเหล่านี้ทำการวนซ้ำหลายครั้งบนภาพเดียวกัน และด้วยเหตุนี้จึงขาดความแม่นยำและใช้เวลาในการประมวลผลมากกว่า ในทางกลับกัน YOLO ใช้เลเยอร์ที่เชื่อมต่อแบบเต็มเพื่อทำการคาดการณ์ในครั้งเดียว
YOLO ทำงานอย่างไร?
มีสามขั้นตอนที่อธิบายว่า YOLO ทำงานอย่างไร
การตรวจจับวัตถุเป็นปัญหาแบบการถดถอย
YOLO พยายามที่จะเปลี่ยนการตรวจจับวัตถุให้เป็นปัญหาแบบการถดถอยเพียงครั้งเดียว รวมถึงพิกเซลของภาพ คลาสความน่าจะเป็น และพิกัดของกล่องขอบเขต ดังนั้น YOLO จึงต้องมองเห็นภาพเพียงครั้งเดียวเพื่อคาดการณ์และตั้งตำแหน่งวัตถุในภาพ
การให้เหตุผลกับภาพทั่วโลก
นอกจากนี้ เมื่อ YOLO ทำการคาดการณ์ มันจะให้เหตุผลกับภาพทั่วโลก มันแตกต่างจากเทคนิคการเสนอแนะข้อมูลและเทคนิคการลื่นไถล เนื่องจาก YOLO มองเห็นภาพทั้งหมดระหว่างการฝึกอบรมและการทดสอบบนเซตข้อมูล และสามารถเข้ารหัสข้อมูลบริบทเกี่ยวกับคลาสและวิธีการปรากฏของมัน
ก่อนที่ YOLO จะถูกนำเสนอ Fast R-CNN เป็นหนึ่งในแบบจำลองการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุด แต่ไม่สามารถมองเห็นบริบทที่กว้างขึ้นในภาพได้ เนื่องจากมันใช้พื้นหลังในภาพเป็นวัตถุ YOLO มีประสิทธิภาพมากกว่า Fast R-CNN ถึง 50% เมื่อพูดถึงข้อผิดพลาดของพื้นหลัง
การสร้างแบบจำลองวัตถุ
สุดท้าย YOLO พยายามที่จะสร้างแบบจำลองวัตถุในภาพให้มากขึ้น เมื่อ YOLO ถูกทดสอบบนเซตข้อมูลที่มีภาพธรรมชาติและทดสอบผลลัพธ์ YOLO เหนือกว่าแบบจำลอง R-CNN ที่มีอยู่ด้วยช่องว่างที่กว้าง
YOLOv7: อะไรที่ใหม่?
ตอนนี้ที่เรามีความเข้าใจพื้นฐานเกี่ยวกับแบบจำลองการตรวจจับวัตถุในเวลาจริงและ YOLO มันถึงเวลาที่จะพูดถึง YOLOv7
การปรับให้เหมาะสมของกระบวนการฝึกอบรม
YOLOv7 ไม่เพียงแต่พยายามปรับให้เหมาะสมกับโครงสร้างแบบจำลองเท่านั้น แต่ยังพยายามปรับให้เหมาะสมกับกระบวนการฝึกอบรมด้วย มันพยายามใช้โมดูลการปรับให้เหมาะสมและการวิธีการเพื่อปรับปรุงความแม่นยำของการตรวจจับวัตถุโดยการเสริมสร้างต้นทุนในการฝึกอบรมในขณะที่รักษาต้นทุนการแทรกแซงไว้ โมดูลการปรับให้เหมาะสมเหล่านี้สามารถเรียกว่า ถุงฟรีบี
การกำหนดลักษณะแบบ Coarse to Fine Lead Guided
YOLOv7 ตั้งใจที่จะใช้การกำหนดลักษณะแบบ Coarse to Fine Lead Guided แทนการกำหนดลักษณะแบบ Dynamic Label Assignment มันเป็นเพราะว่าการกำหนดลักษณะแบบไดนามิกมีปัญหาเมื่อฝึกอบรมแบบจำลองที่มีหลายเลเยอร์ออกพุต
การกำหนดพารามิเตอร์แบบโมเดล
การกำหนดพารามิเตอร์แบบโมเดลเป็นแนวคิดที่สำคัญในการตรวจจับวัตถุ และมักจะมีปัญหาในการฝึกอบรม YOLOv7 ตั้งใจที่จะใช้แนวคิดของ เส้นทางการแพร่กระจายของเกรเดียนต์ เพื่อวิเคราะห์นโยบายการกำหนดพารามิเตอร์แบบโมเดลที่ใช้กับเลเยอร์ต่าง ๆ ในเครือข่าย
การขยายและการปรับขนาดแบบประกอบ
YOLOv7 นำเสนอวิธีการขยายและการปรับขนาดแบบประกอบเพื่อใช้พารามิเตอร์และการคำนวณสำหรับการตรวจจับวัตถุในเวลาจริง

YOLOv7: งานที่เกี่ยวข้อง
การตรวจจับวัตถุในเวลาจริง
YOLO เป็นมาตรฐานในอุตสาหกรรมในปัจจุบัน และแบบจำลองการตรวจจับวัตถุในเวลาจริงส่วนใหญ่จะใช้ YOLO และ FCOS (Fully Convolutional One-Stage Object-Detection) แบบจำลองการตรวจจับวัตถุในเวลาจริงที่ทันสมัยมักจะมีลักษณะดังต่อไปนี้
- โครงสร้างเครือข่ายที่แข็งแกร่งและเร็ว
- วิธีการรวมคุณลักษณะที่มีประสิทธิภาพ
- วิธีการตรวจจับวัตถุที่แม่นยำ
- ฟังก์ชันขาดที่แข็งแกร่ง
- วิธีการกำหนดลักษณะที่มีประสิทธิภาพ
- วิธีการฝึกอบรมที่มีประสิทธิภาพ
YOLOv7 ไม่ใช้การเรียนรู้แบบไม่มีการกำกับและการกลั่นกรองซึ่งมักต้องการข้อมูลจำนวนมาก ในทางกลับกัน YOLOv7 ใช้ถุงฟรีบี
การกำหนดพารามิเตอร์แบบโมเดล
เทคนิคการกำหนดพารามิเตอร์แบบโมเดลถือเป็นเทคนิคアンサンブルที่รวมโมดูลการคำนวณหลายตัวเข้าด้วยกันในขั้นตอนการแทรกแซง เทคนิคนี้สามารถแบ่งออกเป็นสองประเภท ได้แก่ การกำหนดพารามิเตอร์แบบโมเดล และ การกำหนดพารามิเตอร์แบบโมดูล
เพื่อให้ได้แบบจำลองการแทรกแซงที่สุดท้าย เทคนิคการกำหนดพารามิเตอร์แบบโมเดลใช้สองวิธี วิธีแรกใช้ข้อมูลฝึกอบรมที่แตกต่างกันเพื่อฝึกอบรมแบบจำลองที่เหมือนกันหลายตัว แล้วค่าเฉลี่ยของน้ำหนักของแบบจำลองที่ฝึกอบรมแล้ว วิธีที่สองค่าเฉลี่ยน้ำหนักของแบบจำลองระหว่างการวนซ้ำที่แตกต่างกัน
การกำหนดพารามิเตอร์แบบโมดูลเป็นที่นิยมมากขึ้นเนื่องจากมันแบ่งโมดูลออกเป็นสาขาที่แตกต่างกันหรือสาขาที่เหมือนกันระหว่างขั้นตอนการฝึกอบรม แล้วรวมสาขาเหล่านี้เข้าด้วยกันเพื่อสร้างโมดูลที่เทียบเท่ากันระหว่างการแทรกแซง
อย่างไรก็ตาม เทคนิคการกำหนดพารามิเตอร์ไม่สามารถใช้กับโครงสร้างทุกแบบได้ ดังนั้น YOLOv7 จึงใช้เทคนิคการกำหนดพารามิเตอร์แบบใหม่เพื่อออกแบบกลยุทธ์ที่เหมาะสมสำหรับโครงสร้างที่แตกต่างกัน
การปรับขนาดแบบโมเดล
การปรับขนาดแบบโมเดลเป็นกระบวนการปรับขนาดแบบจำลองที่มีอยู่เพื่อให้เหมาะสมกับอุปกรณ์คำนวณที่แตกต่างกัน การปรับขนาดแบบโมเดลมักใช้ปัจจัยต่าง ๆ เช่น จำนวนเลเยอร์ (ความลึก) ขนาดของภาพเข้า (ความละเอียด) จำนวนพีระมิดคุณลักษณะ (ขั้นตอน) และจำนวนช่อง (ความกว้าง) ปัจจัยเหล่านี้มีบทบาทสำคัญในการรักษาสมดุลระหว่างพารามิเตอร์ของเครือข่าย ความเร็วในการแทรกแซง การคำนวณ และความแม่นยำของแบบจำลอง
วิธีการปรับขนาดที่ใช้กันมากที่สุดคือ การค้นหาสถาปัตยกรรมเครือข่าย ที่ค้นหาปัจจัยการปรับขนาดที่เหมาะสมจากเครื่องมือค้นหาที่ไม่มีกฎที่ซับซ้อน วิธีการปรับขนาดที่สำคัญของการค้นหาสถาปัตยกรรมเครือข่ายคือมันค้นหาปัจจัยการปรับขนาดที่เหมาะสมโดยอัตโนมัติ แต่ข้อเสียของการค้นหาสถาปัตยกรรมเครือข่ายคือมันเป็นวิธีการที่มีค่าใช้จ่ายสูงในการค้นหาปัจจัยการปรับขนาดที่เหมาะสม
เกือบทุกแบบจำลองการกำหนดพารามิเตอร์แบบโมเดลวิเคราะห์ปัจจัยการปรับขนาดที่ไม่เกี่ยวข้องแต่ละตัวแยกกัน และเพิ่มเติมยังปรับขนาดเหล่านี้แยกกัน เนื่องจากสถาปัตยกรรมเครือข่ายทำงานร่วมกับปัจจัยการปรับขนาดที่ไม่เกี่ยวข้อง
ควรทราบว่าแบบจำลองการปรับขนาดแบบต่อเนื่อง เช่น VoVNet หรือ DenseNet จะเปลี่ยนความกว้างของช่องเข้าเลเยอร์บางตัวเมื่อความลึกของแบบจำลองถูกปรับขนาด YOLOv7 ทำงานบนโครงสร้างแบบต่อเนื่องและดังนั้นจึงใช้วิธีการปรับขนาดแบบประกอบ

รูปด้านบนเปรียบเทียบเครือข่ายการรวมเลเยอร์ที่มีประสิทธิภาพแบบขยาย (E-ELAN) ของแบบจำลองต่าง ๆ วิธีการ E-ELAN ที่เสนอไว้จะรักษาเส้นทางการแพร่กระจายเกรเดียนต์ของโครงสร้างดั้งเดิม แต่พยายามที่จะเพิ่มคาร์ดินัลลิตี้ของคุณลักษณะที่เพิ่มโดยใช้การคำนวณแบบกลุ่ม
สถาปัตยกรรม YOLOv7
แบบจำลอง YOLOv7 ใช้ YOLOv4, YOLO-R และ YOLOv4 ที่ปรับขนาดเป็นแบบจำลองฐาน YOLOv7 เป็นผลมาจากการทดลองที่ทำบนแบบจำลองเหล่านี้เพื่อปรับปรุงผลลัพธ์และทำให้แบบจำลองแม่นยำยิ่งขึ้น
เครือข่ายการรวมเลเยอร์ที่มีประสิทธิภาพแบบขยายหรือ E-ELAN
E-ELAN เป็นบล็อกการสร้างพื้นฐานของแบบจำลอง YOLOv7 และมันถูกสร้างขึ้นจากแบบจำลองที่มีอยู่เกี่ยวกับประสิทธิภาพเครือข่าย โดยเฉพาะ ELAN
การพิจารณาหลักในการออกแบบโครงสร้างที่มีประสิทธิภาพคือจำนวนพารามิเตอร์ ความหนาแน่นในการคำนวณ และปริมาณการคำนวณ พิจารณาอื่น ๆ เช่น อิทธิพลของอัตราส่วนช่องเข้า/ออก ช่องสาขาในเครือข่าย การแทรกแซง ความเร็วของเครือข่าย จำนวนองค์ประกอบในเทนเซอร์ของเครือข่ายการคำนวณ และอื่น ๆ
แบบจำลอง CSPVoNet ไม่เพียงแต่พิจารณาปัจจัยเหล่านี้เท่านั้น แต่ยังวิเคราะห์เส้นทางเกรเดียนต์เพื่อเรียนรู้คุณลักษณะที่หลากหลายโดยการเปิดใช้งานน้ำหนักของเลเยอร์ต่าง ๆ วิธีนี้ช่วยให้การแทรกแซงเร็วและแม่นยำยิ่งขึ้น สถาปัตยกรรม ELAN มีเป้าหมายที่จะออกแบบเครือข่ายที่มีประสิทธิภาพเพื่อควบคุมเส้นทางเกรเดียนต์ที่สั้นที่สุดเพื่อให้เครือข่ายเรียนรู้และ hội tụ ได้ดีขึ้น
ELAN ได้ถึงขั้นตอนที่มั่นคงแล้ว โดยไม่คำนึงถึงจำนวนบล็อกการคำนวณที่ถูกซ้อนและความยาวของเส้นทางเกรเดียนต์ สถานะที่มั่นคงอาจถูกทำลายได้หากบล็อกการคำนวณถูกซ้อนอย่างไม่มีกฎเกณฑ์ และอัตราการใช้พารามิเตอร์จะลดลง สถาปัตยกรรม E-ELAN ที่เสนอสามารถแก้ไขปัญหานี้ได้โดยใช้การขยาย การสับเปลี่ยนและการรวมคาร์ดินัลลิตี้เพื่อเพิ่มความสามารถในการเรียนรู้ของเครือข่ายอย่างต่อเนื่องในขณะที่รักษาเส้นทางเกรเดียนต์ดั้งเดิมไว้
นอกจากนี้ เมื่อเปรียบเทียบสถาปัตยกรรม E-ELAN กับ ELAN ความแตกต่างเพียงอย่างเดียวคือในบล็อกการคำนวณ ในขณะที่โครงสร้างเลเยอร์การเปลี่ยนแปลงยังคงไม่เปลี่ยนแปลง
E-ELAN เสนอแนะให้ขยายคาร์ดินัลลิตี้ของบล็อกการคำนวณและขยายช่องโดยใช้การคำนวณแบบกลุ่ม แผนที่คุณลักษณะจะถูกคำนวณและสับเปลี่ยนเป็นกลุ่มตามพารามิเตอร์กลุ่ม จากนั้นจะถูกต่อด้วยการบวกเพื่อทำการคาร์ดินัลลิตี้ จำนวนช่องในแต่ละกลุ่มจะยังคงเท่าเดิมกับโครงสร้างดั้งเดิม
การปรับขนาดแบบโมเดลสำหรับแบบจำลองแบบต่อเนื่อง
การปรับขนาดแบบโมเดลช่วยให้สามารถปรับขนาดแบบจำลองที่มีอยู่เพื่อให้เหมาะสมกับอุปกรณ์คำนวณต่าง ๆ และสร้างแบบจำลองที่มีขนาดต่าง ๆ เพื่อตอบสนองความต้องการการแทรกแซงที่แตกต่างกัน

รูปด้านบนแสดงการปรับขนาดแบบโมเดลสำหรับแบบจำลองแบบต่อเนื่องต่าง ๆ เมื่อดูรูป (a) และ (b) จะเห็นว่าความกว้างของช่องออกของบล็อกการคำนวณเพิ่มขึ้นเมื่อความลึกของแบบจำลองถูกปรับขนาดขึ้น ซึ่งทำให้ความกว้างของช่องเข้าของเลเยอร์การเปลี่ยนแปลงเพิ่มขึ้น หากวิธีการเหล่านี้ถูกนำไปใช้กับแบบจำลองแบบต่อเนื่อง การปรับขนาดจะถูกทำในความลึก และแสดงไว้ในรูป (c)
ดังนั้น สามารถสรุปได้ว่าไม่สามารถวิเคราะห์ปัจจัยการปรับขนาดได้อย่างอิสระสำหรับแบบจำลองแบบต่อเนื่อง และต้องวิเคราะห์ปัจจัยเหล่านี้ร่วมกัน ดังนั้น สำหรับแบบจำลองแบบต่อเนื่อง จึงเหมาะสมที่จะใช้วิธีการปรับขนาดแบบประกอบ
ถุงฟรีบี
ถุงฟรีบีเป็นชุดวิธีการหรือเทคนิคที่สามารถเปลี่ยนแปลงกลยุทธ์การฝึกอบรมหรือต้นทุนเพื่อเพิ่มความแม่นยำของแบบจำลอง
การกำหนดพารามิเตอร์แบบการถดถอยแบบวางแผน
YOLOv7 ใช้เส้นทางการแพร่กระจายของเกรเดียนต์เพื่อกำหนดวิธีการรวมเครือข่ายกับการกำหนดพารามิเตอร์แบบการถดถอย
เพื่อกำหนดการเชื่อมต่อในเลเยอร์การถดถอย RepConv จะรวมการถดถอย 3×3 และการถดถอย 1×1 หากวิเคราะห์ RepConv จะพบว่ามันทำลายการรวมใน DenseNet และการเหลื่อมใน ResNet

รูปด้านบนแสดงแบบจำลองการกำหนดพารามิเตอร์แบบวางแผน YOLOv7 พบว่าเลเยอร์ในเครือข่ายที่มีการเชื่อมต่อแบบการรวมหรือการเหลื่อมไม่ควรจะมีการเชื่อมต่อแบบอัตลักษณ์ใน RepConv
การกำหนดลักษณะแบบ Coarse สำหรับหัวข้อเสริมและการกำหนดลักษณะแบบ Fine สำหรับหัวข้อหลัก
การดูแลลึกเป็นหนึ่งในสาขาใน khoa họcคอมพิวเตอร์ที่มักใช้ในการฝึกอบรมเครือข่ายลึก
YOLOv7 ใช้หัวข้อเสริมในเลเยอร์กลางของเครือข่ายพร้อมกับน้ำหนักตื้น ๆ และการสูญเสียที่ช่วยในการฝึกอบรม
นอกจากนี้ YOLOv7 ใช้วิธีการกำหนดลักษณะที่แตกต่าง หัวข้อหลักจะถูกใช้ในการสร้างลักษณะที่ช่วยในการฝึกอบรม
นอกจากนี้ วิธีการกำหนดลักษณะใหม่ของ YOLOv7 ใช้การคาดการณ์ของหัวข้อหลักเพื่อชี้นำทั้งหัวข้อหลักและหัวข้อเสริม
หัวข้อหลักแบบ Coarse-to-Fine Guided
กลยุทธ์นี้ยังใช้การคาดการณ์ของหัวข้อหลักและข้อเท็จจริงพื้นฐานเพื่อสร้างลักษณะที่นุ่มนวล
ลักษณะที่นุ่มนวลจะถูกสร้างขึ้นโดยการผ่อนคลายข้อจำกัดในการกำหนดลักษณะบวก
เพื่อหลีกเลี่ยงความเสี่ยงของการสูญเสียข้อมูลเนื่องจากความแข็งแกร่งในการเรียนรู้ที่อ่อนของหัวข้อเสริม

รูปด้านบนแสดงถุงฟรีบีใน YOLOv7
รูป (b) มีหัวข้อเสริม ในขณะที่รูป (a) ไม่มี
ถุงฟรีบีอื่น ๆ
นอกเหนือจากที่กล่าวมาแล้ว YOLOv7 ใช้ถุงฟรีบีเพิ่มเติม
- การปรับขนาดแบบชั้นใน Conv-Bn-Activation
- ความรู้ที่ไม่ได้แสดงออกมาใน YOLOR
- แบบจำลอง EMA
YOLOv7: การทดลอง
การกำหนดค่าการทดลอง
YOLOv7 ใช้ เซตข้อมูล Microsoft COCO สำหรับการฝึกอบรมและการตรวจสอบแบบจำลองการตรวจจับวัตถุ
นักพัฒนาออกแบบแบบจำลองพื้นฐานสำหรับ GPU เอดจ์ (YOLOv7-tiny), GPU ปกติ (YOLOv7) และ GPU คลาวด์ (YOLOv7-W6)
แบบจำลองพื้นฐาน
YOLOv7 ใช้แบบจำลอง YOLO ก่อนหน้าและ YOLOR เป็นแบบจำลองพื้นฐาน

รูปด้านบนเปรียบเทียบ YOLOv7 กับแบบจำลองการตรวจจับวัตถุอื่น ๆ
การเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ

รูปด้านบนแสดงผลลัพธ์เมื่อ YOLOv7 ถูกเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ สำหรับ GPU มือถือและ GPU ทั่วไป
การศึกษาการลบ: วิธีการปรับขนาดแบบประกอบที่เสนอ

รูปด้านบนเปรียบเทียบผลลัพธ์ของการใช้กลยุทธ์ต่าง ๆ ในการปรับขนาดแบบจำลอง
เมื่อเปรียบเทียบกับแบบจำลองที่เพิ่มความลึกเท่านั้น YOLOv7 มีประสิทธิภาพดีกว่า 0.5% โดยใช้พารามิเตอร์และการคำนวณน้อยลง
แบบจำลองการกำหนดพารามิเตอร์แบบวางแผน
เพื่อยืนยันความทั่วไปของแบบจำลองการกำหนดพารามิเตอร์แบบวางแผน YOLOv7 ใช้มันบนแบบจำลองที่มีพื้นฐานและแบบจำลองที่มีการเชื่อมต่อแบบต่อเนื่อง
สำหรับแบบจำลองที่มีการเชื่อมต่อแบบต่อเนื่อง YOLOv7 แทนที่เลเยอร์การถดถอย 3×3 ใน ELAN 3 ชั้นด้วย RepConv

นอกจากนี้ สำหรับแบบจำลองที่มีพื้นฐาน YOLOv7 ใช้บล็อกมืดที่กลับด้านเนื่องจากบล็อกมืดดั้งเดิมไม่มีเลเยอร์การถดถอย 3×3

การกำหนดลักษณะแบบเสริมสำหรับหัวข้อเสริม
สำหรับการกำหนดลักษณะแบบเสริมสำหรับหัวข้อเสริม YOLOv7 เปรียบเทียบการกำหนดลักษณะแบบอิสระสำหรับหัวข้อเสริมและหัวข้อหลัก

รูปด้านบนแสดงผลลัพธ์ของการศึกษาการกำหนดลักษณะแบบเสริมที่เสนอ
ผลลัพธ์ YOLOv7
ตามการทดลองข้างต้น นี่คือผลลัพธ์ของ YOLOv7 เมื่อเปรียบเทียบกับแบบจำลองการตรวจจับวัตถุอื่น ๆ

รูปด้านบนเปรียบเทียบ YOLOv7 กับแบบจำลองการตรวจจับวัตถุอื่น ๆ
นอกจากนี้ รูปด้านล่างเปรียบเทียบผลลัพธ์ของ YOLOv7 กับแบบจำลองการตรวจจับวัตถุในเวลาจริงอื่น ๆ

นี่คือการสังเกตเพิ่มเติมจากผลลัพธ์ของ YOLOv7
- YOLOv7-Tiny เป็นแบบจำลองที่เล็กที่สุดในครอบครัว YOLO โดยมีพารามิเตอร์มากกว่า 6 ล้านตัว YOLOv7-Tiny มีความแม่นยำเฉลี่ย 35.2% และมีประสิทธิภาพเหนือ YOLOv4-Tiny ที่มีพารามิเตอร์เทียบเท่า
- YOLOv7 มีพารามิเตอร์มากกว่า 37 ล้านตัว และมีประสิทธิภาพเหนือแบบจำลองที่มีพารามิเตอร์สูงกว่า เช่น YOLov4
- YOLOv7 มีค่า mAP และ FPS สูงสุดในช่วง 5-160 FPS
สรุป
YOLO หรือ You Only Look Once เป็นแบบจำลองการตรวจจับวัตถุที่ทันสมัยที่สุดในด้านการมองเห็นของคอมพิวเตอร์แบบสมัยใหม่ YOLO มีประสิทธิภาพสูงและความแม่นยำ และด้วยเหตุนี้จึงมีการใช้งานอย่างกว้างขวางในอุตสาหกรรมการตรวจจับวัตถุในเวลาจริง
YOLOv7 เป็นแบบจำลองล่าสุดในครอบครัว YOLO และเป็นแบบจำลอง YOLO ที่มีประสิทธิภาพสูงสุดจนถึงปัจจุบัน ในบทความนี้ เราได้พูดถึงพื้นฐานของ YOLOv7 และพยายามอธิบายว่าอะไรที่ทำให้ YOLOv7 มีประสิทธิภาพสูง












