sơ khai YOLOv7: Thuật toán phát hiện đối tượng tiên tiến nhất? - Đoàn kết.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

YOLOv7: Thuật toán phát hiện đối tượng tiên tiến nhất?

mm

Được phát hành

 on

Ngày 6 tháng 2022 năm 7 sẽ được đánh dấu là một cột mốc quan trọng trong lịch sử AI vì đó là ngày YOLOv7 được phát hành. Kể từ khi ra mắt, YOLOv7 đã trở thành chủ đề nóng nhất trong cộng đồng nhà phát triển Thị giác Máy tính và vì những lý do chính đáng. YOLOvXNUMX đã được coi là một cột mốc quan trọng trong ngành phát hiện đối tượng. 

Ngay sau khi Bài báo YOLOv7 đã được xuất bản, nó trở thành mô hình phát hiện phản đối theo thời gian thực nhanh nhất và chính xác nhất. Nhưng làm thế nào để YOLOv7 vượt qua những người tiền nhiệm của nó? Điều gì làm cho YOLOv7 trở nên hiệu quả trong việc thực hiện các tác vụ thị giác máy tính? 

Trong bài viết này, chúng tôi sẽ cố gắng phân tích mô hình YOLOv7 và cố gắng tìm câu trả lời tại sao YOLOv7 hiện đang trở thành tiêu chuẩn công nghiệp? Nhưng trước khi có thể trả lời câu hỏi đó, chúng ta sẽ phải xem qua lịch sử ngắn gọn của việc phát hiện đối tượng. 

Phát hiện đối tượng là gì?

Phát hiện đối tượng là một nhánh trong thị giác máy tính xác định và định vị các đối tượng trong một hình ảnh hoặc tệp video. Phát hiện đối tượng là khối xây dựng của nhiều ứng dụng bao gồm ô tô tự lái, giám sát được theo dõi và thậm chí cả rô-bốt. 

Một mô hình phát hiện đối tượng có thể được phân loại thành hai loại khác nhau, máy dò một phát, máy dò nhiều phát. 

Phát hiện đối tượng thời gian thực

Để thực sự hiểu cách thức hoạt động của YOLOv7, điều cần thiết là chúng tôi phải hiểu mục tiêu chính của YOLOv7, “Phát hiện đối tượng thời gian thực”. Phát hiện đối tượng thời gian thực là một thành phần quan trọng của thị giác máy tính hiện đại. Các mô hình Phát hiện đối tượng thời gian thực cố gắng xác định và định vị các đối tượng quan tâm trong thời gian thực. Các mô hình Phát hiện đối tượng theo thời gian thực giúp các nhà phát triển theo dõi các đối tượng quan tâm trong khung chuyển động như video hoặc đầu vào giám sát trực tiếp thực sự hiệu quả. 

Các mô hình Phát hiện Đối tượng Thời gian Thực về cơ bản là đi trước một bước so với các mô hình phát hiện hình ảnh thông thường. Mặc dù cái trước được sử dụng để theo dõi các đối tượng trong tệp video, cái sau định vị & xác định các đối tượng trong một khung cố định như hình ảnh. 

Do đó, các mô hình Phát hiện đối tượng theo thời gian thực thực sự hiệu quả đối với phân tích video, xe tự hành, đếm đối tượng, theo dõi nhiều đối tượng, v.v. 

YOLO là gì?

YOLO hoặc “Bạn Chỉ Nhìn Một Lần” là một nhóm các mô hình phát hiện đối tượng thời gian thực. Khái niệm YOLO được Joseph Redmon giới thiệu lần đầu tiên vào năm 2016 và gần như ngay lập tức nó đã trở thành chủ đề bàn tán của thị trấn vì nó nhanh hơn và chính xác hơn nhiều so với các thuật toán phát hiện đối tượng hiện có. Không lâu sau, thuật toán YOLO đã trở thành tiêu chuẩn trong ngành thị giác máy tính. 

Khái niệm cơ bản mà thuật toán YOLO đề xuất là sử dụng mạng thần kinh đầu cuối sử dụng các hộp giới hạn & xác suất lớp để đưa ra dự đoán trong thời gian thực. YOLO khác với mô hình phát hiện đối tượng trước đó ở chỗ nó đề xuất một cách tiếp cận khác để thực hiện phát hiện đối tượng bằng cách tái sử dụng các bộ phân loại. 

Sự thay đổi trong cách tiếp cận đã phát huy tác dụng khi YOLO nhanh chóng trở thành tiêu chuẩn ngành do khoảng cách về hiệu suất giữa chính nó và các thuật toán phát hiện đối tượng theo thời gian thực khác là rất lớn. Nhưng đâu là lý do khiến YOLO hiệu quả đến vậy? 

Khi so sánh với YOLO, các thuật toán phát hiện đối tượng hồi đó đã sử dụng Mạng đề xuất khu vực để phát hiện các khu vực có thể quan tâm. Quá trình nhận dạng sau đó được thực hiện trên từng vùng riêng biệt. Do đó, các mô hình này thường thực hiện nhiều lần lặp lại trên cùng một hình ảnh và do đó thiếu độ chính xác và thời gian thực hiện cao hơn. Mặt khác, thuật toán YOLO sử dụng một lớp được kết nối đầy đủ duy nhất để thực hiện dự đoán cùng một lúc. 

YOLO hoạt động như thế nào?

Có ba bước giải thích cách hoạt động của thuật toán YOLO. 

Định hình lại phát hiện đối tượng dưới dạng một vấn đề hồi quy đơn

Sản phẩm Thuật toán YOLO cố gắng điều chỉnh lại quá trình phát hiện đối tượng dưới dạng một vấn đề hồi quy đơn lẻ, bao gồm pixel hình ảnh, xác suất của lớp và tọa độ hộp giới hạn. Do đó, thuật toán chỉ phải nhìn vào hình ảnh một lần để dự đoán và định vị các đối tượng mục tiêu trong hình ảnh. 

Lý do hình ảnh trên toàn cầu

Hơn nữa, khi thuật toán YOLO đưa ra dự đoán, nó sẽ lý giải hình ảnh trên toàn cầu. Nó khác với các kỹ thuật trượt và dựa trên đề xuất khu vực vì thuật toán YOLO nhìn thấy hình ảnh hoàn chỉnh trong quá trình đào tạo và thử nghiệm trên tập dữ liệu, đồng thời có thể mã hóa thông tin theo ngữ cảnh về các lớp và cách chúng xuất hiện. 

Trước YOLO, Fast R-CNN là một trong những thuật toán phát hiện đối tượng phổ biến nhất không thể nhìn thấy bối cảnh lớn hơn trong hình ảnh vì thuật toán này thường nhầm các mảng nền trong hình ảnh với một đối tượng. Khi so sánh với thuật toán Fast R-CNN, YOLO chính xác hơn 50% khi nói đến lỗi nền. 

Khái quát hóa biểu diễn của các đối tượng

Cuối cùng, thuật toán YOLO cũng nhằm mục đích khái quát hóa các biểu diễn của các đối tượng trong một hình ảnh. Do đó, khi thuật toán YOLO được chạy trên tập dữ liệu có hình ảnh tự nhiên và được kiểm tra kết quả, YOLO vượt trội so với các mô hình R-CNN hiện có với biên độ rộng. Đó là bởi vì YOLO có tính khái quát cao nên khả năng nó bị hỏng khi triển khai trên các đầu vào không mong muốn hoặc các miền mới là rất nhỏ. 

YOLOv7: Có gì mới?

Bây giờ chúng ta đã hiểu cơ bản về mô hình phát hiện đối tượng thời gian thực là gì và thuật toán YOLO là gì, đã đến lúc thảo luận về thuật toán YOLOv7. 

Tối ưu hóa quy trình đào tạo

Thuật toán YOLOv7 không chỉ cố gắng tối ưu hóa kiến ​​trúc mô hình mà còn nhằm mục đích tối ưu hóa quá trình đào tạo. Nó nhằm mục đích sử dụng các mô-đun & phương pháp tối ưu hóa để cải thiện độ chính xác của việc phát hiện đối tượng, tăng cường chi phí đào tạo, trong khi vẫn duy trì chi phí nhiễu. Các mô-đun tối ưu hóa này có thể được gọi là một túi miễn phí có thể đào tạo. 

Gán nhãn có hướng dẫn chì từ thô đến mịn

Thuật toán YOLOv7 có kế hoạch sử dụng Gán nhãn có hướng dẫn chì từ thô đến mịn mới thay vì cách thông thường Gán nhãn động. Sở dĩ như vậy là vì với gán nhãn động, việc huấn luyện một mô hình có nhiều lớp đầu ra gây ra một số vấn đề, vấn đề phổ biến nhất là cách gán mục tiêu động cho các nhánh khác nhau và đầu ra của chúng. 

Tham số lại mô hình

Tái tham số hóa mô hình là một khái niệm quan trọng trong phát hiện đối tượng và việc sử dụng nó thường đi kèm với một số vấn đề trong quá trình đào tạo. Thuật toán YOLOv7 có kế hoạch sử dụng khái niệm về đường truyền gradient để phân tích các chính sách tái tham số hóa mô hình áp dụng cho các lớp khác nhau trong mạng. 

Mở rộng và mở rộng tổng hợp

Thuật toán YOLOv7 cũng giới thiệu phương pháp nhân rộng mở rộng và hợp chất để tận dụng và sử dụng hiệu quả các tham số & tính toán để phát hiện đối tượng theo thời gian thực. 

YOLOv7 : Công việc liên quan

Phát hiện đối tượng thời gian thực

YOLO hiện là tiêu chuẩn ngành và hầu hết các trình phát hiện đối tượng thời gian thực đều triển khai thuật toán YOLO và FCOS (Phát hiện đối tượng một giai đoạn chuyển đổi hoàn toàn). Một trình phát hiện đối tượng thời gian thực hiện đại thường có các đặc điểm sau

  • Kiến trúc mạng mạnh hơn và nhanh hơn. 
  • Một phương pháp tích hợp tính năng hiệu quả. 
  • Một phương pháp phát hiện đối tượng chính xác. 
  • Một chức năng mất mát mạnh mẽ. 
  • Một phương pháp gán nhãn hiệu quả. 
  • Một phương pháp đào tạo hiệu quả. 

Thuật toán YOLOv7 không sử dụng các phương pháp chắt lọc & học tập tự giám sát thường yêu cầu lượng dữ liệu lớn. Ngược lại, thuật toán YOLOv7 sử dụng phương pháp túi đồ miễn phí có thể huấn luyện được. 

Tham số lại mô hình

Các kỹ thuật tái tham số hóa mô hình được coi là một kỹ thuật tập hợp hợp nhất nhiều mô-đun tính toán trong một giai đoạn giao thoa. Kỹ thuật này có thể được chia thành hai loại, quần thể cấp mô hình, tập hợp cấp độ mô-đun. 

Bây giờ, để có được mô hình giao thoa cuối cùng, kỹ thuật tái tham số hóa ở cấp độ mô hình sử dụng hai cách thực hành. Phương pháp đầu tiên sử dụng dữ liệu huấn luyện khác nhau để huấn luyện nhiều mô hình giống hệt nhau, sau đó tính trung bình trọng số của các mô hình được huấn luyện. Ngoài ra, phương pháp khác tính trung bình trọng số của các mô hình trong các lần lặp lại khác nhau. 

Gần đây, tham số hóa lại cấp độ mô-đun đang trở nên phổ biến rộng rãi vì nó chia một mô-đun thành các nhánh mô-đun khác nhau hoặc các nhánh giống hệt nhau trong giai đoạn đào tạo, sau đó tiến hành tích hợp các nhánh khác nhau này thành một mô-đun tương đương trong khi can thiệp. 

Tuy nhiên, các kỹ thuật tái tham số hóa không thể áp dụng cho mọi loại kiến ​​trúc. Đó là lý do tại sao các Thuật toán YOLOv7 sử dụng các kỹ thuật tái tham số hóa mô hình mới để thiết kế các chiến lược liên quan phù hợp với các kiến ​​trúc khác nhau. 

Nhân rộng mô hình

Thay đổi quy mô mô hình là quá trình tăng hoặc giảm tỷ lệ một mô hình hiện có để mô hình này phù hợp với các thiết bị điện toán khác nhau. Tỷ lệ mô hình thường sử dụng nhiều yếu tố khác nhau như số lớp (chiều sâu), kích thước của hình ảnh đầu vào (độ phân giải), số lượng kim tự tháp đặc trưng (giai đoạn) và số lượng kênh (chiều rộng). Các yếu tố này đóng một vai trò quan trọng trong việc đảm bảo cân bằng giữa các tham số mạng, tốc độ giao thoa, tính toán và độ chính xác của mô hình. 

Một trong những phương pháp chia tỷ lệ được sử dụng phổ biến nhất là NAS hoặc Kiến trúc mạng Tìm kiếm tự động tìm kiếm các hệ số tỷ lệ phù hợp từ các công cụ tìm kiếm mà không cần bất kỳ quy tắc phức tạp nào. Nhược điểm chính của việc sử dụng NAS là nó là một cách tiếp cận tốn kém để tìm kiếm các hệ số tỷ lệ phù hợp. 

Hầu hết mọi mô hình tái tham số hóa mô hình đều phân tích các yếu tố tỷ lệ riêng lẻ và duy nhất một cách độc lập và hơn nữa, thậm chí còn tối ưu hóa các yếu tố này một cách độc lập. Đó là do kiến ​​trúc NAS hoạt động với các hệ số tỷ lệ không tương quan. 

Điều đáng chú ý là các mô hình dựa trên nối như VoVNet or Mạng lưới dày đặc thay đổi chiều rộng đầu vào của một vài lớp khi độ sâu của mô hình được thu nhỏ. YOLOv7 hoạt động trên kiến ​​trúc dựa trên phép nối được đề xuất và do đó sử dụng phương pháp chia tỷ lệ hỗn hợp.

Con số được đề cập ở trên so sánh mạng tập hợp lớp hiệu quả mở rộng (ELAN) của các mô hình khác nhau. Phương pháp E-ELAN được đề xuất duy trì đường truyền gradient của kiến ​​trúc ban đầu, nhưng nhằm mục đích tăng số lượng của các tính năng được thêm vào bằng cách sử dụng tích chập nhóm. Quá trình này có thể nâng cao các tính năng đã học được của các bản đồ khác nhau và có thể làm cho việc sử dụng các phép tính & tham số hiệu quả hơn nữa. 

Kiến trúc YOLOv7

Mô hình YOLOv7 sử dụng các mô hình YOLOv4, YOLO-R và YOLOv4 được chia tỷ lệ làm cơ sở. YOLOv7 là kết quả của các thử nghiệm được thực hiện trên các mô hình này để cải thiện kết quả và làm cho mô hình chính xác hơn. 

Mạng tổng hợp lớp hiệu quả mở rộng hoặc E-ELAN

E-ELAN là khối xây dựng cơ bản của mô hình YOLOv7 và nó được bắt nguồn từ các mô hình hiện có về hiệu quả của mạng, chủ yếu là ELAN. 

Những cân nhắc chính khi thiết kế một kiến ​​trúc hiệu quả là số lượng tham số, mật độ tính toán và khối lượng tính toán. Các mô hình khác cũng xem xét các yếu tố như ảnh hưởng của tỷ lệ kênh đầu vào/đầu ra, các nhánh trong mạng kiến ​​trúc, tốc độ giao thoa mạng, số lượng phần tử trong tenxơ của mạng tích chập, v.v. 

Sản phẩm CSPVoNet mô hình không chỉ xem xét các tham số nêu trên mà còn phân tích đường dẫn gradient để tìm hiểu các tính năng đa dạng hơn bằng cách bật trọng số của các lớp khác nhau. Cách tiếp cận này cho phép các nhiễu nhanh hơn và chính xác hơn nhiều. Các ELAN kiến trúc nhằm mục đích thiết kế một mạng hiệu quả để kiểm soát đường dốc dài nhất ngắn nhất để mạng có thể hiệu quả hơn trong việc học và hội tụ. 

ELAN đã đạt đến giai đoạn ổn định bất kể số khối tính toán xếp chồng lên nhau và độ dài đường dẫn gradient. Trạng thái ổn định có thể bị phá hủy nếu các khối tính toán được xếp chồng lên nhau không giới hạn và tốc độ sử dụng tham số sẽ giảm đi. Các Kiến trúc E-ELAN được đề xuất có thể giải quyết vấn đề vì nó sử dụng tính năng mở rộng, xáo trộn và hợp nhất để liên tục nâng cao khả năng học của mạng trong khi vẫn giữ nguyên đường dẫn gradient ban đầu. 

Hơn nữa, khi so sánh kiến ​​trúc của E-ELAN với ELAN, sự khác biệt duy nhất là ở khối tính toán, trong khi kiến ​​trúc của lớp chuyển tiếp không thay đổi. 

E-ELAN đề xuất mở rộng số lượng của các khối tính toán và mở rộng kênh bằng cách sử dụng tích chập nhóm. Sau đó, bản đồ tính năng sẽ được tính toán và xáo trộn thành các nhóm theo thông số nhóm, sau đó sẽ được nối với nhau. Số lượng kênh trong mỗi nhóm sẽ giữ nguyên như trong kiến ​​trúc ban đầu. Cuối cùng, các nhóm bản đồ tính năng sẽ được thêm vào để thực hiện tính chính xác. 

Chia tỷ lệ mô hình cho các mô hình dựa trên kết nối

Nhân rộng mô hình giúp trong điều chỉnh các thuộc tính của các mô hình giúp tạo ra các mô hình theo yêu cầu và ở các tỷ lệ khác nhau để đáp ứng các tốc độ giao thoa khác nhau. 

Hình này nói về quy mô mô hình cho các mô hình dựa trên phép nối khác nhau. Như bạn có thể thấy trong hình (a) và (b), chiều rộng đầu ra của khối tính toán tăng lên cùng với sự gia tăng tỷ lệ chiều sâu của các mô hình. Kết quả là độ rộng đầu vào của các lớp truyền được tăng lên. Nếu các phương pháp này được triển khai trên kiến ​​trúc dựa trên phép ghép nối, quá trình mở rộng quy mô được thực hiện chuyên sâu và được mô tả trong hình (c). 

Do đó, có thể kết luận rằng không thể phân tích các yếu tố tỷ lệ một cách độc lập cho các mô hình dựa trên phép nối và thay vào đó, chúng phải được xem xét hoặc phân tích cùng nhau. Do đó, đối với một mô hình dựa trên phép nối, nó phù hợp để sử dụng phương pháp chia tỷ lệ mô hình hỗn hợp tương ứng. Ngoài ra, khi hệ số độ sâu được chia tỷ lệ, kênh đầu ra của khối cũng phải được chia tỷ lệ. 

Túi Freebies có thể huấn luyện 

Một túi quà tặng là một thuật ngữ mà các nhà phát triển sử dụng để mô tả một tập hợp các phương pháp hoặc kỹ thuật có thể thay đổi chiến lược hoặc chi phí đào tạo trong một nỗ lực để tăng độ chính xác của mô hình. Vậy những gói phần mềm miễn phí có thể đào tạo này trong YOLOv7 là gì? Chúng ta hãy có một cái nhìn. 

Tích chập tái tham số hóa theo kế hoạch

Thuật toán YOLOv7 sử dụng các đường truyền dòng gradient để xác định làm thế nào để kết hợp một cách lý tưởng một mạng với tích chập được tham số hóa lại. Cách tiếp cận này của YOLov7 là một nỗ lực để chống lại thuật toán RepConv rằng mặc dù đã hoạt động bình thường trên mô hình VGG, nhưng lại hoạt động kém khi được áp dụng trực tiếp vào các mô hình DenseNet và ResNet. 

Để xác định các kết nối trong một lớp tích chập, Thuật toán RepConv kết hợp tích chập 3×3 và tích chập 1×1. Nếu chúng tôi phân tích thuật toán, hiệu suất của nó và kiến ​​trúc, chúng tôi sẽ quan sát thấy rằng RepConv phá hủy nối trong DenseNet và phần dư trong ResNet

Hình ảnh trên mô tả một mô hình được tham số hóa lại theo kế hoạch. Có thể thấy rằng thuật toán YOLov7 nhận thấy rằng một lớp trong mạng có kết nối nối hoặc kết nối còn lại không được có kết nối nhận dạng trong thuật toán RepConv. Do đó, có thể chấp nhận chuyển đổi với RepConvN mà không có kết nối danh tính. 

Thô cho phụ trợ và mịn cho mất chì

Giám sát sâu là một nhánh trong khoa học máy tính thường được sử dụng trong quá trình đào tạo mạng sâu. Nguyên tắc cơ bản của giám sát sâu là nó thêm một đầu phụ bổ sung vào các lớp giữa của mạng cùng với các trọng số mạng nông với sự mất mát trợ lý như hướng dẫn của nó. Thuật toán YOLOv7 đề cập đến người đứng đầu chịu trách nhiệm về đầu ra cuối cùng là người đứng đầu và người đứng đầu phụ là người đứng đầu hỗ trợ đào tạo. 

Đồng thời, YOLOv7 sử dụng một phương pháp khác để gán nhãn. Thông thường, gán nhãn đã được sử dụng để tạo nhãn bằng cách tham chiếu trực tiếp đến sự thật cơ bản và trên cơ sở một bộ quy tắc nhất định. Tuy nhiên, trong những năm gần đây, việc phân phối và chất lượng của đầu vào dự đoán đóng một vai trò quan trọng để tạo ra một nhãn đáng tin cậy. YOLOv7 tạo nhãn mềm của đối tượng bằng cách sử dụng các dự đoán về hộp giới hạn và chân lý nền. 

Ngoài ra, phương pháp gán nhãn mới của thuật toán YOLOv7 sử dụng các dự đoán của đầu dẫn để hướng dẫn cả đầu dẫn và đầu phụ. Phương pháp gán nhãn có hai chiến lược được đề xuất. 

Trình gán nhãn có hướng dẫn của trưởng nhóm

Chiến lược thực hiện các phép tính trên cơ sở kết quả dự đoán của người đứng đầu chính và sự thật cơ bản, sau đó sử dụng tối ưu hóa để tạo nhãn mềm. Những nhãn mềm này sau đó được sử dụng làm mô hình đào tạo cho cả đầu dẫn và đầu phụ. 

Chiến lược này hoạt động dựa trên giả định rằng vì người đứng đầu khách hàng tiềm năng có khả năng học hỏi cao hơn nên các nhãn mà nó tạo ra phải mang tính đại diện hơn và tương quan giữa nguồn và mục tiêu. 

Công cụ gán nhãn có hướng dẫn đầu chì từ thô đến mịn

Chiến lược này cũng thực hiện các tính toán trên cơ sở kết quả dự đoán của người đứng đầu chính và sự thật cơ bản, sau đó sử dụng tối ưu hóa để tạo nhãn mềm. Tuy nhiên, có một sự khác biệt quan trọng. Trong chiến lược này, có hai bộ nhãn mềm, mức độ thô, mỹ nhãn. 

Nhãn thô được tạo bằng cách nới lỏng các ràng buộc của mẫu dương tính

quy trình chuyển nhượng coi nhiều lưới hơn là mục tiêu tích cực. Nó được thực hiện để tránh nguy cơ mất thông tin do sức mạnh học tập của đầu phụ yếu hơn. 

Hình trên giải thích việc sử dụng túi quà tặng có thể huấn luyện trong thuật toán YOLOv7. Nó mô tả thô cho đầu phụ và tốt cho đầu chì. Khi chúng ta so sánh Mô hình có Đầu phụ (b) với Mô hình Bình thường (a), chúng ta sẽ quan sát thấy lược đồ ở (b) có đầu phụ, trong khi lược đồ ở (a) không có. 

Hình (c) mô tả công cụ gán nhãn độc lập phổ biến trong khi hình (d) & hình (e) tương ứng đại diện cho Công cụ chỉ định hướng dẫn dành cho khách hàng tiềm năng và Công cụ chỉ định hướng dẫn dành cho khách hàng tiềm năng từ Thô đến Tinh được sử dụng bởi YOLOv7.  

Túi miễn phí có thể huấn luyện khác

Ngoài những thứ được đề cập ở trên, thuật toán YOLOv7 sử dụng các túi quà tặng bổ sung, mặc dù chúng không được đề xuất ban đầu. họ đang

  • Chuẩn hóa hàng loạt trong Công nghệ kích hoạt chuyển đổi Bn: Chiến lược này được sử dụng để kết nối trực tiếp lớp tích chập với lớp chuẩn hóa hàng loạt. 
  • Kiến Thức Tiềm Ẩn trong YOLOR: YOLOv7 kết hợp chiến lược với bản đồ tính năng Convolutional. 
  • Mô hình EMA: Mô hình EMA được sử dụng làm mô hình tham chiếu cuối cùng trong YOLOv7 mặc dù mục đích sử dụng chính của nó là được sử dụng trong phương pháp giáo viên trung bình. 

YOLOv7 : Thử nghiệm

Thiết lập thử nghiệm

Thuật toán YOLOv7 sử dụng Bộ dữ liệu Microsoft COCO để đào tạo và xác nhận mô hình phát hiện đối tượng của họ và không phải tất cả các thử nghiệm này đều sử dụng mô hình được đào tạo trước. Các nhà phát triển đã sử dụng tập dữ liệu đào tạo năm 2017 để đào tạo và sử dụng tập dữ liệu xác thực năm 2017 để chọn siêu đường kính. Cuối cùng, hiệu suất của các kết quả phát hiện đối tượng YOLOv7 được so sánh với các thuật toán phát hiện đối tượng hiện đại nhất. 

Các nhà phát triển đã thiết kế một mô hình cơ bản cho GPU biên (YOLOv7-tiny), GPU thông thường (YOLOv7) và GPU đám mây (YOLOv7-W6). Hơn nữa, thuật toán YOLOv7 cũng sử dụng một mô hình cơ bản để mở rộng mô hình theo các yêu cầu dịch vụ khác nhau và nhận được các mô hình khác nhau. Đối với thuật toán YOLOv7, việc chia tỷ lệ ngăn xếp được thực hiện trên cổ và các hợp chất được đề xuất được sử dụng để nâng cấp chiều sâu và chiều rộng của mô hình. 

Đường cơ sở

Thuật toán YOLOv7 sử dụng các mô hình YOLO trước đó và thuật toán phát hiện đối tượng YOLOR làm đường cơ sở.

Hình trên so sánh đường cơ sở của mô hình YOLOv7 với các mô hình phát hiện đối tượng khác và kết quả khá rõ ràng. Khi so sánh với Thuật toán YOLOv4, YOLOv7 không chỉ sử dụng ít tham số hơn 75% mà còn sử dụng tính toán ít hơn 15% và có độ chính xác cao hơn 0.4%. 

So sánh với các mẫu máy dò đối tượng hiện đại

Hình trên cho thấy kết quả khi YOLOv7 được so sánh với các mô hình phát hiện đối tượng hiện đại cho GPU di động và chung. Có thể thấy rằng phương pháp do thuật toán YOLOv7 đề xuất có điểm số đánh đổi giữa tốc độ và độ chính xác tốt nhất. 

Nghiên cứu cắt bỏ: Phương pháp nhân rộng hợp chất được đề xuất

Hình hiển thị ở trên so sánh kết quả của việc sử dụng các chiến lược khác nhau để nhân rộng mô hình. Chiến lược chia tỷ lệ trong mô hình YOLOv7 tăng tỷ lệ độ sâu của khối tính toán lên 1.5 lần và chia tỷ lệ chiều rộng lên 1.25 lần. 

Khi so sánh với một mô hình chỉ tăng tỷ lệ độ sâu, mô hình YOLOv7 hoạt động tốt hơn 0.5% trong khi sử dụng ít tham số và sức mạnh tính toán hơn. Mặt khác, khi so sánh với các mô hình chỉ tăng tỷ lệ độ sâu, độ chính xác của YOLOv7 được cải thiện 0.2%, nhưng số tham số cần tỷ lệ 2.9% và tính toán 1.2%. 

Đề xuất mô hình tái tham số hóa theo kế hoạch

Để xác minh tính tổng quát của mô hình tái tham số hóa được đề xuất, Thuật toán YOLOv7 sử dụng nó trên các mô hình dựa trên phần dư và dựa trên phép nối để xác minh. Đối với quy trình xác minh, thuật toán YOLOv7 sử dụng ELAN 3 ngăn xếp cho mô hình dựa trên phép nối và CSPDarknet cho mô hình dựa trên phần dư. 

Đối với mô hình dựa trên phép nối, thuật toán thay thế các lớp tích chập 3x3 trong ELAN 3 ngăn xếp bằng RepConv. Hình bên dưới hiển thị cấu hình chi tiết của Planned RepConv và 3-stacked ELAN. 

Hơn nữa, khi xử lý mô hình dựa trên phần dư, thuật toán YOLOv7 sử dụng khối tối đảo ngược vì khối tối ban đầu không có khối chập 3×3. Hình dưới đây cho thấy kiến ​​trúc của Reversed CSPDarknet đảo ngược vị trí của lớp tích chập 3×3 và 1×1. 

Trợ lý mất mát được đề xuất cho người đứng đầu phụ trợ

Đối với tổn thất trợ lý cho đầu phụ, mô hình YOLOv7 so sánh việc gán nhãn độc lập cho các phương pháp đầu phụ và đầu dẫn. 

Hình trên chứa các kết quả nghiên cứu về đầu phụ được đề xuất. Có thể thấy rằng hiệu suất tổng thể của mô hình tăng lên cùng với sự gia tăng tổn thất trợ lý. Hơn nữa, việc gán nhãn có hướng dẫn khách hàng tiềm năng do mô hình YOLOv7 đề xuất hoạt động tốt hơn các chiến lược chỉ định khách hàng tiềm năng độc lập. 

Kết quả YOLOv7

Dựa trên các thử nghiệm trên, đây là kết quả về hiệu suất của YOLov7 khi so sánh với các thuật toán phát hiện đối tượng khác. 

Hình trên so sánh mô hình YOLOv7 với các thuật toán phát hiện đối tượng khác và có thể thấy rõ rằng YOLOv7 vượt qua các mô hình phát hiện đối tượng khác về Độ chính xác trung bình (AP) v/s nhiễu hàng loạt

Hơn nữa, hình bên dưới so sánh hiệu suất của YOLOv7 với các thuật toán phát hiện đối tượng theo thời gian thực khác. Một lần nữa, YOLOv7 thành công với các mô hình khác về hiệu suất tổng thể, độ chính xác và hiệu quả. 

Dưới đây là một số quan sát bổ sung từ kết quả và hiệu suất của YOLOv7. 

  1. YOLOv7-Tiny là mô hình nhỏ nhất trong gia đình YOLO, với hơn 6 triệu thông số. YOLOv7-Tiny có Độ chính xác trung bình là 35.2% và vượt trội so với các mẫu YOLOv4-Tiny có thông số tương đương. 
  2. Mô hình YOLOv7 có hơn 37 triệu tham số và nó vượt trội so với các mô hình có tham số cao hơn như YOLov4. 
  3. Mẫu YOLOv7 có tốc độ mAP và FPS cao nhất trong khoảng từ 5 đến 160 FPS. 

Kết luận

YOLO hoặc You Only Look Once là mô hình phát hiện đối tượng hiện đại trong thị giác máy tính hiện đại. Thuật toán YOLO được biết đến với độ chính xác và hiệu quả cao, do đó, nó được ứng dụng rộng rãi trong ngành phát hiện đối tượng thời gian thực. Kể từ khi thuật toán YOLO đầu tiên được giới thiệu vào năm 2016, các thử nghiệm đã cho phép các nhà phát triển liên tục cải tiến mô hình. 

Mô hình YOLOv7 là phần bổ sung mới nhất trong gia đình YOLO và là thuật toán YOLo mạnh nhất cho đến nay. Trong bài viết này, chúng tôi đã nói về các nguyên tắc cơ bản của YOLOv7 và cố gắng giải thích điều gì làm cho YOLOv7 trở nên hiệu quả như vậy. 

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.