Trí tuệ nhân tạo

YOLOv7: Thuật Toán Phát Hiện Đối Tượng Tiên Tiến Nhất?

Published July 24, 2023

Updated April 4, 2026

Kunal Kejriwal

Ngày 6 tháng 7 năm 2022 sẽ được ghi nhớ như một mốc lịch sử trong lĩnh vực trí tuệ nhân tạo vì đây là ngày YOLOv7 được phát hành. Kể từ khi ra mắt, YOLOv7 đã trở thành chủ đề nóng nhất trong cộng đồng các nhà phát triển tầm nhìn máy tính, và vì những lý do chính đáng. YOLOv7 đã được coi là một cột mốc trong ngành công nghiệp phát hiện đối tượng.

Ngay sau khi bài báo YOLOv7 được xuất bản, nó đã trở thành mô hình phát hiện đối tượng thời gian thực nhanh nhất và chính xác nhất. Nhưng làm thế nào YOLOv7 vượt trội so với các phiên bản trước của nó? Điều gì làm cho YOLOv7 hiệu quả trong việc thực hiện các nhiệm vụ tầm nhìn máy tính?

Trong bài viết này, chúng tôi sẽ cố gắng phân tích mô hình YOLOv7 và tìm hiểu lý do tại sao YOLOv7 đang trở thành tiêu chuẩn trong ngành. Nhưng trước khi chúng tôi có thể trả lời câu hỏi đó, chúng tôi sẽ phải xem xét lịch sử phát triển của phát hiện đối tượng.

Phát Hiện Đối Tượng Là Gì?

Phát hiện đối tượng là một nhánh của tầm nhìn máy tính xác định và định vị các đối tượng trong một hình ảnh hoặc tệp video. Phát hiện đối tượng là khối xây dựng của nhiều ứng dụng bao gồm xe tự lái, giám sát an ninh và thậm chí là robot.

Một mô hình phát hiện đối tượng có thể được phân loại thành hai loại khác nhau, phát hiện đối tượng một lần, và phát hiện đối tượng nhiều lần.

Phát Hiện Đối Tượng Thời Gian Thực

Để hiểu rõ cách YOLOv7 hoạt động, điều quan trọng là chúng ta phải hiểu mục tiêu chính của YOLOv7, đó là “Phát Hiện Đối Tượng Thời Gian Thực”. Phát hiện đối tượng thời gian thực là một thành phần chính của tầm nhìn máy tính hiện đại. Các mô hình phát hiện đối tượng thời gian thực cố gắng xác định và định vị các đối tượng quan tâm trong thời gian thực. Các mô hình phát hiện đối tượng thời gian thực giúp các nhà phát triển theo dõi các đối tượng quan tâm trong một khung hình di chuyển như video hoặc đầu vào giám sát trực tiếp.

Các mô hình phát hiện đối tượng thời gian thực cơ bản là một bước tiến từ các mô hình phát hiện hình ảnh thông thường. Trong khi mô hình đầu tiên được sử dụng để theo dõi đối tượng trong tệp video, mô hình thứ hai định vị và xác định đối tượng trong một khung hình tĩnh như hình ảnh.

Do đó, các mô hình phát hiện đối tượng thời gian thực rất hiệu quả cho phân tích video, xe tự lái, đếm đối tượng, theo dõi nhiều đối tượng và nhiều hơn nữa.

YOLO Là Gì?

YOLO hoặc “Chỉ Nhìn Một Lần” là một họ các mô hình phát hiện đối tượng thời gian thực. Khái niệm YOLO được giới thiệu lần đầu tiên vào năm 2016 bởi Joseph Redmon và nó đã trở thành chủ đề nóng ngay lập tức vì nó nhanh hơn và chính xác hơn so với các thuật toán phát hiện đối tượng hiện có. Không lâu sau đó, thuật toán YOLO đã trở thành tiêu chuẩn trong ngành tầm nhìn máy tính.

Khái niệm cơ bản mà thuật toán YOLO đề xuất là sử dụng một mạng nơ-ron từ đầu đến cuối bằng cách sử dụng các hộp giới hạn và xác suất lớp để đưa ra dự đoán trong thời gian thực. YOLO khác với mô hình phát hiện đối tượng trước đó ở chỗ nó đề xuất một cách tiếp cận khác để thực hiện phát hiện đối tượng bằng cách tái sử dụng các bộ phân loại.

Sự thay đổi trong cách tiếp cận đã hoạt động vì YOLO sớm trở thành tiêu chuẩn trong ngành khi khoảng cách hiệu suất giữa nó và các thuật toán phát hiện đối tượng thời gian thực khác là đáng kể. Nhưng tại sao YOLO lại hiệu quả?

Khi so sánh với YOLO, các thuật toán phát hiện đối tượng trước đây sử dụng Mạng Đề Xuất Vùng để phát hiện các vùng quan tâm có thể. Quá trình nhận dạng sau đó được thực hiện trên mỗi vùng riêng biệt. Kết quả là các mô hình này thường thực hiện nhiều lần lặp trên cùng một hình ảnh và do đó thiếu độ chính xác và thời gian thực hiện cao hơn. Mặt khác, thuật toán YOLO sử dụng một lớp hoàn toàn kết nối để thực hiện dự đoán một lần.

YOLO Hoạt Động Như Thế Nào?

Có ba bước giải thích cách một thuật toán YOLO hoạt động.

Định Hình Lại Phát Hiện Đối Tượng Như Một Vấn Đề Hồi Quy Đơn

Thuật toán YOLO cố gắng định hình lại phát hiện đối tượng như một vấn đề hồi quy đơn, bao gồm cả các pixel hình ảnh, xác suất lớp và tọa độ hộp giới hạn. Do đó, thuật toán phải nhìn vào hình ảnh chỉ một lần để dự đoán và định vị các đối tượng mục tiêu trong hình ảnh.

Lý Do Toàn Cầu

Hơn nữa, khi thuật toán YOLO đưa ra dự đoán, nó lý do toàn cầu cho hình ảnh. Nó khác với các kỹ thuật dựa trên đề xuất vùng và trượt vì thuật toán YOLO nhìn thấy toàn bộ hình ảnh trong quá trình đào tạo và kiểm tra trên tập dữ liệu và có thể mã hóa thông tin ngữ cảnh về các lớp và cách chúng xuất hiện.

Trước YOLO, Fast R-CNN là một trong những thuật toán phát hiện đối tượng phổ biến nhất không thể nhìn thấy ngữ cảnh lớn hơn trong hình ảnh vì nó sử dụng để nhầm lẫn các bản vá nền trong hình ảnh cho một đối tượng. Khi so sánh với thuật toán Fast R-CNN, YOLO chính xác hơn 50% khi nói đến lỗi nền.

Tổng Quan Hóa Đại Diện Của Đối Tượng

Cuối cùng, thuật toán YOLO cũng nhằm tổng quan hóa đại diện của đối tượng trong hình ảnh. Kết quả là khi một thuật toán YOLO được chạy trên một tập dữ liệu với hình ảnh tự nhiên và được kiểm tra kết quả, YOLO vượt trội so với các mô hình R-CNN hiện có với một khoảng cách lớn. Đó là vì YOLO rất tổng quát, khả năng nó bị hỏng khi triển khai trên đầu vào không mong muốn hoặc miền mới là nhỏ.

YOLOv7: Cái Gì Mới?

Bây giờ chúng ta đã có một hiểu biết cơ bản về những gì là phát hiện đối tượng thời gian thực và những gì là thuật toán YOLO, đã đến lúc thảo luận về thuật toán YOLOv7.

Tối Ưu Hóa Quá Trình Đào Tạo

Thuật toán YOLOv7 không chỉ cố gắng tối ưu hóa kiến trúc mô hình, mà nó cũng nhằm tối ưu hóa quá trình đào tạo. Nó nhằm sử dụng các mô-đun và phương pháp tối ưu hóa để cải thiện độ chính xác của phát hiện đối tượng, tăng cường chi phí đào tạo trong khi duy trì chi phí can thiệp. Những mô-đun tối ưu hóa này có thể được gọi là một túi miễn phí có thể đào tạo.

Gán Nhãn Hướng Dẫn Từ Thô Đến Tinh

Thuật toán YOLOv7 dự định sử dụng một Gán Nhãn Hướng Dẫn Từ Thô Đến Tinh mới thay vì Gán Nhãn Động. Đó là vì với gán nhãn động, đào tạo một mô hình với nhiều lớp đầu ra gây ra một số vấn đề, phổ biến nhất là làm thế nào để gán mục tiêu động cho các nhánh khác nhau và đầu ra của chúng.

Định Hình Lại Mô Hình

Định hình lại mô hình là một khái niệm quan trọng trong phát hiện đối tượng và việc sử dụng nó thường đi kèm với một số vấn đề trong quá trình đào tạo. Thuật toán YOLOv7 dự định sử dụng đường dẫn truyền播 gradient để phân tích các chính sách định hình lại mô hình áp dụng cho các lớp khác nhau trong mạng.

Kéo Dài Và Tích Hợp Quy Mô

Thuật toán YOLOv7 cũng giới thiệu các phương pháp kéo dài và tích hợp quy mô để sử dụng và sử dụng hiệu quả các tham số và tính toán cho phát hiện đối tượng thời gian thực.

YOLOv7: Các Công Việc Liên Quan

Phát Hiện Đối Tượng Thời Gian Thực

YOLO hiện là tiêu chuẩn trong ngành, và hầu hết các bộ phát hiện đối tượng thời gian thực đều triển khai các thuật toán YOLO và FCOS (Phát Hiện Đối Tượng Một Giai Đoạn Toàn Bộ). Một bộ phát hiện đối tượng thời gian thực hiện đại thường có các đặc điểm sau

Kiến trúc mạng mạnh hơn và nhanh hơn.
Một phương pháp tích hợp tính năng hiệu quả.
Một phương pháp phát hiện đối tượng chính xác.
Một hàm mất mát mạnh mẽ.
Một phương pháp gán nhãn hiệu quả.
Một phương pháp đào tạo hiệu quả.

Thuật toán YOLOv7 không sử dụng các phương pháp học tự giám sát và chưng cất thường yêu cầu lượng lớn dữ liệu. Ngược lại, thuật toán YOLOv7 sử dụng một phương pháp túi miễn phí có thể đào tạo.

Định Hình Lại Mô Hình

Các kỹ thuật định hình lại mô hình được coi là một kỹ thuật tổng hợp kết hợp nhiều mô-đun tính toán trong một giai đoạn can thiệp. Kỹ thuật này có thể được chia thành hai loại, tổng hợp cấp mô hình và tổng hợp cấp mô-đun.

Bây giờ, để có được mô hình can thiệp cuối cùng, kỹ thuật tổng hợp cấp mô hình sử dụng hai thực hành. Thực hành đầu tiên sử dụng dữ liệu đào tạo khác nhau để đào tạo nhiều mô hình giống hệt nhau, sau đó trung bình các trọng số của các mô hình đã đào tạo. Ngoài ra, thực hành khác trung bình các trọng số của mô hình trong các lần lặp khác nhau.

Tổng hợp cấp mô-đun đang trở nên phổ biến gần đây vì nó chia một mô-đun thành các nhánh mô-đun khác nhau hoặc các nhánh giống hệt nhau trong quá trình đào tạo, sau đó tích hợp các nhánh này vào một mô-đun tương đương trong khi can thiệp.

Tuy nhiên, các kỹ thuật định hình lại mô hình không thể áp dụng cho tất cả các loại kiến trúc. Đó là lý do tại sao thuật toán YOLOv7 sử dụng các kỹ thuật định hình lại mô hình mới để thiết kế các chiến lược liên quan phù hợp với các kiến trúc khác nhau.

Quy Mô Mô Hình

Quy mô mô hình là quá trình quy mô lên hoặc xuống một mô hình hiện có để nó phù hợp với các thiết bị tính toán khác nhau. Quy mô mô hình thường sử dụng nhiều yếu tố như số lớp (độ sâu), kích thước hình ảnh đầu vào (độ phân giải), số lượng kim tự tháp tính năng (giai đoạn) và số lượng kênh (chiều rộng). Những yếu tố này đóng vai trò quan trọng trong việc đảm bảo sự cân bằng thương mại cho các tham số mạng, tốc độ can thiệp, tính toán và độ chính xác của mô hình.

Một trong những phương pháp quy mô phổ biến nhất là Tìm Kiếm Kiến Trúc Mạng (NAS) tự động tìm kiếm các yếu tố quy mô phù hợp từ các công cụ tìm kiếm mà không có quy tắc phức tạp. Nhược điểm chính của việc sử dụng NAS là nó là một phương pháp tìm kiếm tốn kém để tìm các yếu tố quy mô phù hợp.

Hầu như mọi mô hình quy mô đều phân tích các yếu tố quy mô riêng biệt và độc lập, và thậm chí tối ưu hóa các yếu tố này độc lập. Đó là vì kiến trúc NAS hoạt động với các yếu tố quy mô không tương quan.

Đáng chú ý là các mô hình như VoVNet hoặc DenseNet thay đổi chiều rộng đầu vào của một số lớp khi độ sâu của mô hình được quy mô. Thuật toán YOLOv7 hoạt động trên một kiến trúc dựa trên nối, và do đó sử dụng một phương pháp quy mô hợp chất.

Hình ảnh trên so sánh các mạng tích hợp lớp hiệu quả mở rộng (E-ELAN) của các mô hình khác nhau. Phương pháp E-ELAN đề xuất duy trì đường truyền播 gradient của kiến trúc ban đầu, nhưng nhằm tăng số lượng tính năng được thêm vào bằng cách sử dụng tích hợp nhóm. Quá trình này có thể tăng cường các tính năng được học bởi các bản đồ khác nhau và có thể làm cho việc sử dụng tính toán và tham số hiệu quả hơn.

Kiến Trúc YOLOv7

Mô hình YOLOv7 sử dụng các mô hình YOLOv4, YOLO-R và YOLOv4 đã được điều chỉnh làm mô hình cơ sở. YOLOv7 là kết quả của các thí nghiệm được thực hiện trên các mô hình này để cải thiện kết quả và làm cho mô hình chính xác hơn.

Mạng Tích Hợp Lớp Hiệu Quả Mở Rộng (E-ELAN)

E-ELAN là khối xây dựng cơ bản của mô hình YOLOv7 và nó được dẫn xuất từ các mô hình hiện có về hiệu quả mạng, chủ yếu là ELAN.

Các yếu tố xem xét chính khi thiết kế một kiến trúc hiệu quả là số lượng tham số, mật độ tính toán và số lượng tính toán. Các mô hình khác cũng xem xét các yếu tố như tỷ lệ kênh đầu vào/đầu ra, các nhánh trong kiến trúc mạng, tốc độ can thiệp mạng, số lượng phần tử trong các tensor của mạng tích hợp và nhiều hơn nữa.

Mô hình CSPVoNet không chỉ xem xét các tham số trên mà còn phân tích đường truyền播 gradient để học các tính năng đa dạng hơn bằng cách kích hoạt các trọng số của các lớp khác nhau. Cách tiếp cận này cho phép can thiệp nhanh hơn và chính xác hơn. Kiến trúc ELAN nhằm thiết kế một mạng hiệu quả để kiểm soát đường truyền播 gradient ngắn nhất để mạng có thể học và hội tụ hiệu quả hơn.

ELAN đã đạt đến một trạng thái ổn định bất kể số lượng khối tính toán được xếp chồng. Trạng thái ổn định này có thể bị phá hủy nếu các khối tính toán được xếp chồng không giới hạn và tỷ lệ sử dụng tham số sẽ giảm. Kiến trúc E-ELAN đề xuất có thể giải quyết vấn đề này vì nó sử dụng mở rộng, trộn và hợp nhất số lượng thẻ để liên tục tăng cường khả năng học của mạng trong khi vẫn giữ nguyên đường truyền播 gradient.

Hơn nữa, khi so sánh kiến trúc E-ELAN với ELAN, sự khác biệt duy nhất là trong khối tính toán, trong khi kiến trúc lớp chuyển đổi vẫn không thay đổi.

E-ELAN đề xuất mở rộng số lượng thẻ của các khối tính toán và mở rộng kênh bằng cách sử dụng tích hợp nhóm. Bản đồ tính năng sau đó sẽ được tính toán và trộn thành các nhóm theo tham số nhóm, sau đó sẽ được nối lại với nhau. Số lượng kênh trong mỗi nhóm sẽ vẫn giống như trong kiến trúc ban đầu. Cuối cùng, các nhóm bản đồ tính năng sẽ được thêm vào để thực hiện số lượng thẻ.

Quy Mô Mô Hình Cho Các Mô Hình Dựa Trên Nối

Quy mô mô hình giúp điều chỉnh các thuộc tính của mô hình để tạo ra các mô hình phù hợp với các yêu cầu và quy mô khác nhau để đáp ứng các tốc độ can thiệp khác nhau.

Hình ảnh trên thảo luận về quy mô mô hình cho các mô hình dựa trên nối. Như bạn có thể thấy trong hình (a) và (b), chiều rộng đầu ra của khối tính toán tăng lên khi tăng quy mô độ sâu của mô hình. Kết quả là chiều rộng đầu vào của các lớp truyền tăng lên. Nếu các phương pháp này được thực hiện trên kiến trúc dựa trên nối, quá trình quy mô sẽ được thực hiện theo chiều sâu và được thể hiện trong hình (c).

Do đó, có thể kết luận rằng không thể phân tích các yếu tố quy mô độc lập cho các mô hình dựa trên nối và thay vào đó chúng phải được xem xét cùng nhau. Do đó, đối với một mô hình dựa trên nối, sử dụng phương pháp quy mô hợp chất tương ứng là phù hợp. Ngoài ra, khi yếu tố độ sâu được quy mô, kênh đầu ra của khối phải được quy mô cùng.

Túi Miễn Phí Có Thể Đào Tạo

Túi miễn phí là một thuật ngữ mà các nhà phát triển sử dụng để mô tả một tập hợp các phương pháp hoặc kỹ thuật có thể thay đổi chiến lược đào tạo hoặc chi phí trong một nỗ lực để tăng độ chính xác của mô hình. Vậy những túi miễn phí có thể đào tạo nào trong YOLOv7? Hãy cùng xem.

Định Hình Lại Lập Kế Hoạch Convolution

Thuật toán YOLOv7 sử dụng các đường truyền播 gradient để xác định làm thế nào để kết hợp một mạng với convolution đã được định hình lại. Cách tiếp cận này của YOLov7 là một nỗ lực để chống lại Thuật Toán RepConv mà mặc dù đã hoạt động tốt trên mô hình VGG, nhưng hoạt động kém khi áp dụng trực tiếp cho các mô hình DenseNet và ResNet.

Để xác định các kết nối trong một lớp convolution, Thuật Toán RepConv kết hợp convolution 3×3 và convolution 1×1. Nếu chúng ta phân tích thuật toán, hiệu suất và kiến trúc, chúng ta sẽ thấy rằng RepConv phá hủy nối trong DenseNet và dư trong ResNet.

Hình ảnh trên mô tả một mô hình đã được định hình lại lập kế hoạch. Có thể thấy rằng thuật toán YOLov7 đã tìm thấy rằng một lớp trong mạng với các kết nối nối hoặc dư không nên có một kết nối danh tính trong thuật toán RepConv. Kết quả là, có thể chấp nhận được để chuyển sang RepConvN không có kết nối danh tính.

Thô Cho Phụ Và Tinh Cho Hướng Dẫn Mất Mát

Giám Sát Sâu là một nhánh trong khoa học máy tính thường được sử dụng trong quá trình đào tạo của các mạng sâu. Nguyên tắc cơ bản của giám sát sâu là thêm một đầu phụ vào giữa các lớp của mạng cùng với các trọng số mạng nông với mất mát phụ làm hướng dẫn. Đầu mà chịu trách nhiệm cho đầu ra cuối cùng được thuật toán YOLOv7 gọi là đầu dẫn, và đầu phụ là đầu giúp đào tạo.

Tiếp theo, YOLOv7 sử dụng một phương pháp gán nhãn khác. Thông thường, gán nhãn đã được sử dụng để tạo nhãn bằng cách tham khảo trực tiếp đến sự thật và dựa trên một tập hợp các quy tắc nhất định. Tuy nhiên, trong những năm gần đây, phân phối và chất lượng của đầu vào dự đoán đã đóng một vai trò quan trọng trong việc tạo ra một nhãn đáng tin cậy. YOLOv7 tạo ra một nhãn mềm của đối tượng bằng cách sử dụng dự đoán của hộp giới hạn và sự thật.

Hơn nữa, phương pháp gán nhãn mới của thuật toán YOLOv7 sử dụng dự đoán của đầu dẫn để hướng dẫn cả đầu dẫn và đầu phụ. Phương pháp gán nhãn có hai chiến lược được đề xuất.

Đầu Dẫn Hướng Dẫn Gán Nhãn

Chiến lược này thực hiện các tính toán dựa trên kết quả dự đoán của đầu dẫn và sự thật, sau đó sử dụng tối ưu hóa để tạo ra các nhãn mềm. Các nhãn mềm này sau đó được sử dụng làm mô hình đào tạo cho cả đầu dẫn và đầu phụ.

Chiến lược này hoạt động trên giả định rằng vì đầu dẫn có khả năng học lớn hơn, các nhãn nó tạo ra nên đại diện và tương quan giữa nguồn và đích.

Đầu Dẫn Hướng Dẫn Gán Nhãn Từ Thô Đến Tinh

Chiến lược này cũng thực hiện các tính toán dựa trên kết quả dự đoán của đầu dẫn và sự thật, sau đó sử dụng tối ưu hóa để tạo ra các nhãn mềm. Tuy nhiên, có một sự khác biệt chính. Trong chiến lược này, có hai tập nhãn mềm, mức thô và nhãn tinh.

Nhãn thô được tạo ra bằng cách thư giãn các ràng buộc của quá trình gán mẫu dương.

Nhãn tinh được tạo ra bằng cách sử dụng dự đoán của đầu dẫn.

Hình ảnh trên giải thích việc sử dụng túi miễn phí có thể đào tạo trong thuật toán YOLOv7. Nó mô tả thô cho đầu phụ và tinh cho đầu dẫn. Khi so sánh một mô hình có đầu phụ (b) với mô hình thông thường (a), chúng ta sẽ thấy rằng lược đồ (b) có một đầu phụ, trong khi nó không có trong (a).

Hình (c) mô tả lược đồ gán nhãn độc lập thông thường trong khi hình (d) và (e) đại diện cho Gán Nhãn Hướng Dẫn và Gán Nhãn Hướng Dẫn Từ Thô Đến Tinh được sử dụng bởi YOLOv7.

Các Túi Miễn Phí Có Thể Đào Tạo Khác

Ngoài những cái đã đề cập ở trên, thuật toán YOLOv7 sử dụng các túi miễn phí có thể đào tạo bổ sung, mặc dù chúng không được đề xuất ban đầu bởi họ. Chúng là

Quy Định Mảng Trong Công Nghệ Conv-Bn-Hoạt Hóa: Chiến lược này được sử dụng để kết nối một lớp convolution trực tiếp với lớp quy định mảng.
Kiến Thức Ngầm Trong YOLOR: Thuật toán YOLOv7 kết hợp chiến lược này với bản đồ tính năng convolution.
Mô Hình EMA: Mô hình EMA được sử dụng làm mô hình tham chiếu cuối cùng trong YOLOv7 mặc dù việc sử dụng chính của nó là được sử dụng trong phương pháp giáo viên trung bình.

YOLOv7: Thí Nghiệm

Cài Đặt Thí Nghiệm

Thuật toán YOLOv7 sử dụng tập dữ liệu Microsoft COCO để đào tạo và xác thực mô hình phát hiện đối tượng của họ, và không tất cả các thí nghiệm này sử dụng một mô hình đã được đào tạo trước. Các nhà phát triển đã sử dụng tập dữ liệu đào tạo năm 2017 để đào tạo, và sử dụng tập dữ liệu xác thực năm 2017 để chọn các siêu tham số. Cuối cùng, hiệu suất của kết quả phát hiện đối tượng YOLOv7 được so sánh với các thuật toán phát hiện đối tượng hiện đại.

Các nhà phát triển đã thiết kế một mô hình cơ bản cho GPU cạnh (YOLOv7-tiny), GPU thông thường (YOLOv7) và GPU đám mây (YOLOv7-W6). Hơn nữa, thuật toán YOLOv7 cũng sử dụng một mô hình cơ bản cho việc quy mô mô hình theo các yêu cầu dịch vụ khác nhau và nhận được các mô hình khác nhau. Đối với thuật toán YOLOv7, việc xếp chồng quy mô được thực hiện trên cổ và các hợp chất được đề xuất được sử dụng để tăng quy mô độ sâu và chiều rộng của mô hình.

Đường Dẫn

Thuật toán YOLOv7 sử dụng các mô hình YOLO trước đó và thuật toán phát hiện đối tượng YOLOR làm đường dẫn.

Hình ảnh trên so sánh đường dẫn của mô hình YOLOv7 với các mô hình phát hiện đối tượng khác, và kết quả rất rõ ràng. Khi so sánh với thuật toán YOLOv4, YOLOv7 không chỉ sử dụng 75% ít tham số hơn, mà nó cũng sử dụng 15% ít tính toán hơn và có độ chính xác cao hơn 0,4%.

So Sánh Với Các Mô Hình Phát Hiện Đối Tượng Hiện Đại

Hình ảnh trên cho thấy kết quả khi YOLOv7 được so sánh với các mô hình phát hiện đối tượng hiện đại cho GPU di động và GPU thông thường. Có thể thấy rằng phương pháp được đề xuất bởi thuật toán YOLOv7 có điểm giao dịch tốc độ-chính xác tốt nhất.

Phân Tích Ablation: Phương Pháp Quy Mô Hợp Chất Đề Xuất

Hình ảnh trên so sánh kết quả của việc sử dụng các chiến lược khác nhau để tăng quy mô mô hình. Chiến lược quy mô trong mô hình YOLOv7 tăng độ sâu của khối tính toán lên 1,5 lần và tăng chiều rộng lên 1,25 lần.

Khi so sánh với một mô hình chỉ tăng quy mô độ sâu, mô hình YOLOv7 hoạt động tốt hơn 0,5% trong khi sử dụng ít tham số và tính toán hơn. Mặt khác, khi so sánh với các mô hình chỉ tăng quy mô chiều rộng, độ chính xác của YOLOv7 được cải thiện 0,2%, nhưng số lượng tham số cần phải được tăng quy mô 2,9% và tính toán 1,2%.

Phương Pháp Định Hình Lại Lập Kế Hoạch Đề Xuất

Để xác minh tính tổng quát của mô hình định hình lại lập kế hoạch được đề xuất, thuật toán YOLOv7 sử dụng nó trên các mô hình dựa trên dư và dựa trên nối để xác minh. Đối với quá trình xác minh, thuật toán YOLOv7 sử dụng 3-ELAN xếp chồng cho mô hình dựa trên nối và CSPDarknet cho mô hình dựa trên dư.

Đối với mô hình dựa trên nối, thuật toán thay thế các lớp convolution 3×3 trong 3-ELAN xếp chồng bằng RepConv. Hình dưới đây cho thấy cấu hình chi tiết của Planned RepConv và 3-ELAN xếp chồng.

Hơn nữa, khi xử lý mô hình dựa trên dư, thuật toán YOLOv7 sử dụng một khối tối dark ngược vì khối tối ban đầu không có một lớp convolution 3×3. Hình dưới đây cho thấy kiến trúc của Reversed CSPDarknet, nó đảo ngược vị trí của các lớp convolution 3×3 và 1×1.

Phụ Trợ Mất Mát Cho Đầu Phụ

Đối với mất mát phụ cho đầu phụ, mô hình YOLOv7 so sánh gán nhãn độc lập cho đầu phụ và đầu dẫn.

Hình trên chứa kết quả của nghiên cứu về đầu phụ được đề xuất. Có thể thấy rằng hiệu suất tổng thể của mô hình tăng lên khi tăng mất mát phụ. Hơn nữa, gán nhãn hướng dẫn dẫn đầu được đề xuất bởi mô hình YOLOv7 hoạt động tốt hơn so với các chiến lược gán nhãn dẫn đầu độc lập.

Kết Quả YOLOv7

Dựa trên các thí nghiệm trên, đây là kết quả của hiệu suất YOLOv7 khi so sánh với các thuật toán phát hiện đối tượng khác.

Hình trên so sánh mô hình YOLOv7 với các thuật toán phát hiện đối tượng khác, và có thể thấy rõ ràng rằng YOLOv7 vượt trội so với các mô hình phát hiện đối tượng khác về Độ Chính Xác Trung Bình (AP) so với can thiệp批.

Hơn nữa, hình dưới đây so sánh hiệu suất của YOLOv7 so với các thuật toán phát hiện đối tượng thời gian thực khác. Một lần nữa, YOLOv7 vượt trội so với các mô hình khác về hiệu suất tổng thể, độ chính xác và hiệu quả.

Dưới đây là một số quan sát bổ sung từ kết quả và hiệu suất của YOLOv7.

YOLOv7-Tiny là mô hình nhỏ nhất trong gia đình YOLO, với hơn 6 triệu tham số. YOLOv7-Tiny có Độ Chính Xác Trung Bình là 35,2% và nó vượt trội so với các mô hình YOLOv4-Tiny có số lượng tham số tương đương.
Mô hình YOLOv7 có hơn 37 triệu tham số và nó vượt trội so với các mô hình có số lượng tham số cao hơn như YOLov4.
Mô hình YOLOv7 có mAP và tốc độ khung hình cao nhất trong phạm vi từ 5 đến 160 khung hình/giây.

Kết Luận

YOLO hoặc “Chỉ Nhìn Một Lần” là mô hình phát hiện đối tượng hiện đại trong tầm nhìn máy tính. Thuật toán YOLO được biết đến với độ chính xác cao và hiệu quả, và do đó, nó tìm thấy ứng dụng rộng rãi trong ngành công nghiệp phát hiện đối tượng thời gian thực. Kể từ khi thuật toán YOLO đầu tiên được giới thiệu vào năm 2016, các thí nghiệm đã cho phép các nhà phát triển cải thiện mô hình liên tục.

Mô hình YOLOv7 là bổ sung mới nhất trong gia đình YOLO và nó là mô hình YOLO mạnh nhất cho đến nay. Trong bài viết này, chúng tôi đã thảo luận về các nguyên tắc cơ bản của YOLOv7 và cố gắng giải thích những gì làm cho YOLOv7 hiệu quả như vậy.

Kunal Kejriwal

"Là một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu & sự hiểu biết sâu sắc về AI và ML, tận tâm đơn giản hóa các khái niệm phức tạp trong những lĩnh vực này thông qua tài liệu hấp dẫn và đầy thông tin của mình.