Trí tuệ nhân tạo

YOLOv7: Thuật Toán Phát Hiện Đối Tượng Tiên Tiến Nhất?

Published July 24, 2023

Updated March 16, 2026

Kunal Kejriwal

Ngày 6 tháng 7 năm 2022 sẽ được đánh dấu như một cột mốc trong lịch sử AI vì chính vào ngày này, YOLOv7 đã được phát hành. Kể từ khi ra mắt, YOLOv7 đã là chủ đề nóng nhất trong cộng đồng nhà phát triển Thị giác Máy tính, và với những lý do chính đáng. YOLOv7 đã được coi là một cột mốc trong ngành công nghiệp phát hiện đối tượng. Không lâu sau khi bài báo YOLOv7 được công bố, nó đã xuất hiện như là mô hình phát hiện đối tượng thời gian thực nhanh nhất và chính xác nhất. Nhưng làm thế nào YOLOv7 vượt trội hơn các phiên bản tiền nhiệm? Điều gì khiến YOLOv7 hiệu quả như vậy trong việc thực hiện các tác vụ thị giác máy tính? Trong bài viết này, chúng tôi sẽ cố gắng phân tích mô hình YOLOv7 và tìm câu trả lời cho việc tại sao YOLOv7 đang trở thành tiêu chuẩn công nghiệp? Nhưng trước khi trả lời điều đó, chúng ta sẽ phải xem xét qua lịch sử ngắn gọn của phát hiện đối tượng.

Phát Hiện Đối Tượng là gì?

Phát hiện đối tượng là một nhánh trong thị giác máy tính nhận diện và xác định vị trí các đối tượng trong một hình ảnh hoặc một tệp video. Phát hiện đối tượng là khối xây dựng của vô số ứng dụng bao gồm xe tự lái, giám sát được theo dõi và cả robot. Một mô hình phát hiện đối tượng có thể được phân loại thành hai hạng mục khác nhau, bộ phát hiện một lần (single-shot detectors), và bộ phát hiện nhiều lần (multi-shot detectors).

Phát Hiện Đối Tượng Thời Gian Thực

Để thực sự hiểu cách YOLOv7 hoạt động, điều cần thiết là chúng ta phải hiểu mục tiêu chính của YOLOv7, ” Phát Hiện Đối Tượng Thời Gian Thực”. Phát Hiện Đối Tượng Thời Gian Thực là một thành phần chính của thị giác máy tính hiện đại. Các mô hình Phát Hiện Đối Tượng Thời Gian Thực cố gắng nhận diện & xác định vị trí các đối tượng quan tâm trong thời gian thực. Các mô hình Phát Hiện Đối Tượng Thời Gian Thực đã giúp các nhà phát triển theo dõi các đối tượng quan tâm trong một khung hình chuyển động như video hoặc đầu vào giám sát trực tiếp một cách thực sự hiệu quả. Về cơ bản, các mô hình Phát Hiện Đối Tượng Thời Gian Thực là một bước tiến so với các mô hình phát hiện hình ảnh thông thường. Trong khi mô hình trước được sử dụng để theo dõi đối tượng trong các tệp video, thì mô hình sau xác định vị trí & nhận diện các đối tượng trong một khung hình tĩnh như một hình ảnh. Kết quả là, các mô hình Phát Hiện Đối Tượng Thời Gian Thực thực sự hiệu quả cho phân tích video, phương tiện tự hành, đếm đối tượng, theo dõi đa đối tượng và nhiều hơn nữa.

YOLO là gì?

YOLO hay ” You Only Look Once” là một họ các mô hình phát hiện đối tượng thời gian thực. Khái niệm YOLO lần đầu tiên được giới thiệu vào năm 2016 bởi Joseph Redmon, và nó gần như ngay lập tức trở thành chủ đề bàn tán vì nó nhanh hơn và chính xác hơn nhiều so với các thuật toán phát hiện đối tượng hiện có. Không lâu sau đó, thuật toán YOLO đã trở thành tiêu chuẩn trong ngành công nghiệp thị giác máy tính. Khái niệm cơ bản mà thuật toán YOLO đề xuất là sử dụng một mạng nơ-ron end-to-end sử dụng các hộp giới hạn (bounding boxes) & xác suất lớp để đưa ra dự đoán trong thời gian thực. YOLO khác với mô hình phát hiện đối tượng trước đó ở chỗ nó đề xuất một cách tiếp cận khác để thực hiện phát hiện đối tượng bằng cách tái mục đích các bộ phân loại. Sự thay đổi trong cách tiếp cận đã phát huy tác dụng khi YOLO nhanh chóng trở thành tiêu chuẩn công nghiệp vì khoảng cách hiệu suất giữa nó và các thuật toán phát hiện đối tượng thời gian thực khác là đáng kể. Nhưng lý do tại sao YOLO lại hiệu quả như vậy? Khi so sánh với YOLO, các thuật toán phát hiện đối tượng thời đó sử dụng Mạng Đề xuất Vùng (Region Proposal Networks) để phát hiện các vùng quan tâm có thể có. Quá trình nhận diện sau đó được thực hiện trên từng vùng riêng biệt. Kết quả là, các mô hình này thường thực hiện nhiều lần lặp trên cùng một hình ảnh, và do đó thiếu độ chính xác và thời gian thực thi cao hơn. Mặt khác, thuật toán YOLO sử dụng một lớp kết nối đầy đủ duy nhất để thực hiện dự đoán cùng một lúc.

YOLO Hoạt Động Như Thế Nào?

Có ba bước giải thích cách một thuật toán YOLO hoạt động.

Định Lại Phát Hiện Đối Tượng Như Một Bài Toán Hồi Quy Đơn

Thuật toán YOLO cố gắng định lại phát hiện đối tượng như một bài toán hồi quy đơn, bao gồm từ điểm ảnh hình ảnh, đến xác suất lớp và tọa độ hộp giới hạn. Do đó, thuật toán chỉ cần nhìn vào hình ảnh một lần để dự đoán & xác định vị trí các đối tượng mục tiêu trong hình ảnh.

Lập Luận Hình Ảnh Một Cách Toàn Cục

Hơn nữa, khi thuật toán YOLO đưa ra dự đoán, nó lập luận hình ảnh một cách toàn cục. Nó khác với các kỹ thuật dựa trên đề xuất vùng và trượt (sliding) vì thuật toán YOLO nhìn thấy toàn bộ hình ảnh trong quá trình đào tạo & kiểm tra trên tập dữ liệu, và có thể mã hóa thông tin ngữ cảnh về các lớp và cách chúng xuất hiện. Trước YOLO, Fast R-CNN là một trong những thuật toán phát hiện đối tượng phổ biến nhất không thể nhìn thấy ngữ cảnh lớn hơn trong hình ảnh vì nó thường nhầm các mảng nền trong hình ảnh thành một đối tượng. Khi so sánh với thuật toán Fast R-CNN, YOLO chính xác hơn 50% khi nói đến lỗi nền.

Biểu Diễn Tổng Quát Hóa Các Đối Tượng

Cuối cùng, thuật toán YOLO cũng nhằm mục đích tổng quát hóa các biểu diễn của các đối tượng trong một hình ảnh. Kết quả là, khi một thuật toán YOLO được chạy trên một tập dữ liệu với hình ảnh tự nhiên và kiểm tra kết quả, YOLO đã vượt trội hơn các mô hình R-CNN hiện có với một biên độ rộng. Bởi vì YOLO có khả năng tổng quát hóa cao, khả năng nó bị hỏng khi triển khai trên các đầu vào không mong đợi hoặc các miền mới là rất thấp.

YOLOv7: Có Gì Mới?

Bây giờ chúng ta đã có hiểu biết cơ bản về các mô hình phát hiện đối tượng thời gian thực là gì và thuật toán YOLO là gì, đã đến lúc thảo luận về thuật toán YOLOv7.

Tối Ưu Hóa Quá Trình Đào Tạo

Thuật toán YOLOv7 không chỉ cố gắng tối ưu hóa kiến trúc mô hình, mà nó còn nhằm mục đích tối ưu hóa quá trình đào tạo. Nó nhằm mục đích sử dụng các mô-đun & phương pháp tối ưu hóa để cải thiện độ chính xác của phát hiện đối tượng, củng cố chi phí cho đào tạo, trong khi vẫn duy trì chi phí can thiệp. Các mô-đun tối ưu hóa này có thể được gọi là một túi miễn phí có thể đào tạo (trainable bag of freebies).

Phân Gán Nhãn Hướng Dẫn Thô Đến Tinh

Thuật toán YOLOv7 dự định sử dụng một phương pháp Phân Gán Nhãn Hướng Dẫn Thô Đến Tinh mới thay vì phương pháp Phân Gán Nhãn Động (Dynamic Label Assignment) thông thường. Điều này là do với phân gán nhãn động, việc đào tạo một mô hình với nhiều lớp đầu ra gây ra một số vấn đề, phổ biến nhất trong số đó là cách gán các mục tiêu động cho các nhánh khác nhau và đầu ra của chúng.

Tái Tham Số Hóa Mô Hình

Tái tham số hóa mô hình là một khái niệm quan trọng trong phát hiện đối tượng, và việc sử dụng nó thường đi kèm với một số vấn đề trong quá trình đào tạo. Thuật toán YOLOv7 dự định sử dụng khái niệm đường truyền lan truyền gradient để phân tích các chính sách tái tham số hóa mô hình áp dụng cho các lớp khác nhau trong mạng.

Mở Rộng và Tỷ Lệ Hóa Hợp Thành

Thuật toán YOLOv7 cũng giới thiệu các phương pháp mở rộng và tỷ lệ hóa hợp thành (extended and compound scaling) để sử dụng và sử dụng hiệu quả các tham số & tính toán cho phát hiện đối tượng thời gian thực.

YOLOv7 : Công Việc Liên Quan

Phát Hiện Đối Tượng Thời Gian Thực

YOLO hiện là tiêu chuẩn công nghiệp, và hầu hết các bộ phát hiện đối tượng thời gian thực triển khai các thuật toán YOLO và FCOS (Fully Convolutional One-Stage Object-Detection). Một bộ phát hiện đối tượng thời gian thực tiên tiến thường có các đặc điểm sau

Kiến trúc mạng mạnh hơn & nhanh hơn.
Một phương pháp tích hợp đặc trưng hiệu quả.
Một phương pháp phát hiện đối tượng chính xác.
Một hàm mất mát mạnh mẽ.
Một phương pháp phân gán nhãn hiệu quả.
Một phương pháp đào tạo hiệu quả.

Thuật toán YOLOv7 không sử dụng phương pháp học tự giám sát & chưng c

Kunal Kejriwal

"Là một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu & sự hiểu biết sâu sắc về AI và ML, tận tâm đơn giản hóa các khái niệm phức tạp trong những lĩnh vực này thông qua tài liệu hấp dẫn và đầy thông tin của mình.