AI 101

Thị giác máy tính là gì?

cập nhật on 21 Tháng Bảy, 2023

Thị giác máy tính là gì?

Thuật toán thị giác máy tính là một trong những hệ thống AI mạnh mẽ và biến đổi nhất trên thế giới ở thời điểm hiện tại. Hệ thống thị giác máy tính xem việc sử dụng trong xe tự hành, điều hướng rô-bốt, hệ thống nhận dạng khuôn mặt, v.v. Tuy nhiên, thuật toán thị giác máy tính chính xác là gì? Họ làm việc như thế nào? Để trả lời những câu hỏi này, chúng ta sẽ đi sâu vào lý thuyết đằng sau thị giác máy tính, thuật toán thị giác máy tính và các ứng dụng cho hệ thống thị giác máy tính.

Hệ thống thị giác máy tính hoạt động như thế nào?

Để đánh giá đầy đủ cách các hệ thống thị giác máy tính hoạt động, trước tiên chúng ta hãy dành một chút thời gian để thảo luận về cách con người nhận ra các đối tượng. Giải thích tốt nhất mà tâm lý học thần kinh đưa ra về cách chúng ta nhận ra đồ vật là một mô hình mô tả giai đoạn đầu của quá trình nhận thức. Nhận dạng đối tượng là nơi mà các thành phần cơ bản của đồ vật, chẳng hạn như hình dạng, màu sắc và độ sâu được não diễn giải trước tiên. Các tín hiệu từ mắt đi vào não được phân tích để kéo ra các cạnh của một vật thể trước tiên và các cạnh này được nối với nhau thành một biểu diễn phức tạp hơn để hoàn thiện hình dạng của vật thể.

Các hệ thống thị giác máy tính hoạt động rất giống với hệ thống thị giác của con người, bằng cách đầu tiên phân biệt các cạnh của một đối tượng và sau đó nối các cạnh này lại với nhau thành dạng của đối tượng. Sự khác biệt lớn là do máy tính diễn giải hình ảnh dưới dạng số nên hệ thống thị giác máy tính cần một số cách để diễn giải các pixel riêng lẻ bao gồm hình ảnh. Hệ thống thị giác máy tính sẽ gán giá trị cho các pixel trong hình ảnh và bằng cách kiểm tra sự khác biệt về giá trị giữa một vùng pixel và vùng pixel khác, máy tính có thể phân biệt các cạnh. Chẳng hạn, nếu hình ảnh được đề cập là thang độ xám, thì các giá trị sẽ nằm trong khoảng từ đen (được biểu thị bằng 0) đến trắng (được biểu thị bằng 255). Một sự thay đổi đột ngột trong phạm vi giá trị của các pixel gần nhau sẽ biểu thị một cạnh.

Nguyên tắc cơ bản của việc so sánh các giá trị pixel này cũng có thể được thực hiện với các hình ảnh màu, với máy tính so sánh sự khác biệt giữa các kênh màu RGB khác nhau. Vì vậy, biết rằng chúng ta biết cách một hệ thống thị giác máy tính kiểm tra các giá trị pixel để diễn giải một hình ảnh, chúng ta hãy xem kiến trúc của một hệ thống thị giác máy tính.

Mạng thần kinh hợp pháp (CNN)

Loại AI chính được sử dụng trong các nhiệm vụ thị giác máy tính là một dựa trên mạng nơ ron tích chập. một tích chập chính xác là gì?

Convolutions là các quy trình toán học mà mạng sử dụng để xác định sự khác biệt về giá trị giữa các pixel. Nếu bạn hình dung một lưới các giá trị pixel, hãy hình dung một lưới nhỏ hơn đang được di chuyển trên lưới chính này. Các giá trị bên dưới lưới thứ hai đang được mạng phân tích, vì vậy mạng chỉ kiểm tra một số ít pixel tại một thời điểm. Đây thường được gọi là kỹ thuật “cửa sổ trượt”. Các giá trị được phân tích bởi cửa sổ trượt được mạng tóm tắt, điều này giúp giảm độ phức tạp của hình ảnh và giúp mạng trích xuất các mẫu dễ dàng hơn.

Mạng thần kinh tích chập là chia thành hai phần khác nhau, phần chập và phần liên thông đầy đủ. Các lớp tích chập của mạng là các bộ trích xuất đặc trưng, có nhiệm vụ phân tích các pixel trong hình ảnh và tạo thành các biểu diễn của chúng mà các lớp được kết nối dày đặc của mạng thần kinh có thể học các mẫu từ đó. Các lớp tích chập bắt đầu bằng cách chỉ kiểm tra các pixel và trích xuất các tính năng cấp thấp của hình ảnh như các cạnh. Các lớp chập sau này nối các cạnh lại với nhau thành các hình dạng phức tạp hơn. Cuối cùng, mạng hy vọng sẽ có một đại diện cho các cạnh và chi tiết của hình ảnh mà nó có thể chuyển đến các lớp được kết nối đầy đủ.

Chú thích Hình ảnh

Mặc dù mạng nơ ron tích chập có thể tự trích xuất các mẫu từ hình ảnh, nhưng độ chính xác của hệ thống thị giác máy tính có thể được cải thiện đáng kể bằng cách chú thích các hình ảnh. Chú thích hình ảnh là quá trình thêm siêu dữ liệu vào ảnh để hỗ trợ bộ phân loại phát hiện các đối tượng quan trọng trong ảnh. Việc sử dụng chú thích hình ảnh rất quan trọng bất cứ khi nào hệ thống thị giác máy tính cần có độ chính xác cao, chẳng hạn như khi điều khiển xe tự hành hoặc rô-bốt.

Có nhiều cách khác nhau mà hình ảnh có thể được chú thích để cải thiện hiệu suất của bộ phân loại thị giác máy tính. Chú thích hình ảnh thường được thực hiện với các hộp giới hạn, một hộp bao quanh các cạnh của đối tượng mục tiêu và báo cho máy tính tập trung sự chú ý của nó vào bên trong hộp. Phân đoạn ngữ nghĩa là một loại chú thích hình ảnh khác, hoạt động bằng cách gán một lớp hình ảnh cho mọi pixel trong hình ảnh. Nói cách khác, mọi pixel có thể được coi là “cỏ” hoặc “cây” sẽ được gắn nhãn thuộc về các lớp đó. Kỹ thuật này cung cấp độ chính xác ở cấp độ pixel, nhưng việc tạo các chú thích phân đoạn ngữ nghĩa phức tạp và tốn thời gian hơn so với việc tạo các hộp giới hạn đơn giản. Các phương pháp chú thích khác, như đường và điểm, cũng tồn tại.

Ma trận nhầm lẫn là gì?

Đừng bỏ lỡ

Mạng thần kinh là gì?

Daniel Nelson

Blogger và lập trình viên có chuyên môn về Machine Learning và Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.