Connect with us

AI 101

Máy Tính Nhìn Là Gì?

mm

Máy Tính Nhìn Là Gì?

Các thuật toán máy tính nhìn là một trong những hệ thống AI mạnh mẽ và biến đổi nhất trên thế giới, vào lúc này. Hệ thống máy tính nhìn được sử dụng trong các phương tiện tự động, điều hướng robot, hệ thống nhận dạng khuôn mặt và nhiều hơn. Tuy nhiên, chính xác thì các thuật toán máy tính nhìn là gì? Chúng hoạt động như thế nào? Để trả lời những câu hỏi này, chúng ta sẽ đi sâu vào lý thuyết đằng sau máy tính nhìn, các thuật toán máy tính nhìn và ứng dụng cho các hệ thống máy tính nhìn.

Làm Thế Nào Để Hệ Thống Máy Tính Nhìn Hoạt Động?

Để hoàn toàn đánh giá cao cách hệ thống máy tính nhìn hoạt động, hãy dành một chút thời gian để thảo luận về cách con người nhận biết các đối tượng. Giải thích tốt nhất về thần kinh học có cho cách chúng ta nhận biết các đối tượng là một mô hình mô tả giai đoạn đầu của nhận dạng đối tượng như một nơi mà các thành phần cơ bản của các đối tượng, chẳng hạn như hình dạng, màu sắc và độ sâu được giải thích bởi não bộ trước tiên. Các tín hiệu từ mắt vào não được phân tích để kéo ra các cạnh của một đối tượng trước tiên, và các cạnh này được kết hợp lại với nhau thành một biểu diễn phức tạp hơn hoàn thành hình dạng của đối tượng.

Hệ thống máy tính nhìn hoạt động rất giống với hệ thống thị giác của con người, bằng cách đầu tiên phân biệt các cạnh của một đối tượng và sau đó kết hợp các cạnh này lại với nhau thành hình dạng của đối tượng. Sự khác biệt lớn là vì máy tính giải thích các hình ảnh như các số, một hệ thống máy tính nhìn cần một số cách để giải thích các pixel riêng lẻ tạo nên hình ảnh. Hệ thống máy tính nhìn sẽ gán giá trị cho các pixel trong hình ảnh và bằng cách kiểm tra sự khác biệt trong giá trị giữa một vùng pixel và một vùng pixel khác, máy tính có thể phân biệt các cạnh. Ví dụ, nếu hình ảnh đang được hỏi là hình ảnh thang độ xám, thì các giá trị sẽ nằm trong khoảng từ đen (được biểu diễn bằng 0) đến trắng (được biểu diễn bằng 255). Một sự thay đổi đột ngột trong phạm vi giá trị của các pixel gần nhau sẽ chỉ ra một cạnh.

Nguyên tắc cơ bản này về việc so sánh giá trị pixel cũng có thể được thực hiện với các hình ảnh màu, với máy tính so sánh sự khác biệt giữa các kênh màu RGB khác nhau. Vậy bây giờ chúng ta biết một hệ thống máy tính nhìn kiểm tra giá trị pixel để giải thích một hình ảnh, hãy xem xét kiến trúc của một hệ thống máy tính nhìn.

Mạng Nơ-Ron Lồi (CNNs)

Loại AI chính được sử dụng trong các nhiệm vụ máy tính nhìn là một loại dựa trên mạng nơ-ron lồi. Vậy convolution chính xác là gì?

Convolution là các quá trình toán học mà mạng sử dụng để xác định sự khác biệt trong giá trị giữa các pixel. Nếu bạn hình dung một lưới giá trị pixel, hãy tưởng tượng một lưới nhỏ hơn được di chuyển trên lưới này. Các giá trị dưới lưới thứ hai được phân tích bởi mạng, vì vậy mạng chỉ phân tích một số pixel tại một thời điểm. Điều này thường được gọi là kỹ thuật “cửa sổ trượt”. Các giá trị được phân tích bởi cửa sổ trượt được tóm tắt bởi mạng, điều này giúp giảm độ phức tạp của hình ảnh và làm cho nó dễ dàng hơn cho mạng để trích xuất các mẫu.

Mạng nơ-ron lồi được chia thành hai phần khác nhau, phần lồi và phần kết nối đầy đủ. Các lớp lồi của mạng là các trình trích xuất tính năng, công việc của chúng là phân tích các pixel trong hình ảnh và tạo ra các biểu diễn của chúng mà các lớp kết nối dày đặc của mạng nơ-ron có thể học từ. Các lớp lồi bắt đầu bằng cách chỉ kiểm tra các pixel và trích xuất các tính năng cấp thấp của hình ảnh như các cạnh. Các lớp lồi sau đó kết hợp các cạnh lại với nhau thành các hình dạng phức tạp hơn. Cuối cùng, mạng sẽ hy vọng có một biểu diễn của các cạnh và chi tiết của hình ảnh mà nó có thể truyền đến các lớp kết nối đầy đủ.

Chú Thích Hình Ảnh

Mặc dù một mạng nơ-ron lồi có thể trích xuất mẫu từ hình ảnh bằng chính nó, độ chính xác của hệ thống máy tính nhìn có thể được cải thiện đáng kể bằng cách chú thích hình ảnh. Chú thích hình ảnh là quá trình thêm siêu dữ liệu vào hình ảnh để hỗ trợ phân loại器 trong việc phát hiện các đối tượng quan trọng trong hình ảnh. Việc sử dụng chú thích hình ảnh là quan trọng mỗi khi hệ thống máy tính nhìn cần phải chính xác cao, chẳng hạn như khi điều khiển một phương tiện tự động hoặc robot.

Có nhiều cách để chú thích hình ảnh để cải thiện hiệu suất của một phân loại器 máy tính nhìn. Chú thích hình ảnh thường được thực hiện với các hộp bao quanh, một hộp bao quanh các cạnh của đối tượng mục tiêu và thông báo cho máy tính tập trung sự chú ý của nó vào trong hộp. Phân đoạn ngữ nghĩa là một loại chú thích hình ảnh khác, hoạt động bằng cách gán một lớp hình ảnh cho mỗi pixel trong hình ảnh. Nói cách khác, mỗi pixel có thể được coi là “cỏ” hoặc “cây” sẽ được dán nhãn thuộc về các lớp đó. Kỹ thuật này cung cấp độ chính xác ở cấp pixel, nhưng việc tạo ra các chú thích phân đoạn ngữ nghĩa là phức tạp và tốn thời gian hơn so với việc tạo ra các hộp bao quanh đơn giản. Các phương pháp chú thích khác, như dòng và điểm, cũng tồn tại.

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.