sơ khai CNN (Mạng thần kinh chuyển đổi) là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

CNN (Mạng thần kinh chuyển đổi) là gì?

mm
cập nhật on

Có lẽ bạn đã tự hỏi làm thế nào Facebook hoặc Instagram có thể tự động nhận dạng khuôn mặt trong một hình ảnh hoặc cách Google cho phép bạn tìm kiếm trên web những bức ảnh tương tự chỉ bằng cách tải lên ảnh của chính bạn. Những tính năng này là ví dụ về thị giác máy tính và chúng được hỗ trợ bởi mạng nơ-ron phức hợp (CNN). Tuy nhiên, mạng lưới thần kinh tích chập chính xác là gì? Hãy đi sâu vào kiến ​​trúc của CNN và hiểu cách chúng hoạt động.

Mạng thần kinh là gì?

Trước khi chúng ta bắt đầu nói về mạng nơ ron tích chập, hãy dành một chút thời gian để định nghĩa mạng nơ ron thông thường. có bài viết khác về chủ đề mạng lưới thần kinh có sẵn, vì vậy chúng tôi sẽ không đi quá sâu vào chúng ở đây. Tuy nhiên, để định nghĩa ngắn gọn thì chúng là những mô hình tính toán lấy cảm hứng từ bộ não con người. Mạng thần kinh vận hành bằng cách lấy dữ liệu và thao tác dữ liệu bằng cách điều chỉnh “trọng số”, là các giả định về cách các tính năng đầu vào có liên quan với nhau và với lớp của đối tượng. Khi mạng được đào tạo, các giá trị của trọng số được điều chỉnh và hy vọng chúng sẽ hội tụ về các trọng số nắm bắt chính xác mối quan hệ giữa các tính năng.

Đây là cách hoạt động của mạng thần kinh chuyển tiếp nguồn cấp dữ liệu và CNN bao gồm hai nửa: mạng thần kinh chuyển tiếp nguồn cấp dữ liệu và một nhóm các lớp tích chập.

Mạng thần kinh chuyển đổi (CNN) là gì?

Các “sự phức tạp” xảy ra trong mạng lưới thần kinh tích chập là gì? Tích chập là một phép toán tạo ra một tập hợp các trọng số, về cơ bản là tạo ra sự biểu diễn các phần của hình ảnh. Tập hợp trọng số này được gọi là hạt nhân hoặc bộ lọc. Bộ lọc được tạo nhỏ hơn toàn bộ hình ảnh đầu vào, chỉ bao phủ một phần phụ của hình ảnh. Các giá trị trong bộ lọc được nhân với các giá trị trong hình ảnh. Sau đó, bộ lọc được chuyển qua để tạo thành một biểu diễn của một phần mới của hình ảnh và quá trình này được lặp lại cho đến khi toàn bộ hình ảnh được bao phủ.

Một cách khác để nghĩ về điều này là tưởng tượng một bức tường gạch, với những viên gạch đại diện cho các pixel trong hình ảnh đầu vào. Một “cửa sổ” đang được trượt qua lại dọc theo bức tường, đó là bộ lọc. Các viên gạch có thể xem được qua cửa sổ là các pixel có giá trị của chúng nhân với các giá trị trong bộ lọc. Vì lý do này, phương pháp tạo trọng số bằng bộ lọc này thường được gọi là kỹ thuật “cửa sổ trượt”.

Đầu ra từ các bộ lọc được di chuyển xung quanh toàn bộ hình ảnh đầu vào là một mảng hai chiều đại diện cho toàn bộ hình ảnh. Mảng này được gọi là một “bản đồ đặc trưng”.

Tại sao Convolutions lại cần thiết

Mục đích của việc tạo kết cấu là gì? Convolutions là cần thiết vì mạng nơ-ron phải có khả năng diễn giải các pixel trong ảnh dưới dạng giá trị số. Chức năng của các lớp tích chập là chuyển đổi hình ảnh thành các giá trị số mà mạng thần kinh có thể diễn giải và sau đó trích xuất các mẫu có liên quan từ đó. Công việc của các bộ lọc trong mạng tích chập là tạo ra một mảng giá trị hai chiều có thể được truyền vào các lớp sau của mạng thần kinh, những lớp này sẽ học các mẫu trong hình ảnh.

Bộ lọc và Kênh

Ảnh: cecebur qua Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Convolutional_Neural_Network_NeuralNetworkFeatureLayers.gif)

CNN không chỉ sử dụng một bộ lọc để tìm hiểu các mẫu từ hình ảnh đầu vào. Nhiều bộ lọc được sử dụng, vì các mảng khác nhau được tạo bởi các bộ lọc khác nhau dẫn đến sự thể hiện phong phú, phức tạp hơn của hình ảnh đầu vào. Số bộ lọc phổ biến cho CNN là 32, 64, 128 và 512. Càng có nhiều bộ lọc, CNN càng có nhiều cơ hội kiểm tra dữ liệu đầu vào và học hỏi từ dữ liệu đó.

CNN phân tích sự khác biệt về giá trị pixel để xác định đường viền của đối tượng. Trong một hình ảnh thang độ xám, CNN sẽ chỉ xem xét sự khác biệt về màu đen và trắng, từ sáng đến tối. Khi hình ảnh là hình ảnh màu, CNN không chỉ tính đến bóng tối và ánh sáng mà còn phải tính đến ba kênh màu khác nhau – đỏ, lục và lam – nữa. Trong trường hợp này, các bộ lọc có 3 kênh, giống như hình ảnh. Số lượng kênh mà bộ lọc có được gọi là độ sâu của nó và số lượng kênh trong bộ lọc phải khớp với số lượng kênh trong hình ảnh.

Mạng thần kinh hợp hiến (CNN) Kiến trúc

Chúng ta hãy nhìn vào kiến ​​trúc hoàn chỉnh của một mạng lưới thần kinh tích chập. Một lớp tích chập được tìm thấy ở đầu mỗi mạng tích chập, vì cần phải chuyển đổi dữ liệu hình ảnh thành các mảng số. Tuy nhiên, các lớp chập cũng có thể xuất hiện sau các lớp chập khác, nghĩa là các lớp này có thể được xếp chồng lên nhau. Có nhiều lớp tích chập có nghĩa là đầu ra từ một lớp có thể trải qua nhiều lần tích chập hơn nữa và được nhóm lại với nhau theo các mẫu có liên quan. Trên thực tế, điều này có nghĩa là khi dữ liệu hình ảnh đi qua các lớp tích chập, mạng bắt đầu “nhận ra” các đặc điểm phức tạp hơn của hình ảnh.

Các lớp đầu tiên của ConvNet chịu trách nhiệm trích xuất các tính năng cấp thấp, chẳng hạn như các pixel tạo nên các dòng đơn giản. Các lớp sau của ConvNet sẽ nối các đường này lại với nhau thành hình. Quá trình chuyển từ phân tích cấp độ bề mặt sang phân tích cấp độ sâu này tiếp tục cho đến khi ConvNet nhận ra các hình dạng phức tạp như động vật, khuôn mặt người và ô tô.

Sau khi dữ liệu đã đi qua tất cả các lớp tích chập, nó sẽ chuyển sang phần được kết nối dày đặc của CNN. Các lớp được kết nối dày đặc giống như mạng thần kinh chuyển tiếp nguồn cấp dữ liệu truyền thống, một loạt các nút được sắp xếp thành các lớp được kết nối với nhau. Dữ liệu tiến hành thông qua các lớp được kết nối dày đặc này, lớp này học các mẫu được trích xuất bởi các lớp tích chập và khi làm như vậy, mạng có khả năng nhận dạng các đối tượng.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.