AI 101

Học sâu là gì?

cập nhật on Tháng Mười Một 28, 2020

Học sâu là một trong những lĩnh vực có ảnh hưởng nhất và phát triển nhanh nhất trong trí tuệ nhân tạo. Tuy nhiên, việc hiểu trực quan về deep learning có thể khó khăn vì thuật ngữ deep learning bao gồm nhiều thuật toán và kỹ thuật khác nhau. Học sâu cũng là một phân ngành của học máy nói chung, vì vậy điều quan trọng là phải hiểu học máy là gì để hiểu được học sâu.

Học máy là gì?

Học kĩ càng là phần mở rộng của một số khái niệm bắt nguồn từ học máy, vì vậy, vì lý do đó, chúng ta hãy dành một phút để giải thích học máy là gì.

Nói một cách đơn giản, học máy là một phương pháp cho phép máy tính thực hiện các tác vụ cụ thể mà không cần mã hóa rõ ràng mọi dòng thuật toán được sử dụng để hoàn thành các tác vụ đó. Có nhiều thuật toán học máy khác nhau, nhưng một trong những thuật toán được sử dụng phổ biến nhất là tri giác đa lớp. Một perceptron đa lớp còn được gọi là mạng thần kinh và nó bao gồm một loạt các nút/nơ-ron được liên kết với nhau. Có ba lớp khác nhau trong một perceptron đa lớp: lớp đầu vào, lớp ẩn và lớp đầu ra.

Lớp đầu vào đưa dữ liệu vào mạng, nơi dữ liệu được thao tác bởi các nút ở lớp giữa/lớp ẩn. Các nút trong lớp ẩn là các hàm toán học có thể thao tác dữ liệu đến từ lớp đầu vào, trích xuất các mẫu có liên quan từ dữ liệu đầu vào. Đây là cách mạng nơ-ron “học”. Mạng nơ-ron lấy tên từ thực tế là chúng được lấy cảm hứng từ cấu trúc và chức năng của bộ não con người.

Các kết nối giữa các nút trong mạng có các giá trị được gọi là trọng số. Các giá trị này về cơ bản là các giả định về cách dữ liệu trong một lớp có liên quan đến dữ liệu trong lớp tiếp theo. Khi mạng huấn luyện, các trọng số được điều chỉnh và mục tiêu là các trọng số/giả định về dữ liệu cuối cùng sẽ hội tụ về các giá trị thể hiện chính xác các mẫu có ý nghĩa trong dữ liệu.

Các hàm kích hoạt có mặt trong các nút của mạng và các hàm kích hoạt này biến đổi dữ liệu theo kiểu phi tuyến tính, cho phép mạng tìm hiểu các biểu diễn phức tạp của dữ liệu. Các hàm kích hoạt nhân các giá trị đầu vào với các giá trị trọng số và thêm một thuật ngữ sai lệch.

Học sâu là gì?

Học sâu là thuật ngữ dành cho các kiến trúc máy học kết hợp nhiều tri giác đa lớp lại với nhau, do đó không chỉ có một lớp ẩn mà có nhiều lớp ẩn. Mạng nơ-ron sâu càng “sâu” thì mạng càng có thể học các mẫu phức tạp hơn.

Các mạng lớp sâu bao gồm các nơ-ron đôi khi được gọi là các mạng được kết nối đầy đủ hoặc các lớp được kết nối đầy đủ, đề cập đến thực tế là một nơ-ron nhất định duy trì kết nối với tất cả các nơ-ron xung quanh nó. Các mạng được kết nối đầy đủ có thể được kết hợp với các chức năng học máy khác để tạo ra các kiến trúc học sâu khác nhau.

Các loại học sâu khác nhau

Có nhiều kiến trúc deep learning được sử dụng bởi các nhà nghiên cứu và kỹ sư, và mỗi kiến trúc khác nhau đều có trường hợp sử dụng đặc biệt riêng.

Mạng lưới thần kinh chuyển đổi

Mạng lưới thần kinh chuyển đổi, hay CNN, là kiến trúc mạng thần kinh thường được sử dụng trong việc tạo ra các hệ thống thị giác máy tính. Cấu trúc của mạng nơ ron tích chập cho phép chúng diễn giải dữ liệu hình ảnh, chuyển đổi chúng thành những con số mà mạng được kết nối đầy đủ có thể diễn giải. Một CNN có bốn thành phần chính:

lớp tích chập
Các lớp lấy mẫu con/gộp
chức năng kích hoạt
Các lớp được kết nối đầy đủ

Các lớp tích chập là những gì lấy hình ảnh làm đầu vào cho mạng, phân tích hình ảnh và nhận các giá trị của pixel. Lấy mẫu con hoặc tổng hợp là nơi các giá trị hình ảnh được chuyển đổi/giảm bớt để đơn giản hóa việc thể hiện hình ảnh và giảm độ nhạy của bộ lọc hình ảnh với nhiễu. Các chức năng kích hoạt kiểm soát cách dữ liệu truyền từ lớp này sang lớp tiếp theo và các lớp được kết nối đầy đủ sẽ phân tích các giá trị đại diện cho hình ảnh và tìm hiểu các mẫu được giữ trong các giá trị đó.

RNN/LSTM

Mạng nơron lặp lạihoặc RNN, phổ biến cho các tác vụ trong đó thứ tự của dữ liệu quan trọng, trong đó mạng phải tìm hiểu về một chuỗi dữ liệu. RNN thường được áp dụng cho các vấn đề như xử lý ngôn ngữ tự nhiên, vì thứ tự các từ rất quan trọng khi giải mã ý nghĩa của câu. Phần “tái phát” của thuật ngữ Mạng thần kinh tái phát xuất phát từ thực tế là đầu ra của một phần tử nhất định trong một chuỗi phụ thuộc vào tính toán trước đó cũng như tính toán hiện tại. Không giống như các dạng mạng nơ-ron sâu khác, RNN có “bộ nhớ” và thông tin được tính toán ở các bước thời gian khác nhau trong chuỗi được sử dụng để tính toán các giá trị cuối cùng.

Có nhiều loại RNN, bao gồm cả RNN hai chiều, có tính đến các mục trong tương lai trong chuỗi, ngoài các mục trước đó, khi tính giá trị của một mục. Một loại RNN khác là Bộ nhớ ngắn hạn dài hoặc LSTM, mạng. LSTM là loại RNN có thể xử lý chuỗi dữ liệu dài. Các RNN thông thường có thể trở thành nạn nhân của một thứ gọi là “vấn đề độ dốc bùng nổ”. Sự cố này xảy ra khi chuỗi dữ liệu đầu vào trở nên quá dài, nhưng LSTM có các kỹ thuật để giải quyết vấn đề này.

Tự động mã hóa

Hầu hết các kiến trúc deep learning được đề cập cho đến nay đều được áp dụng cho các bài toán học có giám sát, thay vì các nhiệm vụ học không giám sát. Bộ mã hóa tự động có thể chuyển đổi dữ liệu không được giám sát thành định dạng được giám sát, cho phép sử dụng mạng thần kinh để giải quyết vấn đề.

Tự động mã hóa thường được sử dụng để phát hiện sự bất thường trong tập dữ liệu, một ví dụ về học không giám sát vì bản chất của sự bất thường không được biết đến. Những ví dụ về phát hiện bất thường như vậy bao gồm phát hiện gian lận cho các tổ chức tài chính. Trong ngữ cảnh này, mục đích của bộ mã hóa tự động là xác định đường cơ sở của các mẫu thông thường trong dữ liệu và xác định các điểm bất thường hoặc ngoại lệ.

Cấu trúc của bộ mã hóa tự động thường đối xứng, với các lớp ẩn được sắp xếp sao cho đầu ra của mạng giống với đầu vào. Bốn loại bộ mã hóa tự động được sử dụng thường xuyên là:

Bộ mã hóa tự động thông thường/đồng bằng
Bộ mã hóa nhiều lớp
Bộ mã hóa chập
Bộ mã hóa chính quy

Bộ mã hóa tự động thông thường/đơn giản chỉ là các mạng thần kinh có một lớp ẩn duy nhất, trong khi bộ mã hóa tự động nhiều lớp là các mạng sâu có nhiều hơn một lớp ẩn. Bộ mã hóa tự động tích chập sử dụng các lớp tích chập thay vì hoặc bổ sung cho các lớp được kết nối đầy đủ. Bộ mã hóa tự động thông thường sử dụng một loại hàm mất mát cụ thể cho phép mạng thần kinh thực hiện các chức năng phức tạp hơn, các chức năng khác ngoài việc chỉ sao chép đầu vào thành đầu ra.

Mạng đối thủ chung

Mạng đối thủ chung (GAN) thực sự là nhiều mạng thần kinh sâu thay vì chỉ một mạng. Hai mô hình học sâu được đào tạo cùng lúc và kết quả đầu ra của chúng được cung cấp cho mạng khác. Các mạng đang cạnh tranh với nhau và vì chúng có quyền truy cập vào dữ liệu đầu ra của nhau nên cả hai đều học hỏi từ dữ liệu này và cải thiện. Về cơ bản, hai mạng đang chơi trò chơi giả mạo và phát hiện, trong đó mô hình chung cố gắng tạo ra các phiên bản mới sẽ đánh lừa mô hình thám tử/người phân biệt đối xử. GAN đã trở nên phổ biến trong lĩnh vực thị giác máy tính.

Tóm tắt học sâu

Học sâu mở rộng các nguyên tắc của mạng lưới thần kinh để tạo ra các mô hình phức tạp có thể học các mẫu phức tạp và khái quát hóa các mẫu đó cho các bộ dữ liệu trong tương lai. Mạng thần kinh tích chập được sử dụng để diễn giải hình ảnh, trong khi RNN/LSTM được sử dụng để diễn giải dữ liệu tuần tự. Bộ mã hóa tự động có thể chuyển đổi nhiệm vụ học không giám sát thành nhiệm vụ học có giám sát. Cuối cùng, GAN là nhiều mạng đọ sức với nhau, đặc biệt hữu ích cho các tác vụ thị giác máy tính.

Chủ đề liên quan:AI trí tuệ nhân tạo học kĩ càng máy học

Học tăng cường là gì?

Đừng bỏ lỡ

Học máy là gì?

Daniel Nelson

Blogger và lập trình viên có chuyên môn về Machine Learning và Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.

đoàn kết.AI

Học sâu là gì?

AI 101

Học sâu là gì?

Mục lục

Học máy là gì?

Học sâu là gì?