AI 101
Những Mạng Nơ-Ron Transformer Là Gì?

Mô Tả Mạng Nơ-Ron Transformer
Transformer là một loại mô hình học máy chuyên về xử lý và giải thích dữ liệu tuần tự, khiến chúng trở nên lý tưởng cho các nhiệm vụ xử lý ngôn ngữ tự nhiên. Để hiểu rõ hơn về mô hình học máy transformer và cách chúng hoạt động, hãy cùng xem xét các mô hình transformer và các cơ chế thúc đẩy chúng.
Bài viết này sẽ bao gồm:
- Mô Hình Từ-Trước-Sang-Sau
- Cấu Trúc Mạng Nơ-Ron Transformer
- Cơ Chế Chú Ý
- Sự Khác Biệt Giữa Transformer Và RNN/LSTM
Mô Hình Từ-Trước-Sang-Sau
Mô hình từ-trước-sang-sau là một loại mô hình NLP được sử dụng để chuyển đổi các chuỗi dữ liệu từ một loại sang một loại khác. Có nhiều loại mô hình từ-trước-sang-sau, chẳng hạn như Mô Hình Nơ-Ron Recurrent và Mô Hình Bộ Nhớ Ngắn Hạn Dài Hạn (LSTM).
Các mô hình từ-trước-sang-sau truyền thống như RNN và LSTM không phải là trọng tâm của bài viết này, nhưng việc hiểu chúng là cần thiết để đánh giá cách các mô hình transformer hoạt động và tại sao chúng vượt trội so với các mô hình từ-trước-sang-sau truyền thống.
Tóm lại, các mô hình RNN và LSTM bao gồm các mạng mã hóa và giải mã phân tích dữ liệu đầu vào tại các bước thời gian khác nhau. Mô hình mã hóa chịu trách nhiệm tạo ra một biểu diễn mã hóa của các từ trong dữ liệu đầu vào. Tại mỗi bước thời gian, mô hình mã hóa lấy một chuỗi đầu vào và một trạng thái ẩn từ bước thời gian trước trong chuỗi. Các giá trị trạng thái ẩn được cập nhật khi dữ liệu di chuyển qua mạng, cho đến bước thời gian cuối cùng, nơi một “vector ngữ cảnh” được tạo ra. Vector ngữ cảnh sau đó được truyền đến mô hình giải mã, được sử dụng để tạo ra một chuỗi đích bằng cách dự đoán từ có khả năng nhất kết hợp với từ đầu vào cho từng bước thời gian.
Những mô hình này có thể được tăng cường thông qua việc sử dụng một “cơ chế chú ý”. Một cơ chế chú ý xác định哪 phần của vector đầu vào mà mạng nên tập trung vào để tạo ra đầu ra chính xác. Để nói một cách khác, một cơ chế chú ý cho phép mô hình transformer xử lý một từ đầu vào trong khi cũng chú ý đến thông tin liên quan chứa trong các từ đầu vào khác. Cơ chế chú ý cũng che giấu các từ không chứa thông tin liên quan.
Cấu Trúc Mạng Nơ-Ron Transformer
Chúng ta sẽ đi sâu vào cơ chế chú ý sau, nhưng trước tiên hãy xem xét cấu trúc của một mạng nơ-ron transformer ở mức cao hơn.
Nói chung, một mạng nơ-ron transformer trông giống như sau:

Mặc dù cấu trúc chung này có thể thay đổi giữa các mạng, nhưng các thành phần cốt lõi sẽ vẫn còn: mã hóa vị trí, vector từ, cơ chế chú ý, mạng nơ-ron tiến hành.
Mã Hóa Vị Trí Và Vector Từ
Một mạng nơ-ron transformer hoạt động bằng cách lấy một chuỗi đầu vào và chuyển đổi chúng thành hai chuỗi khác. Mạng tạo ra một chuỗi vector từ và mã hóa vị trí.
Vector từ chỉ là văn bản được biểu diễn dưới dạng số mà mạng nơ-ron có thể xử lý. Trong khi đó, mã hóa vị trí là các biểu diễn vector hóa chứa thông tin về vị trí của từ hiện tại trong câu so với các từ khác.
Các mô hình mạng nơ-ron dựa trên văn bản khác như RNN và LSTM sử dụng vector để biểu diễn các từ trong dữ liệu đầu vào. Những vector nhúng này ánh xạ từ đến các giá trị không đổi, nhưng điều này hạn chế vì từ có thể được sử dụng trong các ngữ cảnh khác nhau. Một mạng transformer giải quyết vấn đề này bằng cách làm cho giá trị từ trở nên linh hoạt hơn, sử dụng các hàm sinus để cho phép vector từ lấy các giá trị khác nhau tùy thuộc vào vị trí của từ trong câu.
Điều này cho phép mô hình mạng nơ-ron giữ lại thông tin về vị trí tương đối của các từ đầu vào, ngay cả sau khi vector di chuyển qua các lớp của mạng transformer.
Mã hóa vị trí và vector từ được cộng lại rồi truyền vào cả mạng mã hóa và giải mã. Mặc dù mạng transformer sử dụng các lược đồ mã hóa/giải mã giống như RNN và LSTM, nhưng một sự khác biệt chính giữa chúng là tất cả dữ liệu đầu vào được đưa vào mạng cùng một lúc, trong khi ở RNN/LSTM, dữ liệu được đưa vào tuần tự.
Các mạng mã hóa chịu trách nhiệm chuyển đổi đầu vào thành các biểu diễn mà mạng có thể học được, trong khi các mạng giải mã làm ngược lại và chuyển đổi các mã hóa thành một phân phối xác suất được sử dụng để tạo ra từ có khả năng nhất trong câu đầu ra. Quan trọng là, cả mạng mã hóa và giải mã đều có một cơ chế chú ý.
Vì GPU có khả năng xử lý song song, nhiều cơ chế chú ý được sử dụng song song, tính toán thông tin liên quan cho tất cả các từ đầu vào. Khả năng này cho phép mạng nơ-ron học được ngữ cảnh của một từ trong một câu, và đây là một trong những lợi thế chính mà mạng transformer có so với RNN và LSTM.
Cơ Chế Chú Ý
Cơ chế chú ý là phần quan trọng nhất của mạng transformer. Cơ chế chú ý là gì cho phép các mô hình transformer vượt qua giới hạn chú ý của mô hình RNN hoặc LSTM truyền thống. Các mô hình tuần tự-trước-sau truyền thống loại bỏ tất cả các trạng thái trung gian và chỉ sử dụng trạng thái cuối cùng / vector ngữ cảnh khi khởi tạo mạng giải mã để tạo ra dự đoán về một chuỗi đầu vào.
Loại bỏ mọi thứ ngoại trừ vector ngữ cảnh cuối cùng hoạt động tốt khi các chuỗi đầu vào khá nhỏ. Tuy nhiên, khi chiều dài của chuỗi đầu vào tăng lên, hiệu suất của mô hình sẽ giảm khi sử dụng phương pháp này. Điều này là do việc tóm tắt một chuỗi đầu vào dài thành một vector duy nhất trở nên khá khó khăn. Giải pháp là tăng “chú ý” của mô hình và sử dụng các trạng thái mã hóa trung gian để xây dựng vector ngữ cảnh cho mạng giải mã.
Cơ chế chú ý xác định mức độ quan trọng của các token đầu vào khác đối với mô hình khi mã hóa được tạo ra cho bất kỳ token nào. Ví dụ, “nó” là một đại từ nhân xưng chung, thường được sử dụng để chỉ động vật khi giới tính của chúng không được biết. Một cơ chế chú ý sẽ cho phép mô hình transformer xác định rằng trong ngữ cảnh hiện tại, “nó” ám chỉ một con sóc, vì nó có thể xem xét tất cả các từ liên quan trong câu đầu vào.
Cơ chế chú ý có thể được sử dụng theo ba cách khác nhau: mã hóa-sang-giải mã, chỉ mã hóa, chỉ giải mã.
Chú ý mã hóa-sang-giải mã cho phép giải mã xem xét các chuỗi đầu vào khi tạo ra đầu ra, trong khi cơ chế chú ý chỉ mã hóa và chỉ giải mã cho phép các mạng xem xét tất cả các phần của chuỗi trước và hiện tại tương ứng.
Việc xây dựng một cơ chế chú ý có thể được chia thành năm bước:
- Tính toán điểm số cho tất cả các trạng thái mã hóa.
- Tính toán trọng số chú ý
- Tính toán vector ngữ cảnh
- Cập nhật vector ngữ cảnh với đầu ra bước thời gian trước
- Tạo ra đầu ra với giải mã
Bước đầu tiên là để giải mã tính toán điểm số cho tất cả các trạng thái mã hóa. Điều này được thực hiện bằng cách đào tạo mạng giải mã, là một mạng nơ-ron tiến hành cơ bản. Khi giải mã được đào tạo trên từ đầu tiên trong chuỗi đầu vào, không có trạng thái nội bộ / ẩn nào được tạo ra, vì vậy trạng thái cuối cùng của mã hóa thường được sử dụng làm trạng thái trước của giải mã.
Để tính toán trọng số chú ý, một hàm softmax được sử dụng để tạo ra một phân phối xác suất cho trọng số chú ý.
Sau khi tính toán trọng số chú ý, vector ngữ cảnh cần được tính toán. Điều này được thực hiện bằng cách nhân trọng số chú ý và trạng thái ẩn cùng nhau cho mỗi bước thời gian.
Sau khi vector ngữ cảnh được tính toán, nó được sử dụng cùng với từ được tạo ra ở bước thời gian trước để tạo ra từ tiếp theo trong chuỗi đầu ra. Vì giải mã không có đầu ra trước để tham khảo trong bước thời gian đầu tiên, nên thường sử dụng một token “bắt đầu” đặc biệt thay thế.
Sự Khác Biệt Giữa Transformer Và RNN/LSTM
Hãy nhanh chóng xem xét một số sự khác biệt giữa RNN và LSTM.
RNN xử lý đầu vào tuần tự, trong khi một vector trạng thái ẩn được duy trì và thay đổi bởi các từ đầu vào khi chúng di chuyển qua mạng. Các trạng thái ẩn của RNN thường chứa rất ít thông tin liên quan về các đầu vào trước đó. Các đầu vào mới thường ghi đè lên trạng thái hiện tại, gây ra mất mát thông tin và giảm hiệu suất theo thời gian.
Ngược lại, các mô hình transformer xử lý toàn bộ chuỗi đầu vào cùng một lúc. Cơ chế chú ý cho phép mỗi từ đầu ra được thông tin bởi mỗi từ đầu vào và trạng thái ẩn, khiến mạng trở nên đáng tin cậy hơn cho các văn bản dài.
LSTM là phiên bản sửa đổi của RNN, được điều chỉnh để xử lý các chuỗi đầu vào dài hơn. Kiến trúc LSTM sử dụng một cấu trúc gọi là “cổng”, với “cổng đầu vào”, “cổng đầu ra” và “cổng quên”. Thiết kế cổng xử lý mất mát thông tin phổ biến ở các mô hình RNN. Dữ liệu vẫn được xử lý tuần tự, và thiết kế tuần hoàn của kiến trúc làm cho các mô hình LSTM khó đào tạo bằng cách tính toán song song, khiến thời gian đào tạo tổng thể dài hơn.
Các kỹ sư LSTM thường thêm cơ chế chú ý vào mạng, điều này được biết đến là cải thiện hiệu suất của mô hình. Tuy nhiên, sau đó người ta phát hiện ra rằng cơ chế chú ý đơn thuần cải thiện độ chính xác. Khám phá này dẫn đến việc tạo ra các mạng transformer sử dụng cơ chế chú ý và tính toán song song nhờ GPU.












