AI 101
Những Mạng Nơ-Ron Transformer Là Gì?

Mạng Nơ-Ron Transformer Được Mô Tả
Transformers là một loại mô hình học máy chuyên về việc xử lý và giải thích dữ liệu tuần tự, khiến chúng trở nên tối ưu cho các nhiệm vụ xử lý ngôn ngữ tự nhiên. Để hiểu rõ hơn về một mô hình học máy transformer là gì và cách chúng hoạt động, hãy cùng xem xét kỹ lưỡng về các mô hình transformer và các cơ chế thúc đẩy chúng.
Bài viết này sẽ bao gồm:
- Mô Hình Từ-Trước-Sang-Sau
- Cấu Trúc Mạng Nơ-Ron Transformer
- Cơ Chế Chú Ý
- Sự Khác Biệt Giữa Transformers Và RNNs/LSTMs
Mô Hình Từ-Trước-Sang-Sau
Mô hình từ-trước-sang-sau là một loại mô hình NLP được sử dụng để chuyển đổi các chuỗi dữ liệu từ một loại sang một loại khác. Có nhiều loại mô hình từ-trước-sang-sau, chẳng hạn như Mô Hình Mạng Nơ-Ron Recurrent và Mô Hình Bộ Nhớ Ngắn Hạn Dài Hạn (LSTM).
Các mô hình từ-trước-sang-sau truyền thống như RNNs và LSTMs không phải là trọng tâm của bài viết này, nhưng việc hiểu về chúng là cần thiết để đánh giá cao cách các mô hình transformer hoạt động và tại sao chúng vượt trội so với các mô hình từ-trước-sang-sau truyền thống.
Tóm lại, các mô hình RNN và LSTM bao gồm các mạng mã hóa và giải mã phân tích dữ liệu đầu vào tại các bước thời gian khác nhau. Mô hình mã hóa chịu trách nhiệm tạo ra một biểu diễn mã hóa của các từ trong dữ liệu đầu vào. Tại mỗi bước thời gian, mạng mã hóa lấy một chuỗi đầu vào và một trạng thái ẩn từ bước thời gian trước trong chuỗi. Các giá trị trạng thái ẩn được cập nhật khi dữ liệu di chuyển qua mạng, cho đến bước thời gian cuối cùng, nơi một “vector ngữ cảnh” được tạo ra. Vector ngữ cảnh sau đó được truyền đến mạng giải mã, được sử dụng để tạo ra một chuỗi đích bằng cách dự đoán từ có khả năng nhất kết hợp với từ đầu vào cho từng bước thời gian.
Những mô hình này có thể được tăng cường thông qua việc sử dụng một “cơ chế chú ý”. Một cơ chế chú ý xác định哪 phần của vector đầu vào mà mạng nên tập trung vào để tạo ra đầu ra chính xác. Nói cách khác, một cơ chế chú ý cho phép mô hình transformer xử lý một từ đầu vào trong khi cũng chú ý đến thông tin liên quan chứa trong các từ đầu vào khác. Cơ chế chú ý cũng che giấu các từ không chứa thông tin liên quan.
Cấu Trúc Mạng Nơ-Ron Transformer
Chúng ta sẽ đi sâu vào cơ chế chú ý sau, nhưng trước tiên hãy xem xét cấu trúc của một mạng nơ-ron transformer ở mức cao hơn.
Nói chung, một mạng nơ-ron transformer nhìn giống như sau:

Mặc dù cấu trúc chung này có thể thay đổi giữa các mạng, nhưng các phần cốt lõi sẽ vẫn giống nhau: mã hóa vị trí, vector từ, cơ chế chú ý, mạng nơ-ron tiến hành.
Mã Hóa Vị Trí Và Vector Từ
Một mạng nơ-ron transformer hoạt động bằng cách lấy một chuỗi đầu vào và chuyển đổi chúng thành hai chuỗi khác. Mạng transformer tạo ra một chuỗi vector từ và mã hóa vị trí.
Vector từ chỉ là văn bản được biểu diễn dưới dạng số mà mạng nơ-ron có thể xử lý. Trong khi đó, mã hóa vị trí là các biểu diễn vector hóa chứa thông tin về vị trí của từ hiện tại trong câu đầu vào so với các từ khác.
Các mô hình mạng nơ-ron dựa trên văn bản khác như RNNs và LSTMs sử dụng vector để biểu diễn các từ trong dữ liệu đầu vào. Những vector này ánh xạ từ đến các giá trị không đổi, nhưng điều này hạn chế vì từ có thể được sử dụng trong các ngữ cảnh khác nhau. Một mạng transformer giải quyết vấn đề này bằng cách làm cho giá trị từ trở nên linh hoạt hơn, sử dụng các hàm sinus để cho phép vector từ lấy các giá trị khác nhau tùy thuộc vào vị trí của từ trong câu.
Điều này cho phép mô hình mạng nơ-ron bảo tồn thông tin về vị trí tương đối của các từ đầu vào, ngay cả sau khi vector di chuyển qua các lớp của mạng transformer.
Mã hóa vị trí và vector từ được cộng lại và sau đó được đưa vào cả mạng mã hóa và giải mã. Mặc dù mạng nơ-ron transformer sử dụng sơ đồ mã hóa/giải mã giống như RNNs và LSTMs, nhưng một sự khác biệt chính giữa chúng là tất cả dữ liệu đầu vào được đưa vào mạng cùng một lúc, trong khi ở RNNs/LSTMs, dữ liệu được đưa vào tuần tự.
Mạng mã hóa chịu trách nhiệm chuyển đổi đầu vào thành biểu diễn mà mạng có thể học được, trong khi mạng giải mã làm ngược lại và chuyển đổi mã hóa thành một phân phối xác suất được sử dụng để tạo ra từ có khả năng nhất trong câu đầu ra. Điều quan trọng là cả mạng mã hóa và giải mã đều có một cơ chế chú ý.
Vì GPU có khả năng xử lý song song, nhiều cơ chế chú ý được sử dụng song song, tính toán thông tin liên quan cho tất cả các từ đầu vào. Khả năng này để chú ý đến nhiều từ cùng một lúc, được gọi là “chú ý đa đầu”, giúp mạng nơ-ron học được ngữ cảnh của một từ trong một câu, và đây là một trong những lợi thế chính mà mạng transformer có hơn RNNs và LSTMs.
Cơ Chế Chú Ý
Cơ chế chú ý là phần quan trọng nhất của một mạng transformer. Cơ chế chú ý là gì cho phép các mô hình transformer vượt qua giới hạn chú ý của một mô hình RNN hoặc LSTM thông thường. Các mô hình tuần tự-trước-sau truyền thống loại bỏ tất cả các trạng thái trung gian và chỉ sử dụng trạng thái cuối cùng/vec-tơ ngữ cảnh khi khởi tạo mạng giải mã để tạo ra dự đoán về một chuỗi đầu vào.
Loại bỏ mọi thứ ngoại trừ vector ngữ cảnh cuối cùng hoạt động khá tốt khi các chuỗi đầu vào khá nhỏ. Tuy nhiên, khi độ dài của một chuỗi đầu vào tăng lên, hiệu suất của mô hình sẽ giảm khi sử dụng phương pháp này. Điều này là do việc tóm tắt một chuỗi đầu vào dài thành một vector duy nhất trở nên khá khó khăn. Giải pháp là tăng “chú ý” của mô hình và sử dụng các trạng thái mã hóa trung gian để xây dựng vector ngữ cảnh cho mạng giải mã.
Cơ chế chú ý xác định mức độ quan trọng của các token đầu vào khác với mô hình khi mã hóa được tạo ra cho bất kỳ token nào. Ví dụ, “nó” là một đại từ chung, thường được sử dụng để chỉ động vật khi giới tính của chúng không được biết. Một cơ chế chú ý sẽ cho phép một mô hình transformer xác định rằng trong ngữ cảnh hiện tại “nó” ám chỉ một con sóc, vì nó có thể kiểm tra tất cả các từ liên quan trong câu đầu vào.
Một cơ chế chú ý có thể được sử dụng theo ba cách khác nhau: mã hóa-decode, mã hóa-chỉ, giải mã-chỉ.
Chú ý mã hóa-decode cho phép giải mã xem xét các chuỗi đầu vào khi tạo ra đầu ra, trong khi cơ chế chú ý mã hóa-chỉ và giải mã-chỉ cho phép mạng xem xét tất cả các phần của chuỗi trước và hiện tại tương ứng.
Việc xây dựng một cơ chế chú ý có thể được chia thành năm bước:
- Tính toán điểm số cho tất cả các trạng thái mã hóa.
- Tính toán trọng số chú ý
- Tính toán vector ngữ cảnh
- Cập nhật vector ngữ cảnh với đầu ra bước thời gian trước
- Tạo đầu ra với giải mã
Bước đầu tiên là để giải mã tính toán điểm số cho tất cả các trạng thái mã hóa. Điều này được thực hiện bằng cách đào tạo mạng giải mã, là một mạng nơ-ron tiến hành cơ bản. Khi giải mã được đào tạo trên từ đầu tiên trong chuỗi đầu vào, không có trạng thái nội bộ nào được tạo ra, vì vậy trạng thái cuối cùng của mã hóa thường được sử dụng làm trạng thái trước đó của giải mã.
Để tính toán trọng số chú ý, một hàm softmax được sử dụng để tạo ra một phân phối xác suất cho trọng số chú ý.
Khi trọng số chú ý đã được tính toán, vector ngữ cảnh cần được tính toán. Điều này được thực hiện bằng cách nhân trọng số chú ý và trạng thái ẩn với nhau cho từng bước thời gian.
Sau khi vector ngữ cảnh được tính toán, nó được sử dụng cùng với từ được tạo ra trong bước thời gian trước để tạo ra từ tiếp theo trong chuỗi đầu ra. Vì giải mã không có đầu ra trước để tham khảo trong bước thời gian đầu tiên, nên một token “bắt đầu” đặc biệt thường được sử dụng thay thế.
Sự Khác Biệt Giữa Transformers & RNNs/LSTMs
Hãy cùng xem xét nhanh một số sự khác biệt giữa RNNs và LSTMs.
RNNs xử lý đầu vào tuần tự, trong khi một vector trạng thái ẩn được duy trì và thay đổi bởi các từ đầu vào khi chúng di chuyển qua mạng. Các trạng thái ẩn của một RNN thường chứa rất ít thông tin liên quan về các đầu vào trước đó. Các đầu vào mới thường ghi đè lên trạng thái hiện tại, điều này gây ra mất mát thông tin và giảm hiệu suất theo thời gian.
Ngược lại, các mô hình transformer xử lý toàn bộ chuỗi đầu vào cùng một lúc. Cơ chế chú ý cho phép mỗi từ đầu ra được thông tin bởi mỗi từ đầu vào và trạng thái ẩn, khiến mạng trở nên đáng tin cậy hơn cho các văn bản dài.
LSTMs là phiên bản sửa đổi của RNNs, được điều chỉnh để xử lý các chuỗi đầu vào dài hơn. Kiến trúc LSTM sử dụng một cấu trúc gọi là “cổng”, với “cổng đầu vào”, “cổng đầu ra” và “cổng quên”. Thiết kế cổng xử lý mất mát thông tin phổ biến ở các mô hình RNN. Dữ liệu vẫn được xử lý tuần tự, và thiết kế tuần hoàn của kiến trúc khiến các mô hình LSTM khó đào tạo bằng cách tính toán song song, khiến thời gian đào tạo tổng thể dài hơn.
Các kỹ sư LSTM thường thêm cơ chế chú ý vào mạng, điều này được biết đến là cải thiện hiệu suất của mô hình. Tuy nhiên, cuối cùng đã được phát hiện ra rằng cơ chế chú ý alone cải thiện độ chính xác. Phát hiện này dẫn đến việc tạo ra các mạng transformer sử dụng cơ chế chú ý và tính toán song song nhờ GPU.








