Trí tuệ nhân tạo

NLP trỗi dậy với các mô hình máy biến áp | Phân tích toàn diện về T5, BERT và GPT

Được phát hành

6 tháng trước

Tháng Mười Một 8, 2023

Xử lý ngôn ngữ tự nhiên (NLP) đã trải qua một số bước đột phá có tác động mạnh mẽ nhất trong những năm gần đây, chủ yếu là do kiến trúc máy biến áp. Những đột phá này không chỉ nâng cao khả năng hiểu và tạo ra ngôn ngữ của con người mà còn xác định lại bối cảnh của nhiều ứng dụng, từ công cụ tìm kiếm đến AI đàm thoại.

Để đánh giá đầy đủ tầm quan trọng của máy biến áp, trước tiên chúng ta phải nhìn lại những người đi trước và những khối xây dựng đã đặt nền móng cho kiến trúc mang tính cách mạng này.

Kỹ thuật NLP ban đầu: Nền tảng trước Transformers

Nhúng từ: Từ One-Hot đến Word2Vec

Trong các phương pháp tiếp cận NLP truyền thống, cách biểu diễn các từ thường theo nghĩa đen và thiếu bất kỳ hình thức hiểu ngữ nghĩa hoặc cú pháp nào. Mã hóa một lần nóng là một ví dụ điển hình cho hạn chế này.

Mã hóa một nóng là một quá trình trong đó các biến phân loại được chuyển đổi thành biểu diễn vectơ nhị phân trong đó chỉ một bit là “nóng” (được đặt thành 1) trong khi tất cả các bit khác là “lạnh” (được đặt thành 0). Trong ngữ cảnh của NLP, mỗi từ trong từ vựng được biểu thị bằng một vectơ nóng trong đó mỗi vectơ là kích thước của từ vựng và mỗi từ được biểu thị bằng một vectơ có tất cả 0 và một số 1 ở chỉ mục tương ứng với từ đó trong danh sách từ vựng.

Ví dụ về mã hóa một lần nóng

Giả sử chúng ta có vốn từ vựng rất nhỏ chỉ có năm từ: [“vua”, “nữ hoàng”, “đàn ông”, “phụ nữ”, “đứa trẻ”]. Các vectơ mã hóa one-hot cho mỗi từ sẽ trông như thế này:

“vua” -> [1, 0, 0, 0, 0]
“nữ hoàng” -> [0, 1, 0, 0, 0]
“người đàn ông” -> [0, 0, 1, 0, 0]
“phụ nữ” -> [0, 0, 0, 1, 0]
“con” -> [0, 0, 0, 0, 1]

Biểu diễn toán học

Nếu chúng ta biểu thị $V$ như kích thước vốn từ vựng của chúng tôi và $w_{i}$ như biểu diễn vectơ một điểm nóng của từ thứ i trong từ vựng, biểu diễn toán học của $w_{i}$ sẽ là:

$w_{i} = [0, 0, ..., 1, ..., 0, 0]$ $trong đó vị trí thứ i là 1 và tất cả các vị trí khác là 0.$

Nhược điểm chính của mã hóa một nóng là nó coi mỗi từ như một thực thể biệt lập, không liên quan đến các từ khác. Nó dẫn đến các vectơ thưa thớt và có chiều cao không nắm bắt được bất kỳ thông tin ngữ nghĩa hoặc cú pháp nào về các từ.

Sự ra đời của tính năng nhúng từ, đáng chú ý nhất là Word2Vec, là một thời điểm quan trọng trong NLP. Được phát triển bởi một nhóm tại Google do Tomas Mikolov đứng đầu vào năm 2013, Word2Vec thể hiện các từ trong một không gian vectơ dày đặc, nắm bắt các mối quan hệ từ cú pháp và ngữ nghĩa dựa trên ngữ cảnh của chúng trong khối văn bản lớn.

Không giống như mã hóa một lần, Word2Vec tạo ra các vectơ dày đặc, thường có hàng trăm kích thước. Các từ xuất hiện trong các ngữ cảnh tương tự nhau, chẳng hạn như “vua” và “nữ hoàng”, sẽ có cách biểu diễn vectơ gần nhau hơn trong không gian vectơ.

Để minh họa, giả sử chúng ta đã đào tạo mô hình Word2Vec và hiện biểu diễn các từ trong không gian 3 chiều giả định. Các phần nhúng (thường nhiều hơn 3D nhưng được giảm bớt ở đây để đơn giản) có thể trông giống như thế này:

“vua” -> [0.2, 0.1, 0.9]
“nữ hoàng” -> [0.21, 0.13, 0.85]
“người đàn ông” -> [0.4, 0.3, 0.2]
“phụ nữ” -> [0.41, 0.33, 0.27]
“con” -> [0.5, 0.5, 0.1]

Mặc dù những con số này là hư cấu nhưng chúng minh họa cách các từ tương tự có vectơ tương tự.

Biểu diễn toán học

Nếu chúng tôi biểu diễn việc nhúng Word2Vec của một từ dưới dạng $v_{w}$ và không gian nhúng của chúng tôi có $d$ thì kích thước $v_{w}$ có thể được biểu diễn dưới dạng:

$v_{w} = [v_{1}, v_{2}, ..., v_{d}]$ $mỗi nơi v_{i} là số dấu phẩy động biểu thị đặc điểm của từ trong không gian nhúng.$

Mối quan hệ ngữ nghĩa

Word2Vec thậm chí có thể nắm bắt được các mối quan hệ phức tạp, chẳng hạn như sự tương tự. Ví dụ: mối quan hệ nổi tiếng được ghi lại bởi phần nhúng Word2Vec là:

$vector(“vua”) - vector(“đàn ông”) + vector(“phụ nữ”) \approx vectơ(“nữ hoàng”)$

Điều này có thể thực hiện được vì Word2Vec điều chỉnh các vectơ từ trong quá trình đào tạo để các từ có chung ngữ cảnh trong kho văn bản được định vị chặt chẽ trong không gian vectơ.

Word2Vec sử dụng hai kiến trúc chính để tạo ra cách trình bày phân tán các từ: Túi từ liên tục (CBOW) và Skip-Gram. CBOW dự đoán một từ mục tiêu từ các từ ngữ cảnh xung quanh nó, trong khi Skip-Gram thực hiện ngược lại, dự đoán các từ ngữ cảnh từ một từ mục tiêu. Điều này cho phép máy móc bắt đầu hiểu cách sử dụng và ý nghĩa của từ theo cách tinh tế hơn.

Mô hình hóa trình tự: RNN và LSTM

Khi lĩnh vực này phát triển, trọng tâm chuyển sang hiểu các chuỗi văn bản, điều này rất quan trọng đối với các tác vụ như dịch máy, tóm tắt văn bản và phân tích cảm xúc. Mạng thần kinh tái phát (RNN) đã trở thành nền tảng cho các ứng dụng này do khả năng xử lý dữ liệu tuần tự bằng cách duy trì một dạng bộ nhớ.

Tuy nhiên, RNN không phải không có hạn chế. Họ phải vật lộn với sự phụ thuộc lâu dài do vấn đề độ dốc biến mất, trong đó thông tin bị mất theo chuỗi dài, khiến việc tìm hiểu mối tương quan giữa các sự kiện ở xa trở nên khó khăn.

Mạng bộ nhớ ngắn hạn dài (LSTM), được giới thiệu bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, đã giải quyết vấn đề này bằng một kiến trúc phức tạp hơn. LSTM có các cổng kiểm soát luồng thông tin: cổng đầu vào, cổng quên và cổng đầu ra. Các cổng này xác định thông tin nào được lưu trữ, cập nhật hoặc loại bỏ, cho phép mạng duy trì các phụ thuộc lâu dài và cải thiện đáng kể hiệu suất trên một loạt các nhiệm vụ NLP.

Kiến trúc máy biến áp

Bối cảnh của NLP đã trải qua một sự chuyển đổi mạnh mẽ với sự ra đời của mô hình máy biến áp trong bài báo mang tính bước ngoặt “Sự chú ý là tất cả những gì bạn cần” của Vaswani et al. vào năm 2017. Kiến trúc máy biến áp bắt đầu từ quá trình xử lý tuần tự RNN và LSTM và thay vào đó sử dụng cơ chế gọi là 'tự chú ý' để cân nhắc mức độ ảnh hưởng của các phần khác nhau của dữ liệu đầu vào.

Ý tưởng cốt lõi của máy biến áp là nó có thể xử lý toàn bộ dữ liệu đầu vào cùng một lúc, thay vì tuần tự. Điều này cho phép thực hiện song song nhiều hơn và kết quả là tốc độ huấn luyện tăng lên đáng kể. Cơ chế tự chú ý cho phép mô hình tập trung vào các phần khác nhau của văn bản khi xử lý nó, điều này rất quan trọng để hiểu ngữ cảnh và mối quan hệ giữa các từ, bất kể vị trí của chúng trong văn bản.

Bộ mã hóa và giải mã trong Transformers:

Trong mô hình Transformer ban đầu, như được mô tả trong bài báo “Chú ý là tất cả những gì bạn cần” của Vaswani và cộng sự, kiến trúc được chia thành hai phần chính: bộ mã hóa và bộ giải mã. Cả hai phần đều bao gồm các lớp có cấu trúc chung giống nhau nhưng phục vụ các mục đích khác nhau.

Mã hoá:

Vai trò: Vai trò của bộ mã hóa là xử lý dữ liệu đầu vào và tạo ra biểu diễn nắm bắt mối quan hệ giữa các phần tử (như các từ trong câu). Phần này của máy biến áp không tạo ra bất kỳ nội dung mới nào; nó chỉ đơn giản là chuyển đổi đầu vào sang trạng thái mà bộ giải mã có thể sử dụng.
Chức năng: Mỗi lớp bộ mã hóa có cơ chế tự chú ý và mạng lưới thần kinh chuyển tiếp nguồn cấp dữ liệu. Cơ chế tự chú ý cho phép mỗi vị trí trong bộ mã hóa tham dự tất cả các vị trí ở lớp trước của bộ mã hóa—do đó, nó có thể tìm hiểu ngữ cảnh xung quanh mỗi từ.
Nhúng theo ngữ cảnh: Đầu ra của bộ mã hóa là một chuỗi các vectơ biểu thị chuỗi đầu vào trong không gian nhiều chiều. Các vectơ này thường được gọi là các phần nhúng theo ngữ cảnh vì chúng mã hóa không chỉ các từ riêng lẻ mà còn cả ngữ cảnh của chúng trong câu.

Bộ giải mã:

Vai trò: Vai trò của bộ giải mã là tạo ra dữ liệu đầu ra một cách tuần tự, từng phần một, dựa trên đầu vào mà nó nhận được từ bộ mã hóa và những gì nó đã tạo ra cho đến nay. Nó được thiết kế cho các nhiệm vụ như tạo văn bản, trong đó thứ tự tạo là rất quan trọng.
Chức năng: Các lớp giải mã cũng chứa các cơ chế tự chú ý, nhưng chúng bị che đi để ngăn các vị trí tham dự đến các vị trí tiếp theo. Điều này đảm bảo rằng dự đoán cho một vị trí cụ thể chỉ có thể phụ thuộc vào kết quả đầu ra đã biết tại các vị trí trước nó. Ngoài ra, các lớp giải mã bao gồm cơ chế chú ý thứ hai liên quan đến đầu ra của bộ mã hóa, tích hợp bối cảnh từ đầu vào vào quá trình tạo.
Khả năng tạo tuần tự: Điều này đề cập đến khả năng của bộ giải mã trong việc tạo ra một chuỗi một phần tử tại một thời điểm, dựa trên những gì nó đã tạo ra. Ví dụ: khi tạo văn bản, bộ giải mã sẽ dự đoán từ tiếp theo dựa trên ngữ cảnh do bộ mã hóa cung cấp và chuỗi các từ mà nó đã tạo.

Mỗi lớp con này trong bộ mã hóa và bộ giải mã đều rất quan trọng đối với khả năng xử lý các tác vụ NLP phức tạp của mô hình. Đặc biệt, cơ chế chú ý nhiều đầu cho phép mô hình tập trung có chọn lọc vào các phần khác nhau của trình tự, mang lại hiểu biết phong phú về ngữ cảnh.

Các mô hình phổ biến tận dụng máy biến áp

Sau thành công ban đầu của mô hình máy biến áp, đã có sự bùng nổ của các mô hình mới được xây dựng trên kiến trúc của nó, mỗi mô hình có những cải tiến và tối ưu hóa riêng cho các nhiệm vụ khác nhau:

BERT (Biểu diễn bộ mã hóa hai chiều từ Máy biến áp): Được Google giới thiệu vào năm 2018, BERT đã cách mạng hóa cách tích hợp thông tin theo ngữ cảnh vào cách trình bày ngôn ngữ. Bằng cách đào tạo trước trên một kho văn bản lớn với mô hình ngôn ngữ được che giấu và dự đoán câu tiếp theo, BERT nắm bắt được bối cảnh hai chiều phong phú và đã đạt được kết quả tiên tiến trên một loạt nhiệm vụ NLP.

Chứng nhận

T5 (Biến áp chuyển văn bản thành văn bản): Được giới thiệu bởi Google năm 2020, T5 sắp xếp lại tất cả các tác vụ NLP dưới dạng vấn đề chuyển văn bản thành văn bản, sử dụng định dạng dựa trên văn bản thống nhất. Cách tiếp cận này đơn giản hóa quá trình áp dụng mô hình cho nhiều nhiệm vụ khác nhau, bao gồm dịch thuật, tóm tắt và trả lời câu hỏi.

Kiến trúc T5

GPT (Máy biến thế được đào tạo trước): Được phát triển bởi OpenAI, dòng mô hình GPT bắt đầu với GPT-1 và đạt đến GPT-4 vào năm 2023. Các mô hình này được đào tạo trước bằng cách sử dụng phương pháp học không giám sát trên lượng lớn dữ liệu văn bản và được tinh chỉnh cho nhiều tác vụ khác nhau. Khả năng tạo ra văn bản mạch lạc và phù hợp với ngữ cảnh đã khiến chúng có ảnh hưởng lớn trong cả ứng dụng AI học thuật và thương mại.

Kiến trúc GPT

Dưới đây là so sánh sâu hơn về các mô hình T5, BERT và GPT trên nhiều khía cạnh khác nhau:

1. Token hóa và từ vựng

Chứng nhận: Sử dụng mã thông báo WordPiece với kích thước từ vựng khoảng 30,000 mã thông báo.
GPT: Sử dụng Mã hóa cặp byte (BPE) với kích thước từ vựng lớn (ví dụ: GPT-3 có kích thước từ vựng là 175,000).
T5: Sử dụng mã thông báo SentencePiece để xử lý văn bản dưới dạng thô và không yêu cầu các từ được phân đoạn trước.

2. Mục tiêu trước đào tạo

Chứng nhận: Mô hình ngôn ngữ đeo mặt nạ (MLM) và Dự đoán câu tiếp theo (NSP).
GPT: Mô hình ngôn ngữ nhân quả (CLM), trong đó mỗi mã thông báo dự đoán mã thông báo tiếp theo trong chuỗi.
T5: Sử dụng mục tiêu khử nhiễu trong đó các khoảng văn bản ngẫu nhiên được thay thế bằng mã thông báo trọng điểm và mô hình học cách xây dựng lại văn bản gốc.

3. Biểu diễn đầu vào

Chứng nhận: Mã thông báo, Phân đoạn và Phần nhúng vị trí được kết hợp để thể hiện đầu vào.
GPT: Mã thông báo và Phần nhúng vị trí được kết hợp (không nhúng phân đoạn vì nó không được thiết kế cho các nhiệm vụ ghép nối câu).
T5: Chỉ nhúng mã thông báo có Mã hóa vị trí tương đối được thêm vào trong các hoạt động chú ý.

4. Cơ chế chú ý

Chứng nhận: Sử dụng mã hóa vị trí tuyệt đối và cho phép mỗi mã thông báo tham dự tất cả các mã thông báo ở bên trái và bên phải (chú ý hai chiều).
GPT: Cũng sử dụng mã hóa vị trí tuyệt đối nhưng chỉ hạn chế sự chú ý đến các mã thông báo trước đó (sự chú ý một chiều).
T5: Triển khai một biến thể của máy biến áp sử dụng độ lệch vị trí tương đối thay vì nhúng vị trí.

5. Kiến trúc mô hình

Chứng nhận: Kiến trúc chỉ dành cho bộ mã hóa với nhiều lớp khối biến áp.
GPT: Kiến trúc chỉ dành cho bộ giải mã, cũng có nhiều lớp nhưng được thiết kế cho các tác vụ tổng hợp.
T5: Kiến trúc bộ mã hóa-giải mã, trong đó cả bộ mã hóa và bộ giải mã đều bao gồm các lớp biến áp.

6. Phương pháp tinh chỉnh

Chứng nhận: Điều chỉnh các trạng thái ẩn cuối cùng của mô hình được đào tạo trước cho các tác vụ xuôi dòng với các lớp đầu ra bổ sung nếu cần.
GPT: Thêm một lớp tuyến tính phía trên máy biến áp và tinh chỉnh tác vụ xuôi dòng bằng cách sử dụng cùng một mục tiêu mô hình hóa ngôn ngữ nhân quả.
T5: Chuyển đổi tất cả tác vụ sang định dạng văn bản thành văn bản, trong đó mô hình được tinh chỉnh để tạo ra chuỗi mục tiêu từ chuỗi đầu vào.

7. Dữ liệu và quy mô đào tạo

Chứng nhận: Được đào tạo trên BooksCorpus và Wikipedia tiếng Anh.
GPT: GPT-2 và GPT-3 đã được đào tạo trên các bộ dữ liệu đa dạng được trích xuất từ Internet, trong đó GPT-3 được đào tạo trên một kho dữ liệu thậm chí còn lớn hơn được gọi là Thu thập thông tin chung.
T5: Được đào tạo về “Colossal Clean Crawled Corpus”, đây là một phiên bản lớn và rõ ràng của Common Crawl.

8. Xử lý bối cảnh và tính hai chiều

Chứng nhận: Được thiết kế để hiểu ngữ cảnh theo cả hai hướng cùng một lúc.
GPT: Được đào tạo để hiểu ngữ cảnh theo chiều thuận (từ trái sang phải).
T5: Có thể mô hình hóa bối cảnh hai chiều trong bộ mã hóa và một chiều trong bộ giải mã, thích hợp cho các tác vụ theo trình tự.

9. Khả năng thích ứng với các nhiệm vụ hạ nguồn

Chứng nhận: Yêu cầu các lớp đầu dành riêng cho nhiệm vụ và tinh chỉnh cho từng nhiệm vụ tiếp theo.
GPT: Có tính chất tổng quát và có thể được nhắc nhở thực hiện các nhiệm vụ với những thay đổi tối thiểu đối với cấu trúc của nó.
T5: Xử lý mọi nhiệm vụ như một vấn đề “chuyển văn bản thành văn bản”, khiến nó trở nên linh hoạt và thích ứng với các nhiệm vụ mới.

10. Khả năng diễn giải và giải thích

Chứng nhận: Tính chất hai chiều cung cấp các nội dung nhúng theo ngữ cảnh phong phú nhưng có thể khó diễn giải hơn.
GPT: Bối cảnh một chiều có thể dễ theo dõi hơn nhưng lại thiếu chiều sâu của bối cảnh hai chiều.
T5: Khung bộ mã hóa-giải mã cung cấp sự phân tách rõ ràng các bước xử lý nhưng có thể phức tạp để phân tích do tính chất tổng quát của nó.

Tác động của máy biến áp đến NLP

Transformers đã cách mạng hóa lĩnh vực NLP bằng cách cho phép các mô hình xử lý các chuỗi dữ liệu song song, điều này làm tăng đáng kể tốc độ và hiệu quả của việc đào tạo các mạng lưới thần kinh lớn. Họ đã giới thiệu cơ chế tự chú ý, cho phép các mô hình cân nhắc tầm quan trọng của từng phần dữ liệu đầu vào, bất kể khoảng cách trong chuỗi. Điều này dẫn đến những cải tiến chưa từng có trong một loạt nhiệm vụ NLP, bao gồm nhưng không giới hạn ở dịch thuật, trả lời câu hỏi và tóm tắt văn bản.

Nghiên cứu tiếp tục nâng cao giới hạn mà các mô hình dựa trên máy biến áp có thể đạt được. GPT-4 và các sản phẩm cùng thời không chỉ lớn hơn về quy mô mà còn hiệu quả hơn và có khả năng hơn nhờ những tiến bộ trong kiến trúc và phương pháp đào tạo. Các kỹ thuật như học tập vài lần, trong đó các mô hình thực hiện các nhiệm vụ với các ví dụ tối thiểu và các phương pháp để học chuyển giao hiệu quả hơn đang được ưu tiên hàng đầu trong nghiên cứu hiện nay.

Các mô hình ngôn ngữ giống như các mô hình dựa trên máy biến áp học từ dữ liệu có thể chứa các thành kiến. Các nhà nghiên cứu và thực hành đang tích cực làm việc để xác định, hiểu và giảm thiểu những thành kiến này. Các kỹ thuật bao gồm từ tập dữ liệu đào tạo được tuyển chọn đến điều chỉnh sau đào tạo nhằm đạt được sự công bằng và trung lập.

Chủ đề liên quan:nlp máy biến áp

Ghim AI của Humane là một bước tiến trong công nghệ thiết bị đeo, nhưng có những hạn chế

Đừng bỏ lỡ

GPT tùy chỉnh đang ở đây và sẽ tác động đến mọi thứ AI

Aayush Mittal

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.