Trí tuệ nhân tạo

Mô hình Ngôn ngữ Lớn Dựa trên Bộ giải mã: Hướng dẫn Toàn diện

Published April 26, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Decoder-Based Large Language Models: A Complete Guide

Mô hình Ngôn ngữ Lớn (LLM) đã cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) bằng cách thể hiện khả năng đáng kinh ngạc trong việc tạo ra văn bản giống con người, trả lời câu hỏi và hỗ trợ với nhiều nhiệm vụ liên quan đến ngôn ngữ. Tại trung tâm của những mô hình mạnh mẽ này là kiến trúc bộ giải mã chỉ, một biến thể của kiến trúc transformer ban đầu được đề xuất trong bài báo nổi tiếng “Chú ý là Tất cả những gì Bạn Cần” của Vaswani et al.

Trong hướng dẫn toàn diện này, chúng tôi sẽ khám phá các hoạt động nội bộ của LLM dựa trên bộ giải mã, đi sâu vào các khối xây dựng cơ bản, các đổi mới kiến trúc và các chi tiết thực hiện đã thúc đẩy những mô hình này đến vị trí hàng đầu trong nghiên cứu và ứng dụng NLP.

Kiến trúc Transformer: Một Lời Giới Thiệu

Trước khi đi sâu vào các đặc điểm của LLM dựa trên bộ giải mã, điều quan trọng là phải xem lại kiến trúc transformer, nền tảng mà những mô hình này được xây dựng. Transformer đã giới thiệu một cách tiếp cận mới để mô hình hóa chuỗi, dựa hoàn toàn vào các cơ chế chú ý để bắt捉 các phụ thuộc dài hạn trong dữ liệu, mà không cần các lớp hồi quy hoặc kết hợp.

Kiến trúc Transformer

Kiến trúc transformer ban đầu bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã. Bộ mã hóa xử lý chuỗi đầu vào và tạo ra một biểu diễn được ngữ cảnh hóa, sau đó được bộ giải mã tiêu thụ để tạo ra chuỗi đầu ra. Kiến trúc này ban đầu được thiết kế cho các nhiệm vụ dịch máy, nơi bộ mã hóa xử lý câu đầu vào trong ngôn ngữ nguồn và bộ giải mã tạo ra câu tương ứng trong ngôn ngữ đích.

Chú ý Tự: Chìa khóa cho Thành công của Transformer

Tại trung tâm của transformer là cơ chế chú ý tự, một kỹ thuật mạnh mẽ cho phép mô hình đánh giá và tổng hợp thông tin từ các vị trí khác nhau trong chuỗi đầu vào. Không giống như các mô hình chuỗi truyền thống, xử lý các token đầu vào tuần tự, chú ý tự cho phép mô hình bắt捉 các phụ thuộc giữa bất kỳ cặp token nào, bất kể vị trí của chúng trong chuỗi.

Chú ý đa truy vấn

Hoạt động chú ý tự có thể được chia thành ba bước chính:

Đề xuất Truy vấn, Khóa và Giá trị: Chuỗi đầu vào được chiếu vào ba biểu diễn riêng biệt: truy vấn (Q), khóa (K) và giá trị (V). Những biểu diễn này được thu được bằng cách nhân đầu vào với các ma trận trọng số đã học.
Tính toán Điểm Chú ý: Đối với mỗi vị trí trong chuỗi đầu vào, các điểm chú ý được tính toán bằng cách lấy tích chấm giữa vectơ truy vấn tương ứng và tất cả vectơ khóa. Những điểm này đại diện cho sự liên quan của mỗi vị trí với vị trí hiện tại đang được xử lý.
Tổng hợp Có trọng số của Giá trị: Các điểm chú ý được chuẩn hóa bằng hàm softmax, và các trọng số chú ý kết quả được sử dụng để tính tổng hợp có trọng số của vectơ giá trị, tạo ra biểu diễn đầu ra cho vị trí hiện tại.

Chú ý đa đầu, một biến thể của cơ chế chú ý tự, cho phép mô hình bắt捉 các loại mối quan hệ khác nhau bằng cách tính toán điểm chú ý trên nhiều “đầu” song song, mỗi đầu có bộ truy vấn, khóa và giá trị riêng.

Biến thể Kiến trúc và Cấu hình

Mặc dù các nguyên tắc cốt lõi của LLM dựa trên bộ giải mã vẫn nhất quán, các nhà nghiên cứu đã khám phá các biến thể kiến trúc và cấu hình khác nhau để cải thiện hiệu suất, hiệu quả và khả năng tổng quát hóa. Trong phần này, chúng tôi sẽ đi sâu vào các lựa chọn kiến trúc khác nhau và ý nghĩa của chúng.

Loại Kiến trúc

LLM dựa trên bộ giải mã có thể được phân loại rộng rãi thành ba loại chính: mã hóa-giải mã, giải mã nguyên nhân và giải mã tiền tố. Mỗi loại kiến trúc thể hiện các mẫu chú ý khác biệt.

Kiến trúc Mã hóa-Giải mã

Dựa trên mô hình Transformer vanilla, kiến trúc mã hóa-giải mã bao gồm hai ngăn xếp: bộ mã hóa và bộ giải mã. Bộ mã hóa sử dụng các lớp chú ý tự đa đầu xếp chồng để mã hóa chuỗi đầu vào và tạo ra các biểu diễn ẩn. Bộ giải mã sau đó thực hiện chú ý chéo trên những biểu diễn này để tạo ra chuỗi đích. Mặc dù hiệu quả trong nhiều nhiệm vụ NLP, chỉ có một số LLM, như Flan-T5,采用 kiến trúc này.

Kiến trúc Giải mã Nguyên nhân

Kiến trúc giải mã nguyên nhân kết hợp một mặt nạ chú ý đơn hướng, cho phép mỗi token đầu vào chỉ chú ý đến các token quá khứ và chính nó. Cả token đầu vào và đầu ra được xử lý trong cùng một bộ giải mã. Các mô hình đáng chú ý như GPT-1, GPT-2 và GPT-3 được xây dựng trên kiến trúc này, với GPT-3 thể hiện khả năng học trong ngữ cảnh đáng kinh ngạc. Nhiều LLM, bao gồm OPT, BLOOM và Gopher, đã áp dụng rộng rãi bộ giải mã nguyên nhân.

Kiến trúc Giải mã Tiền tố

Còn được gọi là kiến trúc giải mã không nguyên nhân, kiến trúc giải mã tiền tố sửa đổi cơ chế mặt nạ của bộ giải mã nguyên nhân để cho phép chú ý hai chiều trên các token tiền tố và chú ý đơn hướng trên các token được tạo. Giống như kiến trúc mã hóa-giải mã, bộ giải mã tiền tố có thể mã hóa chuỗi tiền tố hai chiều và dự đoán các token đầu ra tự hồi quy bằng cách sử dụng các tham số chung. LLM dựa trên bộ giải mã tiền tố bao gồm GLM130B và U-PaLM.

Tất cả ba loại kiến trúc này có thể được mở rộng bằng cách sử dụng kỹ thuật trộn chuyên gia (MoE), cho phép mô hình kết hợp nhiều mô hình chuyên gia, mỗi chuyên gia chuyên về một tập hợp con cụ thể của dữ liệu hoặc nhiệm vụ. Cách tiếp cận này đã được áp dụng trong các mô hình như Switch Transformer và GLaM, với việc tăng số lượng chuyên gia hoặc kích thước tham số tổng thể cho thấy sự cải thiện hiệu suất đáng kể.

Bộ Giải mã Chỉ Transformer: Ứng dụng Tính Tự Hồi quy

Mặc dù kiến trúc transformer ban đầu được thiết kế cho các nhiệm vụ chuỗi-sang-chuỗi như dịch máy, nhiều nhiệm vụ NLP, như mô hình hóa ngôn ngữ và tạo văn bản, có thể được định hình như các vấn đề tự hồi quy, nơi mô hình tạo ra một token tại một thời điểm, có điều kiện bởi các token được tạo trước đó.

Bộ giải mã chỉ transformer, một biến thể đơn giản hóa của kiến trúc transformer, giữ lại chỉ thành phần bộ giải mã. Kiến trúc này đặc biệt phù hợp với các nhiệm vụ tự hồi quy, vì nó tạo ra các token đầu ra một cách tuần tự, tận dụng các token được tạo trước đó làm ngữ cảnh đầu vào.

Sự khác biệt chính giữa bộ giải mã chỉ transformer và bộ giải mã transformer ban đầu nằm trong cơ chế chú ý tự. Trong thiết lập bộ giải mã chỉ, hoạt động chú ý tự được sửa đổi để ngăn mô hình chú ý đến các token trong tương lai, một tính chất được gọi là nguyên nhân. Điều này được thực hiện thông qua một kỹ thuật gọi là “chú ý tự mặt nạ”, nơi các điểm chú ý tương ứng với các vị trí trong tương lai được đặt thành âm vô cùng, hiệu quả là mặt nạ chúng ra trong bước chuẩn hóa softmax.

Thành phần Kiến trúc của LLM Dựa trên Bộ Giải mã

Mặc dù các nguyên tắc cốt lõi của chú ý tự và chú ý tự mặt nạ vẫn giống nhau, các LLM dựa trên bộ giải mã hiện đại đã giới thiệu một số đổi mới kiến trúc để cải thiện hiệu suất, hiệu quả và khả năng tổng quát hóa. Hãy khám phá một số thành phần và kỹ thuật chính được sử dụng trong các LLM hàng đầu.

Biểu diễn Đầu vào

Trước khi xử lý chuỗi đầu vào, LLM dựa trên bộ giải mã sử dụng các kỹ thuật phân tích cú pháp và nhúng để chuyển đổi văn bản thô thành một biểu diễn số phù hợp với mô hình.

nhúng vector

Phân tích cú pháp: Quá trình phân tích cú pháp chuyển đổi văn bản đầu vào thành một chuỗi các token, có thể là từ, subword hoặc thậm chí các ký tự riêng lẻ, tùy thuộc vào chiến lược phân tích cú pháp được sử dụng. Các kỹ thuật phân tích cú pháp phổ biến cho LLM bao gồm Mã hóa Cặp Byte (BPE), SentencePiece và WordPiece. Những phương pháp này nhằm tìm kiếm sự cân bằng giữa kích thước từ vựng và độ hạt của biểu diễn, cho phép mô hình xử lý các từ hiếm hoặc không có trong từ vựng một cách hiệu quả.

Nhúng Token: Sau khi phân tích cú pháp, mỗi token được ánh xạ đến một biểu diễn vector dày gọi là nhúng token. Những nhúng này được học trong quá trình đào tạo và bắt捉 các mối quan hệ ngữ nghĩa và cú pháp giữa các token.

Nhúng Vị trí: Mô hình transformer xử lý toàn bộ chuỗi đầu vào đồng thời, thiếu khái niệm vị trí token vốn có trong các mô hình hồi quy. Để kết hợp thông tin vị trí, nhúng vị trí được thêm vào nhúng token, cho phép mô hình phân biệt giữa các token dựa trên vị trí của chúng trong chuỗi. Các LLM đầu tiên sử dụng nhúng vị trí cố định dựa trên hàm sinus, trong khi các mô hình gần đây hơn đã khám phá nhúng vị trí có thể học được hoặc các kỹ thuật mã hóa vị trí thay thế như nhúng vị trí quay.

Khối Chú ý Đa Đầu

Các khối xây dựng cơ bản của LLM dựa trên bộ giải mã là các lớp chú ý đa đầu, thực hiện hoạt động chú ý tự mặt nạ được mô tả trước đó. Những lớp này được xếp chồng nhiều lần, với mỗi lớp chú ý đến đầu ra của lớp trước, cho phép mô hình bắt捉 các phụ thuộc và biểu diễn ngày càng phức tạp.

Đầu Chú ý: Mỗi lớp chú ý đa đầu bao gồm nhiều “đầu chú ý“, mỗi đầu có bộ truy vấn, khóa và giá trị riêng. Điều này cho phép mô hình chú ý đến các khía cạnh khác nhau của đầu vào đồng thời, bắt捉 các mối quan hệ và mẫu đa dạng.

Kết nối Dư và Chuẩn hóa Lớp: Để tạo điều kiện cho việc đào tạo các mạng sâu và giảm thiểu vấn đề gradient biến mất, LLM dựa trên bộ giải mã sử dụng kết nối dư và kỹ thuật chuẩn hóa lớp. Kết nối dư thêm đầu vào của một lớp vào đầu ra của nó, cho phép gradient chảy dễ dàng hơn trong quá trình ngược. Chuẩn hóa lớp giúp ổn định hoạt động và gradient, cải thiện hơn nữa sự ổn định đào tạo và hiệu suất.

Lớp Truyền Tiếp

Ngoài các lớp chú ý đa đầu, LLM dựa trên bộ giải mã kết hợp các lớp truyền tiếp, áp dụng một mạng nơ-ron truyền tiếp đơn giản cho mỗi vị trí trong chuỗi. Những lớp này giới thiệu các phi tuyến tính và cho phép mô hình học các biểu diễn phức tạp hơn.

Hàm Kích hoạt: Lựa chọn hàm kích hoạt trong các lớp truyền tiếp có thể ảnh hưởng đáng kể đến hiệu suất của mô hình. Trong khi các LLM đầu tiên dựa vào hàm kích hoạt ReLU rộng rãi, các mô hình gần đây hơn đã áp dụng các hàm kích hoạt tinh vi hơn như Gaussian Error Linear Unit (GELU) hoặc kích hoạt SwiGLU, đã thể hiện hiệu suất cải thiện.

Chú ý Thưa và Transformer Hiệu quả

Mặc dù cơ chế chú ý tự là mạnh mẽ, nó đi kèm với độ phức tạp tính toán bậc hai đối với độ dài chuỗi, khiến nó trở nên tốn kém về tính toán đối với các chuỗi dài. Để giải quyết thách thức này, một số kỹ thuật đã được đề xuất để giảm yêu cầu tính toán và bộ nhớ của chú ý tự, cho phép xử lý hiệu quả các chuỗi dài hơn.

Chú ý Thưa: Các kỹ thuật chú ý thưa, như được sử dụng trong mô hình GPT-3, chọn lọc chú ý đến một tập hợp con các vị trí trong chuỗi đầu vào, thay vì tính toán điểm chú ý cho tất cả các vị trí. Điều này có thể giảm đáng kể độ phức tạp tính toán trong khi vẫn duy trì hiệu suất hợp lý.

Chú ý Cửa sổ Trượt: Được giới thiệu trong mô hình Mistral 7B, chú ý cửa sổ trượt (SWA) là một kỹ thuật đơn giản nhưng hiệu quả, hạn chế phạm vi chú ý của mỗi token đến một kích thước cửa sổ cố định. Cách tiếp cận này tận dụng khả năng của các lớp transformer truyền tải thông tin qua nhiều lớp, hiệu quả tăng phạm vi chú ý mà không có độ phức tạp bậc hai của chú ý tự đầy đủ.

Đệm Cache Bộ nhớ Trượt: Để giảm hơn nữa yêu cầu bộ nhớ, đặc biệt là đối với các chuỗi dài, mô hình Mistral 7B sử dụng một đệm cache bộ nhớ trượt. Kỹ thuật này lưu trữ và tái sử dụng các vectơ khóa và giá trị đã tính toán cho một kích thước cửa sổ cố định, tránh các tính toán trùng lặp và giảm thiểu sử dụng bộ nhớ.

Chú ý Truy vấn Nhóm: Được giới thiệu trong mô hình LLaMA 2, chú ý truy vấn nhóm (GQA) là một biến thể của cơ chế chú ý đa truy vấn, chia các đầu chú ý thành các nhóm, mỗi nhóm chia sẻ một ma trận khóa và giá trị chung. Cách tiếp cận này tìm kiếm sự cân bằng giữa hiệu quả của chú ý đa truy vấn và hiệu suất của chú ý tự chuẩn, cung cấp thời gian suy luận cải thiện trong khi vẫn duy trì kết quả chất lượng cao.

Chú ý truy vấn nhóm

Kích thước Mô hình và Tăng quy mô

Một trong những đặc điểm định nghĩa của LLM hiện đại là quy mô khổng lồ của chúng, với số lượng tham số dao động từ hàng tỷ đến hàng trăm tỷ. Tăng kích thước mô hình đã là một yếu tố quan trọng trong việc đạt được hiệu suất hàng đầu, vì các mô hình lớn hơn có thể bắt捉 các mẫu và mối quan hệ phức tạp hơn trong dữ liệu.

Đếm Tham số: Số lượng tham số trong một LLM dựa trên bộ giải mã chủ yếu được xác định bởi kích thước nhúng (d_model), số đầu chú ý (n_heads), số lớp (n_layers) và kích thước từ vựng (vocab_size). Ví dụ, mô hình GPT-3 có 175 tỷ tham số, với d_model = 12288, n_heads = 96, n_layers = 96 và vocab_size = 50257.

Song song Mô hình: Đào tạo và triển khai các mô hình khổng lồ như vậy đòi hỏi tài nguyên tính toán đáng kể và phần cứng chuyên dụng. Để vượt qua thách thức này, các kỹ thuật song song mô hình đã được sử dụng, nơi mô hình được chia trên nhiều GPU hoặc TPUs, với mỗi thiết bị chịu trách nhiệm cho một phần của các tính toán.

Trộn Chuyên gia: Một cách tiếp cận khác để tăng quy mô LLM là kiến trúc trộn chuyên gia (MoE), kết hợp nhiều mô hình chuyên gia, mỗi chuyên gia chuyên về một tập hợp con cụ thể của dữ liệu hoặc nhiệm vụ. Mô hình Mixtral 8x7B là một ví dụ về mô hình MoE sử dụng mô hình Mistral 7B làm mô hình cơ sở, đạt được hiệu suất vượt trội trong khi vẫn duy trì hiệu quả tính toán.

Suy luận và Tạo Văn bản

Một trong những trường hợp sử dụng chính của LLM dựa trên bộ giải mã là tạo văn bản, nơi mô hình tạo ra văn bản mạch lạc và tự nhiên dựa trên một lời nhắc hoặc ngữ cảnh cho trước.

Giải mã Tự Hồi quy: Trong quá trình suy luận, LLM dựa trên bộ giải mã tạo ra văn bản theo cách tự hồi quy, dự đoán một token tại một thời điểm dựa trên các token được tạo trước đó và lời nhắc đầu vào. Quá trình này tiếp tục cho đến khi một tiêu chí dừng được xác định trước được đáp ứng, chẳng hạn như đạt đến độ dài chuỗi tối đa hoặc tạo ra một token kết thúc chuỗi.

Chiến lược Lấy mẫu: Để tạo ra văn bản đa dạng và thực tế, các chiến lược lấy mẫu khác nhau có thể được sử dụng, chẳng hạn như lấy mẫu hàng đầu-k, lấy mẫu hàng đầu-p (còn được gọi là lấy mẫu hạt nhân) hoặc điều chỉnh nhiệt độ. Những kỹ thuật này kiểm soát sự cân bằng giữa sự đa dạng và tính mạch lạc của văn bản được tạo ra bằng cách điều chỉnh phân phối xác suất trên từ vựng.

Kỹ thuật Lời nhắc: Chất lượng và tính cụ thể của lời nhắc đầu vào có thể ảnh hưởng đáng kể đến văn bản được tạo ra. Kỹ thuật lời nhắc, nghệ thuật tạo ra các lời nhắc hiệu quả, đã xuất hiện như một khía cạnh quan trọng trong việc tận dụng LLM cho các nhiệm vụ khác nhau, cho phép người dùng hướng dẫn quá trình tạo của mô hình và đạt được đầu ra mong muốn.

Giải mã Có Người trong Vòng lặp: Để cải thiện hơn nữa chất lượng và tính mạch lạc của văn bản được tạo ra, các kỹ thuật như Học tăng cường từ Phản hồi Con người (RLHF) đã được áp dụng. Trong cách tiếp cận này, người đánh giá cung cấp phản hồi về văn bản được tạo ra bởi mô hình, sau đó được sử dụng để tinh chỉnh mô hình, hiệu quả là căn chỉnh nó với sở thích của con người và cải thiện đầu ra của nó.

Tiến bộ và Hướng Tiếp theo

Lĩnh vực LLM dựa trên bộ giải mã đang phát triển nhanh chóng, với nghiên cứu mới và đột phá liên tục đẩy ranh giới của những gì những mô hình này có thể đạt được. Dưới đây là một số tiến bộ đáng chú ý và hướng tiếp theo có thể:

Biến thể Transformer Hiệu quả: Mặc dù chú ý thưa và chú ý cửa sổ trượt đã đạt được những bước tiến đáng kể trong việc cải thiện hiệu quả của LLM dựa trên bộ giải mã, các nhà nghiên cứu đang tích cực khám phá các kiến trúc transformer thay thế và cơ chế chú ý để giảm hơn nữa yêu cầu tính toán trong khi duy trì hoặc cải thiện hiệu suất.

LLM Đa phương tiện: Mở rộng khả năng của LLM vượt ra ngoài văn bản, các mô hình đa phương tiện nhằm tích hợp nhiều phương tiện, như hình ảnh, âm thanh hoặc video, vào một khuôn khổ thống nhất. Điều này mở ra những khả năng thú vị cho các ứng dụng như chú thích hình ảnh, trả lời câu hỏi hình ảnh và tạo nội dung đa phương tiện.

Tạo có Kiểm soát: Cho phép kiểm soát chi tiết đối với văn bản được tạo ra là một hướng đi đầy thách thức nhưng quan trọng cho LLM. Các kỹ thuật như tạo văn bản có kiểm soát và tinh chỉnh lời nhắc nhằm cung cấp cho người dùng kiểm soát chi tiết hơn đối với các thuộc tính khác nhau của văn bản được tạo ra, chẳng hạn như phong cách, giọng điệu hoặc yêu cầu nội dung cụ thể.

Kết luận

LLM dựa trên bộ giải mã đã xuất hiện như một lực lượng chuyển đổi trong lĩnh vực xử lý ngôn ngữ tự nhiên, đẩy ranh giới của những gì có thể đạt được với tạo văn bản và hiểu ngôn ngữ. Từ những khởi đầu khiêm tốn như một biến thể đơn giản hóa của kiến trúc transformer, những mô hình này đã tiến hóa thành các hệ thống mạnh mẽ và tinh vi, tận dụng các kỹ thuật và đổi mới kiến trúc tiên tiến.

Khi chúng ta tiếp tục khám phá và phát triển LLM dựa trên bộ giải mã, chúng ta có thể mong đợi chứng kiến những thành tựu đáng kinh ngạc hơn nữa trong các nhiệm vụ liên quan đến ngôn ngữ, cũng như tích hợp những mô hình này vào một loạt các ứng dụng và lĩnh vực. Tuy nhiên, điều quan trọng là phải giải quyết các vấn đề đạo đức, thách thức giải thích và các偏见 tiềm ẩn có thể phát sinh từ việc triển khai rộng rãi những mô hình mạnh mẽ này.

Bằng cách ở vị trí hàng đầu trong nghiên cứu, thúc đẩy hợp tác mở và duy trì cam kết mạnh mẽ đối với phát triển AI có trách nhiệm, chúng ta có thể mở khóa toàn bộ tiềm năng của LLM dựa trên bộ giải mã trong khi đảm bảo chúng được phát triển và sử dụng một cách an toàn, đạo đức và có lợi cho xã hội.

Related Topics:BLOOM decoder GPT-3 LLM PaLM PROMPT ENGINEERING self-attention transformers

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.

Unite.AI