Trí tuệ nhân tạo
GLM-130B: Mô Hình Ngôn Ngữ Mở Bilingual Pre-Trained

Khung GLM-130B là một mô hình ngôn ngữ mở bilingual pre-trained lớn với hơn 130 tỷ tham số, có khả năng tạo ra đầu ra văn bản trong cả tiếng Anh và tiếng Trung. Khung GLM-130B là một nỗ lực để mở nguồn một mô hình ngôn ngữ với quy mô hơn 100B tham số, và thảo luận về cách các khung như vậy có thể được pre-train vì hiện tại, việc đào tạo một mô hình với quy mô như vậy thường gặp phải các vấn đề như divergence và loss spikes.
Trong bài viết này, chúng ta sẽ thảo luận về khung GLM-130B, nó cố gắng tạo ra một phương pháp để pre-train hiệu quả các mô hình ngôn ngữ lớn với hàng trăm tỷ tham số. Chúng ta sẽ đi sâu vào kiến trúc và quá trình đào tạo của khung GLM-130B, cũng như các lựa chọn thiết kế giúp tăng hiệu suất và ổn định.
Giới Thiệu Về Khung GLM-130B
Các mô hình ngôn ngữ lớn có khả năng hoạt động trong các thiết lập few-shot và zero-shot, đặc biệt là những mô hình có hơn 100 tỷ tham số, thể hiện các luật tỷ lệ hấp dẫn, trong đó khuôn khổ GPT-3 là một trong những khuôn khổ hoạt động tốt nhất, mang lại các bản nâng cấp hiệu suất đáng kể so với người tiền nhiệm, khuôn khổ BERT. Tuy nhiên, mặc dù khuôn khổ GPT-3 phổ biến và được áp dụng rộng rãi, nhưng quá trình đào tạo và một số cách, khuôn khổ GPT-3 đã không được công khai với công chúng.
Điểm trên làm cho việc chia sẻ cách thức hoạt động và quá trình đào tạo của các khuôn khổ mô hình ngôn ngữ lớn chất lượng cao như GPT-3 có giá trị quan trọng, và với các vấn đề đạo đức được xem xét, khung GLM-130B là một nỗ lực để pre-train một mô hình ngôn ngữ mở và chính xác với hơn 100B tham số. Trong quá trình nỗ lực này, nhóm phát triển GLM-130B đã quan sát thấy rằng việc pre-train một mô hình ngôn ngữ lớn thường đi kèm với nhiều thách thức kỹ thuật và công nghệ về sự ổn định, hiệu suất và hội tụ.
Cụ thể hơn, GLM-130B là một khuôn khổ dày đặc, song hướng, bao gồm hơn 130B tham số, được pre-train trên 400B tokens trên một cụm 96 nút GPU NVIDIA DGX-A100 trong khoảng gần hai tháng. Hơn nữa, thay vì sử dụng kiến trúc GPT-style, khuôn khổ GLM-130B sử dụng thuật toán Ngôn ngữ Tổng quát (GLM) để tận dụng lợi thế của việc điền tự động và chú ý song hướng.

Các khái niệm kỹ thuật và phát triển trong khuôn khổ GLM-130B vượt trội so với hầu hết các khuôn khổ mô hình ngôn ngữ lớn, bao gồm GPT-3 và PaLM 540B với hơn 500B tham số, trong nhiều trường hợp và trên nhiều chuẩn mực. Hình dưới đây so sánh hiệu suất của khuôn khổ GLM-130B với các mô hình có hơn 100B tham số, và như có thể thấy, khuôn khổ GLM-130B có độc tính và thiên vị thấp hơn đáng kể so với các đối thủ.

Cuối cùng, GLM-130B được thiết kế để cho phép nhiều nhà phát triển thực hiện các nghiên cứu trên các khuôn khổ có hơn 100B tham số, và có hai cách mà khuôn khổ GLM-130B đạt được điều này. Thứ nhất, thay vì sử dụng hơn 175B tham số như BLOOM và OPT, khuôn khổ GLM-130B sử dụng 130B tham số, vì kích thước của mô hình hỗ trợ can thiệp ngay cả trên một máy chủ A100 đơn lẻ. Thứ hai, yêu cầu GPU để chạy khuôn khổ GLM-130B thấp hơn so với các khuôn khổ mô hình ngôn ngữ khác, và GLM-130B đạt được điều này bằng cách lượng tử hóa khuôn khổ ban đầu thành độ chính xác INT4. Lượng tử hóa INT4 được sử dụng bởi khuôn khổ GLM-130B tăng cường hiệu suất trong khi duy trì sự suy giảm hiệu suất không đáng kể.
GLM-130B: Kiến Trúc
Sự thiên vị của một mô hình học máy được mô tả bởi kiến trúc của nó, và không có gì ngạc nhiên khi các nhà phát triển không thể khám phá các thiết kế kiến trúc khác nhau cho các mô hình ngôn ngữ lớn, xét đến tính khả thi và chi phí tính toán. Với điều đó, hãy xem xét kiến trúc của GLM-130B.
Các khuôn khổ mô hình ngôn ngữ lớn như PaLM, GPT và nhiều hơn nữa có hơn 100B tham số, và chúng được xây dựng trên kiến trúc GPT-style truyền thống cho mô hình ngôn ngữ tự động. Mặt khác, khuôn khổ GLM-130B khám phá khả năng sử dụng một mô hình ngôn ngữ tổng quát song hướng hoặc GLM, một mô hình ngôn ngữ dựa trên biến đổi, nhằm tận dụng lợi thế của việc điền tự động và chú ý song hướng.
Chú ý song hướng của mô hình ngôn ngữ tổng quát trên các ngữ cảnh không bị hư hỏng hoặc không bị mask là điều phân biệt khuôn khổ GLM-130B với cách tiếp cận GPT-style sử dụng một cách tiếp cận đơn hướng. Hơn nữa, để hỗ trợ cả việc tạo và hiểu dữ liệu, khuôn khổ GLM kết hợp hai chiến lược hư hỏng, mỗi chiến lược được chỉ định bằng một token mask đặc biệt và duy nhất.
- [MASK] : [MASK] là một chiến lược hư hỏng sử dụng các khoảng trống ngắn trong câu, chiều dài của chúng cộng lại thành một tỷ lệ nhất định của đầu vào.
- [gMASK] : [gMASK] là một chiến lược hư hỏng sử dụng các khoảng trống ngẫu nhiên về cuối câu với các ngữ cảnh tiền tố.
Cách tiếp cận của khuôn khổ GLM cho phép khuôn khổ này ghi lại điểm số chính xác trên 80% trong mô hình ngôn ngữ LAMBADA zero-shot, và vượt trội so với cả PaLM 540B và khuôn khổ GPT-3.

Bình Thường Hóa Lớp
Một trong những thách thức chính mà các nhà phát triển gặp phải khi đào tạo một khuôn khổ mô hình ngôn ngữ là sự không ổn định trong đào tạo, và sử dụng một LN (bình thường hóa lớp) phù hợp có thể giúp với việc đào tạo của các mô hình ngôn ngữ. Khuôn khổ GLM-130B sử dụng một cách tiếp cận Post-LN nhờ vào hiệu suất của nó trên các nhiệm vụ hạ游.
FFNs và Mã Hóa Vị Trí
Mạng nơ-ron feedforward (FFNs) và mã hóa vị trí là hai cách tiếp cận được khuôn khổ GLM-130B áp dụng để giới thiệu hiệu suất hạ游 cao cấp và ổn định đào tạo.
Cài Đặt Pre-Training
Mục tiêu pre-training của khuôn khổ GLM-130B không chỉ bao gồm việc học đa nhiệm cho một số lượng token nhỏ, mà còn bao gồm việc điền tự động tự giám sát của GLM cho mục đích điền tự động, với kỳ vọng rằng cách tiếp cận này sẽ giúp khuôn khổ GLM-130B trong các nhiệm vụ hạ游.
Điền Tự Động Tự Giám Sát
Như đã đề cập, khuôn khổ GLM-130B sử dụng hai chiến lược hư hỏng, cụ thể là [MASK] và [gMASK], và một trong các chiến lược này được áp dụng độc lập cho mỗi chuỗi đào tạo, một lần một lần. Đối với việc điền vào các khoảng trống, chiến lược [MASK] mask các khoảng trống liên tiếp trong 30% chuỗi đào tạo, trong đó chiều dài của các khoảng trống cộng lại thành 15% của đầu vào, và tuân theo phân phối Poisson. Đối với 70% chuỗi còn lại, tiền tố của mỗi chuỗi được giữ làm ngữ cảnh, và chiến lược [gMASK] giúp mask phần còn lại, và chiều dài mask được lấy mẫu bằng phân phối Đồng nhất.
Hướng Dẫn Đa Nhiệm Pre-Training
Đã được chỉ ra rằng việc theo đuổi một cách tiếp cận học đa nhiệm cho việc pre-training các mô hình có thể mang lại kết quả tốt hơn so với việc tinh chỉnh, để cải thiện việc chuyển giao nhiệm vụ trong một thiết lập zero-shot. Do đó, khuôn khổ GLM-130B đề xuất sử dụng một loạt các tập dữ liệu được hướng dẫn trong quá trình pre-training, bao gồm tạo ngôn ngữ, hiểu và trích xuất thông tin.
So với các cách tiếp cận khác cho việc chuyển giao nhiệm vụ zero-shot sử dụng việc tinh chỉnh đa nhiệm, cách tiếp cận Hướng Dẫn Đa Nhiệm Pre-Training của khuôn khổ GLM-130B chỉ chiếm 5% tổng số token, và nó được thiết lập trong giai đoạn pre-training để ngăn chặn việc làm hỏng các khả năng khác của khuôn khổ mô hình ngôn ngữ, hoặc nói cách khác, sự tạo tự do không điều kiện.
Chiến Lược Song Song 3D
Có hai phương pháp thông dụng để đào tạo các mô hình lớn với hàng tỷ tham số, sự song song của mô hình tensor và sự song song của dữ liệu. Trong một nỗ lực để giảm thiểu việc sử dụng GPU, và để xử lý các yêu cầu GPU khổng lồ, khuôn khổ GLM-130B thực hiện một chiến lược song song 3D kết hợp chiến lược song song mô hình pipeline với sự song song tensor và dữ liệu.
GLM-130B: Ổn Định Đào Tạo
Ổn định đào tạo là một yếu tố quan trọng khi xác định chất lượng của một mô hình ngôn ngữ, và sự ổn định đào tạo bị ảnh hưởng nặng nề tùy thuộc vào số lượng token nó đi qua. Hơn nữa, điều quan trọng là phải thiết lập một sự cân bằng giữa sự ổn định và hiệu suất liên quan đến các định dạng điểm nổi, xét đến các hạn chế tính toán.
Độ Chính Xác Kép
Để tăng cường độ chính xác đào tạo và giảm sử dụng bộ nhớ, khuôn khổ GLM-130B tuân theo một thực hành phổ biến là sử dụng độ chính xác kép, tức là FP16 cho cả tiến và lùi, và FP32 cho cả trọng số chính và trạng thái tối ưu hóa. Giống như các khuôn khổ mô hình ngôn ngữ phổ biến khác, bao gồm BLOOM-176B và OPT-175B, giai đoạn đào tạo của khuôn khổ GLM-130B sử dụng chiến lược độ chính xác kép gặp phải các spike loss thường xuyên, và tần suất của những spike loss này có xu hướng tăng khi mô hình tiếp tục đào tạo.

Trước hết, phạm vi giá trị của nhánh chính của biến đổi có thể rất lớn trong các lớp sâu hơn khi sử dụng Pre-LN, và trong khuôn khổ GLM-130B, nó được giải quyết bằng cách sử dụng một Pre-LN dựa trên DeepNorm, đảm bảo rằng phạm vi giá trị vẫn bị giới hạn ở mọi thời điểm. Thứ hai, khi mô hình tăng quy mô, các điểm chú ý tăng đến một điểm mà chúng vượt quá phạm vi của FP16.
Thu Hẹp Độ Dốc Lớp Nhúng hoặc EGS
Các nhà phát triển làm việc trên khuôn khổ GLM-130B đã xác định rằng chuẩn độ dốc có thể đóng vai trò là một chỉ số thông tin cho sự sụp đổ đào tạo, và sự sụp đổ đào tạo thường lag sau một spike trong chuẩn độ dốc. Nguyên nhân của những spike này là các gradient bất thường của lớp nhúng, và các nhà phát triển quan sát thấy rằng so với chuẩn độ dốc của các lớp khác, chuẩn độ dốc của lớp nhúng lớn hơn nhiều lần, và nó cũng có xu hướng dao động mạnh mẽ trong giai đoạn đào tạo sớm của khuôn khổ.

GLM-130B: Kết Quả và Hiệu Suất
Để đánh giá hiệu suất của GLM-130B cho các nhiệm vụ tiếng Anh, nó thực hiện các thiết lập giống như các khuôn khổ mô hình ngôn ngữ phổ biến khác, bao gồm PaLM và GPT-3, và vì GLM-130B là một khuôn khổ song ngữ, nó cũng được đánh giá trên nhiều chuẩn mực tiếng Trung. Hiệu suất của khuôn khổ GLM-130B sẽ được đo lường trên nhiều chuẩn mực, bao gồm Mô Hình Ngôn Ngữ, MMLU hoặc Hiểu Biết Ngôn Ngữ Đa Nhiệm Khổng Lồ, BIG-Bench hoặc Chuẩn Mực Vượt Qua Trò Chơi Imitation, và CLUE hoặc Đánh Giá Hiểu Biết Ngôn Ngữ Trung Quốc. Vậy hãy bắt đầu.
Mô Hình Ngôn Ngữ
Thử nghiệm mô hình ngôn ngữ trên khuôn khổ GLM-130B được thực hiện trên hai tập dữ liệu: LAMBADA và Pile.
Tập dữ liệu LAMBADA được sử dụng để kiểm tra khả năng mô hình hóa từ cuối của các mô hình ngôn ngữ. Khuôn khổ GLM-130B đạt được điểm số chính xác zero-shot là 80,2 trong một thiết lập song ngữ, và trên đường đi, nó thiết lập một kỷ lục mới trên tập dữ liệu LAMBADA.
Mặt khác, Pile là một tập kiểm tra bao gồm một loạt các chuẩn mực cho các mô hình ngôn ngữ. Trung bình, so với GPT-3 và Jurassic-1, khuôn khổ GLM-130B mang lại hiệu suất tốt nhất trên 18 tập kiểm tra chia sẻ về mặt trọng số BPBs. Kết quả chứng tỏ khả năng ngôn ngữ mạnh mẽ của khuôn khổ GLM-130B, và kết quả được bao gồm trong bảng dưới đây.

MMLU hoặc Hiểu Biết Ngôn Ngữ Đa Nhiệm Khổng Lồ
MMLU hoặc Hiểu Biết Ngôn Ngữ Đa Nhiệm Khổng Lồ là một chuẩn mực đa dạng bao gồm hơn 50 nhiệm vụ trả lời câu hỏi trắc nghiệm liên quan đến trí tuệ và kiến thức của con người, từ cấp trung học đến cấp chuyên gia, và nó được phát hành sau khi thu thập tập dữ liệu Pile, và do đó, nó phục vụ như một thử nghiệm lý tưởng để đánh giá khả năng học few-shot của một mô hình ngôn ngữ.

Như có thể thấy, trong một thiết lập few-shot (5-shot), hiệu suất của khuôn khổ GLM-130B tiếp cận hiệu suất của mô hình GPT-3 sau khi xem gần 300B token. Hiệu suất tiếp tục tăng khi đào tạo tiến hành thêm, và khi đào tạo kết thúc, khuôn khổ đạt được điểm số chính xác là 44,8 sau khi xem tổng cộng 400B token.
BIG-Bench hoặc Chuẩn Mực Vượt Qua Trò Chơi Imitation
BIG-Bench hoặc Chuẩn Mực Vượt Qua Trò Chơi Imitation các nhiệm vụ thách thức kiểm tra khả năng của mô hình trên kiến thức, lý luận và cảm nhận thông thường. Như được chứng minh trong các hình dưới đây, trong một thiết lập zero-shot, khuôn khổ GLM-130B vượt trội so với cả PaLM 540B và GPT-3 175B, điều này có thể là do MIP và chú ý song hướng để tăng cường hiệu suất của GLM-130B trong các nhiệm vụ không nhìn thấy trong thiết lập zero-shot. Hơn nữa, khi số shot tăng, hiệu suất của khuôn khổ GLM-130B cũng tăng, vượt trội so với khuôn khổ GPT-3 một cách nhất quán.

CLUE hoặc Đánh Giá Hiểu Biết Ngôn Ngữ Trung Quốc
Hiệu suất zero-shot của GLM-130B trên tiếng Trung được đánh giá trên các nhiệm vụ chuẩn mực NLP thành lập, bao gồm CLUE và FewCLUE, và được so sánh với 260B ERNIE Titan 3.0, mô hình ngôn ngữ Trung Quốc lớn nhất hiện có. Như có thể thấy, khuôn khổ GLM-130B liên tục vượt trội so với khuôn khổ 260B ERNIE Titan 3.0 trên 12 nhiệm vụ khác nhau, và thực hiện gần 260% tốt hơn so với khuôn khổ ERNIE trên hai tập dữ liệu trích xuất tóm tắt.

Kết Luận
Trong bài viết này, chúng ta đã thảo luận về GLM-130B, một mô hình ngôn ngữ mở bilingual pre-trained lớn nhằm thúc đẩy nghiên cứu ngôn ngữ bao gồm. Kiến trúc, kỹ thuật và các nỗ lực kỹ thuật của nó nhằm cung cấp cho cộng đồng AI một cái nhìn sâu sắc hơn về kiến trúc của các khuôn khổ mô hình ngôn ngữ, hiệu suất và ổn định đào tạo, các mục tiêu pre-training, và can thiệp giá cả phải chăng.












