Trí tuệ nhân tạo

Sự trỗi dậy của các mô hình ngôn ngữ nhỏ

Đã xuất bản 29 tháng 12, 2023

Đã cập nhật 22 tháng 5, 2026

Aayush Mittal Mittal

Sự xuất hiện của các mô hình ngôn ngữ nhỏ

Trong thế giới trí tuệ nhân tạo đang phát triển nhanh chóng, kích thước của mô hình ngôn ngữ thường được đồng nghĩa với khả năng của nó. Các mô hình ngôn ngữ lớn (LLM) như GPT-4 đã thống trị cảnh quan AI,展示 khả năng đáng chú ý trong việc hiểu và tạo ngôn ngữ tự nhiên. Tuy nhiên, một sự thay đổi tinh tế nhưng quan trọng đang diễn ra. Các mô hình ngôn ngữ nhỏ, từng bị che khuất bởi các mô hình lớn hơn, đang xuất hiện như những công cụ mạnh mẽ trong các ứng dụng AI khác nhau. Sự thay đổi này đánh dấu một điểm quan trọng trong sự phát triển của AI, thách thức quan niệm lâu dài rằng lớn hơn luôn tốt hơn.

Sự tiến hóa và hạn chế của các mô hình ngôn ngữ lớn

Sự phát triển của các hệ thống AI có khả năng hiểu và tạo ngôn ngữ giống con người chủ yếu tập trung vào LLM. Những mô hình này đã xuất sắc trong các lĩnh vực như dịch thuật, tóm tắt và trả lời câu hỏi, thường vượt trội so với các mô hình nhỏ hơn trước đây. Tuy nhiên, thành công của LLM đi kèm với một cái giá. Tiêu thụ năng lượng cao, yêu cầu bộ nhớ và tính toán lớn, và chi phí tính toán đáng kể làm dấy lên những lo ngại. Những thách thức này được khuếch đại bởi tốc độ phát triển của GPU so với kích thước ngày càng tăng của các mô hình này, gợi ý về một trần cho việc tăng quy mô.

Những nhà nghiên cứu đang ngày càng tập trung vào các mô hình ngôn ngữ nhỏ, cung cấp các giải pháp hiệu quả và linh hoạt hơn trong một số tình huống. Ví dụ, một nghiên cứu của Turc et al. (2019) đã chứng minh rằng kiến thức được chiết xuất từ LLM vào các mô hình nhỏ hơn đã mang lại hiệu suất tương tự với nhu cầu tính toán giảm đáng kể. Hơn nữa, việc áp dụng các kỹ thuật như chuyển giao học hỏi đã cho phép các mô hình này thích nghi hiệu quả với các nhiệm vụ cụ thể, đạt được kết quả tương đương hoặc thậm chí vượt trội trong các lĩnh vực như phân tích cảm xúc và dịch thuật.

Những tiến bộ gần đây đã nhấn mạnh tiềm năng của các mô hình nhỏ hơn. Chinchilla của DeepMind, LLaMa của Meta, Alpaca của Stanford và loạt StableLM của Stability AI là những ví dụ đáng chú ý. Những mô hình này, mặc dù nhỏ hơn, đã cạnh tranh hoặc thậm chí vượt trội hiệu suất của các mô hình lớn hơn như GPT-3.5 trong một số nhiệm vụ. Mô hình Alpaca, ví dụ, khi tinh chỉnh trên các phản hồi truy vấn của GPT-3.5, đã đạt được hiệu suất tương đương với chi phí giảm đáng kể. Những phát triển như vậy cho thấy rằng hiệu quả và hiệu quả của các mô hình nhỏ hơn đang dần được công nhận trong lĩnh vực AI.

Các tiến bộ công nghệ và ý nghĩa của chúng

Các kỹ thuật mới nổi trong phát triển mô hình ngôn ngữ nhỏ

Nghiên cứu gần đây đã nhấn mạnh một số kỹ thuật sáng tạo giúp cải thiện hiệu suất của các mô hình ngôn ngữ nhỏ. Các phương pháp UL2R và Flan của Google là những ví dụ chính. UL2R, hoặc “Ultra Lightweight 2 Repair,” giới thiệu một mục tiêu hỗn hợp trong quá trình tiền huấn luyện, cải thiện hiệu suất của mô hình trên nhiều nhiệm vụ. Flan, mặt khác, liên quan đến việc tinh chỉnh mô hình trên một loạt các nhiệm vụ được diễn đạt dưới dạng hướng dẫn, nâng cao cả hiệu suất và khả năng sử dụng.

Hơn nữa, một bài báo của Yao Fu et al. đã chỉ ra rằng các mô hình nhỏ hơn có thể xuất sắc trong các nhiệm vụ cụ thể như lý luận toán học khi được đào tạo và tinh chỉnh phù hợp. Những phát hiện này nhấn mạnh tiềm năng của các mô hình nhỏ hơn trong các ứng dụng chuyên biệt, thách thức khả năng tổng quát hóa của các mô hình lớn hơn.

Tầm quan trọng của việc sử dụng dữ liệu hiệu quả

Sử dụng dữ liệu hiệu quả đã trở thành một chủ đề chính trong lĩnh vực mô hình ngôn ngữ nhỏ. Bài báo “Small Language Models Are Also Few-Shot Learners” của Timo Schick et al. đề xuất các kỹ thuật che giấu chuyên dụng kết hợp với các tập dữ liệu không cân đối để tăng cường hiệu suất của các mô hình nhỏ hơn. Những chiến lược này nhấn mạnh sự nhấn mạnh ngày càng tăng vào các phương pháp sáng tạo để tối đa hóa khả năng của các mô hình ngôn ngữ nhỏ.

Ưu điểm của các mô hình ngôn ngữ nhỏ hơn

Sự hấp dẫn của các mô hình ngôn ngữ nhỏ nằm ở hiệu quả và tính linh hoạt của chúng. Chúng cung cấp thời gian đào tạo và suy luận nhanh hơn, giảm dấu chân carbon và nước, và phù hợp hơn cho triển khai trên các thiết bị có tài nguyên hạn chế như điện thoại di động. Tính linh hoạt này ngày càng quan trọng trong một ngành công nghiệp ưu tiên khả năng tiếp cận và hiệu suất AI trên nhiều thiết bị khác nhau.

Các đổi mới và phát triển trong ngành

Sự chuyển dịch của ngành công nghiệp towards các mô hình hiệu quả hơn được minh họa bởi các phát triển gần đây. Mistral’s Mixtral 8x7B, một mô hình hỗn hợp chuyên gia thưa thớt, và Phi-2 của Microsoft là những đột phá trong lĩnh vực này. Mixtral 8x7B, mặc dù nhỏ hơn, đã đạt được chất lượng tương đương với GPT-3.5 trên một số chuẩn mực. Phi-2 đi một bước xa hơn, chạy trên điện thoại di động với chỉ 2,7 tỷ tham số. Những mô hình này minh họa sự tập trung ngày càng tăng của ngành công nghiệp vào việc đạt được nhiều hơn với ít hơn.

Phi-2 của Microsoft Orca 2 minh họa thêm xu hướng này. Xây dựng trên mô hình Orca ban đầu, Orca 2 nâng cao khả năng lý luận trong các mô hình ngôn ngữ nhỏ, đẩy ranh giới của nghiên cứu AI.

Tóm lại, sự trỗi dậy của các mô hình ngôn ngữ nhỏ đại diện cho một sự thay đổi mô hình trong cảnh quan AI. Khi những mô hình này tiếp tục phát triển và chứng minh khả năng của mình, chúng không chỉ thách thức sự thống trị của các mô hình lớn hơn mà còn định hình lại sự hiểu biết của chúng ta về những gì có thể trong lĩnh vực AI.

Động lực cho việc áp dụng các mô hình ngôn ngữ nhỏ

Sự quan tâm ngày càng tăng đối với các mô hình ngôn ngữ nhỏ (SLM) được thúc đẩy bởi một số yếu tố chính, chủ yếu là hiệu quả, chi phí và khả năng tùy chỉnh. Những khía cạnh này đặt SLM vào vị trí là những giải pháp thay thế hấp dẫn cho các mô hình lớn hơn trong nhiều ứng dụng.

Hiệu quả: Một yếu tố quan trọng

SLM, do có ít tham số hơn, cung cấp hiệu quả tính toán đáng kể so với các mô hình lớn. Những hiệu quả này bao gồm tốc độ suy luận nhanh hơn, yêu cầu bộ nhớ và lưu trữ giảm, và nhu cầu dữ liệu thấp hơn cho đào tạo. Do đó, những mô hình này không chỉ nhanh hơn mà còn hiệu quả hơn về tài nguyên, điều này đặc biệt có lợi trong các ứng dụng mà tốc độ và sử dụng tài nguyên là quan trọng.

Hiệu quả về chi phí

Các tài nguyên tính toán cần thiết để đào tạo và triển khai các mô hình ngôn ngữ lớn (LLM) như GPT-4 dịch thành chi phí đáng kể. Ngược lại, SLM có thể được đào tạo và chạy trên phần cứng có sẵn rộng rãi hơn, làm cho chúng dễ tiếp cận và khả thi về mặt tài chính cho nhiều doanh nghiệp. Yêu cầu tài nguyên giảm của chúng cũng mở ra khả năng trong tính toán biên, nơi các mô hình cần hoạt động hiệu quả trên các thiết bị có công suất thấp hơn.

Khả năng tùy chỉnh: Một lợi thế chiến lược

Một trong những lợi thế quan trọng nhất của SLM so với LLM là khả năng tùy chỉnh. Không giống như LLM, cung cấp khả năng tổng quát nhưng rộng, SLM có thể được thiết kế cho các lĩnh vực và ứng dụng cụ thể. Khả năng thích nghi này được tạo điều kiện bởi các chu kỳ lặp lại nhanh hơn và khả năng tinh chỉnh mô hình cho các nhiệm vụ chuyên biệt. Sự linh hoạt này làm cho SLM đặc biệt hữu ích cho các ứng dụng chuyên biệt mà hiệu suất cụ thể, nhắm mục tiêu là có giá trị hơn khả năng tổng quát.

Giảm quy mô mô hình ngôn ngữ mà không ảnh hưởng đến khả năng

Nỗ lực để giảm thiểu kích thước mô hình ngôn ngữ mà không hy sinh khả năng là một chủ đề trung tâm trong nghiên cứu AI hiện tại. Câu hỏi là, mô hình ngôn ngữ có thể nhỏ đến mức nào mà vẫn duy trì hiệu quả?

Thiết lập ranh giới dưới của quy mô mô hình

Các nghiên cứu gần đây đã chỉ ra rằng các mô hình có ít nhất 1-10 triệu tham số có thể đạt được các năng lực ngôn ngữ cơ bản. Ví dụ, một mô hình có chỉ 8 triệu tham số đã đạt được khoảng 59% độ chính xác trên chuẩn mực GLUE vào năm 2023. Những phát hiện này cho thấy rằng ngay cả các mô hình tương đối nhỏ cũng có thể hiệu quả trong một số nhiệm vụ xử lý ngôn ngữ.

Hiệu suất dường như đạt đến mức bão hòa sau khi đạt đến một quy mô nhất định, khoảng 200-300 triệu tham số, cho thấy rằng việc tăng kích thước thêm sẽ mang lại lợi ích giảm dần. Mức bão hòa này đại diện cho một điểm ngọt ngào cho các SLM có thể triển khai thương mại, cân bằng giữa khả năng và hiệu quả.

Đào tạo các mô hình ngôn ngữ nhỏ hiệu quả

Một số phương pháp đào tạo đã đóng vai trò quan trọng trong việc phát triển các SLM có năng lực. Học chuyển giao cho phép mô hình đạt được năng lực rộng trong quá trình tiền đào tạo, có thể được tinh chỉnh cho các ứng dụng cụ thể. Học tự giám sát, đặc biệt hiệu quả cho các mô hình nhỏ, buộc chúng phải tổng quát hóa sâu từ mỗi ví dụ dữ liệu, tận dụng đầy đủ khả năng của mô hình trong quá trình đào tạo.

Các lựa chọn kiến trúc cũng đóng vai trò quan trọng. Các Transformer hiệu quả, ví dụ, đạt được hiệu suất tương đương với các mô hình cơ sở với số tham số đáng kể ít hơn. Những kỹ thuật này tập thể cho phép tạo ra các mô hình ngôn ngữ nhỏ nhưng có khả năng, phù hợp cho nhiều ứng dụng.

Một đột phá gần đây trong lĩnh vực này là sự giới thiệu của cơ chế “Distilling step-by-step“. Phương pháp mới này cung cấp hiệu suất nâng cao với nhu cầu dữ liệu giảm.

Phương pháp Distilling step-by-step tận dụng LLM không chỉ là nguồn nhãn nhiễu mà còn là các tác nhân có khả năng lý luận. Phương pháp này tận dụng các lý do ngôn ngữ tự nhiên được tạo ra bởi LLM để biện minh cho các dự đoán của chúng, sử dụng chúng như các giám sát bổ sung cho việc đào tạo các mô hình nhỏ. Bằng cách kết hợp những lý do này, các mô hình nhỏ có thể học kiến thức nhiệm vụ liên quan một cách hiệu quả hơn, giảm nhu cầu về dữ liệu đào tạo rộng lớn.

Các khuôn khổ cho nhà phát triển và mô hình chuyên biệt

Các khuôn khổ như Hugging Face Hub, Anthropic Claude, Cohere for AI và Assembler đang làm cho việc tạo ra các SLM tùy chỉnh trở nên dễ dàng hơn cho các nhà phát triển. Những nền tảng này cung cấp các công cụ cho việc đào tạo, triển khai và giám sát SLM, làm cho AI ngôn ngữ trở nên dễ tiếp cận hơn với nhiều ngành công nghiệp.

Các mô hình chuyên biệt là đặc biệt có lợi trong các ngành như tài chính, nơi độ chính xác, bảo mật và phản hồi là tối quan trọng. Những mô hình này có thể được thiết kế cho các nhiệm vụ cụ thể và thường hiệu quả và an toàn hơn so với các mô hình lớn hơn.

Nhìn về tương lai

Việc khám phá các SLM không chỉ là một nỗ lực kỹ thuật mà còn là một bước đi chiến lược hướng tới các giải pháp AI bền vững, hiệu quả và tùy chỉnh hơn. Khi AI tiếp tục phát triển, sự tập trung vào các mô hình nhỏ hơn, chuyên biệt hơn sẽ có khả năng tăng lên, mang lại cả cơ hội và thách thức mới trong việc phát triển và ứng dụng công nghệ AI.

Aayush Mittal, Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với sự tập trung đặc biệt vào AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến với Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.