Trí tuệ nhân tạo
Bạn Có Thể Xây Dựng Mô Hình Ngôn Ngữ Lớn Giống ChatGPT Với Chi Phí Thấp Hơn Một Nửa?

Mô Hình Ngôn Ngữ Lớn (LLMs) như GPT-3 và ChatGPT đã cách mạng hóa trí tuệ nhân tạo bằng cách cung cấp khả năng hiểu ngôn ngữ tự nhiên và tạo nội dung. Tuy nhiên, việc phát triển chúng có chi phí cao, hạn chế khả năng tiếp cận và nghiên cứu thêm. Các nhà nghiên cứu ước tính rằng việc đào tạo GPT-3 đã cost OpenAI khoảng $5 triệu. Tuy nhiên, Microsoft đã nhận ra tiềm năng và đầu tư $1 tỷ vào năm 2019 và $10 tỷ vào năm 2023 vào dự án GPT-3 và ChatGPT của OpenAI.
LLMs là mô hình học máy được đào tạo trên dữ liệu văn bản rộng lớn cho các ứng dụng NLP. Chúng dựa trên kiến trúc transformer và sử dụng cơ chế chú ý cho các nhiệm vụ NLP như trả lời câu hỏi, dịch máy, phân tích cảm xúc, v.v.
Câu hỏi đặt ra: liệu có thể tăng hiệu suất của các mô hình lớn này đồng thời giảm chi phí tính toán và thời gian đào tạo?
Một số phương pháp, như Progressive Neural Networks, Network Morphism, intra-layer model parallelism, knowledge inheritance, v.v., đã được phát triển để giảm chi phí tính toán của việc đào tạo mạng nơ-ron. Phương pháp LiGO (Linear Growth Operator) mới mà chúng tôi sẽ thảo luận đang thiết lập một tiêu chuẩn mới. Nó giảm một nửa chi phí tính toán của việc đào tạo LLMs.
Trước khi thảo luận về kỹ thuật này, việc kiểm tra các yếu tố đóng góp vào chi phí cao của việc tạo LLMs là rất quan trọng.
Chi Phí Xây Dựng Mô Hình Ngôn Ngữ Lớn
Ba khoản chi phí chính cho việc phát triển LLMs như sau:
1. Tài Nguyên Tính Toán
Xây dựng LLMs yêu cầu tài nguyên tính toán lớn để đào tạo trên các tập dữ liệu lớn. Chúng phải xử lý hàng tỷ tham số và học các mẫu phức tạp từ dữ liệu văn bản rộng lớn.
Đầu tư vào phần cứng chuyên dụng như Bộ Xử Lý Đồ Họa (GPU) và Bộ Xử Lý Tensor (TPU) là cần thiết để xây dựng và đào tạo LLMs để đạt được hiệu suất tốt nhất.
Ví dụ, GPT-3 được đào tạo trên một siêu máy tính với 10.000 GPU cấp doanh nghiệp (H100 và A100) và 285.000 lõi CPU.
2. Tiêu Thụ Năng Lượng
Tài nguyên tính toán mạnh mẽ cần thiết để xây dựng LLMs dẫn đến tiêu thụ năng lượng đáng kể. Ví dụ, đào tạo 175 tỷ tham số GPT-3 mất 14,8 ngày bằng cách sử dụng 10.000 GPU V100, tương đương với 3,55 triệu giờ GPU. Mức tiêu thụ năng lượng cao như vậy có tác động môi trường đáng kể.
3. Lưu Trữ Dữ Liệu & Quản Lý
LLMs được đào tạo trên các tập dữ liệu lớn. Ví dụ, GPT-3 được đào tạo trên một tập hợp rộng lớn của dữ liệu văn bản, bao gồm Common Crawl, WebText2, Books1, Books2 và Wikipedia, cùng với các nguồn khác. Đầu tư cơ sở hạ tầng đáng kể là cần thiết để thu thập, chỉnh sửa và lưu trữ các tập dữ liệu này.
Ngoài ra, lưu trữ đám mây là cần thiết để lưu trữ dữ liệu, và chuyên môn của con người cho việc tiền xử lý dữ liệu và kiểm soát phiên bản. Hơn nữa, việc đảm bảo chiến lược dữ liệu của bạn tuân thủ các quy định như GDPR cũng thêm vào chi phí.
Kỹ Thuật LiGO: Giảm Chi Phí Xây Dựng Mô Hình Ngôn Ngữ Lớn xuống Một Nửa
LiGO (Linear Growth Operator) là một kỹ thuật mới được các nhà nghiên cứu tại MIT phát triển để giảm chi phí tính toán của việc đào tạo LLMs xuống 50%. Phương pháp này liên quan đến việc khởi tạo trọng số của các mô hình lớn hơn từ các mô hình nhỏ hơn đã được đào tạo trước, cho phép mở rộng hiệu quả các mạng nơ-ron.

Hình ảnh từ Bài viết: Learning to Grow Pretrained Models For Efficient Transformer Training
Yoon Kim, tác giả chính của bài viết, cho biết:
“Người ta đã ước tính rằng việc đào tạo mô hình ở quy mô của những gì ChatGPT được cho là chạy trên có thể mất hàng triệu đô la chỉ cho một lần đào tạo. Chúng ta có thể cải thiện hiệu suất của các phương pháp đào tạo này, để chúng ta vẫn có thể có được mô hình tốt trong thời gian ngắn hơn và với chi phí thấp hơn? Chúng tôi đề xuất làm điều này bằng cách tận dụng các mô hình ngôn ngữ nhỏ hơn đã được đào tạo trước đó.”
Phương pháp này duy trì lợi ích hiệu suất của các mô hình lớn hơn với chi phí tính toán giảm và thời gian đào tạo so với việc đào tạo một mô hình lớn từ đầu. LiGO sử dụng một toán tử tăng trưởng tuyến tính dựa trên dữ liệu, kết hợp các toán tử độ sâu và chiều rộng để đạt được hiệu suất tối ưu.
Bài viết sử dụng các tập dữ liệu khác nhau để thực hiện các thí nghiệm dựa trên văn bản, bao gồm tập hợp Wikipedia tiếng Anh để đào tạo các mô hình BERT và RoBERTa, và tập hợp C4 để đào tạo GPT2.
Thử nghiệm kỹ thuật LiGO bao gồm việc phát triển BERT-Small thành BERT-Base, BERT-Base thành BERT-Large, RoBERTaSmall thành RoBERTa-Base, GPT2-Base thành GPT2-Medium, và CaiT-XS thành CaiT-S.
Các nhà nghiên cứu đã so sánh phương pháp của họ với một số baseline khác, bao gồm đào tạo từ đầu, đào tạo tiến bộ, bert2BERT, và KI.
Kỹ thuật LiGO đã cung cấp 44,7% tiết kiệm FLOPs (hoạt động điểm nổi) và 40,7% tiết kiệm thời gian thực so với việc đào tạo BERT-Base từ đầu bằng cách tái sử dụng mô hình BERT-Small. Toán tử tăng trưởng LiGO vượt trội so với StackBERT, MSLT, bert2BERT, và KI trong đào tạo hiệu quả.
Lợi Ích Của Việc Sử Dụng Kỹ Thuật Tối Ưu Hóa Đào Tạo Như LiGO
LiGO là một phương pháp đào tạo mạng nơ-ron hiệu quả, có các lợi ích sau:
1. Đào Tạo Nhanh Hơn
Như đã đề cập trước đó, đào tạo nhanh hơn là lợi thế chính của kỹ thuật LiGO. Nó đào tạo LLMs trong thời gian ngắn hơn, tăng năng suất và giảm chi phí.
2. Tiết Kiệm Tài Nguyên
LiGO là tiết kiệm tài nguyên vì nó giảm thiểu thời gian thực và FLOPs, dẫn đến một phương pháp đào tạo mô hình transformer lớn hơn hiệu quả về chi phí và thân thiện với môi trường.
3. Khả Năng Tổng Quan
Kỹ thuật LiGO đã cải thiện hiệu suất của cả mô hình transformer ngôn ngữ và tầm nhìn, cho thấy rằng nó là một kỹ thuật có thể tổng quát hóa được và có thể được áp dụng cho các nhiệm vụ khác nhau.
Xây dựng sản phẩm AI thương mại chỉ là một khía cạnh của tổng chi phí liên quan đến hệ thống AI. Một thành phần chi phí quan trọng khác đến từ hoạt động hàng ngày. Ví dụ, nó cost OpenAI khoảng $700.000 mỗi ngày để trả lời các truy vấn bằng ChatGPT. Các nhà nghiên cứu dự kiến sẽ tiếp tục khám phá các phương pháp làm cho LLMs tiết kiệm chi phí trong quá trình đào tạo và dễ tiếp cận hơn trong thời gian chạy.
Để biết thêm nội dung liên quan đến AI, hãy truy cập unite.ai.












