Trí tuệ nhân tạo
Google đang làm cho việc đào tạo AI nhanh hơn 28% bằng cách sử dụng SLM làm giáo viên

Hội thảo mô hình ngôn ngữ lớn (LLM) đã trở nên ngoài tầm với của hầu hết các tổ chức. Với chi phí lên tới hàng triệu đô la và yêu cầu tính toán khiến siêu máy tính phải đổ mồ hôi, việc phát triển AI vẫn bị khóa sau cánh cửa của những gã khổng lồ công nghệ. Nhưng Google vừa đảo ngược câu chuyện này bằng một cách tiếp cận đơn giản đến mức khiến bạn tự hỏi tại sao không ai nghĩ ra sớm hơn: sử dụng các mô hình AI nhỏ hơn làm giáo viên.
Cách thức hoạt động của SALT: Một cách tiếp cận mới để đào tạo các mô hình AI
Trong một bài báo nghiên cứu gần đây có tựa đề “Một chút trợ giúp có thể đi một chặng đường dài: Đào tạo LLM hiệu quả bằng cách tận dụng các LM nhỏ,”Google Research và DeepMind đã giới thiệu SALT (Đào tạo mô hình nhỏ hỗ trợ mô hình lớn). Đây là phương pháp mới thách thức cách tiếp cận truyền thống của chúng tôi trong việc đào tạo LLM.
Tại sao nghiên cứu này lại quan trọng? Hiện tại, việc đào tạo các mô hình AI lớn giống như cố gắng dạy cho ai đó mọi thứ họ cần biết về một chủ đề cùng một lúc – điều này không hiệu quả, tốn kém và thường chỉ giới hạn ở các tổ chức có nguồn lực điện toán khổng lồ. SALT lại đi theo một con đường khác, giới thiệu một quy trình đào tạo hai giai đoạn vừa mang tính sáng tạo vừa thiết thực.
Phân tích cách thức hoạt động thực sự của SALT:
Giai đoạn 1: Chắt lọc kiến thức
- A mô hình ngôn ngữ nhỏ hơn (SLM) hoạt động như một giáo viên, chia sẻ sự hiểu biết của mình với mô hình lớn hơn
- Mô hình nhỏ hơn tập trung vào việc chuyển giao “kiến thức đã học” của mình thông qua cái mà các nhà nghiên cứu gọi là “nhãn mềm”
- Hãy nghĩ về nó giống như một trợ lý giảng dạy xử lý các khái niệm cơ bản trước khi học sinh chuyển sang các chủ đề nâng cao
- Giai đoạn này đặc biệt hiệu quả trong các vùng học tập “dễ” – các vùng mà mô hình nhỏ hơn có độ tin cậy dự đoán mạnh mẽ
Giai đoạn 2: Học tập tự giám sát
- Mô hình lớn chuyển sang học tập độc lập
- Nó tập trung vào việc làm chủ các mô hình phức tạp và các nhiệm vụ đầy thử thách
- Đây là nơi mô hình phát triển các khả năng vượt xa những gì "giáo viên" nhỏ hơn của nó có thể cung cấp
- Quá trình chuyển đổi giữa các giai đoạn sử dụng các chiến lược được thiết kế cẩn thận, bao gồm sự phân rã tuyến tính và sự phân rã tỷ lệ tuyến tính của trọng lượng mất mát chưng cất
Nói một cách không chuyên môn, tôiHãy tưởng tượng mô hình AI nhỏ hơn giống như một gia sư hữu ích hướng dẫn mô hình lớn hơn trong giai đoạn đầu của quá trình đào tạo. Gia sư này cung cấp thêm thông tin cùng với câu trả lời của họ, cho biết mức độ tự tin của họ về từng câu trả lời. Thông tin bổ sung này, được gọi là "nhãn mềm", giúp mô hình lớn hơn học nhanh hơn và hiệu quả hơn.
- Phân rã tuyến tính: Giống như việc từ từ giảm âm lượng giọng nói của người hướng dẫn. Sự hướng dẫn của người hướng dẫn sẽ trở nên mờ nhạt hơn sau mỗi bước, cho phép mô hình lớn hơn tập trung hơn vào việc học hỏi từ chính dữ liệu thô.
- Tỷ lệ suy giảm tuyến tính: Điều này giống như việc điều chỉnh sự cân bằng giữa lời khuyên của gia sư và nhiệm vụ thực tế. Khi quá trình đào tạo tiến triển, trọng tâm sẽ chuyển dần sang nhiệm vụ ban đầu, trong khi sự đóng góp của gia sư sẽ ít chi phối hơn.
Kết quả thật thuyết phục. Khi các nhà nghiên cứu của Google thử nghiệm SALT bằng cách sử dụng SLM có 1.5 tỷ tham số để đào tạo LLM có 2.8 tỷ tham số trên Tập dữ liệu cọc, họ đã thấy:
- Giảm 28% thời gian đào tạo so với phương pháp truyền thống
- Cải thiện hiệu suất đáng kể sau khi tinh chỉnh:
- Độ chính xác của bài toán tăng lên 34.87% (so với mức cơ bản là 31.84%)
- Khả năng hiểu đọc đạt độ chính xác 67% (tăng từ 63.7%)
Nhưng điều làm nên sự đổi mới thực sự của SALT chính là khuôn khổ lý thuyết của nó. Các nhà nghiên cứu phát hiện ra rằng ngay cả một mô hình giáo viên “yếu hơn” cũng có thể nâng cao hiệu suất của học sinh bằng cách đạt được cái mà họ gọi là “sự đánh đổi giữa độ lệch và phương sai thuận lợi”. Nói một cách đơn giản hơn, mô hình nhỏ hơn giúp mô hình lớn hơn học các mẫu cơ bản hiệu quả hơn, tạo nền tảng vững chắc hơn cho việc học nâng cao.
Tại sao SALT có thể định hình lại sân chơi phát triển AI
Bạn còn nhớ khi điện toán đám mây thay đổi ai có thể khởi nghiệp công ty công nghệ không? SALT cũng có thể làm như vậy đối với phát triển AI.
Tôi đã theo dõi những đổi mới trong đào tạo AI trong nhiều năm và hầu hết những đột phá chủ yếu mang lại lợi ích cho các công ty công nghệ lớn. Nhưng SALT thì khác.
Sau đây là ý nghĩa của nó đối với tương lai:
Đối với các tổ chức có nguồn lực hạn chế:
- Bạn có thể không còn cần cơ sở hạ tầng điện toán khổng lồ để phát triển các mô hình AI có khả năng
- Các phòng nghiên cứu và công ty nhỏ hơn có thể thử nghiệm phát triển mô hình tùy chỉnh
- Việc giảm 28% thời gian đào tạo sẽ chuyển trực tiếp thành chi phí máy tính thấp hơn
- Quan trọng hơn, bạn có thể bắt đầu với nguồn tài nguyên máy tính khiêm tốn và vẫn đạt được kết quả chuyên nghiệp
Đối với bối cảnh phát triển AI:
- Nhiều người chơi hơn có thể tham gia vào lĩnh vực này, dẫn đến các giải pháp AI đa dạng và chuyên biệt hơn
- Các trường đại học và viện nghiên cứu có thể tiến hành nhiều thí nghiệm hơn với các nguồn lực hiện có của họ
- Rào cản gia nhập nghiên cứu AI giảm đáng kể
- Chúng ta có thể thấy những ứng dụng mới trong các lĩnh vực mà trước đây không đủ khả năng phát triển AI
Điều này có ý nghĩa gì cho tương lai
Bằng cách sử dụng các mô hình nhỏ làm giáo viên, chúng tôi không chỉ làm cho việc đào tạo AI hiệu quả hơn mà còn thay đổi cơ bản những người được tham gia vào quá trình phát triển AI. Những hàm ý vượt xa những cải tiến kỹ thuật.
Những điểm chính cần ghi nhớ:
- Giảm thời gian đào tạo 28% là sự khác biệt giữa việc bắt đầu một dự án AI hoặc coi nó là ngoài tầm với
- Sự cải thiện hiệu suất (34.87% ở môn toán, 67% ở bài đọc) cho thấy khả năng tiếp cận không phải lúc nào cũng có nghĩa là ảnh hưởng đến chất lượng
- Cách tiếp cận của SALT chứng minh rằng đôi khi các giải pháp tốt nhất đến từ việc xem xét lại các nguyên tắc cơ bản thay vì chỉ tăng thêm sức mạnh tính toán
Những gì để xem cho:
- Hãy chú ý đến các tổ chức nhỏ hơn đang bắt đầu phát triển các mô hình AI tùy chỉnh
- Hãy chú ý đến các ứng dụng mới trong các lĩnh vực trước đây không đủ khả năng phát triển AI
- Tìm kiếm những đổi mới trong cách sử dụng các mô hình nhỏ hơn cho các nhiệm vụ chuyên biệt
Ghi nhớ: Giá trị thực sự của SALT nằm ở cách nó có thể định hình lại những người được đổi mới trong AI. Cho dù bạn đang điều hành một phòng thí nghiệm nghiên cứu, quản lý một nhóm công nghệ hay chỉ quan tâm đến phát triển AI, đây là loại đột phá có thể biến ý tưởng lớn tiếp theo của bạn thành hiện thực.
Có lẽ hãy bắt đầu nghĩ về dự án AI mà bạn nghĩ là ngoài tầm với. Nó có thể khả thi hơn bạn tưởng.