Trí tuệ nhân tạo

Google đang làm cho việc đào tạo AI nhanh hơn 28% bằng cách sử dụng SLMs làm giáo viên

Đã xuất bản 6 tháng 1, 2025

Đã cập nhật 20 tháng 5, 2026

Alex McFarland

Đào tạo mô hình ngôn ngữ lớn (LLM) đã trở thành điều không thể tiếp cận được với hầu hết các tổ chức. Với chi phí chạy vào hàng triệu và yêu cầu tính toán mà thậm chí một siêu máy tính cũng phải đổ mồ hôi, việc phát triển AI đã bị khóa chặt sau cánh cửa của các gã khổng lồ công nghệ. Nhưng Google vừa lật ngược câu chuyện này bằng một cách tiếp cận đơn giản đến mức bạn tự hỏi tại sao không ai nghĩ ra nó sớm hơn: sử dụng mô hình AI nhỏ hơn làm giáo viên.

Cách SALT hoạt động: Một cách tiếp cận mới để đào tạo mô hình AI

Trong một bài nghiên cứu gần đây có tiêu đề “Một chút giúp đỡ đi một dài cách: Đào tạo LLM hiệu quả bằng cách tận dụng mô hình nhỏ“, Google Research và DeepMind đã giới thiệu SALT (Đào tạo mô hình lớn với sự hỗ trợ của mô hình nhỏ). Đây là phương pháp mới thách thức cách tiếp cận truyền thống của chúng ta để đào tạo LLM.

Tại sao nghiên cứu này lại quan trọng? Hiện tại, đào tạo mô hình AI lớn giống như cố gắng dạy cho ai đó mọi thứ họ cần biết về một chủ đề cùng một lúc – nó không hiệu quả, tốn kém và thường bị hạn chế đối với các tổ chức có tài nguyên tính toán khổng lồ. SALT đi theo một con đường khác, giới thiệu một quá trình đào tạo hai giai đoạn vừa sáng tạo vừa thực tế.

Phân tích cách SALT thực sự hoạt động:

Giai đoạn 1: Truyền đạt kiến thức

Một mô hình ngôn ngữ nhỏ hơn (SLM) đóng vai trò là giáo viên, chia sẻ hiểu biết của nó với mô hình lớn hơn
Mô hình nhỏ hơn tập trung vào việc chuyển giao “kiến thức đã học” của nó thông qua những gì các nhà nghiên cứu gọi là “nhãn mềm”
Hãy nghĩ về nó như một trợ lý giảng dạy xử lý các khái niệm cơ bản trước khi một sinh viên chuyển sang các chủ đề tiên tiến
Giai đoạn này đặc biệt hiệu quả trong các “khu vực dễ” của việc học – các khu vực mà mô hình nhỏ hơn có sự tự tin dự đoán mạnh mẽ

Giai đoạn 2: Học tự giám sát

Mô hình lớn hơn chuyển sang học độc lập
Nó tập trung vào việc掌握 các mẫu phức tạp và các nhiệm vụ thách thức
Đây là nơi mô hình phát triển khả năng vượt quá những gì mô hình “giáo viên” nhỏ hơn của nó có thể cung cấp
Sự chuyển đổi giữa các giai đoạn sử dụng các chiến lược được thiết kế cẩn thận, bao gồm cả sự suy giảm tuyến tính và tỷ lệ suy giảm tuyến tính của trọng số mất mát truyền đạt

Trong những thuật ngữ không kỹ thuật, hãy tưởng tượng mô hình AI nhỏ hơn như một người hướng dẫn hữu ích giúp mô hình lớn hơn trong các giai đoạn đào tạo ban đầu. Người hướng dẫn này cung cấp thông tin thêm cùng với câu trả lời của họ, chỉ ra mức độ tự tin họ có về mỗi câu trả lời. Thông tin thêm này, được gọi là “nhãn mềm”, giúp mô hình lớn hơn học nhanh hơn và hiệu quả hơn.

Bây giờ, khi mô hình AI lớn hơn trở nên có khả năng hơn, nó cần chuyển từ việc dựa vào người hướng dẫn sang việc học độc lập. Đây là nơi “sự suy giảm tuyến tính” và “tỷ lệ suy giảm tuyến tính” phát huy tác dụng.

Hãy nghĩ về những kỹ thuật này như việc giảm dần ảnh hưởng của người hướng dẫn theo thời gian:

Sự suy giảm tuyến tính: Nó giống như việc giảm âm lượng của giọng nói người hướng dẫn. Hướng dẫn của người hướng dẫn trở nên ít nổi bật hơn với mỗi bước, cho phép mô hình lớn hơn tập trung nhiều hơn vào việc học từ dữ liệu thô của chính nó.
Tỷ lệ suy giảm tuyến tính: Đây giống như việc điều chỉnh sự cân bằng giữa lời khuyên của người hướng dẫn và nhiệm vụ thực tế. Khi đào tạo tiến triển, sự nhấn mạnh chuyển nhiều hơn về nhiệm vụ gốc, trong khi đầu vào của người hướng dẫn trở nên ít nổi bật hơn.

Mục tiêu của cả hai kỹ thuật này là đảm bảo một sự chuyển đổi mượt mà cho mô hình AI lớn hơn, ngăn chặn bất kỳ sự thay đổi đột ngột nào trong hành vi học tập của nó.

Kết quả rất thuyết phục. Khi các nhà nghiên cứu của Google thử nghiệm SALT bằng cách sử dụng mô hình ngôn ngữ nhỏ 1,5 tỷ tham số để đào tạo mô hình ngôn ngữ lớn 2,8 tỷ tham số trên Bộ dữ liệu Pile, họ đã thấy:

Giảm 28% thời gian đào tạo so với các phương pháp truyền thống
Cải thiện hiệu suất đáng kể sau khi tinh chỉnh:
- Độ chính xác của vấn đề toán học tăng lên 34,87% (so với 31,84% cơ bản)
- Độ chính xác của việc đọc hiểu đạt 67% (tăng từ 63,7%)

Nhưng điều làm cho SALT thực sự sáng tạo là khuôn khổ lý thuyết của nó. Các nhà nghiên cứu đã phát hiện ra rằng thậm chí một mô hình “giáo viên” yếu hơn cũng có thể cải thiện hiệu suất của học sinh bằng cách đạt được sự “trading-off giữa thiên vị và phương sai” thuận lợi. Trong những thuật ngữ đơn giản hơn, mô hình nhỏ hơn giúp mô hình lớn hơn học các mẫu cơ bản một cách hiệu quả hơn, tạo ra một nền tảng vững chắc hơn cho việc học tiên tiến.

Tại sao SALT có thể thay đổi sân chơi phát triển AI

Hãy nhớ lại khi tính toán đám mây biến đổi ai có thể bắt đầu một công ty công nghệ? SALT có thể làm điều tương tự cho việc phát triển AI.

Tôi đã theo dõi các đổi mới trong đào tạo AI trong nhiều năm, và hầu hết các đột phá chủ yếu mang lại lợi ích cho các gã khổng lồ công nghệ. Nhưng SALT khác.

Đây là những gì nó có thể có nghĩa cho tương lai:

Đối với các tổ chức có tài nguyên hạn chế:

Bạn có thể không cần phải có cơ sở hạ tầng tính toán khổng lồ để phát triển mô hình AI có khả năng
Các phòng thí nghiệm nghiên cứu nhỏ hơn và các công ty có thể thử nghiệm với việc phát triển mô hình tùy chỉnh
Giảm 28% thời gian đào tạo tương đương với chi phí tính toán thấp hơn
Quan trọng hơn, bạn có thể bắt đầu với tài nguyên tính toán khiêm tốn và vẫn đạt được kết quả chuyên nghiệp

Đối với phong cảnh phát triển AI:

Nhiều người chơi hơn có thể tham gia vào lĩnh vực này, dẫn đến nhiều giải pháp AI đa dạng và chuyên môn hóa hơn
Các trường đại học và tổ chức nghiên cứu có thể chạy nhiều thí nghiệm với tài nguyên hiện có của họ
Rào cản gia nhập cho nghiên cứu AI giảm đáng kể
Chúng ta có thể thấy các ứng dụng mới trong các lĩnh vực trước đây không thể đủ khả năng phát triển AI

Điều này có nghĩa cho tương lai

Bằng cách sử dụng mô hình nhỏ làm giáo viên, chúng ta không chỉ làm cho việc đào tạo AI hiệu quả hơn – chúng ta cũng đang thay đổi cơ bản ai có thể tham gia vào việc phát triển AI. Các ý nghĩa đi xa hơn nhiều so với chỉ những cải tiến kỹ thuật.

Các điểm chính cần nhớ:

Giảm 28% thời gian đào tạo là sự khác biệt giữa việc bắt đầu một dự án AI và coi nó là không thể tiếp cận
Cải thiện hiệu suất (34,87% đối với toán, 67% đối với nhiệm vụ đọc) cho thấy rằng tính khả dụng không nhất thiết phải đồng nghĩa với việc hy sinh chất lượng
Cách tiếp cận của SALT chứng minh rằng đôi khi những giải pháp tốt nhất đến từ việc suy nghĩ lại các nguyên tắc cơ bản chứ không chỉ thêm nhiều sức mạnh tính toán hơn

Điều gì cần theo dõi:

Hãy để mắt đến các tổ chức nhỏ hơn bắt đầu phát triển mô hình AI tùy chỉnh
Theo dõi các ứng dụng mới trong các lĩnh vực trước đây không thể đủ khả năng phát triển AI
Tìm kiếm các đổi mới trong cách sử dụng mô hình nhỏ cho các nhiệm vụ chuyên biệt

Nhớ: Giá trị thực sự của SALT nằm ở cách nó có thể thay đổi ai có thể đổi mới trong AI. Dù bạn đang điều hành một phòng thí nghiệm nghiên cứu, quản lý một đội công nghệ, hay chỉ quan tâm đến việc phát triển AI, đây là loại đột phá có thể khiến ý tưởng lớn tiếp theo của bạn trở nên khả thi.

Hãy bắt đầu suy nghĩ về dự án AI mà bạn nghĩ là không thể tiếp cận. Nó có thể khả thi hơn bạn tưởng.