AI 101
Sự trỗi dậy của Mixture-of-Experts: Làm thế nào các mô hình AI thưa thớt đang định hình lại tương lai của học máy

Mixture-of-Experts (MoE) là mô hình đang cách mạng hóa cách chúng ta mở rộng quy mô AI. Bằng cách kích hoạt chỉ một tập con của các thành phần mô hình tại bất kỳ thời điểm nào, MoEs cung cấp một cách tiếp cận mới để quản lý sự cân bằng giữa kích thước mô hình và hiệu quả tính toán. Không giống như các mô hình truyền thống dày đặc sử dụng tất cả các tham số cho mọi đầu vào, MoEs đạt được số lượng tham số khổng lồ trong khi vẫn giữ cho chi phí suy luận và huấn luyện trong tầm kiểm soát. Sự đột phá này đã thúc đẩy một làn sóng nghiên cứu và phát triển, dẫn đến việc các công ty công nghệ và startup đầu tư mạnh mẽ vào các kiến trúc dựa trên MoE.
Làm thế nào Mixture-of-Experts Models hoạt động
Tại cốt lõi, các mô hình MoE bao gồm nhiều mạng con chuyên dụng được gọi là “chuyên gia”, được giám sát bởi một cơ chế cổng quyết định哪 chuyên gia nào sẽ xử lý từng đầu vào. Ví dụ, một câu được đưa vào mô hình ngôn ngữ có thể chỉ kích hoạt hai trong số tám chuyên gia, giảm đáng kể khối lượng công việc tính toán.
Khái niệm này được đưa vào dòng chính với Switch Transformer và GLaM của Google, nơi các chuyên gia thay thế các lớp feed-forward truyền thống trong Transformer. Switch Transformer, ví dụ, định tuyến các token đến một chuyên gia duy nhất cho mỗi lớp, trong khi GLaM sử dụng định tuyến top-2 để cải thiện hiệu suất. Những thiết kế này đã chứng minh rằng MoEs có thể匹 hợp hoặc vượt qua các mô hình dày đặc như GPT-3 trong khi sử dụng ít năng lượng và tính toán hơn đáng kể.
Điểm đổi mới chính nằm ở tính toán có điều kiện. Thay vì kích hoạt toàn bộ mô hình, MoEs chỉ kích hoạt các phần liên quan nhất, có nghĩa là một mô hình với hàng trăm tỷ hoặc thậm chí nghìn tỷ tham số có thể chạy với hiệu quả của một mô hình nhỏ hơn nhiều. Điều này cho phép các nhà nghiên cứu mở rộng khả năng mà không cần tăng tính toán tuyến tính, một kỳ công không thể đạt được với các phương pháp mở rộng truyền thống.

Ứng dụng thực tế của MoE
Các mô hình MoE đã để lại dấu ấn trên nhiều lĩnh vực. GLaM và Switch Transformer của Google đã thể hiện kết quả hàng đầu trong mô hình ngôn ngữ với chi phí huấn luyện và suy luận thấp hơn. Z-Code MoE của Microsoft đang hoạt động trong công cụ Dịch của họ, xử lý hơn 100 ngôn ngữ với độ chính xác và hiệu quả cao hơn so với các mô hình trước đó. Đây không chỉ là các dự án nghiên cứu – chúng đang cung cấp các dịch vụ trực tiếp.
Trong tầm nhìn máy tính, kiến trúc V-MoE của Google đã cải thiện độ chính xác phân loại trên các điểm chuẩn như ImageNet, và mô hình LIMoE đã thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ đa phương thức liên quan đến cả hình ảnh và văn bản. Khả năng của các chuyên gia để chuyên môn hóa – một số xử lý văn bản, những người khác xử lý hình ảnh – thêm một lớp khả năng mới cho các hệ thống AI.
Các hệ thống khuyến nghị và nền tảng học đa nhiệm cũng đã được hưởng lợi từ MoEs. Ví dụ, động cơ khuyến nghị của YouTube đã sử dụng một kiến trúc giống MoE để xử lý các mục tiêu như thời gian xem và tỷ lệ nhấp chuột một cách hiệu quả hơn. Bằng cách gán các chuyên gia khác nhau cho các nhiệm vụ hoặc hành vi người dùng khác nhau, MoEs giúp xây dựng các động cơ cá nhân hóa mạnh mẽ hơn.
Lợi ích và Thách thức
Lợi ích chính của MoEs là hiệu quả. Chúng cho phép các mô hình khổng lồ được huấn luyện và triển khai với ít tính toán hơn. Ví dụ, mô hình Mixtral 8×7B của Mistral AI có 47B tham số tổng nhưng chỉ kích hoạt 12,9B cho mỗi token, mang lại hiệu quả về chi phí của một mô hình 13B trong khi cạnh tranh với các mô hình như GPT-3.5 về chất lượng.
MoEs cũng thúc đẩy chuyên môn hóa. Vì các chuyên gia khác nhau có thể học các mẫu khác nhau, mô hình tổng thể trở nên tốt hơn trong việc xử lý các đầu vào đa dạng. Điều này đặc biệt hữu ích trong các nhiệm vụ đa ngôn ngữ, đa lĩnh vực hoặc đa phương thức, nơi một mô hình dày đặc duy nhất có thể hoạt động dưới mức tối ưu.
Tuy nhiên, MoEs đi kèm với các thách thức về kỹ thuật. Việc huấn luyện chúng đòi hỏi sự cân bằng cẩn thận để đảm bảo rằng tất cả các chuyên gia được sử dụng hiệu quả. Trình độ chuyên môn về bộ nhớ cũng là một mối quan tâm – trong khi chỉ một phần nhỏ của các tham số được kích hoạt cho mỗi suy luận, tất cả phải được tải vào bộ nhớ. Việc phân phối tính toán hiệu quả trên các GPU hoặc TPU không phải là một việc đơn giản và đã dẫn đến sự phát triển của các khuôn khổ chuyên dụng như DeepSpeed của Microsoft và GShard của Google.
Mặc dù có những chướng ngại vật này, lợi ích về hiệu suất và chi phí là đáng kể đến mức MoEs hiện được coi là một thành phần quan trọng của thiết kế AI quy mô lớn. Khi các công cụ và cơ sở hạ tầng trưởng thành hơn, những thách thức này đang dần được vượt qua.
Làm thế nào MoE so sánh với các phương pháp mở rộng khác
Mở rộng truyền thống tăng kích thước mô hình và tính toán theo tỷ lệ. MoEs phá vỡ tính tuyến tính này bằng cách tăng tổng số tham số mà không tăng tính toán cho mỗi đầu vào. Điều này cho phép các mô hình với nghìn tỷ tham số được huấn luyện trên cùng một phần cứng trước đây bị giới hạn ở hàng chục tỷ.
So với việc ghép mô hình, điều này cũng giới thiệu chuyên môn hóa nhưng đòi hỏi nhiều lần chuyển tiếp đầy đủ, MoEs hiệu quả hơn nhiều. Thay vì chạy nhiều mô hình song song, MoEs chạy chỉ một mô hình – nhưng với lợi ích của nhiều đường dẫn chuyên gia.
MoEs cũng bổ sung cho các chiến lược như mở rộng dữ liệu huấn luyện (ví dụ, phương pháp Chinchilla). Trong khi Chinchilla nhấn mạnh việc sử dụng nhiều dữ liệu hơn với các mô hình nhỏ hơn, MoEs mở rộng khả năng mô hình trong khi giữ tính toán ổn định, khiến chúng trở nên lý tưởng cho các trường hợp tính toán là nút thắt cổ chai.
Cuối cùng, trong khi các kỹ thuật như cắt tỉa và lượng tử hóa thu nhỏ mô hình sau khi huấn luyện, MoEs tăng khả năng mô hình trong quá trình huấn luyện. Chúng không phải là sự thay thế cho nén mà là một công cụ trực giao cho sự phát triển hiệu quả.
Các công ty dẫn đầu cuộc cách mạng MoE
Các gã khổng lồ công nghệ
Google đã tiên phong trong nhiều nghiên cứu MoE ngày nay. Các mô hình Switch Transformer và GLaM của họ đã mở rộng quy mô lên đến 1,6T và 1,2T tham số tương ứng. GLaM đã匹 hợp hiệu suất của GPT-3 trong khi sử dụng chỉ một phần ba năng lượng. Google cũng đã áp dụng MoEs vào tầm nhìn (V-MoE) và các nhiệm vụ đa phương thức (LIMoE), phù hợp với tầm nhìn Pathways rộng lớn hơn của họ về các mô hình AI phổ quát.
Microsoft đã tích hợp MoE vào sản xuất thông qua mô hình Z-Code trong Microsoft Translator. Họ cũng đã phát triển DeepSpeed-MoE, cho phép huấn luyện nhanh và suy luận thấp độ trễ cho các mô hình nghìn tỷ tham số. Các đóng góp của họ bao gồm các thuật toán định tuyến và thư viện Tutel để tính toán MoE hiệu quả.
Meta đã khám phá MoEs trong các mô hình ngôn ngữ quy mô lớn và các hệ thống khuyến nghị. Mô hình MoE 1,1T của họ đã chỉ ra rằng nó có thể匹 hợp chất lượng mô hình dày đặc bằng cách sử dụng ít tính toán hơn 4 lần. Mặc dù các mô hình LLaMA là dày đặc, nghiên cứu của Meta về MoE tiếp tục thông báo cho cộng đồng rộng lớn hơn.
Amazon hỗ trợ MoEs thông qua nền tảng SageMaker và các nỗ lực nội bộ. Họ đã tạo điều kiện cho việc huấn luyện mô hình Mixtral của Mistral và được cho là đang sử dụng MoEs trong các dịch vụ như Alexa AI. Tài liệu AWS tích cực quảng bá MoEs cho việc huấn luyện mô hình quy mô lớn.
Huawei và BAAI ở Trung Quốc cũng đã phát triển các mô hình MoE kỷ lục như PanGu-Σ (1.085T tham số). Điều này thể hiện tiềm năng của MoE trong ngôn ngữ và các nhiệm vụ đa phương thức và nhấn mạnh sự hấp dẫn toàn cầu của nó.
Các startup và thách thức
Mistral AI là biểu tượng cho sự đổi mới MoE trong mã nguồn mở. Các mô hình Mixtral 8×7B và 8×22B của họ đã chứng minh rằng MoEs có thể vượt qua các mô hình dày đặc như LLaMA-2 70B trong khi chạy với một phần nhỏ chi phí. Với hơn 600 triệu euro tài trợ, Mistral đang đặt cược lớn vào các kiến trúc thưa thớt.
xAI, được thành lập bởi Elon Musk, được cho là đang khám phá MoEs trong mô hình Grok của họ. Mặc dù chi tiết còn hạn chế, MoEs cung cấp một cách cho các startup như xAI để cạnh tranh với các đối thủ lớn hơn mà không cần tính toán khổng lồ.
Databricks, thông qua việc mua lại MosaicML, đã phát hành DBRX, một mô hình MoE mã nguồn mở được thiết kế cho hiệu quả. Họ cũng cung cấp cơ sở hạ tầng và công thức cho việc huấn luyện MoE, giảm rào cản cho việc áp dụng.
Các diễn viên khác như Hugging Face đã tích hợp hỗ trợ MoE vào các thư viện của họ, khiến cho các nhà phát triển dễ dàng xây dựng trên các mô hình này hơn. Ngay cả khi họ không xây dựng MoEs, các nền tảng cho phép chúng là rất quan trọng đối với hệ sinh thái.
Kết luận
Mixture-of-Experts là không chỉ một xu hướng – chúng đại diện cho một sự thay đổi cơ bản trong cách các hệ thống AI được xây dựng và mở rộng quy mô. Bằng cách kích hoạt chỉ một phần của mạng, MoEs cung cấp sức mạnh của các mô hình khổng lồ mà không có chi phí cấm. Khi cơ sở hạ tầng phần mềm bắt kịp và các thuật toán định tuyến được cải thiện, MoEs đang sẵn sàng trở thành kiến trúc mặc định cho AI đa lĩnh vực, đa ngôn ngữ và đa phương thức.
Bất kể bạn là nhà nghiên cứu, kỹ sư hay nhà đầu tư, MoEs cung cấp một cái nhìn về tương lai nơi AI trở nên mạnh mẽ, hiệu quả và thích ứng hơn bao giờ hết.












