Trí tuệ nhân tạo
Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

là một công ty khởi nghiệp mô hình mã nguồn mở có trụ sở tại Paris đã thách thức các chuẩn mực bằng cách phát hành mô hình ngôn ngữ lớn (LLM) mới nhất của mình, MoE 8x7B, thông qua một liên kết torrent đơn giản torrent link. Điều này trái ngược với cách tiếp cận truyền thống của Google với việc phát hành Gemini, tạo ra sự bàn luận và hứng thú trong cộng đồng AI.
Cách tiếp cận của Mistral AI trong việc phát hành luôn không chính thống. Thường bỏ qua các yếu tố đi kèm như giấy tờ, blog hoặc thông cáo báo chí, chiến lược của họ đã chứng minh hiệu quả trong việc thu hút sự chú ý của cộng đồng AI.
Gần đây, công ty đã đạt được một $2 tỷ định giá sau một vòng tài trợ do Andreessen Horowitz dẫn đầu. Vòng tài trợ này đã tạo ra lịch sử, thiết lập một kỷ lục với vòng tài trợ hạt giống 118 triệu đô la, lớn nhất trong lịch sử châu Âu. Ngoài thành công trong tài trợ, Mistral AI tích cực tham gia vào các cuộc thảo luận xung quanh Đạo luật AI của EU, vận động cho việc giảm quy định trong AI mã nguồn mở.
Tại sao MoE 8x7B lại thu hút sự chú ý
Được mô tả là “GPT-4 thu nhỏ”, Mixtral 8x7B sử dụng khuôn khổ Mixture of Experts (MoE) với tám chuyên gia. Mỗi chuyên gia có 111B tham số, kết hợp với 55B tham số chú ý chia sẻ, để đưa tổng cộng 166B tham số cho mỗi mô hình. Sự lựa chọn thiết kế này rất quan trọng vì nó cho phép chỉ hai chuyên gia tham gia vào việc suy luận của mỗi token, nhấn mạnh sự chuyển hướng towards xử lý AI hiệu quả và tập trung hơn.
Một trong những điểm nổi bật chính của Mixtral là khả năng quản lý bối cảnh rộng lớn với 32.000 token, cung cấp phạm vi rộng lớn để xử lý các nhiệm vụ phức tạp. Khả năng đa ngôn ngữ của mô hình bao gồm hỗ trợ mạnh mẽ cho tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha, phục vụ cho cộng đồng nhà phát triển toàn cầu.
Quá trình tiền huấn luyện của Mixtral liên quan đến dữ liệu từ Web mở, với một phương pháp đào tạo đồng thời cho cả chuyên gia và bộ định tuyến. Phương pháp này đảm bảo rằng mô hình không chỉ rộng lớn về không gian tham số mà còn được tinh chỉnh để phù hợp với sự tinh tế của lượng dữ liệu khổng lồ mà nó đã được tiếp xúc.

Mixtral 8x7B đạt được điểm số ấn tượng
Mixtral 8x7B vượt trội so với LLaMA 2 70B và cạnh tranh với GPT-3.5, đặc biệt đáng chú ý trong nhiệm vụ MBPP với tỷ lệ thành công 60,7%, cao hơn đáng kể so với các đối thủ. Ngay cả trong thử nghiệm MT-Bench nghiêm ngặt dành cho các mô hình tuân theo hướng dẫn, Mixtral 8x7B đạt được điểm số ấn tượng, gần như匹 với GPT-3.5
Hiểu về khuôn khổ Mixture of Experts (MoE)
Mô hình Mixture of Experts (MoE), trong khi đang thu hút sự chú ý gần đây do sự kết hợp của nó vào các mô hình ngôn ngữ hiện đại như MoE 8x7B của Mistral AI, thực sự bắt nguồn từ các khái niệm cơ bản có từ nhiều năm trước. Hãy cùng tìm hiểu lại nguồn gốc của ý tưởng này thông qua các bài nghiên cứu cơ bản.
Khái niệm MoE
Mixture of Experts (MoE) đại diện cho một sự thay đổi mô hình trong kiến trúc mạng nơ-ron. Không giống như các mô hình truyền thống sử dụng một mạng nơ-ron đồng nhất để xử lý tất cả các loại dữ liệu, MoE áp dụng một cách tiếp cận chuyên biệt và mô-đun hơn. Nó bao gồm nhiều mạng nơ-ron ‘chuyên gia’, mỗi mạng được thiết kế để xử lý các loại dữ liệu hoặc nhiệm vụ cụ thể, dưới sự giám sát của một mạng ‘cổng’ động điều khiển dữ liệu đầu vào đến chuyên gia phù hợp.

Một lớp Mixture of Experts (MoE) nhúng trong một mô hình ngôn ngữ tuần hoàn (Nguồn)
Hình ảnh trên thể hiện một cái nhìn tổng quan về một lớp MoE nhúng trong một mô hình ngôn ngữ. Về bản chất, lớp MoE bao gồm nhiều mạng nơ-ron feed-forward con, được gọi là ‘chuyên gia’, mỗi chuyên gia có khả năng chuyên môn hóa trong việc xử lý các khía cạnh khác nhau của dữ liệu. Một mạng cổng, được nhấn mạnh trong sơ đồ, xác định哪 chuyên gia được kích hoạt cho một đầu vào nhất định. Sự kích hoạt có điều kiện này cho phép mạng tăng đáng kể khả năng của mình mà không có sự gia tăng tương ứng về nhu cầu tính toán.
Chức năng của lớp MoE
Trong thực tế, mạng cổng đánh giá đầu vào (được ký hiệu là G(x) trong sơ đồ) và chọn một tập hợp chuyên gia thưa thớt để xử lý nó. Sự lựa chọn này được điều chỉnh bởi đầu ra của mạng cổng, hiệu quả xác định ‘phiếu’ hoặc đóng góp của mỗi chuyên gia vào đầu ra cuối cùng. Ví dụ, như thể hiện trong sơ đồ, chỉ hai chuyên gia có thể được chọn để tính toán đầu ra cho mỗi token đầu vào cụ thể, làm cho quá trình hiệu quả bằng cách tập trung tài nguyên tính toán vào nơi chúng được cần nhất.

Bộ mã hóa Transformer với các lớp MoE (Nguồn)
Hình ảnh thứ hai trên đối chiếu một bộ mã hóa Transformer truyền thống với một bộ mã hóa được tăng cường bởi các lớp MoE. Kiến trúc Transformer, được biết đến rộng rãi với hiệu quả của nó trong các nhiệm vụ liên quan đến ngôn ngữ, truyền thống bao gồm các lớp tự chú ý và feed-forward được xếp chồng lên nhau. Việc giới thiệu các lớp MoE thay thế một số lớp feed-forward này, cho phép mô hình mở rộng về khả năng một cách hiệu quả hơn.
Trong mô hình tăng cường, các lớp MoE được phân mảnh trên nhiều thiết bị, thể hiện một cách tiếp cận song song mô hình. Điều này rất quan trọng khi mở rộng đến các mô hình rất lớn, vì nó cho phép phân phối tải tính toán và yêu cầu bộ nhớ trên một cụm thiết bị, chẳng hạn như GPU hoặc TPU. Việc phân mảnh này là thiết yếu để đào tạo và triển khai các mô hình có hàng tỷ tham số một cách hiệu quả, như được chứng minh bởi việc đào tạo các mô hình có hàng trăm tỷ đến hơn một nghìn tỷ tham số trên các cụm tính toán lớn.
Phương pháp MoE thưa với điều chỉnh hướng dẫn trên LLM
Bài báo có tiêu đề “Sparse Mixture-of-Experts (MoE) cho mô hình ngôn ngữ có thể mở rộng” thảo luận về một cách tiếp cận sáng tạo để cải thiện các Mô hình Ngôn ngữ Lớn (LLM) bằng cách tích hợp kiến trúc Mixture of Experts với các kỹ thuật điều chỉnh hướng dẫn.
Nó nhấn mạnh một thách thức phổ biến mà các mô hình MoE dưới hiệu suất so với các mô hình dày có cùng khả năng tính toán khi tinh chỉnh cho các nhiệm vụ cụ thể do sự khác biệt giữa đào tạo tiền xử lý chung và tinh chỉnh nhiệm vụ cụ thể.
Điều chỉnh hướng dẫn là một phương pháp đào tạo trong đó các mô hình được tinh chỉnh để tuân theo các hướng dẫn ngôn ngữ tự nhiên tốt hơn, hiệu quả tăng cường hiệu suất nhiệm vụ. Bài báo đề xuất rằng các mô hình MoE thể hiện sự cải thiện đáng kể khi kết hợp với điều chỉnh hướng dẫn, nhiều hơn so với các mô hình dày. Kỹ thuật này căn chỉnh các biểu diễn được đào tạo trước của mô hình để tuân theo hướng dẫn tốt hơn, dẫn đến sự tăng cường hiệu suất đáng kể.
Các nhà nghiên cứu đã thực hiện các nghiên cứu trên ba thiết lập thí nghiệm, cho thấy rằng các mô hình MoE ban đầu dưới hiệu suất trong tinh chỉnh nhiệm vụ cụ thể trực tiếp. Tuy nhiên, khi điều chỉnh hướng dẫn được áp dụng, các mô hình MoE vượt trội, đặc biệt là khi được bổ sung thêm bằng tinh chỉnh nhiệm vụ cụ thể. Điều này cho thấy rằng điều chỉnh hướng dẫn là một bước quan trọng để các mô hình MoE vượt trội so với các mô hình dày trên các nhiệm vụ hạ nguồn.
Nó cũng giới thiệu FLAN-MOE32B, một mô hình chứng minh sự áp dụng thành công của những khái niệm này. Đáng chú ý, nó vượt trội so với FLAN-PALM62B, một mô hình dày, trên các nhiệm vụ chuẩn mực trong khi chỉ sử dụng một phần ba tài nguyên tính toán. Điều này thể hiện tiềm năng cho các mô hình MoE thưa kết hợp với điều chỉnh hướng dẫn để thiết lập các tiêu chuẩn mới cho hiệu quả và hiệu suất của LLM.
Triển khai Mixture of Experts trong các kịch bản thế giới thực
Sự linh hoạt của các mô hình MoE làm cho chúng lý tưởng cho một loạt các ứng dụng:
- Xử lý Ngôn ngữ Tự nhiên (NLP): Các mô hình MoE có thể xử lý các sắc thái và phức tạp của ngôn ngữ con người hiệu quả hơn, làm cho chúng lý tưởng cho các nhiệm vụ NLP tiên tiến.
- Xử lý Hình ảnh và Video: Trong các nhiệm vụ yêu cầu xử lý độ phân giải cao, MoE có thể quản lý các khía cạnh khác nhau của hình ảnh hoặc khung hình video, nâng cao cả chất lượng và tốc độ xử lý.
- Giải pháp AI tùy chỉnh: Các doanh nghiệp và nhà nghiên cứu có thể tùy chỉnh các mô hình MoE cho các nhiệm vụ cụ thể, dẫn đến các giải pháp AI được nhắm mục tiêu và hiệu quả hơn.
Thách thức và xem xét
- Phức tạp trong đào tạo và tinh chỉnh: Bản chất phân tán của các mô hình MoE có thể làm phức tạp quá trình đào tạo, đòi hỏi sự cân bằng và tinh chỉnh cẩn thận của các chuyên gia và mạng cổng.
- Quản lý tài nguyên: Quản lý hiệu quả tài nguyên tính toán trên nhiều chuyên gia là rất quan trọng để tối đa hóa lợi ích của các mô hình MoE.
Tích hợp các lớp MoE vào các mạng nơ-ron, đặc biệt là trong lĩnh vực mô hình ngôn ngữ, cung cấp một con đường để mở rộng các mô hình đến các kích thước trước đây không thể đạt được do các hạn chế tính toán. Việc tính toán có điều kiện được kích hoạt bởi các lớp MoE cho phép phân phối tài nguyên tính toán một cách hiệu quả hơn, làm cho việc đào tạo các mô hình lớn hơn, có khả năng hơn trở nên khả thi. Khi chúng ta tiếp tục đòi hỏi nhiều hơn từ các hệ thống AI của mình, các kiến trúc như MoE được trang bị Transformer có khả năng sẽ trở thành tiêu chuẩn cho việc xử lý các nhiệm vụ phức tạp, quy mô lớn trên nhiều lĩnh vực.













