Trí tuệ nhân tạo
Mistral AI: Thiết Lập Mới Các Tiêu Chuẩn Mới Trong Không Gian Mở

Các Mô Hình Ngôn Ngữ Lớn (LLM) đã gần đây trở thành trung tâm của sự chú ý, nhờ vào những người biểu diễn nổi bật như ChatGPT. Khi Meta giới thiệu các mô hình Llama của họ, nó đã làm sống lại sự quan tâm đến các mô hình LLM mã nguồn mở. Mục tiêu? Tạo ra các mô hình LLM giá cả phải chăng, mã nguồn mở, tốt như các mô hình hàng đầu như GPT-4, nhưng không có giá cao hoặc phức tạp.
Trộn lẫn giữa giá cả phải chăng và hiệu quả không chỉ mở ra những con đường mới cho các nhà nghiên cứu và nhà phát triển, mà còn đặt ra một kỷ nguyên mới của các tiến bộ công nghệ trong xử lý ngôn ngữ tự nhiên.
Gần đây, các công ty khởi nghiệp về trí tuệ nhân tạo đã có một cuộc chạy đua về tài trợ. Cùng nhau đã huy động được 20 triệu đô la, nhằm mục đích tạo ra các mô hình trí tuệ nhân tạo mã nguồn mở. Anthropic cũng đã huy động được 450 triệu đô la, và Cohere, hợp tác với Google Cloud, đã huy động được 270 triệu đô la vào tháng này.
Giới Thiệu Mistral 7B: Kích Cỡ & Khả Dụng
Mistral AI, có trụ sở tại Paris và được đồng sáng lập bởi các cựu nhân viên của Google’s DeepMind và Meta, đã công bố mô hình ngôn ngữ lớn đầu tiên của họ: Mistral 7B. Mô hình này có thể được tải xuống dễ dàng bởi bất kỳ ai từ GitHub và thậm chí qua 13,4-gigabyte torrent.
Công ty khởi nghiệp này đã quản lý để huy động vốn hạt giống kỷ lục ngay trước khi họ có sản phẩm. Mistral AI đầu tiên với mô hình 7 tỷ tham số vượt qua hiệu suất của Llama 2 13B trong tất cả các thử nghiệm và đánh bại Llama 1 34B trong nhiều chỉ số.
So với các mô hình khác như Llama 2, Mistral 7B cung cấp khả năng tương tự hoặc tốt hơn nhưng với ít tải trọng tính toán hơn. Trong khi các mô hình nền tảng như GPT-4 có thể đạt được nhiều hơn, chúng có giá cao hơn và không thân thiện với người dùng vì chúng chủ yếu có thể truy cập thông qua API.
Khi nói đến các nhiệm vụ mã hóa, Mistral 7B cho CodeLlama 7B một cơ hội. Ngoài ra, nó đủ nhỏ tại 13,4 GB để chạy trên máy tính tiêu chuẩn.
Thêm vào đó, Mistral 7B Instruct, được điều chỉnh đặc biệt cho các tập dữ liệu hướng dẫn trên Hugging Face, đã thể hiện hiệu suất tốt. Nó vượt qua các mô hình 7B khác trên MT-Bench và đứng ngang hàng với các mô hình chat 13B.

Hugging Face Mistral 7B Example
Benchmarking Hiệu Năng
Trong một phân tích hiệu suất chi tiết, Mistral 7B đã được đo lường so với các mô hình Llama 2. Kết quả rõ ràng: Mistral 7B vượt qua đáng kể Llama 2 13B trên tất cả các thử nghiệm. Trên thực tế, nó đã đạt được hiệu suất của Llama 34B, đặc biệt là nổi bật trong các thử nghiệm mã và lý luận.
Các thử nghiệm được tổ chức thành nhiều loại, chẳng hạn như Lý luận Thông thường, Kiến thức Thế giới, Đọc hiểu, Toán và Mã, trong số những loại khác. Một quan sát đáng chú ý đặc biệt là chỉ số hiệu suất tương đương của Mistral 7B, được gọi là “kích thước mô hình tương đương”. Trong các lĩnh vực như lý luận và hiểu biết, Mistral 7B đã thể hiện hiệu suất tương tự như một mô hình Llama 2 ba lần kích thước của nó, cho thấy khả năng tiết kiệm bộ nhớ và tăng tốc độ. Tuy nhiên, trong các thử nghiệm kiến thức, Mistral 7B đã phù hợp với Llama 2 13B, điều này có thể được quy cho cho giới hạn tham số ảnh hưởng đến nén kiến thức.
Điều Gì Thực Sự Làm Cho Mô Hình Mistral 7B Tốt Hơn Hầu Hết Các Mô Hình Ngôn Ngữ Khác?
Cơ Chế Chú Ý Đơn Giản Hóa
Mặc dù sự tinh vi của cơ chế chú ý là kỹ thuật, ý tưởng cơ bản của nó tương đối đơn giản. Hãy tưởng tượng bạn đang đọc một cuốn sách và đánh dấu các câu quan trọng; điều này tương tự như cách cơ chế chú ý “đánh dấu” hoặc cho importance đến các điểm dữ liệu cụ thể trong một chuỗi.
Trong ngữ cảnh của các mô hình ngôn ngữ, các cơ chế này cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào, đảm bảo rằng đầu ra là nhất quán và chính xác về ngữ cảnh.
Trong các bộ chuyển đổi tiêu chuẩn, các điểm chú ý được tính toán với công thức:
Công thức cho các điểm này liên quan đến một bước quan trọng – nhân ma trận Q và K. Thử thách ở đây là khi chiều dài chuỗi tăng, cả hai ma trận đều mở rộng tương ứng, dẫn đến một quá trình tính toán đòi hỏi nhiều tài nguyên. Điều này là một trong những lý do chính tại sao các bộ chuyển đổi tiêu chuẩn có thể chậm, đặc biệt là khi xử lý các chuỗi dài.

Chú ý đa truy vấn (MQA) tăng tốc bằng cách sử dụng một tập hợp ‘key-value’ heads nhưng đôi khi hy sinh chất lượng. Bây giờ, bạn có thể tự hỏi, tại sao không kết hợp tốc độ của MQA với chất lượng của chú ý đa đầu? Đó là nơi chú ý nhóm truy vấn (GQA) xuất hiện.
Chú Ý Nhóm Truy Vấn (GQA)
GQA là một giải pháp trung gian. Thay vì sử dụng chỉ một hoặc nhiều ‘key-value’ heads, nó nhóm chúng lại. Điều này cho phép GQA đạt được hiệu suất gần với chú ý đa đầu nhưng với tốc độ của MQA. Đối với các mô hình như Mistral, điều này có nghĩa là hiệu suất hiệu quả mà không phải hy sinh quá nhiều về chất lượng.
Chú Ý Cửa Sổ Trượt (SWA)
Cửa sổ trượt là một phương pháp khác được sử dụng trong việc xử lý các chuỗi chú ý. Phương pháp này sử dụng một cửa sổ chú ý có kích thước cố định xung quanh mỗi token trong chuỗi. Với nhiều lớp xếp chồng lên nhau chú ý cửa sổ này, các lớp trên cùng cuối cùng sẽ có một cái nhìn rộng hơn, bao gồm thông tin từ toàn bộ đầu vào. Cơ chế này tương tự như các trường tiếp nhận trong Mạng Nơ-ron Tích chập (CNNs).
Mặt khác, “cửa sổ trượt phân cấp” của mô hình Longformer, tương tự như phương pháp cửa sổ trượt, chỉ tính toán một vài đường chéo của ma trận . Sự thay đổi này dẫn đến việc sử dụng bộ nhớ tăng tuyến tính thay vì tăng theo cấp số nhân, làm cho nó trở thành một phương pháp hiệu quả hơn cho các chuỗi dài.
Minh Bạch Của Mistral AI So Với Các Lo Lắng An Toàn Trong Phi Tập Trung Hóa
Trong thông báo của họ, Mistral AI cũng nhấn mạnh sự minh bạch với tuyên bố: “Không có thủ thuật, không có dữ liệu độc quyền.” Nhưng đồng thời, mô hình duy nhất có sẵn của họ tại thời điểm này là ‘Mistral-7B-v0.1’, là một mô hình cơ sở được đào tạo trước, do đó nó có thể tạo ra phản hồi cho bất kỳ truy vấn nào mà không cần kiểm duyệt, điều này làm dấy lên các lo ngại về an toàn. Trong khi các mô hình như GPT và Llama có cơ chế để phân biệt khi nào nên phản hồi, bản chất phi tập trung của Mistral có thể bị lợi dụng bởi các tác nhân xấu.
Tuy nhiên, việc phi tập trung hóa các Mô Hình Ngôn Ngữ Lớn có những lợi thế của nó. Trong khi một số người có thể lạm dụng nó, mọi người có thể khai thác sức mạnh của nó cho lợi ích xã hội và làm cho trí tuệ trở nên dễ tiếp cận hơn với tất cả mọi người.
Linh Hoạt Trong Triển Khai
Một trong những điểm nổi bật là Mistral 7B được cung cấp dưới giấy phép Apache 2.0. Điều này có nghĩa là không có rào cản thực sự nào để sử dụng nó – cho dù bạn đang sử dụng nó cho mục đích cá nhân, một tập đoàn lớn, hay thậm chí là một tổ chức chính phủ. Bạn chỉ cần có hệ thống phù hợp để chạy nó, hoặc bạn có thể phải đầu tư vào tài nguyên đám mây.
Mặc dù có các giấy phép khác như Giấy phép MIT đơn giản hơn và Giấy phép CC BY-SA-4.0 hợp tác, yêu cầu ghi công và giấy phép tương tự cho các sản phẩm phái sinh, Apache 2.0 cung cấp một nền tảng vững chắc cho các dự án quy mô lớn.
Các Tư Tưởng Cuối Cùng
Sự trỗi dậy của các Mô Hình Ngôn Ngữ Lớn mã nguồn mở như Mistral 7B đánh dấu một bước ngoặt quan trọng trong ngành công nghiệp AI, làm cho các mô hình ngôn ngữ chất lượng cao trở nên dễ tiếp cận hơn với khán giả rộng lớn. Các phương pháp đổi mới của Mistral AI, như Chú Ý Nhóm Truy Vấn và Chú Ý Cửa Sổ Trượt, hứa hẹn hiệu suất hiệu quả mà không phải hy sinh quá nhiều về chất lượng.
Mặc dù bản chất phi tập trung của Mistral đặt ra một số thách thức nhất định, sự linh hoạt và giấy phép mã nguồn mở của nó nhấn mạnh tiềm năng trong việc dân chủ hóa AI. Khi cảnh quan tiếp tục phát triển, sự tập trung sẽ chắc chắn nằm ở việc cân bằng sức mạnh của các mô hình này với các xem xét về đạo đức và cơ chế an toàn.
Tiếp theo cho Mistral? Mô hình 7B chỉ là bước đầu tiên. Đội ngũ dự định sẽ ra mắt các mô hình thậm chí lớn hơn trong thời gian tới. Nếu các mô hình mới này đạt được hiệu suất tương tự như 7B, Mistral có thể nhanh chóng trở thành một trong những người chơi hàng đầu trong ngành, tất cả đều trong năm đầu tiên của họ.

















