Connect with us

Trí tuệ nhân tạo

Mistral AI: Thiết Lập Mới Tiêu Chuẩn Mới Vượt Qúa Llama2 Trong Không Gian Mở

mm
Mistral 7B LLM

Các Mô Hình Ngôn Ngữ Lớn (LLM) gần đây đã trở thành trung tâm của sự chú ý, nhờ vào những người biểu diễn nổi bật như ChatGPT. Khi Meta giới thiệu các mô hình Llama của họ, nó đã khơi dậy lại sự quan tâm đến các LLM mã nguồn mở. Mục tiêu? Tạo ra các LLM mã nguồn mở giá cả phải chăng, hiệu quả như các mô hình hàng đầu như GPT-4, nhưng không có giá cao hoặc phức tạp.

Sự kết hợp giữa tính khả dụng và hiệu quả này không chỉ mở ra những con đường mới cho các nhà nghiên cứu và nhà phát triển mà còn đặt ra giai đoạn mới cho sự tiến bộ công nghệ trong xử lý ngôn ngữ tự nhiên.

Gần đây, các công ty khởi nghiệp về trí tuệ tạo sinh đã nhận được tài trợ. Cùng nhau đã huy động được 20 triệu đô la, nhằm mục đích định hình lại trí tuệ tạo sinh mã nguồn mở. Anthropic cũng huy động được 450 triệu đô la ấn tượng, và Cohere, hợp tác với Google Cloud, đã đảm bảo 270 triệu đô la vào tháng này.

Giới Thiệu Mistral 7B: Kích Cỡ & Sự Phổ Biến

mistral AI

Mistral AI, có trụ sở tại Paris và được đồng sáng lập bởi các cựu sinh viên của Google’s DeepMind và Meta, đã công bố mô hình ngôn ngữ lớn đầu tiên của họ: Mistral 7B. Mô hình này có thể được tải xuống dễ dàng bởi bất kỳ ai từ GitHub và thậm chí qua 13,4-gigabyte torrent.

Công ty khởi nghiệp này đã quản lý để đảm bảo tài trợ hạt giống kỷ lục ngay trước khi họ có sản phẩm. Mistral AI đầu tiên với mô hình 7 tỷ tham số vượt qua hiệu suất của Llama 2 13B trong tất cả các thử nghiệm và đánh bại Llama 1 34B trong nhiều chỉ số.

So với các mô hình khác như Llama 2, Mistral 7B cung cấp khả năng tương tự hoặc tốt hơn nhưng với ít tải trọng tính toán hơn. Trong khi các mô hình cơ bản như GPT-4 có thể đạt được nhiều hơn, chúng có chi phí cao hơn và không thân thiện với người dùng vì chúng chủ yếu có thể truy cập được thông qua API.

Khi nói đến các nhiệm vụ mã hóa, Mistral 7B mang lại cho CodeLlama 7B một cuộc chạy đua. Ngoài ra, nó đủ nhỏ tại 13,4 GB để chạy trên máy tính tiêu chuẩn.

Ngoài ra, Mistral 7B Instruct, được điều chỉnh đặc biệt cho các tập dữ liệu hướng dẫn trên Hugging Face, đã thể hiện hiệu suất tuyệt vời. Nó vượt qua các mô hình 7B khác trên MT-Bench và đứng vai肩 với các mô hình trò chuyện 13B.

Benchmark Hiệu Năng

Trong một phân tích hiệu suất chi tiết, Mistral 7B đã được đo lường so với các mô hình Llama 2. Kết quả rõ ràng: Mistral 7B vượt qua đáng kể Llama 2 13B trên tất cả các thử nghiệm. Trên thực tế, nó đã khớp với hiệu suất của Llama 34B, đặc biệt là nổi bật trong các thử nghiệm mã và suy luận.

Các thử nghiệm được tổ chức thành nhiều loại, chẳng hạn như Lý luận Thông thường, Kiến thức Thế giới, Đọc hiểu, Toán và Mã, trong số những loại khác. Một quan sát đáng chú ý đặc biệt là chỉ số hiệu suất chi phí của Mistral 7B, được gọi là “kích thước mô hình tương đương”. Trong các lĩnh vực như suy luận và hiểu biết, Mistral 7B đã thể hiện hiệu suất tương tự như mô hình Llama 2 ba lần kích thước của nó, cho thấy sự tiết kiệm tiềm năng trong bộ nhớ và tăng tốc độ.

Điều Gì Thực Sự Làm Cho Mô Hình Mistral 7B Tốt Hơn Hầu Hết Các Mô Hình Ngôn Ngữ Khác?

Cơ Chế Chú Ý Đơn Giản Hóa

Trong khi sự tinh tế của cơ chế chú ý là kỹ thuật, ý tưởng cơ bản của chúng tương đối đơn giản. Hãy tưởng tượng bạn đang đọc một cuốn sách và đánh dấu các câu quan trọng; điều này tương tự như cách cơ chế chú ý “đánh dấu” hoặc cho điểm các điểm dữ liệu cụ thể trong một chuỗi.

Trong ngữ cảnh của các mô hình ngôn ngữ, những cơ chế này cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào, đảm bảo rằng đầu ra là hợp lý và chính xác về mặt ngữ cảnh.

Trong các biến thể tiêu chuẩn, các điểm chú ý được tính toán với công thức:

Transformers attention Formula

Transformers Attention Formula

Công thức cho các điểm này liên quan đến một bước quan trọng – nhân ma trận Q và K. Thử thách ở đây là khi chiều dài chuỗi tăng, cả hai ma trận mở rộng tương ứng, dẫn đến một quá trình tính toán đòi hỏi nhiều tài nguyên. Sự lo lắng về khả năng mở rộng này là một trong những lý do chính tại sao các biến thể tiêu chuẩn có thể chậm, đặc biệt là khi xử lý các chuỗi dài.

transformerCơ chế chú ý giúp các mô hình tập trung vào các phần cụ thể của dữ liệu đầu vào. Thông thường, những cơ chế này sử dụng ‘đầu’ để quản lý sự chú ý này. Số đầu càng nhiều, sự chú ý càng cụ thể, nhưng nó cũng trở nên phức tạp và chậm hơn. Tìm hiểu sâu hơn về các biến thể và cơ chế chú ý tại đây.

Chú ý đa truy vấn (MQA) tăng tốc bằng cách sử dụng một tập hợp ‘khóa-giá trị’ nhưng đôi khi hy sinh chất lượng. Bây giờ, bạn có thể tự hỏi, tại sao không kết hợp tốc độ của MQA với chất lượng của chú ý đa đầu? Đó là nơi chú ý nhóm truy vấn (GQA) xuất hiện.

Chú Ý Nhóm Truy Vấn (GQA)

Grouped-query attention

Grouped-query attention

GQA là một giải pháp trung gian. Thay vì sử dụng chỉ một hoặc nhiều ‘khóa-giá trị’, nó nhóm chúng lại. Theo cách này, GQA đạt được hiệu suất gần với chú ý đa đầu nhưng với tốc độ của MQA. Đối với các mô hình như Mistral, điều này có nghĩa là hiệu suất hiệu quả mà không đánh đổi quá nhiều về chất lượng.

Chú Ý Cửa Sổ Trượt (SWA)

longformer transformers sliding window

Cửa sổ trượt là một phương pháp khác được sử dụng trong việc xử lý chuỗi chú ý. Phương pháp này sử dụng một cửa sổ chú ý cố định xung quanh mỗi token trong chuỗi. Với nhiều lớp xếp chồng cửa sổ chú ý này, các lớp trên cùng cuối cùng có được một quan điểm rộng hơn, bao gồm thông tin từ toàn bộ đầu vào. Cơ chế này tương tự như các trường thu nhận trong Mạng Nơ-ron Tích chập (CNN).

Mặt khác, “cửa sổ trượt phân cấp” của mô hình Longformer,概念ually tương tự như phương pháp cửa sổ trượt, chỉ tính toán một vài đường chéo của ma trận . Sự thay đổi này dẫn đến việc sử dụng bộ nhớ tăng tuyến tính thay vì tăng bậc hai, khiến nó trở thành một phương pháp hiệu quả hơn cho các chuỗi dài.

Minh Bạch Của Mistral AI So Với Lo Lắng An Toàn Trong Phân Tán

Trong thông báo của họ, Mistral AI cũng nhấn mạnh sự minh bạch với tuyên bố: “Không có thủ thuật, không có dữ liệu độc quyền.” Nhưng tại thời điểm hiện tại, mô hình duy nhất có sẵn của họ là ‘Mistral-7B-v0.1’ là một mô hình cơ sở được đào tạo trước, do đó nó có thể tạo ra phản hồi cho bất kỳ truy vấn nào mà không cần kiểm duyệt, điều này gây ra những lo ngại về an toàn tiềm ẩn. Trong khi các mô hình như GPT và Llama có cơ chế để phân biệt khi nào nên phản hồi, bản chất phân tán hoàn toàn của Mistral có thể bị những kẻ xấu lợi dụng.

Tuy nhiên, sự phân tán của các Mô Hình Ngôn Ngữ Lớn có những lợi thế của nó. Trong khi một số người có thể lạm dụng nó, mọi người có thể khai thác sức mạnh của nó cho lợi ích xã hội và làm cho trí tuệ trở nên dễ tiếp cận với tất cả mọi người.

Khả Năng Triển Khai Linh Hoạt

Một trong những điểm nổi bật là Mistral 7B có sẵn dưới giấy phép Apache 2.0. Điều này có nghĩa là không có rào cản thực sự nào để sử dụng nó – cho dù bạn sử dụng nó cho mục đích cá nhân, một tập đoàn lớn, hay thậm chí là một thực thể chính phủ. Bạn chỉ cần hệ thống phù hợp để chạy nó, hoặc bạn có thể phải đầu tư vào tài nguyên đám mây.

Trong khi có các giấy phép khác như Giấy phép MIT đơn giản và CC BY-SA-4.0 hợp tác, yêu cầu tín dụng và giấy phép tương tự cho các sản phẩm phái sinh, Apache 2.0 cung cấp một nền tảng vững chắc cho các dự án quy mô lớn.

Suy Nghĩ Cuối Cùng

Sự trỗi dậy của các Mô Hình Ngôn Ngữ Lớn mã nguồn mở như Mistral 7B đánh dấu một sự thay đổi quan trọng trong ngành công nghiệp AI, làm cho các mô hình ngôn ngữ chất lượng cao trở nên dễ tiếp cận hơn với khán giả rộng lớn. Các phương pháp đổi mới của Mistral AI, như Chú ý Nhóm Truy vấn và Chú ý Cửa Sổ Trượt, hứa hẹn hiệu suất hiệu quả mà không đánh đổi quá nhiều về chất lượng.

Trong khi bản chất phân tán của Mistral đặt ra một số thách thức, sự linh hoạt và giấy phép mã nguồn mở của nó nhấn mạnh tiềm năng để dân chủ hóa AI. Khi cảnh quan tiếp tục phát triển, sự tập trung sẽ không thể tránh khỏi vào việc cân bằng sức mạnh của những mô hình này với các xem xét đạo đức và cơ chế an toàn.

Tiếp theo cho Mistral? Mô hình 7B chỉ là bước đầu tiên. Đội ngũ dự định sẽ ra mắt các mô hình lớn hơn trong thời gian tới. Nếu những mô hình mới này khớp với hiệu suất của 7B, Mistral có thể nhanh chóng trở thành một trong những người chơi hàng đầu trong ngành, tất cả trong năm đầu tiên.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.