Connect with us

Bên trong Phi-3 Mini của Microsoft: Một mô hình AI nhẹ nhàng vượt trội so với trọng lượng của nó

Trí tuệ nhân tạo

Bên trong Phi-3 Mini của Microsoft: Một mô hình AI nhẹ nhàng vượt trội so với trọng lượng của nó

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone
Microsoft vừa mới ra mắt mô hình ngôn ngữ nhẹ nhất của mình có tên gọi Phi-3 Mini, khởi đầu cho một bộ ba mô hình AI compact được thiết kế để cung cấp hiệu suất theo tiêu chuẩn hiện đại trong khi đủ nhỏ để chạy hiệu quả trên các thiết bị có tài nguyên tính toán hạn chế. Với chỉ 3,8 tỷ tham số, Phi-3 Mini chỉ là một phần nhỏ so với các gã khổng lồ AI như GPT-4, nhưng nó hứa hẹn sẽ匹 với khả năng của họ trong nhiều lĩnh vực chính.

Việc phát triển Phi-3 Mini đại diện cho một cột mốc quan trọng trong việc dân chủ hóa các khả năng AI tiên tiến bằng cách làm cho chúng có thể tiếp cận được trên nhiều loại phần cứng. Dấu chân nhỏ của nó cho phép nó được triển khai cục bộ trên điện thoại thông minh, máy tính bảng và các thiết bị cạnh khác, vượt qua độ trễ và lo ngại về quyền riêng tư liên quan đến các mô hình dựa trên đám mây. Điều này mở ra những khả năng mới cho các trải nghiệm thông minh trên thiết bị trong nhiều lĩnh vực, từ trợ lý ảo và AI trò chuyện đến trợ lý mã hóa và nhiệm vụ hiểu ngôn ngữ.

4-bit quantized phi-3-mini chạy tự nhiên trên iPhone
4-bit quantized phi-3-mini chạy tự nhiên trên iPhone

Dưới mui xe: Kiến trúc và Đào tạo

Ở cốt lõi, Phi-3 Mini là một mô hình giải mã transformer được xây dựng dựa trên kiến trúc tương tự như mô hình Llama-2 mã nguồn mở. Nó có 32 lớp, 3072 chiều ẩn, và 32 đầu chú ý, với độ dài ngữ cảnh mặc định là 4.000 token. Microsoft cũng đã giới thiệu một phiên bản ngữ cảnh dài gọi là Phi-3 Mini-128K, nó kéo dài độ dài ngữ cảnh lên đến 128.000 token bằng cách sử dụng các kỹ thuật như LongRope.

Điều gì làm cho Phi-3 Mini khác biệt, tuy nhiên, là phương pháp đào tạo của nó. Thay vì dựa hoàn toàn vào sức mạnh của các tập dữ liệu khổng lồ và sức tính toán, Microsoft đã tập trung vào việc tạo ra một tập dữ liệu đào tạo chất lượng cao, dày đặc về lý lẽ. Dữ liệu này bao gồm dữ liệu web được lọc kỹ lưỡng cũng như dữ liệu tổng hợp được tạo ra bởi các mô hình ngôn ngữ lớn hơn.

Quá trình đào tạo bao gồm hai giai đoạn. Trong giai đoạn đầu, mô hình được tiếp xúc với nhiều nguồn web đa dạng nhằm mục đích dạy cho nó kiến thức chung và hiểu biết ngôn ngữ. Giai đoạn thứ hai kết hợp dữ liệu web được lọc kỹ lưỡng hơn với dữ liệu tổng hợp được thiết kế để truyền tải kỹ năng lý luận logic và chuyên môn lĩnh vực hẹp.

Microsoft gọi phương pháp này là “chế độ dữ liệu tối ưu”, một sự khác biệt so với “chế độ tính toán tối ưu” hoặc “chế độ đào tạo quá mức” được sử dụng bởi nhiều mô hình ngôn ngữ lớn. Mục tiêu là hiệu chỉnh dữ liệu đào tạo để phù hợp với quy mô của mô hình, cung cấp mức độ kiến thức và khả năng lý luận phù hợp trong khi vẫn để lại đủ khả năng cho các chức năng khác.

Chất lượng của các mô hình Phi-3 mới, được đo bằng hiệu suất trên điểm chuẩn Massive Multitask Language Understanding (MMLU)
Chất lượng của các mô hình Phi-3 mới, được đo bằng hiệu suất trên điểm chuẩn Massive Multitask Language Understanding (MMLU)

Phương pháp tập trung vào dữ liệu này đã mang lại kết quả, khi Phi-3 Mini đạt được hiệu suất đáng chú ý trên nhiều điểm chuẩn học thuật, thường匹 hoặc vượt qua các mô hình lớn hơn. Ví dụ, nó đạt 69% trên điểm chuẩn MMLU cho học đa nhiệm và hiểu biết, và 8,38 trên điểm chuẩn MT-bench cho lý luận toán học – những kết quả này匹 với các mô hình như Mixtral 8x7B và GPT-3.5.

An toàn và Tính Robust

Cùng với hiệu suất ấn tượng, Microsoft đã đặt mạnh mẽ vào an toàn và tính robust trong việc phát triển Phi-3 Mini. Mô hình đã trải qua một quá trình đào tạo hậu kỳ nghiêm ngặt liên quan đến tinh chỉnh giám sát (SFT) và tối ưu hóa sở thích trực tiếp (DPO).

Giai đoạn SFT tận dụng dữ liệu được kiểm duyệt cao trên nhiều lĩnh vực, bao gồm toán học, mã hóa, lý luận, trò chuyện, nhận dạng mô hình và an toàn. Điều này giúp củng cố khả năng của mô hình trong các lĩnh vực này trong khi truyền tải một ý thức mạnh mẽ về bản sắc và hành vi đạo đức.

Giai đoạn DPO, mặt khác, tập trung vào việc điều khiển mô hình tránh các hành vi không mong muốn bằng cách sử dụng các phản hồi bị từ chối làm ví dụ tiêu cực. Quá trình này bao gồm dữ liệu định dạng trò chuyện, nhiệm vụ lý luận và nỗ lực AI có trách nhiệm (RAI), đảm bảo rằng Phi-3 Mini tuân thủ các nguyên tắc AI đáng tin cậy và có trách nhiệm của Microsoft.

Để tăng cường thêm hồ sơ an toàn của mình, Phi-3 Mini đã trải qua kiểm tra đỏ và thử nghiệm tự động trên hàng chục danh mục RAI. Một đội đỏ độc lập tại Microsoft đã kiểm tra mô hình lặp lại, xác định các lĩnh vực cần cải thiện, những lĩnh vực này sau đó được giải quyết thông qua các tập dữ liệu được kiểm duyệt và đào tạo lại.

Phương pháp đa diện này đã giảm đáng kể sự xuất hiện của phản hồi có hại, sai sót thực tế và thiên vị, như được chứng minh bởi các điểm chuẩn RAI nội bộ của Microsoft. Ví dụ, mô hình thể hiện tỷ lệ khuyết tật thấp cho việc tiếp tục nội dung có hại (0,75%) và tóm tắt (10%), cũng như tỷ lệ không có căn cứ thấp (0,603), cho thấy rằng phản hồi của nó được căn cứ vững chắc trong ngữ cảnh đã cho.

Ứng dụng và Trường hợp Sử dụng

Với hiệu suất ấn tượng và các biện pháp an toàn robust, Phi-3 Mini rất phù hợp cho nhiều ứng dụng, đặc biệt là trong môi trường có tài nguyên hạn chế và các kịch bản bị ràng buộc bởi độ trễ.

Một trong những triển vọng thú vị nhất là việc triển khai các trợ lý ảo thông minh và AI trò chuyện trực tiếp trên thiết bị di động. Bằng cách chạy cục bộ, các trợ lý này có thể cung cấp phản hồi tức thời mà không cần kết nối mạng, đồng thời đảm bảo rằng dữ liệu nhạy cảm vẫn trên thiết bị, giải quyết các lo ngại về quyền riêng tư.

Khả năng lý luận mạnh mẽ của Phi-3 Mini cũng làm cho nó trở thành một tài sản quý giá cho hỗ trợ mã hóa và giải toán. Các nhà phát triển và sinh viên có thể được hưởng lợi từ việc hoàn thành mã, phát hiện lỗi và giải thích trên thiết bị, giúp简化 quá trình phát triển và học tập.

Ngoài các ứng dụng này, sự đa năng của mô hình mở ra cơ hội trong các lĩnh vực như hiểu biết ngôn ngữ, tóm tắt văn bản và trả lời câu hỏi. Kích thước nhỏ và hiệu quả của nó làm cho nó trở thành một lựa chọn hấp dẫn để nhúng các khả năng AI vào nhiều thiết bị và hệ thống, từ thiết bị gia dụng thông minh đến hệ thống tự động hóa công nghiệp.

Nhìn về Tương lai: Phi-3 Nhỏ và Phi-3 Trung bình

Mặc dù Phi-3 Mini là một thành tựu đáng chú ý, Microsoft đã có kế hoạch lớn hơn cho gia đình Phi-3. Công ty đã giới thiệu hai mô hình lớn hơn, Phi-3 Nhỏ (7 tỷ tham số) và Phi-3 Trung bình (14 tỷ tham số), cả hai đều dự kiến sẽ đẩy ranh giới hiệu suất cho các mô hình ngôn ngữ compact.

Phi-3 Nhỏ, ví dụ, tận dụng một tokenizer tiên tiến hơn (tiktoken) và một cơ chế chú ý nhóm, cùng với một lớp chú ý blocksparse mới, để tối ưu hóa dấu chân bộ nhớ trong khi duy trì hiệu suất thu hồi ngữ cảnh dài. Nó cũng kết hợp thêm 10% dữ liệu đa ngôn ngữ, tăng cường khả năng hiểu và tạo ngôn ngữ trên nhiều ngôn ngữ.

Phi-3 Trung bình, mặt khác, đại diện cho một bước tiến đáng kể về quy mô, với 40 lớp, 40 đầu chú ý và chiều kích nhúng là 5.120. Mặc dù Microsoft lưu ý rằng một số điểm chuẩn có thể yêu cầu tinh chỉnh thêm về hỗn hợp dữ liệu đào tạo để tận dụng tối đa khả năng tăng này, nhưng kết quả ban đầu rất hứa hẹn, với sự cải thiện đáng kể so với Phi-3 Nhỏ trên các nhiệm vụ như MMLU, TriviaQA và HumanEval.

Giới hạn và Hướng Tiếp cận Tương lai

Mặc dù có khả năng ấn tượng, Phi-3 Mini, như tất cả các mô hình ngôn ngữ, không hoàn hảo. Một trong những điểm yếu đáng chú ý nhất là khả năng lưu trữ kiến thức thực tế tương đối hạn chế, như được chứng minh bởi hiệu suất thấp hơn trên các điểm chuẩn như TriviaQA.

Tuy nhiên, Microsoft tin rằng điểm yếu này có thể được giảm thiểu bằng cách tăng cường mô hình với khả năng tìm kiếm, cho phép nó tìm kiếm và lý luận trên thông tin liên quan theo yêu cầu. Phương pháp này được thể hiện trong Hugging Face Chat-UI, nơi Phi-3 Mini có thể tận dụng tìm kiếm để tăng cường phản hồi của nó.

Một lĩnh vực khác cần cải thiện là khả năng đa ngôn ngữ của mô hình. Mặc dù Phi-3 Nhỏ đã có những bước đầu tiên bằng cách kết hợp thêm dữ liệu đa ngôn ngữ, nhưng vẫn cần nhiều công việc hơn để hoàn toàn mở khóa tiềm năng của các mô hình compact này cho các ứng dụng ngôn ngữ chéo.

Khi nhìn về tương lai, Microsoft cam kết liên tục phát triển gia đình mô hình Phi, giải quyết các hạn chế của chúng và mở rộng khả năng của chúng. Điều này có thể liên quan đến việc tinh chỉnh thêm dữ liệu đào tạo và phương pháp, cũng như việc khám phá các kiến trúc và kỹ thuật mới được thiết kế đặc biệt cho các mô hình ngôn ngữ compact và hiệu suất cao.

Kết luận

Phi-3 Mini của Microsoft đại diện cho một bước nhảy vĩ đại trong việc dân chủ hóa các khả năng AI tiên tiến. Bằng cách cung cấp hiệu suất theo tiêu chuẩn hiện đại trong một gói compact và hiệu quả về tài nguyên, nó mở ra những khả năng mới cho các trải nghiệm thông minh trên thiết bị trong nhiều ứng dụng.

Phương pháp đào tạo sáng tạo của mô hình, nhấn mạnh vào dữ liệu chất lượng cao và dày đặc về lý lẽ hơn là sức mạnh tính toán thô, đã chứng minh là một yếu tố then chốt, cho phép Phi-3 Mini đạt được hiệu suất vượt trội so với kích thước của nó. Kết hợp với các biện pháp an toàn robust và nỗ lực phát triển liên tục, gia đình mô hình Phi-3 có vị thế để đóng vai trò quan trọng trong việc định hình tương lai của các hệ thống thông minh, làm cho AI trở nên dễ tiếp cận, hiệu quả và đáng tin cậy hơn bao giờ hết.

Khi ngành công nghệ tiếp tục đẩy ranh giới của những gì có thể với AI, cam kết của Microsoft đối với các mô hình nhẹ và hiệu suất cao như Phi-3 Mini đại diện cho một sự khác biệt tươi mới so với quan điểm truyền thống “lớn hơn là tốt hơn.” Bằng cách chứng minh rằng kích thước không phải là tất cả, Phi-3 Mini có tiềm năng để truyền cảm hứng cho một làn sóng đổi mới mới tập trung vào việc tối đa hóa giá trị và tác động của AI thông qua việc kiểm duyệt dữ liệu thông minh, thiết kế mô hình có suy nghĩ và các thực hành phát triển có trách nhiệm.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.