Trí tuệ nhân tạo

Trí tuệ nhân tạo mã nguồn mở phản công với Llama 4 của Meta

mm

Trong những năm gần đây, thế giới trí tuệ nhân tạo đã chuyển từ một văn hóa hợp tác mở sang một hệ thống độc quyền được bảo vệ chặt chẽ. OpenAI – một công ty được thành lập với “mở” trong tên của nó – đã chuyển sang giữ bí mật các mô hình mạnh nhất của mình sau năm 2019. Các đối thủ như AnthropicGoogle cũng xây dựng trí tuệ nhân tạo tiên tiến sau tường API, chỉ có thể truy cập theo điều kiện của họ. Cách tiếp cận này được biện minh một phần bởi lợi ích an toàn và kinh doanh, nhưng nó đã khiến nhiều người trong cộng đồng than thở về việc mất đi tinh thần mở ban đầu.

Giờ đây, tinh thần đó đang hồi sinh. Các mô hình Llama 4 mới của Meta signal một nỗ lực táo bạo để hồi sinh trí tuệ nhân tạo mã nguồn mở ở cấp độ cao nhất – và ngay cả những người chơi truyền thống cũng đang chú ý. CEO của OpenAI, Sam Altman, gần đây đã thừa nhận rằng công ty đang “ở phía sai của lịch sử” về các mô hình mở và đã công bố kế hoạch cho một “phiên bản mạnh mẽ mới của GPT-4”. Tóm lại, trí tuệ nhân tạo mã nguồn mở đang phản công, và ý nghĩa và giá trị của “mở” đang thay đổi.

(Nguồn: Meta)

Llama 4: Người thách thức mã nguồn mở của Meta đối với GPT-4o, Claude và Gemini

Meta đã giới thiệu Llama 4 như một thách thức trực tiếp đối với các mô hình mới từ các công ty hàng đầu, định vị nó như một lựa chọn thay thế mã nguồn mở. Llama 4 có hai phiên bản có sẵn ngày hôm nay – Llama 4 Scout và Llama 4 Maverick – với thông số kỹ thuật ấn tượng. Cả hai đều là mô hình mixture-of-experts (MoE) hoạt động chỉ một phần của các tham số cho mỗi truy vấn, cho phép kích thước tổng thể lớn mà không làm tăng chi phí thời gian chạy. Scout và Maverick mỗi chiếc đều có 17 tỷ “tham số hoạt động” (phần hoạt động trên bất kỳ đầu vào nào), nhưng nhờ MoE, Scout phân bổ những tham số đó trên 16 chuyên gia (109B tham số tổng) và Maverick trên 128 chuyên gia (400B tổng). Kết quả: Các mô hình Llama 4 mang lại hiệu suất đáng kể – và làm như vậy với những lợi thế độc đáo mà thậm chí một số mô hình đóng cũng không có.

Ví dụ, Llama 4 Scout có một cửa sổ ngữ cảnh 10 triệu token dẫn đầu ngành, lớn hơn nhiều so với hầu hết các đối thủ. Điều này có nghĩa nó có thể tiêu thụ và lý luận trên các tài liệu hoặc cơ sở mã khổng lồ trong một lần. Mặc dù có quy mô lớn, Scout vẫn đủ hiệu quả để chạy trên một GPU H100 đơn khi được lượng tử hóa cao, gợi ý rằng các nhà phát triển sẽ không cần một siêu máy tính để thử nghiệm với nó.

Trong khi đó, Llama 4 Maverick được điều chỉnh cho hiệu suất tối đa. Các thử nghiệm ban đầu cho thấy Maverick匹 hoặc vượt qua các mô hình đóng hàng đầu về lý luận, mã hóa và nhiệm vụ tầm nhìn. Trên thực tế, Meta đã gợi ý về một người anh em lớn hơn, Llama 4 Behemoth, vẫn đang được đào tạo, đã “vượt qua GPT-4.5, Claude 3.7 Sonnet và Gemini 2.0 Pro trên một số chuẩn mực STEM”. Thông điệp rõ ràng: các mô hình mở không còn là hạng hai; Llama 4 đang nhắm đến trạng thái nghệ thuật.

Không kém phần quan trọng, Meta đã làm cho Llama 4 có sẵn ngay lập tức để tải xuống và sử dụng. Các nhà phát triển có thể tải Scout và Maverick từ trang web chính thức hoặc Hugging Face theo Giấy phép Cộng đồng Llama 4. Điều đó có nghĩa là bất kỳ ai – từ một hacker garage đến một công ty Fortune 500 – đều có thể tiếp cận, tinh chỉnh mô hình theo nhu cầu của họ và triển khai nó trên phần cứng hoặc đám mây của riêng họ. Đây là một sự tương phản rõ ràng với các dịch vụ độc quyền như GPT-4o của OpenAI hoặc Claude 3.7 của Anthropic, được cung cấp thông qua API trả phí mà không có quyền truy cập vào trọng lượng cơ bản.

Meta nhấn mạnh rằng sự mở của Llama 4 là về việc trao quyền cho người dùng: “Chúng tôi đang chia sẻ các mô hình đầu tiên trong đàn Llama 4, điều này sẽ cho phép mọi người xây dựng các trải nghiệm đa phương tiện được cá nhân hóa hơn.” Nói cách khác, Llama 4 là một công cụ được thiết kế để nằm trong tay của các nhà phát triển và nhà nghiên cứu trên toàn thế giới. Bằng cách phát hành các mô hình có thể cạnh tranh với GPT-4 và Claude về khả năng, Meta đang hồi sinh ý tưởng rằng trí tuệ nhân tạo hàng đầu không cần phải sống sau một tường lửa.

(Nguồn: Meta)

Chủ nghĩa lý tưởng đích thực hay trò chơi chiến lược?

Meta giới thiệu Llama 4 trong những thuật ngữ lớn lao, gần như lý tưởng. “Mô hình trí tuệ nhân tạo mã nguồn mở của chúng tôi, Llama, đã được tải xuống hơn một tỷ lần,” CEO Mark Zuckerberg đã công bố gần đây, thêm rằng “mã nguồn mở các mô hình trí tuệ nhân tạo là điều cần thiết để đảm bảo mọi người trên khắp thế giới đều có thể tiếp cận với lợi ích của trí tuệ nhân tạo.” Việc định hình này描绘 Meta như một người cầm đuốc của trí tuệ nhân tạo được dân chủ hóa – một công ty sẵn sàng chia sẻ các mô hình vương miện của mình vì lợi ích chung. Và thực sự, sự phổ biến của gia đình Llama hỗ trợ cho điều này: các mô hình đã được tải xuống với quy mô ấn tượng (nhảy từ 650 triệu lên 1 tỷ tải xuống chỉ trong vài tháng), và chúng đã được sử dụng trong sản xuất bởi các công ty như Spotify, AT&T và DoorDash.

Meta tự hào lưu ý rằng các nhà phát triển đánh giá cao “minh bạch, khả năng tùy chỉnh và bảo mật” của việc có các mô hình mở mà họ có thể chạy riêng, điều này “giúp đạt được mức độ sáng tạo và đổi mới mới.” so với các API hộp đen. Về nguyên tắc, điều này nghe giống như tinh thần phần mềm mã nguồn mở cũ (như Linux hoặc Apache) được áp dụng cho trí tuệ nhân tạo – một chiến thắng không thể tranh cãi cho cộng đồng.

Tuy nhiên, không thể bỏ qua tính toán chiến lược đằng sau sự mở này. Meta không phải là một tổ chức từ thiện, và “mã nguồn mở” trong bối cảnh này đi kèm với những hạn chế. Đặc biệt, Llama 4 được phát hành theo một giấy phép cộng đồng đặc biệt, không phải là giấy phép permissive tiêu chuẩn – vì vậy trong khi trọng lượng mô hình là miễn phí để sử dụng, có những hạn chế (ví dụ, một số trường hợp sử dụng tài nguyên cao có thể yêu cầu sự cho phép, và giấy phép là “riêng tư” theo nghĩa nó được tạo bởi Meta). Điều này không phải là định nghĩa được Open Source Initiative (OSI) phê duyệt về mã nguồn mở, điều này đã khiến một số nhà phê bình lập luận rằng các công ty đang lạm dụng thuật ngữ.

Trên thực tế, cách tiếp cận của Meta thường được mô tả là “mở trọng lượng” hoặc “nguồn có sẵn” trí tuệ nhân tạo: mã và trọng lượng là mở, nhưng Meta vẫn duy trì một số quyền kiểm soát và không tiết lộ mọi thứ (dữ liệu đào tạo, ví dụ). Điều đó không làm giảm đi tiện ích cho người dùng, nhưng nó cho thấy Meta là chiến lược mở – giữ đủ dây cương để bảo vệ bản thân (và có thể là lợi thế cạnh tranh).

Tại sao Meta lại mở ra? Cảnh quan cạnh tranh cung cấp những gợi ý. Phát hành các mô hình mạnh mẽ miễn phí có thể nhanh chóng xây dựng một cơ sở người dùng nhà phát triển và doanh nghiệp rộng lớn – Mistral AI, một công ty khởi nghiệp của Pháp, đã làm điều này với các mô hình mở ban đầu của mình để có được uy tín như một phòng thí nghiệm hàng đầu.

Bằng cách gieo mầm thị trường với Llama, Meta đảm bảo công nghệ của mình trở thành nền tảng trong hệ sinh thái trí tuệ nhân tạo, điều này có thể mang lại lợi ích lâu dài. Đây là một chiến lược cổ điển: nếu mọi người đều sử dụng “mô hình mở” của bạn, bạn sẽ gián tiếp thiết lập các tiêu chuẩn và có thể thậm chí định hướng mọi người đến các nền tảng của bạn (ví dụ, các sản phẩm trợ lý AI của Meta tận dụng Llama). Cũng có một yếu tố PR và định vị. Meta được chơi vai trò của người đổi mới nhân từ, đặc biệt là so với OpenAI – đã phải đối mặt với sự chỉ trích vì cách tiếp cận đóng của mình. Trên thực tế, sự thay đổi trái tim của OpenAI về các mô hình mở một phần nhấn mạnh hiệu quả của động thái của Meta.

Sau khi mô hình mở của Trung Quốc DeepSeek-R1 xuất hiện vào tháng 1 và vượt qua các mô hình trước đó, Altman cho biết OpenAI không muốn bị bỏ lại ở “phía sai của lịch sử”. Giờ đây, OpenAI đang hứa hẹn một mô hình mở với khả năng lý luận mạnh mẽ trong tương lai, đánh dấu một sự thay đổi trong thái độ. Điều này khó không thấy được ảnh hưởng của Meta trong sự thay đổi đó. Việc định vị mã nguồn mở của Meta là cả chính thốngchiến lược: nó thực sự mở rộng khả năng tiếp cận với trí tuệ nhân tạo, nhưng nó cũng là một bước đi thông minh để vượt qua các đối thủ và định hình tương lai của thị trường theo điều kiện của Meta.

Ảnh hưởng đến các nhà phát triển, doanh nghiệp và tương lai của trí tuệ nhân tạo

Đối với các nhà phát triển, sự hồi sinh của các mô hình mở như Llama 4 là một luồng gió tươi mới. Thay vì bị khóa trong một hệ sinh thái của một nhà cung cấp duy nhất và phí, họ bây giờ có tùy chọn chạy trí tuệ nhân tạo mạnh mẽ trên cơ sở hạ tầng của riêng họ hoặc tùy chỉnh nó một cách tự do.

Đây là một lợi ích lớn cho các doanh nghiệp trong các ngành nhạy cảm – nghĩ về tài chính, chăm sóc sức khỏe hoặc chính phủ – những người lo ngại về việc cho ăn dữ liệu bí mật vào hộp đen của người khác. Với Llama 4, một ngân hàng hoặc bệnh viện có thể triển khai một mô hình ngôn ngữ hàng đầu sau tường lửa của riêng họ, tinh chỉnh nó trên dữ liệu riêng, mà không cần chia sẻ một token với một thực thể bên ngoài. Cũng có một lợi thế về chi phí. Trong khi phí API dựa trên sử dụng cho các mô hình hàng đầu có thể tăng vọt, một mô hình mở không có phí sử dụng – bạn chỉ trả tiền cho sức mạnh tính toán để chạy nó. Các doanh nghiệp tăng tải công việc trí tuệ nhân tạo mạnh mẽ có thể tiết kiệm đáng kể bằng cách chọn một giải pháp mở mà họ có thể mở rộng trong nhà.

Không có gì ngạc nhiên khi chúng ta đang thấy nhiều sự quan tâm đến các mô hình mở từ các doanh nghiệp; nhiều người đã bắt đầu nhận ra rằng kiểm soát và bảo mật của trí tuệ nhân tạo mã nguồn mở phù hợp hơn với nhu cầu của họ so với các dịch vụ đóng một kích cỡ.

Các nhà phát triển cũng thu được lợi ích về sự đổi mới. Với quyền truy cập vào các bộ phận bên trong của mô hình, họ có thể tinh chỉnh và cải thiện trí tuệ nhân tạo cho các lĩnh vực cụ thể (luật, sinh học, ngôn ngữ khu vực – bạn đặt tên) theo những cách mà một API đóng có thể không bao giờ đáp ứng. Sự bùng nổ của các dự án do cộng đồng dẫn dắt xung quanh các mô hình Llama trước đó – từ các bot trò chuyện được tinh chỉnh trên kiến thức y tế đến các ứng dụng điện thoại thông minh dành cho người đam mê chạy các phiên bản thu nhỏ – đã chứng minh rằng các mô hình mở có thể dân chủ hóa thực nghiệm.

Tuy nhiên, sự phục hưng của mô hình mở cũng đặt ra những câu hỏi khó. Liệu “dân chủ hóa” có thực sự xảy ra nếu chỉ những người có tài nguyên tính toán đáng kể mới có thể chạy một mô hình 400B tham số? Mặc dù Llama 4 Scout và Maverick giảm thanh toán phần cứng so với các mô hình monolithic, chúng vẫn là hạng nặng – một điểm không bị mất đối với một số nhà phát triển mà PC của họ không thể xử lý chúng mà không cần sự giúp đỡ của đám mây.

Hy vọng là các kỹ thuật như nén mô hình, chưng cất hoặc các biến thể chuyên gia nhỏ hơn sẽ trickles xuống sức mạnh của Llama 4 đến các kích cỡ có thể tiếp cận hơn. Một mối quan tâm khác là lạm dụng. OpenAI và những người khác đã lập luận trong một thời gian dài rằng việc phát hành các mô hình mạnh mẽ một cách cởi mở có thể cho phép các tác nhân độc hại (để tạo thông tin sai lệch, mã malware, v.v.).

Những lo ngại đó vẫn còn: một mô hình mã nguồn mở Claude hoặc GPT có thể bị lạm dụng mà không có các bộ lọc an toàn mà các công ty thực thi trên API của họ. Mặt khác, những người ủng hộ lập luận rằng sự cởi mở cho phép cộng đồng cũng xác định và sửa các vấn đề, khiến mô hình trở nên mạnh mẽ và minh bạch hơn theo thời gian so với bất kỳ hệ thống bí mật nào. Có bằng chứng cho thấy cộng đồng mô hình mở coi trọng an toàn, phát triển các rào cản của riêng họ và chia sẻ các phương pháp hay nhất – nhưng đó là một căng thẳng đang diễn ra.

Điều ngày càng rõ ràng là chúng ta đang hướng tới một phong cảnh trí tuệ nhân tạo hỗn hợp nơi các mô hình mở và đóng cùng tồn tại, mỗi mô hình ảnh hưởng đến mô hình kia. Các nhà cung cấp đóng như OpenAI, Anthropic và Google vẫn giữ một lợi thế về hiệu suất tuyệt đối – hiện tại. Thật vậy, vào cuối năm 2024, nghiên cứu cho thấy các mô hình mở khoảng một năm sau các mô hình đóng tốt nhất về khả năng. Nhưng khoảng cách đó đang thu hẹp nhanh chóng.

Trong thị trường hiện nay, “trí tuệ nhân tạo mã nguồn mở” không chỉ là dự án sở thích hoặc mô hình cũ – nó hiện là trung tâm của chiến lược trí tuệ nhân tạo cho các gã khổng lồ công nghệ và các công ty khởi nghiệp. Sự ra mắt của Llama 4 của Meta là một lời nhắc nhở mạnh mẽ về giá trị thay đổi của sự cởi mở. Nó đồng thời là một lập trường triết học cho việc dân chủ hóa công nghệ và một động thái chiến thuật trong một trận chiến công nghiệp cao赌注. Đối với các nhà phát triển và doanh nghiệp, nó mở ra cánh cửa mới cho sự đổi mới và tự chủ, ngay cả khi nó làm phức tạp các quyết định với các giao dịch mới. Và đối với hệ sinh thái rộng lớn hơn, nó mang lại hy vọng rằng lợi ích của trí tuệ nhân tạo sẽ không bị khóa trong tay của một số tập đoàn – nếu tinh thần mã nguồn mở có thể giữ vững lập trường của mình.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.