Trí tuệ nhân tạo

Meta’s Llama 3.2: Định nghĩa lại Trí tuệ nhân tạo sinh mở với khả năng trên thiết bị và đa phương tiện

Published September 27, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Sự ra mắt gần đây của Llama 3.2 của Meta, phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn Llama, là một bước phát triển quan trọng trong sự tiến hóa của hệ sinh thái trí tuệ nhân tạo sinh mở. Bản nâng cấp này mở rộng khả năng của Llama theo hai chiều hướng. Một mặt, Llama 3.2 cho phép xử lý dữ liệu đa phương tiện – tích hợp hình ảnh, văn bản và hơn thế nữa – giúp các khả năng AI tiên tiến trở nên dễ tiếp cận hơn với đối tượng rộng lớn hơn. Mặt khác, nó mở rộng tiềm năng triển khai trên các thiết bị cạnh, tạo ra những cơ hội thú vị cho các ứng dụng AI thời gian thực, trên thiết bị. Trong bài viết này, chúng ta sẽ khám phá sự phát triển này và ý nghĩa của nó đối với tương lai của việc triển khai AI.

Sự tiến hóa của Llama

Hành trình của Meta với Llama bắt đầu từ đầu năm 2023, và trong thời gian đó, loạt này đã trải qua sự tăng trưởng và áp dụng nổ tung. Bắt đầu với Llama 1, chỉ giới hạn cho sử dụng phi thương mại và chỉ có thể truy cập được bởi các tổ chức nghiên cứu được chọn, loạt này đã chuyển sang lĩnh vực mã nguồn mở với việc phát hành Llama 2 vào năm 2023. Việc ra mắt Llama 3.1 vào đầu năm nay là một bước tiến lớn trong sự tiến hóa, vì nó giới thiệu mô hình mã nguồn mở lớn nhất với 405 tỷ tham số, ngang bằng hoặc vượt qua các đối thủ cạnh tranh độc quyền. Phiên bản mới nhất, Llama 3.2, đưa điều này đi xa hơn bằng cách giới thiệu các mô hình nhẹ và tập trung vào tầm nhìn, giúp AI trên thiết bị và các chức năng đa phương tiện trở nên dễ tiếp cận hơn. Sự cam kết của Meta đối với tính cởi mở và khả năng sửa đổi đã cho phép Llama trở thành mô hình hàng đầu trong cộng đồng mã nguồn mở. Công ty tin rằng bằng cách cam kết với tính minh bạch và tính khả dụng, chúng ta có thể thúc đẩy sự đổi mới AI một cách hiệu quả hơn – không chỉ cho các nhà phát triển và doanh nghiệp, mà còn cho mọi người trên toàn thế giới.

Giới thiệu Llama 3.2

Llama 3.2 là phiên bản mới nhất của loạt Llama của Meta, bao gồm nhiều mô hình ngôn ngữ được thiết kế để đáp ứng các yêu cầu đa dạng. Các mô hình lớn và trung bình, bao gồm 90 và 11 tỷ tham số, được thiết kế để xử lý dữ liệu đa phương tiện, bao gồm văn bản và hình ảnh. Những mô hình này có thể giải thích hiệu quả các biểu đồ, đồ thị và các hình thức dữ liệu trực quan khác, khiến chúng phù hợp cho việc xây dựng các ứng dụng trong các lĩnh vực như tầm nhìn máy tính, phân tích tài liệu và công cụ thực tế ảo. Các mô hình nhẹ, với 1 tỷ và 3 tỷ tham số, được áp dụng cụ thể cho các thiết bị di động. Các mô hình chỉ văn bản này vượt trội trong việc tạo văn bản đa ngôn ngữ và các khả năng gọi công cụ, khiến chúng trở nên hiệu quả cao cho các nhiệm vụ như tạo ra văn bản tăng cường, tóm tắt và tạo ra các ứng dụng dựa trên đại lý cá nhân hóa trên các thiết bị cạnh.

Ý nghĩa của Llama 3.2

Sự ra mắt của Llama 3.2 có thể được công nhận vì những tiến bộ trong hai lĩnh vực chính.

Một kỷ nguyên mới của Trí tuệ nhân tạo đa phương tiện

Llama 3.2 là mô hình mã nguồn mở đầu tiên của Meta có khả năng xử lý cả văn bản và hình ảnh. Đây là một sự phát triển quan trọng trong sự tiến hóa của trí tuệ nhân tạo sinh mở, vì nó cho phép mô hình phân tích và phản hồi các đầu vào trực quan cùng với dữ liệu văn bản. Ví dụ, người dùng hiện có thể tải lên hình ảnh và nhận được các phân tích hoặc sửa đổi chi tiết dựa trên các lệnh ngôn ngữ tự nhiên, chẳng hạn như xác định các vật thể hoặc tạo ra các chú thích. Mark Zuckerberg nhấn mạnh khả năng này trong quá trình ra mắt, tuyên bố rằng Llama 3.2 được thiết kế để “cho phép nhiều ứng dụng thú vị yêu cầu hiểu biết trực quan”. Sự tích hợp này mở rộng phạm vi của Llama cho các ngành công nghiệp phụ thuộc vào thông tin đa phương tiện, bao gồm bán lẻ, chăm sóc sức khỏe, giáo dục và giải trí.

Chức năng trên thiết bị cho tính khả dụng

Một trong những tính năng nổi bật của Llama 3.2 là sự tối ưu hóa cho việc triển khai trên thiết bị, đặc biệt là trong môi trường di động. Các phiên bản mô hình nhẹ với 1 tỷ và 3 tỷ tham số được thiết kế cụ thể để chạy trên điện thoại thông minh và các thiết bị cạnh khác được hỗ trợ bởi phần cứng Qualcomm và MediaTek. Tiện ích này cho phép các nhà phát triển tạo ra các ứng dụng mà không cần tài nguyên tính toán rộng lớn. Hơn nữa, các phiên bản mô hình này vượt trội trong việc xử lý văn bản đa ngôn ngữ và hỗ trợ độ dài ngữ cảnh lên đến 128K token, cho phép người dùng phát triển các ứng dụng xử lý ngôn ngữ tự nhiên trong ngôn ngữ của họ. Ngoài ra, các mô hình này có khả năng gọi công cụ, cho phép người dùng tham gia vào các ứng dụng đại lý, chẳng hạn như quản lý lời mời lịch và lên kế hoạch chuyến đi trực tiếp trên thiết bị của họ.

Khả năng triển khai các mô hình AI cục bộ cho phép trí tuệ nhân tạo mã nguồn mở vượt qua các thách thức liên quan đến tính toán đám mây, bao gồm các vấn đề về độ trễ, rủi ro bảo mật, chi phí hoạt động cao và sự phụ thuộc vào kết nối internet. Sự tiến bộ này có tiềm năng chuyển đổi các ngành công nghiệp như chăm sóc sức khỏe, giáo dục và hậu cần, cho phép họ sử dụng AI mà không bị hạn chế bởi cơ sở hạ tầng đám mây hoặc lo ngại về quyền riêng tư, và trong các tình huống thời gian thực. Điều này cũng mở ra cánh cửa cho AI tiếp cận các khu vực có kết nối hạn chế, dân chủ hóa việc tiếp cận công nghệ tiên tiến.

Ưu thế cạnh tranh

Meta báo cáo rằng Llama 3.2 đã hoạt động cạnh tranh với các mô hình hàng đầu từ OpenAI và Anthropic về hiệu suất. Họ tuyên bố rằng Llama 3.2 vượt trội so với các đối thủ như Claude 3-Haiku và GPT-4o-mini trong các điểm chuẩn khác nhau, bao gồm các nhiệm vụ tuân theo hướng dẫn và tóm tắt nội dung. Ưu thế cạnh tranh này là rất quan trọng đối với Meta khi họ nhằm đảm bảo rằng trí tuệ nhân tạo mã nguồn mở vẫn ngang bằng với các mô hình độc quyền trong lĩnh vực trí tuệ nhân tạo sinh đang phát triển nhanh chóng.

Llama Stack: Đơn giản hóa việc triển khai AI

Một trong những khía cạnh chính của việc ra mắt Llama 3.2 là sự giới thiệu của Llama Stack. Bộ công cụ này giúp các nhà phát triển dễ dàng làm việc với các mô hình Llama trên các môi trường khác nhau, bao gồm cả thiết lập đơn nút, trên cơ sở, đám mây và trên thiết bị. Llama Stack bao gồm hỗ trợ cho các ứng dụng RAG và công cụ, cung cấp một khuôn khổ linh hoạt và toàn diện cho việc triển khai các mô hình trí tuệ nhân tạo sinh. Bằng cách đơn giản hóa quá trình triển khai, Meta đang cho phép các nhà phát triển tích hợp dễ dàng các mô hình Llama vào các ứng dụng của họ, cho dù trên đám mây, di động hay máy tính để bàn.

Kết luận

Llama 3.2 của Meta là một khoảnh khắc quan trọng trong sự tiến hóa của trí tuệ nhân tạo sinh mở, thiết lập các điểm chuẩn mới về tính khả dụng, chức năng và tính linh hoạt. Với khả năng trên thiết bị và xử lý đa phương tiện, mô hình này mở ra những khả năng chuyển đổi trên nhiều ngành công nghiệp, từ chăm sóc sức khỏe đến giáo dục, đồng thời giải quyết các mối quan ngại quan trọng như quyền riêng tư, độ trễ và hạn chế cơ sở hạ tầng. Bằng cách trao quyền cho các nhà phát triển triển khai AI tiên tiến một cách cục bộ và hiệu quả, Llama 3.2 không chỉ mở rộng phạm vi của các ứng dụng AI mà còn dân chủ hóa việc tiếp cận công nghệ tiên tiến trên quy mô toàn cầu.