Trí tuệ nhân tạo

Ra mắt Meta Llama 3: Một bước nhảy vọt trong các mô hình ngôn ngữ lớn

Đã xuất bản 21 tháng 4, 2024

Đã cập nhật 21 tháng 5, 2026

Dr. Tehseen Zia

Trong lĩnh vực trí tuệ nhân tạo tạo sinh, Meta tiếp tục dẫn đầu với cam kết cung cấp mã nguồn mở, phân phối loạt mô hình ngôn ngữ lớn Meta AI (Llama) trên toàn cầu cho các nhà phát triển và nhà nghiên cứu. Tiếp tục các sáng kiến tiến bộ, Meta gần đây đã giới thiệu phiên bản thứ ba của loạt này, Llama 3. Phiên bản mới này cải tiến đáng kể so với Llama 2, cung cấp nhiều tính năng mới và thiết lập các tiêu chuẩn mới, thách thức các đối thủ trong ngành như Google, Mistral và Anthropic. Bài viết này khám phá các tiến bộ đáng kể của Llama 3 và cách nó so sánh với người tiền nhiệm của nó, Llama 2.

Loạt Llama của Meta: Từ độc quyền đến mã nguồn mở và hiệu suất nâng cao

Meta đã khởi xướng loạt Llama vào năm 2022 với việc ra mắt Llama 1, một mô hình chỉ dành cho sử dụng phi thương mại và chỉ có thể truy cập được bởi các tổ chức nghiên cứu được chọn do nhu cầu tính toán khổng lồ và bản chất độc quyền của các mô hình LLM tiên tiến tại thời điểm đó. Vào năm 2023, với việc ra mắt Llama 2, Meta AI đã chuyển hướng sang mở hơn, cung cấp mô hình miễn phí cho cả mục đích nghiên cứu và thương mại. Điều này nhằm mục đích dân chủ hóa việc tiếp cận các công nghệ trí tuệ nhân tạo tạo sinh tiên tiến, cho phép nhiều người dùng hơn, bao gồm cả các công ty khởi nghiệp và các nhóm nghiên cứu nhỏ, có thể đổi mới và phát triển ứng dụng mà không cần phải trả chi phí cao thường liên quan đến các mô hình lớn. Tiếp tục xu hướng này, Meta đã giới thiệu Llama 3, tập trung vào việc cải thiện hiệu suất của các mô hình nhỏ hơn trên các tiêu chuẩn công nghiệp khác nhau.

Giới thiệu Llama 3

Llama 3 là thế hệ thứ hai của các mô hình ngôn ngữ lớn mã nguồn mở của Meta, bao gồm cả mô hình đã được đào tạo trước và tinh chỉnh theo hướng dẫn với 8B và 70B tham số. Theo như người tiền nhiệm của nó, Llama 3 sử dụng kiến trúc chỉ giải mã transformer và tiếp tục thực hành đào tạo tự giám sát, tự giám sát để dự đoán các token tiếp theo trong các chuỗi văn bản. Llama 3 được đào tạo trước trên một tập dữ liệu lớn hơn gấp 7 lần so với Llama 2, bao gồm hơn 15 nghìn tỷ token được rút ra từ một hỗn hợp mới được thu thập từ dữ liệu trực tuyến công khai. Tập dữ liệu khổng lồ này được xử lý sử dụng hai cụm được trang bị 24.000 GPU. Để duy trì chất lượng cao của dữ liệu đào tạo này, nhiều kỹ thuật trí tuệ nhân tạo dựa trên dữ liệu đã được sử dụng, bao gồm bộ lọc heuristic và NSFW, khử trùng lặp ngữ nghĩa, và phân loại chất lượng văn bản. Được thiết kế cho các ứng dụng đối thoại, mô hình Llama 3 Instruct đã được cải tiến đáng kể, kết hợp hơn 10 triệu mẫu dữ liệu được chú thích bởi con người và tận dụng một hỗn hợp tinh vi của các phương pháp đào tạo như đào tạo tinh chỉnh có giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần (PPO), và tối ưu hóa chính sách trực tiếp (DPO).

Llama 3 so với Llama 2: Cải tiến chính

Llama 3 mang lại một số cải tiến so với Llama 2, tăng đáng kể chức năng và hiệu suất của nó:

Từ vựng mở rộng: Llama 3 đã tăng từ vựng của nó lên 128.256 token, từ 32.000 token của Llama 2. Cải tiến này hỗ trợ mã hóa văn bản hiệu quả hơn cho cả đầu vào và đầu ra và tăng cường khả năng đa ngôn ngữ của nó.
Chiều dài ngữ cảnh mở rộng: Các mô hình Llama 3 cung cấp chiều dài ngữ cảnh là 8.000 token, gấp đôi 4.090 token được hỗ trợ bởi Llama 2. Tăng này cho phép xử lý nội dung rộng lớn hơn, bao gồm cả lời nhắc của người dùng và phản hồi của mô hình.
Dữ liệu đào tạo nâng cấp: Tập dữ liệu đào tạo cho Llama 3 lớn hơn gấp 7 lần so với Llama 2, bao gồm bốn lần nhiều mã hơn. Nó chứa hơn 5% dữ liệu chất lượng cao, không phải tiếng Anh, bao gồm hơn 30 ngôn ngữ, điều này quan trọng cho hỗ trợ ứng dụng đa ngôn ngữ. Dữ liệu này trải qua kiểm soát chất lượng nghiêm ngặt sử dụng các kỹ thuật tiên tiến như bộ lọc heuristic và NSFW, khử trùng lặp ngữ nghĩa, và phân loại văn bản.
Tinh chỉnh và đánh giá hướng dẫn được cải tiến: Khác với Llama 2, Llama 3 sử dụng các kỹ thuật tinh chỉnh hướng dẫn tiên tiến, bao gồm đào tạo tinh chỉnh có giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần (PPO), và tối ưu hóa chính sách trực tiếp (DPO). Để bổ sung cho quá trình này, một tập đánh giá con người chất lượng cao mới đã được giới thiệu, bao gồm 1.800 lời nhắc bao gồm các trường hợp sử dụng đa dạng như tư vấn, não bộ, phân loại, mã hóa, và nhiều hơn, đảm bảo đánh giá và tinh chỉnh toàn diện khả năng của mô hình.
An toàn AI tiên tiến: Llama 3, giống như Llama 2, kết hợp các biện pháp an toàn nghiêm ngặt như tinh chỉnh hướng dẫn và kiểm tra toàn diện để giảm thiểu rủi ro, đặc biệt là trong các lĩnh vực quan trọng như an ninh mạng và các mối đe dọa sinh học. Để hỗ trợ những nỗ lực này, Meta cũng đã giới thiệu Llama Guard 2, được tinh chỉnh trên phiên bản 8B của Llama 3. Mô hình mới này nâng cao loạt Llama Guard bằng cách phân loại đầu vào và đầu ra của LLM để xác định nội dung không an toàn, làm cho nó lý tưởng cho môi trường sản xuất.

Sự sẵn có của Llama 3

Các mô hình Llama 3 hiện đã được tích hợp vào hệ sinh thái Hugging Face, tăng cường khả năng tiếp cận cho các nhà phát triển. Các mô hình cũng có sẵn thông qua các nền tảng dịch vụ mô hình như Perplexity Labs và Fireworks.ai, và trên các nền tảng đám mây như AWS SageMaker, Azure ML, và Vertex AI. Meta dự định sẽ mở rộng sự sẵn có của Llama 3 hơn nữa, bao gồm các nền tảng như Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM, và Snowflake. Ngoài ra, hỗ trợ phần cứng cho Llama 3 sẽ được mở rộng để bao gồm các nền tảng từ AMD, AWS, Dell, Intel, NVIDIA, và Qualcomm.

Các cải tiến sắp tới trong Llama 3

Meta đã tiết lộ rằng phiên bản hiện tại của Llama 3 chỉ là giai đoạn đầu trong tầm nhìn rộng lớn hơn của họ cho phiên bản đầy đủ của Llama 3. Họ đang phát triển một mô hình tiên tiến với hơn 400 tỷ tham số, sẽ giới thiệu các tính năng mới, bao gồm đa phương tiện và khả năng xử lý nhiều ngôn ngữ. Phiên bản này cũng sẽ có một cửa sổ ngữ cảnh mở rộng đáng kể và khả năng hiệu suất tổng thể được cải thiện.

Kết luận

Llama 3 của Meta đánh dấu một sự tiến hóa đáng kể trong cảnh quan của các mô hình ngôn ngữ lớn, đẩy loạt này không chỉ hướng tới sự tiếp cận mã nguồn mở lớn hơn mà còn nâng cao đáng kể khả năng hiệu suất của nó. Với một tập dữ liệu đào tạo lớn hơn gấp 7 lần so với người tiền nhiệm và các tính năng như từ vựng mở rộng và chiều dài ngữ cảnh tăng, Llama 3 thiết lập các tiêu chuẩn mới thách thức ngay cả những đối thủ mạnh nhất trong ngành.

Phiên bản thứ ba này không chỉ tiếp tục dân chủ hóa công nghệ AI bằng cách cung cấp các khả năng cấp cao cho một phổ rộng hơn của các nhà phát triển mà còn giới thiệu các tiến bộ đáng kể trong an toàn và độ chính xác của đào tạo. Bằng cách tích hợp các mô hình này vào các nền tảng như Hugging Face và mở rộng sự sẵn có thông qua các dịch vụ đám mây chính, Meta đang đảm bảo rằng Llama 3 không chỉ mạnh mẽ mà còn phổ biến.

Khi nhìn về phía trước, sự phát triển liên tục của Meta hứa hẹn nhiều khả năng mạnh mẽ hơn, bao gồm đa phương tiện và hỗ trợ ngôn ngữ mở rộng, thiết lập sân khấu cho Llama 3 không chỉ cạnh tranh mà còn có thể vượt qua các mô hình AI chính khác trên thị trường. Llama 3 là một minh chứng cho cam kết của Meta trong việc dẫn đầu cuộc cách mạng AI, cung cấp các công cụ không chỉ dễ tiếp cận hơn mà còn tiên tiến và an toàn hơn cho người dùng toàn cầu.