Trí tuệ nhân tạo

Tất Cả Những Gì Bạn Cần Biết Về Llama 3 | Mô Hình Mở Nguồn Powerful Nhất | Khái Niệm Đến Sử Dụng

Published April 24, 2024

Updated April 24, 2026

Aayush Mittal Mittal

Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta đã phát hành gần đây Llama 3, thế hệ tiếp theo của mô hình ngôn ngữ lớn (LLM) mã nguồn mở tiên tiến của họ. Xây dựng trên nền tảng được thiết lập bởi người tiền nhiệm của nó, Llama 3 nhằm mục đích tăng cường các khả năng đã đặt Llama 2 thành một đối thủ cạnh tranh mã nguồn mở quan trọng với ChatGPT, như được nêu trong bài đánh giá toàn diện trong bài viết Llama 2: Một Cuộc Khám Phá Sâu Về Đối Thủ Mở Nguồn Của ChatGPT.

Trong bài viết này, chúng tôi sẽ thảo luận về các khái niệm cốt lõi đằng sau Llama 3, khám phá kiến trúc và quá trình đào tạo sáng tạo của nó, và cung cấp hướng dẫn thực tế về cách truy cập, sử dụng và triển khai mô hình đột phá này một cách có trách nhiệm. Cho dù bạn là một nhà nghiên cứu, nhà phát triển, hay một người đam mê AI, bài đăng này sẽ trang bị cho bạn kiến thức và tài nguyên cần thiết để khai thác sức mạnh của Llama 3 cho các dự án và ứng dụng của bạn.

Sự Tiến Hóa Của Llama: Từ Llama 2 Đến Llama 3

CEO của Meta, Mark Zuckerberg, đã công bố ra mắt Llama 3, mô hình AI mới nhất được phát triển bởi Meta AI. Mô hình này, hiện đã được mã nguồn mở, sẽ nâng cao các sản phẩm khác nhau của Meta, bao gồm Messenger và Instagram. Zuckerberg nhấn mạnh rằng Llama 3 đặt Meta AI trở thành trợ lý AI miễn phí tiên tiến nhất.

Trước khi chúng ta nói về các chi tiết cụ thể của Llama 3, hãy cùng nhìn lại người tiền nhiệm của nó, Llama 2. Được giới thiệu vào năm 2022, Llama 2 là một cột mốc quan trọng trong cảnh quan LLM mã nguồn mở, cung cấp một mô hình mạnh mẽ và hiệu quả có thể chạy trên phần cứng tiêu dùng.

Tuy nhiên, trong khi Llama 2 là một thành tựu đáng chú ý, nó cũng có những hạn chế. Người dùng đã báo cáo các vấn đề về việc từ chối sai (mô hình từ chối trả lời các yêu cầu vô hại), sự hữu ích hạn chế và không gian để cải thiện trong các lĩnh vực như lý luận và tạo mã.

Vào Llama 3: Sự phản hồi của Meta đối với những thách thức và phản hồi của cộng đồng. Với Llama 3, Meta đã đặt ra mục tiêu xây dựng các mô hình mã nguồn mở tốt nhất, tương đương với các mô hình độc quyền hàng đầu hiện có, đồng thời ưu tiên các phương pháp phát triển và triển khai có trách nhiệm.

Llama 3: Kiến Trúc Và Đào Tạo

Một trong những đổi mới chính trong Llama 3 là bộ mã hóa của nó, có từ vựng mở rộng đáng kể lên đến 128,256 token (tăng từ 32,000 trong Llama 2). Từ vựng lớn hơn này cho phép mã hóa văn bản hiệu quả hơn, cả về đầu vào và đầu ra, có thể dẫn đến khả năng đa ngôn ngữ mạnh mẽ hơn và cải thiện hiệu suất tổng thể.

Llama 3 cũng kết hợp Chú Ý Nhóm Câu Hỏi (GQA), một kỹ thuật đại diện hiệu quả giúp tăng khả năng mở rộng và giúp mô hình xử lý các ngữ cảnh dài hơn một cách hiệu quả hơn. Phiên bản 8B của Llama 3 sử dụng GQA, trong khi cả mô hình 8B và 70B có thể xử lý các chuỗi lên đến 8,192 token.

Dữ Liệu Đào Tạo Và Tăng Cường

Dữ liệu đào tạo được sử dụng cho Llama 3 là một yếu tố quan trọng trong hiệu suất cải thiện của nó. Meta đã tạo ra một tập dữ liệu khổng lồ với hơn 15 nghìn tỷ token từ các nguồn trực tuyến công khai, lớn hơn bảy lần so với tập dữ liệu được sử dụng cho Llama 2. Tập dữ liệu này cũng bao gồm một phần đáng kể (hơn 5%) dữ liệu chất lượng cao không phải tiếng Anh, bao gồm hơn 30 ngôn ngữ, để chuẩn bị cho các ứng dụng đa ngôn ngữ trong tương lai.

Để đảm bảo chất lượng dữ liệu, Meta đã sử dụng các kỹ thuật lọc tiên tiến, bao gồm bộ lọc heuristic, bộ lọc NSFW, khử trùng lặp ngữ nghĩa và các phân loại văn bản được đào tạo trên Llama 2 để dự đoán chất lượng dữ liệu. Đội ngũ cũng đã tiến hành các thí nghiệm rộng rãi để xác định hỗn hợp dữ liệu tối ưu cho việc đào tạo trước, đảm bảo rằng Llama 3 hoạt động tốt trên nhiều trường hợp sử dụng khác nhau, bao gồm cả kiến thức chung, STEM, mã hóa và kiến thức lịch sử.

Tăng cường đào tạo trước là một khía cạnh quan trọng khác trong sự phát triển của Llama 3. Meta đã phát triển các định luật tăng cường cho phép họ dự đoán hiệu suất của các mô hình lớn nhất của họ trên các nhiệm vụ quan trọng, chẳng hạn như tạo mã, trước khi đào tạo chúng. Điều này đã thông báo các quyết định về hỗn hợp dữ liệu và phân bổ tính toán, cuối cùng dẫn đến đào tạo hiệu quả và hiệu quả hơn.

Các mô hình lớn nhất của Llama 3 đã được đào tạo trên hai cụm GPU tùy chỉnh 24.000, tận dụng sự kết hợp của song song hóa dữ liệu, song song hóa mô hình và song song hóa đường ống. Bộ đào tạo tiên tiến của Meta đã tự động hóa việc phát hiện lỗi, xử lý và bảo trì, tối đa hóa thời gian hoạt động của GPU và tăng hiệu suất đào tạo lên khoảng ba lần so với Llama 2.

Tinh Chỉnh Hướng Dẫn Và Hiệu Suất

Để mở khóa toàn bộ tiềm năng của Llama 3 cho các ứng dụng trò chuyện và đối thoại, Meta đã đổi mới cách tiếp cận của mình đối với việc tinh chỉnh hướng dẫn. Phương pháp của họ kết hợp tinh chỉnh giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần (PPO) và tối ưu hóa sở thích trực tiếp (DPO).

Chất lượng của các yêu cầu được sử dụng trong SFT và xếp hạng sở thích được sử dụng trong PPO và DPO đã đóng một vai trò quan trọng trong hiệu suất của các mô hình được căn chỉnh. Đội ngũ của Meta đã cẩn thận tạo ra dữ liệu này và thực hiện nhiều vòng kiểm tra chất lượng về chú thích được cung cấp bởi các người chú thích con người.

Đào tạo trên xếp hạng sở thích thông qua PPO và DPO cũng đã cải thiện đáng kể hiệu suất của Llama 3 trên các nhiệm vụ lý luận và mã hóa. Meta đã tìm thấy rằng ngay cả khi một mô hình gặp khó khăn trong việc trả lời trực tiếp một câu hỏi lý luận, nó vẫn có thể tạo ra vết lý luận chính xác. Đào tạo trên xếp hạng sở thích đã cho phép mô hình học cách chọn câu trả lời đúng từ những vết này.

Kết quả nói lên tất cả: Llama 3 vượt trội so với nhiều mô hình trò chuyện mã nguồn mở có sẵn trên các tiêu chuẩn ngành chung, thiết lập hiệu suất mới hàng đầu cho các mô hình ngôn ngữ lớn tại thang đo tham số 8B và 70B.

Phát Triển Có Trách Nhiệm Và Xem Xét An Toàn

Trong khi theo đuổi hiệu suất tiên tiến, Meta cũng ưu tiên các phương pháp phát triển và triển khai có trách nhiệm cho Llama 3. Công ty đã áp dụng một cách tiếp cận cấp hệ thống, hình dung các mô hình Llama 3 như một phần của một hệ sinh thái rộng lớn hơn, đặt các nhà phát triển vào vị trí lái xe, cho phép họ thiết kế và tùy chỉnh các mô hình cho các trường hợp sử dụng và yêu cầu an toàn cụ thể của họ.

Meta đã tiến hành các bài tập kiểm tra đỏ rộng rãi, thực hiện các đánh giá đối thủ và triển khai các kỹ thuật giảm thiểu an toàn để giảm thiểu các rủi ro dư thừa trong các mô hình được tinh chỉnh hướng dẫn. Tuy nhiên, công ty thừa nhận rằng các rủi ro dư thừa có thể vẫn còn và khuyến nghị rằng các nhà phát triển nên đánh giá những rủi ro này trong bối cảnh các trường hợp sử dụng cụ thể của họ.

Để hỗ trợ triển khai có trách nhiệm, Meta đã cập nhật Hướng Dẫn Sử Dụng Có Trách Nhiệm của mình, cung cấp một tài nguyên toàn diện cho các nhà phát triển để triển khai các phương pháp hay nhất về an toàn mô hình và hệ thống cho các ứng dụng của họ. Hướng dẫn bao gồm các chủ đề như kiểm duyệt nội dung, đánh giá rủi ro và việc sử dụng các công cụ an toàn như Llama Guard 2 và Code Shield.

Llama Guard 2, được xây dựng trên phân loại học máy MLCommons, được thiết kế để phân loại đầu vào LLM (yêu cầu) và phản hồi, phát hiện nội dung có thể được coi là không an toàn hoặc có hại. CyberSecEval 2 mở rộng trên người tiền nhiệm của nó bằng cách thêm các biện pháp để ngăn chặn lạm dụng trình thông dịch mã của mô hình, khả năng mạng an toàn và khả năng chống lại các cuộc tấn công tiêm yêu cầu.

Code Shield, một tính năng mới được giới thiệu với Llama 3, thêm bộ lọc thời gian suy luận của mã không an toàn được tạo ra bởi LLM, giảm thiểu rủi ro liên quan đến đề xuất mã không an toàn, lạm dụng trình thông dịch mã và thực hiện lệnh an toàn.

Truy Cập Và Sử Dụng Llama 3

Sau khi ra mắt Llama 3 của Meta AI, một số công cụ mã nguồn mở đã được cung cấp cho việc triển khai cục bộ trên các hệ điều hành khác nhau, bao gồm Mac, Windows và Linux. Phần này chi tiết ba công cụ đáng chú ý: Ollama, Open WebUI và LM Studio, mỗi công cụ cung cấp các tính năng độc đáo để tận dụng khả năng của Llama 3 trên các thiết bị cá nhân.

Ollama: Có sẵn cho Mac, Linux và Windows, Ollama đơn giản hóa việc vận hành Llama 3 và các mô hình ngôn ngữ lớn khác trên máy tính cá nhân, ngay cả trên các thiết bị có phần cứng ít mạnh mẽ. Nó bao gồm một trình quản lý gói cho việc quản lý mô hình dễ dàng và hỗ trợ lệnh trên các nền tảng để tải xuống và chạy mô hình.

Open WebUI với Docker: Công cụ này cung cấp một giao diện người dùng thân thiện, dựa trên Docker, tương thích với Mac, Linux và Windows. Nó tích hợp liền mạch với các mô hình từ đăng ký Ollama, cho phép người dùng triển khai và tương tác với các mô hình như Llama 3 trong một giao diện web cục bộ.

LM Studio: Nhắm vào người dùng trên Mac, Linux và Windows, LM Studio hỗ trợ một loạt các mô hình và được xây dựng trên dự án llama.cpp. Nó cung cấp một giao diện trò chuyện và cho phép tương tác trực tiếp với các mô hình khác nhau, bao gồm mô hình Llama 3 8B Hướng Dẫn.

Những công cụ này đảm bảo rằng người dùng có thể tận dụng hiệu quả Llama 3 trên các thiết bị cá nhân của họ, đáp ứng nhiều kỹ năng và yêu cầu kỹ thuật khác nhau. Mỗi nền tảng cung cấp các quy trình từng bước cho việc thiết lập và tương tác mô hình, giúp AI tiên tiến trở nên dễ tiếp cận hơn cho các nhà phát triển và những người đam mê.

Triển Khai Llama 3 Tại Quy Mô Lớn

Ngoài việc cung cấp quyền truy cập trực tiếp vào trọng lượng mô hình, Meta đã hợp tác với các nhà cung cấp dịch vụ đám mây, dịch vụ API mô hình và nền tảng phần cứng để cho phép triển khai Llama 3 một cách dễ dàng tại quy mô lớn.

Một trong những lợi thế chính của Llama 3 là hiệu quả token được cải thiện, nhờ vào bộ mã hóa mới. Các điểm chuẩn cho thấy Llama 3 yêu cầu ít nhất 15% ít token hơn so với Llama 2, dẫn đến suy luận nhanh hơn và tiết kiệm chi phí hơn.

Tích hợp Chú Ý Nhóm Câu Hỏi (GQA) trong phiên bản 8B của Llama 3 góp phần duy trì hiệu quả suy luận tương đương với phiên bản 7B của Llama 2, mặc dù tăng số lượng tham số.

Để đơn giản hóa quá trình triển khai, Meta đã cung cấp kho lưu trữ Công Thức Llama, chứa mã nguồn mở và ví dụ cho việc tinh chỉnh, triển khai, đánh giá mô hình và hơn thế nữa. Kho lưu trữ này phục vụ như một tài nguyên quý giá cho các nhà phát triển muốn tận dụng khả năng của Llama 3 trong các ứng dụng của họ.

Đối với những người quan tâm đến việc khám phá hiệu suất của Llama 3, Meta đã tích hợp các mô hình mới nhất của mình vào Meta AI, một trợ lý AI hàng đầu được xây dựng với công nghệ Llama 3. Người dùng có thể tương tác với Meta AI thông qua các ứng dụng Meta khác nhau, chẳng hạn như Facebook, Instagram, WhatsApp, Messenger và web, để thực hiện việc, học hỏi, tạo ra và kết nối với những điều quan trọng với họ.

Cái Gì Tiếp Theo Cho Llama 3?

Trong khi các mô hình 8B và 70B đánh dấu sự bắt đầu của việc phát hành Llama 3, Meta có kế hoạch tham vọng cho tương lai của mô hình ngôn ngữ lớn đột phá này.

Trong những tháng tới, chúng ta có thể mong đợi thấy các khả năng mới được giới thiệu, bao gồm đa phương tiện (khả năng xử lý và tạo ra các phương tiện dữ liệu khác nhau, chẳng hạn như hình ảnh và video), đa ngôn ngữ (hỗ trợ nhiều ngôn ngữ) và các cửa sổ ngữ cảnh dài hơn để cải thiện hiệu suất trên các nhiệm vụ yêu cầu ngữ cảnh rộng.

Ngoài ra, Meta dự định sẽ phát hành các mô hình có kích thước lớn hơn, bao gồm các mô hình có hơn 400 tỷ tham số, hiện đang được đào tạo và cho thấy xu hướng đầy hứa hẹn về hiệu suất và khả năng.

Để thúc đẩy lĩnh vực này tiến bộ, Meta cũng sẽ xuất bản một bài báo nghiên cứu chi tiết về Llama 3, chia sẻ các phát hiện và thông tin của mình với cộng đồng AI rộng lớn hơn.

Là một bản xem trước của những gì sắp tới, Meta đã chia sẻ một số bản chụp sớm về hiệu suất của mô hình LLM lớn nhất của mình trên các điểm chuẩn khác nhau. Mặc dù những kết quả này dựa trên một điểm kiểm tra sớm và có thể thay đổi, chúng cung cấp một cái nhìn thú vị về tiềm năng tương lai của Llama 3.

Kết Luận

Llama 3 đại diện cho một cột mốc quan trọng trong sự tiến hóa của các mô hình ngôn ngữ lớn mã nguồn mở, đẩy ranh giới của hiệu suất, khả năng và các phương pháp phát triển có trách nhiệm. Với kiến trúc sáng tạo, tập dữ liệu đào tạo khổng lồ và các kỹ thuật tinh chỉnh tiên tiến, Llama 3 thiết lập các điểm chuẩn mới hàng đầu cho các mô hình ngôn ngữ lớn tại thang đo tham số 8B và 70B.

Tuy nhiên, Llama 3 không chỉ là một mô hình ngôn ngữ mạnh mẽ; nó là một minh chứng cho cam kết của Meta trong việc thúc đẩy một hệ sinh thái AI mở và có trách nhiệm. Bằng cách cung cấp các tài nguyên toàn diện, công cụ an toàn và các phương pháp hay nhất, Meta trao quyền cho các nhà phát triển khai thác toàn bộ tiềm năng của Llama 3 trong khi đảm bảo triển khai có trách nhiệm được điều chỉnh cho các trường hợp sử dụng và khán giả cụ thể của họ.

Khi hành trình Llama 3 tiếp tục, với các khả năng mới, kích thước mô hình và phát hiện nghiên cứu trên đường chân trời, cộng đồng AI chờ đợi những ứng dụng và đột phá sáng tạo mà chắc chắn sẽ xuất hiện từ mô hình ngôn ngữ lớn đột phá này.

Dù bạn là một nhà nghiên cứu đang đẩy ranh giới của xử lý ngôn ngữ tự nhiên, một nhà phát triển xây dựng thế hệ ứng dụng thông minh tiếp theo, hay một người đam mê AI tò mò về những tiến bộ mới nhất, Llama 3 hứa hẹn sẽ là một công cụ mạnh mẽ trong kho vũ khí của bạn, mở ra những cánh cửa mới và mở khóa một thế giới đầy khả năng.

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.

Unite.AI