Trí tuệ nhân tạo

Mọi Điều Bạn Cần Biết Về Llama 3 | Mô hình nguồn mở mạnh mẽ nhất | Khái niệm sử dụng

cập nhật on 24 Tháng Tư, 2024

Mã nguồn mở Meta Llama 3 LLM OUTPERFORM GPT 4

Meta đã phát hành gần đây lạc đà không bướu 3, thế hệ tiếp theo của mô hình ngôn ngữ lớn nguồn mở (LLM) tiên tiến nhất. Dựa trên nền tảng do người tiền nhiệm đặt ra, Llama 3 nhằm mục đích nâng cao các khả năng đã giúp Llama 2 trở thành đối thủ cạnh tranh nguồn mở đáng kể với ChatGPT, như đã nêu trong phần đánh giá toàn diện trong bài viết Llama 2: Đi sâu vào thách thức mã nguồn mở đối với ChatGPT.

Trong bài viết này, chúng tôi sẽ thảo luận về các khái niệm cốt lõi đằng sau Llama 3, khám phá quy trình đào tạo và kiến trúc đổi mới của nó, đồng thời cung cấp hướng dẫn thực tế về cách truy cập, sử dụng và triển khai mô hình đột phá này một cách có trách nhiệm. Cho dù bạn là nhà nghiên cứu, nhà phát triển hay người đam mê AI, bài đăng này sẽ trang bị cho bạn kiến thức và tài nguyên cần thiết để khai thác sức mạnh của Llama 3 cho các dự án và ứng dụng của bạn.

Sự tiến hóa của Llama: Từ Llama 2 đến Llama 3

Giám đốc điều hành của Meta, Mark Zuckerberg, công bố sự ra mắt của Llama 3, mô hình AI mới nhất được phát triển bởi Meta AI. Mô hình tiên tiến này, hiện có nguồn mở, được thiết lập để nâng cao các sản phẩm khác nhau của Meta, bao gồm Messenger và Instagram. Zuckerberg nhấn mạnh rằng Llama 3 coi Meta AI là tiên tiến nhất trợ lý AI có sẵn miễn phí.

Trước khi nói về các chi tiết cụ thể của Llama 3, chúng ta hãy xem lại phiên bản tiền nhiệm của nó, Llama 2. Được giới thiệu vào năm 2022, Llama 2 là một cột mốc quan trọng trong bối cảnh LLM nguồn mở, cung cấp một mô hình mạnh mẽ và hiệu quả có thể chạy trên phần cứng tiêu dùng .

Tuy nhiên, tuy Llama 2 là một thành tựu đáng chú ý nhưng nó cũng có những hạn chế. Người dùng đã báo cáo các vấn đề về từ chối sai (mô hình từ chối trả lời những lời nhắc nhẹ nhàng), tính hữu ích hạn chế và cần cải thiện trong các lĩnh vực như lý luận và tạo mã.

Nhập Llama 3: Phản ứng của Meta trước những thách thức này và phản hồi của cộng đồng. Với Llama 3, Meta đã đặt mục tiêu xây dựng các mô hình nguồn mở tốt nhất ngang bằng với các mô hình độc quyền hàng đầu hiện nay, đồng thời ưu tiên các phương pháp triển khai và phát triển có trách nhiệm.

Llama 3: Kiến trúc và đào tạo

Một trong những cải tiến quan trọng trong Llama 3 là mã thông báo của nó, có vốn từ vựng được mở rộng đáng kể về 128,256 mã thông báo (tăng từ 32,000 ở Llama 2). Vốn từ vựng lớn hơn này cho phép mã hóa văn bản hiệu quả hơn, cả cho đầu vào và đầu ra, có khả năng dẫn đến khả năng đa ngôn ngữ mạnh mẽ hơn và cải thiện hiệu suất tổng thể.

Llama 3 cũng kết hợp Chú ý truy vấn được nhóm (GQA), một kỹ thuật biểu diễn hiệu quả giúp nâng cao khả năng mở rộng và giúp mô hình xử lý các bối cảnh dài hơn một cách hiệu quả hơn. Các 8B phiên bản Llama 3 sử dụng GQA, trong khi cả hai 8B và 70B mô hình có thể xử lý trình tự lên đến 8,192 mã thông báo.

Dữ liệu đào tạo và chia tỷ lệ

Dữ liệu huấn luyện được sử dụng cho Llama 3 là yếu tố quan trọng giúp cải thiện hiệu suất của nó. Meta đã quản lý một bộ dữ liệu khổng lồ gồm hơn 15 nghìn tỷ mã thông báo từ các nguồn trực tuyến có sẵn công khai, lớn hơn bảy lần so với tập dữ liệu được sử dụng cho Llama 2. Tập dữ liệu này cũng bao gồm một phần đáng kể (trên 5%) dữ liệu không phải tiếng Anh chất lượng cao, bao gồm hơn 30 ngôn ngữ, để chuẩn bị cho các ứng dụng đa ngôn ngữ trong tương lai.

Để đảm bảo chất lượng dữ liệu, Meta đã sử dụng các kỹ thuật lọc nâng cao, bao gồm bộ lọc phỏng đoán, bộ lọc NSFW, loại bỏ trùng lặp ngữ nghĩa và bộ phân loại văn bản được đào tạo trên Llama 2 để dự đoán chất lượng dữ liệu. Nhóm cũng đã tiến hành các thử nghiệm sâu rộng để xác định cách kết hợp tối ưu các nguồn dữ liệu cho quá trình đào tạo trước, đảm bảo rằng Llama 3 hoạt động tốt trong nhiều trường hợp sử dụng, bao gồm kiến thức tầm thường, STEM, mã hóa và kiến thức lịch sử.

Mở rộng quy mô đào tạo trước là một khía cạnh quan trọng khác trong quá trình phát triển của Llama 3. Meta đã phát triển các luật mở rộng quy mô cho phép họ dự đoán hiệu suất của các mô hình lớn nhất trong các nhiệm vụ chính, chẳng hạn như tạo mã, trước khi thực sự đào tạo chúng. Điều này cung cấp thông tin cho các quyết định về kết hợp dữ liệu và phân bổ điện toán, cuối cùng dẫn đến hoạt động đào tạo hiệu quả và hiệu quả hơn.

Các mô hình lớn nhất của Llama 3 đã được đào tạo trên hai cụm GPU 24,000 được xây dựng tùy chỉnh, tận dụng sự kết hợp giữa kỹ thuật song song hóa dữ liệu, song song hóa mô hình và kỹ thuật song song hóa đường ống. Hệ thống đào tạo nâng cao của Meta tự động phát hiện, xử lý và bảo trì lỗi, tối đa hóa thời gian hoạt động của GPU và tăng hiệu quả đào tạo lên khoảng ba lần so với Llama 2.

Hướng dẫn Tinh chỉnh và Hiệu suất

Để khai thác toàn bộ tiềm năng của Llama 3 cho các ứng dụng trò chuyện và đối thoại, Meta đã đổi mới phương pháp tinh chỉnh hướng dẫn của mình. Phương pháp của nó kết hợp tinh chỉnh có giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần nhất (PPO) và tối ưu hóa ưu tiên trực tiếp (DPO).

Chất lượng của lời nhắc được sử dụng trong SFT và thứ hạng ưu tiên được sử dụng trong PPO và DPO đóng một vai trò quan trọng trong hiệu suất của các mô hình được căn chỉnh. Nhóm của Meta đã tuyển chọn cẩn thận dữ liệu này và thực hiện nhiều vòng đảm bảo chất lượng trên các chú thích do con người chú thích cung cấp.

Việc đào tạo về xếp hạng ưu tiên thông qua PPO và DPO cũng cải thiện đáng kể hiệu suất của Llama 3 trong các nhiệm vụ lập luận và mã hóa. Meta nhận thấy rằng ngay cả khi một mô hình gặp khó khăn trong việc trả lời trực tiếp một câu hỏi lý luận, nó vẫn có thể tạo ra dấu vết lý luận chính xác. Việc đào tạo về xếp hạng ưu tiên cho phép mô hình học cách chọn câu trả lời đúng từ những dấu vết này.

Kết quả đã nói lên điều đó: Llama 3 vượt trội hơn nhiều mô hình trò chuyện nguồn mở có sẵn theo các tiêu chuẩn chung của ngành, thiết lập hiệu suất tiên tiến mới cho LLM ở thang tham số 8B và 70B.

Những cân nhắc về an toàn và phát triển có trách nhiệm

Trong khi theo đuổi hiệu suất tiên tiến, Meta cũng ưu tiên các phương pháp triển khai và phát triển có trách nhiệm cho Llama 3. Công ty đã áp dụng cách tiếp cận cấp hệ thống, hình dung các mô hình Llama 3 như một phần của hệ sinh thái rộng lớn hơn đặt các nhà phát triển vào vị trí điều khiển, cho phép họ thiết kế và tùy chỉnh các mô hình cho các trường hợp sử dụng cụ thể và yêu cầu an toàn của chúng.

Meta đã tiến hành các cuộc diễn tập mở rộng về đội đỏ, thực hiện đánh giá đối nghịch và triển khai các kỹ thuật giảm thiểu an toàn để giảm thiểu rủi ro còn sót lại trong các mô hình được điều chỉnh theo hướng dẫn của mình. Tuy nhiên, công ty thừa nhận rằng những rủi ro còn sót lại có thể sẽ vẫn còn và khuyến nghị các nhà phát triển đánh giá những rủi ro này trong bối cảnh các trường hợp sử dụng cụ thể của họ.

Để hỗ trợ việc triển khai có trách nhiệm, Meta đã cập nhật Hướng dẫn sử dụng có trách nhiệm, cung cấp tài nguyên toàn diện cho các nhà phát triển để triển khai các biện pháp thực hành tốt nhất về an toàn ở cấp độ hệ thống và mô hình cho các ứng dụng của họ. Hướng dẫn bao gồm các chủ đề như kiểm duyệt nội dung, đánh giá rủi ro và sử dụng các công cụ an toàn như Llama Guard 2 và Code Shield.

Llama Guard 2, được xây dựng dựa trên phân loại MLCommons, được thiết kế để phân loại đầu vào (lời nhắc) và phản hồi LLM, phát hiện nội dung có thể được coi là không an toàn hoặc có hại. CyberSecEval 2 mở rộng so với phiên bản tiền nhiệm bằng cách bổ sung các biện pháp nhằm ngăn chặn việc lạm dụng trình thông dịch mã của mô hình, khả năng tấn công an ninh mạng và khả năng dễ bị tấn công tiêm nhiễm ngay lập tức.

Code Shield, phần giới thiệu mới của Llama 3, bổ sung tính năng lọc theo thời gian suy luận của mã không an toàn do LLM tạo ra, giảm thiểu rủi ro liên quan đến đề xuất mã không an toàn, lạm dụng trình thông dịch mã và thực thi lệnh an toàn.

Truy cập và sử dụng Llama 3

Sau khi ra mắt Llama 3 của Meta AI, một số công cụ nguồn mở đã được cung cấp để triển khai cục bộ trên nhiều hệ điều hành khác nhau, bao gồm Mac, Windows và Linux. Phần này nêu chi tiết ba công cụ đáng chú ý: Ollama, Open WebUI và LM Studio, mỗi công cụ cung cấp các tính năng độc đáo để tận dụng khả năng của Llama 3 trên thiết bị cá nhân.

Ollama: Có sẵn cho Mac, Linux và Windows, Ollama đơn giản hóa hoạt động của Llama 3 và các mô hình ngôn ngữ lớn khác trên máy tính cá nhân, ngay cả những máy có phần cứng kém mạnh mẽ hơn. Nó bao gồm một trình quản lý gói để quản lý mô hình dễ dàng và hỗ trợ các lệnh trên các nền tảng để tải xuống và chạy các mô hình.

Mở WebUI bằng Docker: Công cụ này cung cấp giao diện thân thiện với người dùng, phu bến tàuGiao diện dựa trên tương thích với Mac, Linux và Windows. Nó tích hợp hoàn hảo với các mô hình từ sổ đăng ký Ollama, cho phép người dùng triển khai và tương tác với các mô hình như Llama 3 trong giao diện web cục bộ.

Studio LM: Nhắm mục tiêu người dùng trên Mac, Linux và Windows, Studio LM hỗ trợ nhiều mô hình và được xây dựng trên dự án llama.cpp. Nó cung cấp giao diện trò chuyện và tạo điều kiện tương tác trực tiếp với nhiều mô hình khác nhau, bao gồm cả mô hình Hướng dẫn Llama 3 8B.

Những công cụ này đảm bảo rằng người dùng có thể sử dụng Llama 3 một cách hiệu quả trên thiết bị cá nhân của họ, đáp ứng nhiều yêu cầu và kỹ năng kỹ thuật. Mỗi nền tảng cung cấp các quy trình từng bước để thiết lập và tương tác với mô hình, giúp các nhà phát triển và những người đam mê AI tiên tiến dễ tiếp cận hơn.

Triển khai Llama 3 ở quy mô lớn

Ngoài việc cung cấp quyền truy cập trực tiếp vào trọng lượng mô hình, Meta còn hợp tác với nhiều nhà cung cấp đám mây, dịch vụ API mô hình và nền tảng phần cứng khác nhau để cho phép triển khai liền mạch Llama 3 trên quy mô lớn.

Một trong những lợi thế chính của Llama 3 là hiệu quả của mã thông báo được cải thiện nhờ vào mã thông báo mới. Benchmark cho thấy Llama 3 yêu cầu tới Mã thông báo ít hơn 15% so với Llama 2, dẫn đến suy luận nhanh hơn và tiết kiệm chi phí hơn.

Việc tích hợp Chú ý truy vấn theo nhóm (GQA) trong phiên bản 8B của Llama 3 góp phần duy trì hiệu quả suy luận ngang bằng với phiên bản 7B của Llama 2, mặc dù số lượng tham số đã tăng lên.

Để đơn giản hóa quá trình triển khai, Meta đã cung cấp kho lưu trữ Llama Recipes, nơi chứa mã nguồn mở và các ví dụ để tinh chỉnh, triển khai, đánh giá mô hình, v.v. Kho lưu trữ này đóng vai trò là tài nguyên quý giá cho các nhà phát triển muốn tận dụng khả năng của Llama 3 trong ứng dụng của họ.

Đối với những người muốn khám phá hiệu suất của Llama 3, Meta đã tích hợp các mô hình mới nhất của mình vào Meta AI, một trợ lý AI hàng đầu được xây dựng bằng công nghệ Llama 3. Người dùng có thể tương tác với Meta AI thông qua nhiều ứng dụng Meta khác nhau, chẳng hạn như Facebook, Instagram, WhatsApp, Messenger và web, để hoàn thành công việc, tìm hiểu, sáng tạo và kết nối với những thứ quan trọng đối với họ.

Điều gì tiếp theo cho Llama 3?

Trong khi các mô hình 8B và 70B đánh dấu sự khởi đầu của việc phát hành Llama 3, Meta có những kế hoạch đầy tham vọng cho tương lai của LLM đột phá này.

Trong những tháng tới, chúng ta có thể mong đợi được thấy các khả năng mới được giới thiệu, bao gồm đa phương thức (khả năng xử lý và tạo ra các phương thức dữ liệu khác nhau, chẳng hạn như hình ảnh và video), đa ngôn ngữ (hỗ trợ nhiều ngôn ngữ) và cửa sổ ngữ cảnh dài hơn nhiều để nâng cao hiệu suất trên những công việc đòi hỏi bối cảnh rộng lớn.

Ngoài ra, Meta có kế hoạch phát hành các mô hình có kích thước lớn hơn, bao gồm các mô hình có hơn 400 tỷ tham số, hiện đang được đào tạo và cho thấy những xu hướng đầy hứa hẹn về hiệu suất và khả năng.

Để phát triển hơn nữa lĩnh vực này, Meta cũng sẽ xuất bản một bài nghiên cứu chi tiết về Llama 3, chia sẻ những phát hiện và hiểu biết sâu sắc của nó với cộng đồng AI rộng lớn hơn.

Như một bản xem trước lén lút về những gì sắp xảy ra, Meta đã chia sẻ một số ảnh chụp nhanh ban đầu về hiệu suất của mô hình LLM lớn nhất của mình trên nhiều điểm chuẩn khác nhau. Mặc dù những kết quả này dựa trên điểm kiểm tra sớm và có thể thay đổi nhưng chúng cung cấp cái nhìn thoáng qua thú vị về tiềm năng tương lai của Llama 3.

Kết luận

Llama 3 đại diện cho một cột mốc quan trọng trong sự phát triển của các mô hình ngôn ngữ lớn nguồn mở, vượt qua các ranh giới về hiệu suất, khả năng và thực tiễn phát triển có trách nhiệm. Với kiến trúc sáng tạo, tập dữ liệu đào tạo khổng lồ và các kỹ thuật tinh chỉnh tiên tiến, Llama 3 thiết lập các tiêu chuẩn tiên tiến mới cho LLM ở thang tham số 8B và 70B.

Tuy nhiên, Llama 3 không chỉ là một mô hình ngôn ngữ mạnh mẽ; đó là minh chứng cho cam kết của Meta trong việc thúc đẩy một hệ sinh thái AI cởi mở và có trách nhiệm. Bằng cách cung cấp các tài nguyên toàn diện, công cụ an toàn và các phương pháp hay nhất, Meta trao quyền cho các nhà phát triển khai thác toàn bộ tiềm năng của Llama 3 đồng thời đảm bảo việc triển khai có trách nhiệm phù hợp với các trường hợp sử dụng và đối tượng cụ thể của họ.

Khi hành trình Llama 3 tiếp tục, với các khả năng, quy mô mô hình và kết quả nghiên cứu mới sắp ra mắt, cộng đồng AI háo hức chờ đợi những ứng dụng đổi mới và đột phá chắc chắn sẽ xuất hiện từ LLM đột phá này.

Cho dù bạn là nhà nghiên cứu vượt qua ranh giới của xử lý ngôn ngữ tự nhiên, nhà phát triển đang xây dựng thế hệ ứng dụng thông minh tiếp theo hay người đam mê AI tò mò về những tiến bộ mới nhất, Llama 3 hứa hẹn sẽ là một công cụ mạnh mẽ trong kho vũ khí của bạn, mở ra những cánh cửa mới và mở khóa một thế giới của những khả năng.

Chủ đề liên quan:Loài đà mã ở nam mỹ lạc đà không bướu 2 lạc đà không bướu 3 LLM LLM meta

Microsoft tiết lộ Phi-3: Các mô hình AI mở mạnh mẽ mang lại hiệu suất cao nhất ở quy mô nhỏ

Đừng bỏ lỡ

FrugalGPT: Sự thay đổi mô hình trong việc tối ưu hóa chi phí cho các mô hình ngôn ngữ lớn

Aayush Mittal

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.