Trí tuệ nhân tạo

MPT-30B: MosaicML vượt trội hơn GPT-3 với LLM mới để đẩy lùi ranh giới của NLP

Được phát hành

10 tháng trước

5 Tháng Bảy, 2023

Blog nổi bật Hình ảnh-MPT-30B: MosaicML vượt trội hơn GPT-3 với LLM mới để đẩy ranh giới của các mô hình ngôn ngữ

KhảmML là một trí tuệ nhân tạo công ty cung cấp các giải pháp triển khai và khả năng mở rộng AI. Mô hình ngôn ngữ lớn mới nhất của họ (LLM) MPT-30B đang tạo nên làn sóng khắp cộng đồng AI.

Hành trình LLM của MosaicML bắt đầu với việc phát hành MPT-7B (Mosaic Pretraining Transformer) vào tháng 2023 năm XNUMX với ba biến thể:

MPT-7B-StoryWriter-65k+ (để tạo truyện dài)
MPT-7B-Hướng dẫn (đối với hướng dẫn dạng ngắn sau đây)
MPT-7B-Chat (để tạo đối thoại)

Các mô hình này đã chứng kiến thành công lớn trong cộng đồng ML vì bản chất nguồn mở, khả năng sử dụng thương mại và khả năng đặc biệt để xử lý các cửa sổ ngữ cảnh mở rộng.

Quan trọng nhất, mô hình này ngang bằng và trong một số trường hợp, vượt trội so với các mô hình tương đương khác (LLaMA-7B, Ổn địnhLM 7B, vân vân). Đến tháng 7, sê-ri MPT-3B đã được tải xuống hơn 22 triệu lần. Vào ngày XNUMX tháng XNUMX, MosaicML đã phát hành MPT-30B đã nâng tầm hơn nữa cho các mô hình nền tảng nguồn mở.

MPT-30B: Một LLM mạnh mẽ vượt qua GPT-3

MPT-30B là một LLM dựa trên bộ giải mã mã nguồn mở và được cấp phép thương mại mạnh mẽ hơn GPT-3-175B chỉ với 17% thông số GPT-3, tức là 30B. Nó vượt trội hơn GPT-3 trong một số tác vụ. Đây là so sánh giữa MPT-30B và GPT-3.

MPT-30B: Một LLM mạnh mẽ vượt trội so với GPT-3-GPT3-so sánh với MPT-30B

nguồn

MPT-30B được xây dựng dựa trên mẫu MPT-7B trước đó. Nó hiệu quả về mặt tính toán để đào tạo so với các mô hình có kích thước tương tự. Chẳng hạn, LLaMA-30B đã sử dụng ngân sách FLOP nhiều hơn khoảng 1.44 lần so với MPT-30B, trong khi Falcon-40B có ngân sách FLOP cao hơn 1.27 lần so với MPT-30B. Đây là minh họa về sự cải tiến của MPT-30B trong các nhiệm vụ khác nhau so với người tiền nhiệm của nó.

MPT-30B: Một LLM mạnh mẽ vượt xa GPT-3-MPT-30B-MPT-7B-So sánh

nguồn

Một số tính năng đặc biệt của MPT-30B như sau:

Cửa sổ bối cảnh mã thông báo 8k

Cửa sổ ngữ cảnh trong LLM đề cập đến phạm vi mã thông báo mà mô hình có thể xem xét trước khi tạo đầu ra. MPT-30B có cửa sổ ngữ cảnh gồm 8000 mã thông báo tại thời điểm đào tạo. Lần đầu tiên nó được đào tạo trên mã thông báo 1T bằng cách sử dụng chuỗi mã thông báo 2k và sau đó thêm 50B mã thông báo của chuỗi mã thông báo 8k (khoảng 6000 words).

Hỗ trợ ALiBi

Để giải thích tính năng này, hãy xem xét một câu hỏi:

Làm cách nào MPT-30B có thể hiểu và đưa ra dự đoán cho các chuỗi dài hơn so với những gì nó được đào tạo?

MPT-30B sử dụng một Chú ý với Bias tuyến tính (ALiBi) kỹ thuật để hiểu các chuỗi dài hơn và mở rộng cửa sổ ngữ cảnh vượt quá 8 nghìn mã thông báo trong quá trình tinh chỉnh hoặc suy luận.

Thay vì tính toán các nhúng theo vị trí trong đó chúng tôi chỉ định một vectơ cho mỗi từ trong chuỗi, ALiBi tính toán điểm chú ý giữa khóa và mã thông báo truy vấn. Khi mã thông báo khóa và truy vấn gần nhau, hình phạt sẽ thấp nhưng ngược lại sẽ cao hơn. Kết quả là, nền tảng kiến trúc máy biến áp có thể ngoại suy thành đầu vào dạng dài.

Hiệu suất đào tạo và suy luận hiệu quả thông qua FlashAttention

Chú ý, tức là tập trung vào các phần có liên quan của chuỗi đầu vào, là một thành phần quan trọng của máy biến áp, nhưng nó có thể chậm và tốn nhiều bộ nhớ, đặc biệt là khi xử lý các chuỗi văn bản dài.

Đèn FlashChú Ý là một phương pháp do các nhà nghiên cứu tại Đại học Cornell đề xuất nhằm giải quyết vấn đề này cho MPT-30B. Sử dụng một kỹ thuật gọi là xếp lớp, FlashAttention giảm số lần mô hình cần đọc hoặc ghi vào bộ nhớ, tăng tốc quá trình xử lý. Do đó, mô hình này sử dụng kỹ thuật FlashAttention tiên tiến nhất và NVIDIA's Máy Biến Áp Nhanh Hơn thư viện tối ưu hóa để đào tạo và suy luận hiệu quả.

Dễ đào tạo & triển khai

Các nhà phát triển có thể đào tạo MPT-30B từ đầu hoặc sử dụng các điểm kiểm tra của MosaicML để triển khai nhanh hơn. Ngoài ra, nó có thể được tinh chỉnh cho các trường hợp sử dụng dành riêng cho miền trên một tập dữ liệu cụ thể.

Kích thước của mô hình đã được chọn để cho phép triển khai dễ dàng trên một GPU, cụ thể là 1xA100-80GB ở độ chính xác 16 bit hoặc 1xA100-40GB ở độ chính xác 8 bit. Điều này có nghĩa là kiểu máy được thiết kế để phù hợp với giới hạn bộ nhớ của các GPU này.

Khả năng mã hóa

MPT-30B cũng cung cấp khả năng mã hóa đặc biệt. con người là một bộ dữ liệu do OpenAI phát hành chứa 164 bài toán lập trình thủ công. Trên tập dữ liệu HumanEval, mô hình vượt qua các mô hình LLM được xây dựng có mục đích, chẳng hạn như StarCoder series.

nguồn

Các biến thể tinh chỉnh: MPT-30B-Hướng dẫn & MPT-30B-Trò chuyện

MPT-30B-Hướng dẫn

LLM chủ yếu được sử dụng cho các hướng dẫn như trả lời câu hỏi, tóm tắt văn bản, dịch ngôn ngữ, v.v. MPT-30B-Instruct là biến thể có thể sử dụng thương mại (duy trì giấy phép CC-By-SA-3.0 thương mại) của MPT-30B được tinh chỉnh riêng cho hướng dẫn các nhiệm vụ sau. Để tinh chỉnh, các bộ dữ liệu sau đã được sử dụng:

BÁNH FLAN
P3
Alpaca
Dolly-15k

Bộ dữ liệu Dolly được bổ sung thêm với Bộ dữ liệu hữu ích và vô hại của Anthropic để tinh chỉnh hướng dẫn. Ngoài ra, một loạt các bộ dữ liệu đã được sử dụng để tăng cường dữ liệu, như sau:

Cạnh TranhToán Học
LớpTrườngToán Học
Hộp thoạiSum
DuoRC
QASPER
Chất lượng
màn hình tổng hợp
Spider

MPT-30B-Trò chuyện

MPT-30B-Chat là phiên bản tinh chỉnh của MPT-30B để tạo đối thoại. Nó là một hiện vật nghiên cứu được phát hành theo giấy phép CC-By-NC-SA-4.0, chỉ cho phép sử dụng phi thương mại. Mô hình đã được tinh chỉnh bằng các bộ dữ liệu ngôn ngữ khác nhau, bao gồm:

Airroboros/GPT4-1.2
baize
Camel
giáo viên GP
guanaco
Coversations dài
Chia sẻGPT
pháp sưLM

LLMs chia sẻ một phần lớn của nhiều tỷ đô la thị trường AI sáng tạo, đã có sự tăng trưởng vượt bậc ngay sau khi ChatGPT cách mạng hóa bối cảnh vào năm ngoái. Gia đình MPT là một phần nền tảng của cuộc cách mạng này. Trong tương lai gần, chúng ta có thể mong đợi thấy các mô hình nguồn mở có sẵn trên thị trường mạnh mẽ và hiệu quả hơn nhiều so với họ MPT.

Để biết tin tức mới nhất về AI, hãy truy cập đoàn kết.ai.