Trí tuệ nhân tạo
Zephyr-7B : Mô hình LLM được tối ưu siêu tốc của HuggingFace dựa trên Mistral 7B

Giới thiệu
Sự tiến hóa của các mô hình ngôn ngữ lớn (LLM) mở đã có tác động đáng kể đến cộng đồng nghiên cứu AI, đặc biệt là trong việc phát triển các ứng dụng như chatbot. Sau khi phát hành các mô hình như LLaMA, đã có một sự gia tăng trong nghiên cứu về tinh chỉnh hiệu quả, xử lý lời nhắc mở rộng, tạo ra tăng cường (RAG) và định lượng.
Mô hình LLaMA, ví dụ, đã đánh dấu một kỷ nguyên mới trong tinh chỉnh và ngữ cảnh hóa lời nhắc, mở đường cho các mô hình tiếp theo như MPT của MosaicML, RedPajama-INCITE của Together AI, Falcon của TII và Llama 2 của Meta. Mỗi mô hình này đóng góp các khả năng độc đáo, nâng cao chức năng và phạm vi của LLM.
Mistral AI, một công ty khởi nghiệp từ Paris và được thành lập bởi các cựu nhân viên của Google DeepMind và Meta, đã tạo được tên tuổi với sản phẩm đầu tiên của mình: Mistral 7B.
Mistral 7B có lợi thế về hiệu quả, cung cấp các khả năng tương tự hoặc được cải tiến so với các mô hình cùng loại như Llama 2 nhưng với nhu cầu tính toán thấp hơn.
Cụ thể được điều chỉnh cho các nhiệm vụ hướng dẫn, Mistral 7B Instruct nổi bật trên các nền tảng như Hugging Face, nơi nó vượt qua các mô hình khác cùng kích thước và cạnh tranh chặt chẽ với những mô hình có gần gấp đôi số tham số.
Dựa trên điều này, Hugging Face đã giới thiệu Zephyr 7B Alpha,展示 rằng một mô hình Mistral 7B tinh chỉnh có thể vượt qua khả năng của các mô hình lớn hơn đáng kể và trong một số nhiệm vụ, thậm chí còn cạnh tranh với GPT-4. “Alpha” chỉ là bước đầu, vì Zephyr 7B Beta đã được phát hành ngay sau đó.
Bài viết này sẽ khám phá cách Zephyr 7B tận dụng sức mạnh của các mô hình lớn hơn để tinh chỉnh khả năng phản hồi và phù hợp với hướng dẫn của con người, một quá trình được thực hiện có thể thông qua kỹ thuật chưng cất kiến thức. Phương pháp này liên quan đến việc đào tạo các mô hình nhỏ hơn trên các mẫu phức tạp được học bởi các mô hình lớn hơn, giảm nhu cầu đào tạo mà không hy sinh khả năng mô hình hóa ngôn ngữ. Chúng tôi sẽ đi sâu vào các chi tiết của phương pháp chưng cất kiến thức của Hugging Face.
Chưng cất kiến thức
Một đổi mới chính trong việc phát triển các mô hình như Zephyr-7B là tinh chỉnh giám sát chưng cất (dSFT). Phương pháp này liên quan đến việc sử dụng đầu ra từ một mô hình “giáo viên” lớn hơn, có khả năng hơn để đào tạo một mô hình “học sinh” nhỏ hơn, nâng cao độ chính xác của nó. Mặc dù chưng cất cải thiện các mô hình mở trên các nhiệm vụ khác nhau, vẫn còn một khoảng cách về hiệu suất so với các mô hình giáo viên.
Chưng cất kiến thức là một phương pháp trong học máy nơi một mô hình nhỏ gọn, được gọi là “học sinh”, được dạy để sao chép hiệu suất của một mô hình lớn hơn, phức tạp hơn “giáo viên”. Kỹ thuật này cho phép học sinh thực hiện các nhiệm vụ trước đây vượt quá khả năng của nó bằng cách chuyển giao các mẫu phức tạp được học bởi giáo viên.
Mô hình học sinh đào tạo trên các xác suất đầu ra hoặc tính năng được tạo bởi mô hình giáo viên, tập trung vào việc phù hợp với các đầu ra này thay vì chỉ dự đoán cuối cùng. Điều này cho phép học sinh học các quá trình ra quyết định tinh vi của giáo viên, thường dẫn đến hiệu suất được cải thiện so với đào tạo chỉ với dữ liệu thực.
Trong lịch sử, chưng cất kiến thức đã được sử dụng trong các mô hình như mạng chưng cất của Hinton, và gần đây hơn trong NLP với các mô hình như DistilBERT, đã chưng cất mô hình BERT thành một phiên bản nhỏ hơn, nhanh hơn nhưng vẫn giữ được hầu hết khả năng hiểu ngôn ngữ của bản gốc. Một ví dụ khác là TinyBERT, đi xa hơn trong việc tối ưu hóa kích thước và tốc độ cho các thiết bị di động hoặc biên.
Trong trường hợp của Zephyr-7B, chưng cất kiến thức được sử dụng để truyền tải cho một mô hình 7B tham số nhỏ hơn khả năng của các mô hình lớn hơn. Bằng cách làm như vậy, Zephyr-7B đạt được sự cân bằng giữa hiệu suất và hiệu quả, làm cho nó phù hợp cho các môi trường nơi tài nguyên tính toán bị hạn chế, mà không hy sinh chất lượng tương tác và hiểu biết.
Trong việc phát triển Zephyr-7B, các nhà nghiên cứu đã giải quyết thách thức của việc căn chỉnh một mô hình LLM mở nhỏ hoàn toàn thông qua chưng cất. Họ đã giới thiệu một phương pháp gọi là tối ưu hóa ưu tiên trực tiếp chưng cất (dDPO), sử dụng phản hồi AI từ một tập hợp các mô hình giáo viên như dữ liệu ưu tiên. Phương pháp này, không cần chú thích của con người, giảm đáng kể thời gian và tài nguyên cần thiết cho đào tạo mô hình.
Xây dựng ZEPHYR-7B
Để xác thực dDPO, các nhà nghiên cứu đã xây dựng ZEPHYR-7B, một phiên bản được căn chỉnh của mô hình Mistral-7B. Quá trình này bao gồm ba bước:
- dSFT sử dụng tập dữ liệu UltraChat: Tinh chỉnh giám sát chưng cất (dSFT) là một phương pháp tiên tiến để đào tạo các mô hình ngôn ngữ lớn (LLM) bằng cách tận dụng đầu ra từ các mô hình “giáo viên” lớn hơn, có khả năng hơn. Nó bắt đầu với một mô hình LLM thô được đào tạo để phản hồi các lời nhắc của người dùng. Không giống như tinh chỉnh giám sát truyền thống (SFT) sử dụng một tập dữ liệu cố định, dSFT sử dụng một phương pháp động nơi mô hình tự tạo ra các hướng dẫn và phản hồi. Phương pháp này, được gọi là tự hướng dẫn, liên quan đến việc sử dụng mô hình giáo viên để trả lời và tinh chỉnh các hướng dẫn dựa trên phản hồi.
- Tích hợp dữ liệu phản hồi AI từ UltraFeedback: Dữ liệu này rất quan trọng để tinh chỉnh phản hồi của mô hình. Trong bước này, mô hình tạo ra phản hồi cho các lời nhắc khác nhau (như mô tả cách làm bánh brownies) mà sau đó được xếp hạng bởi một mô hình tiên tiến hơn như GPT-4. Phản hồi có điểm cao nhất (yw) và một phản hồi thấp hơn được chọn ngẫu nhiên (yl) tạo thành một tập dữ liệu phản hồi D.
- Áp dụng dDPO: Giai đoạn cuối cùng, Tối ưu hóa ưu tiên trực tiếp chưng cất (dDPO), liên quan đến việc tinh chỉnh mô hình dSFT bằng cách tối đa hóa xác suất xếp hạng các phản hồi được ưu tiên cao hơn. Điều này được thực hiện bằng cách sử dụng một hàm phần thưởng rθ(x, y) trong mô hình ưu tiên, dựa trên chính sách LLM tối ưu π* và chính sách πdSFT ban đầu. Mục tiêu tối ưu hóa được hình thức hóa như πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), đơn giản hóa quá trình đào tạo bằng cách bắt đầu với phiên bản dSFT của mô hình và lặp qua từng bộ ba AIF.
Đáng chú ý, Zephyr-7B đạt được hiệu suất tương đương với các mô hình 70B tham số lớn hơn được căn chỉnh với phản hồi của con người. Nó vượt trội trong cả các chuẩn mực học thuật và khả năng trò chuyện, nhấn mạnh hiệu quả của việc học ưu tiên trong phát triển mô hình. Để khám phá thêm, các mô hình, mã và hướng dẫn có sẵn tại Kho lưu trữ GitHub của Hugging Face.
Địa chỉ thách thức của căn chỉnh ý định
Một mối quan tâm đáng kể với LLM là căn chỉnh với ý định của con người. Các mô hình trước đây thường không tạo ra phản hồi phù hợp với sở thích của người dùng, dẫn đến các câu trả lời không chính xác hoặc không liên quan. Tuy nhiên, các chuẩn mực gần đây như MT-Bench và AlpacaEval đã cung cấp các công cụ để lượng hóa và cải thiện khía cạnh này, nhấn mạnh hiệu suất vượt trội của các mô hình độc quyền được đào tạo với phản hồi của con người so với những mô hình được đào tạo chỉ thông qua chưng cất.
Phương pháp đánh giá
Đánh giá của Zephyr 7B liên quan đến việc kiểm tra nghiêm ngặt trên các chuẩn mực đánh giá khả năng trò chuyện của mô hình trong cả ngữ cảnh đơn và đa lượt:
- MT-Bench: Chuẩn mực đa lượt này yêu cầu mô hình trả lời 160 câu hỏi thuộc tám lĩnh vực. Mỗi phản hồi được đánh giá bởi GPT-4, với điểm cuối cùng của mô hình phản ánh trung bình trên hai vòng câu hỏi.
- AlpacaEval: Trong chuẩn mực đơn lượt này, mô hình được trình bày với 805 câu hỏi thuộc các chủ đề khác nhau. Sự tập trung ở đây là vào sự hữu ích của mô hình, với GPT-4 đánh giá các phản hồi để xác định tỷ lệ thắng tương đối.
Ngoài ra, Zephyr 7B đã được kiểm tra trên Bảng xếp hạng LLM Mở, cung cấp thông tin về khả năng suy luận và trung thực của mô hình sau khi tinh chỉnh.
Zephyr 7B đã được so sánh với nhiều mô hình mở và độc quyền khác, bao gồm cả những mô hình có kích thước và phương pháp căn chỉnh khác nhau. Nó đã thiết lập các chuẩn mực mới cho mô hình 7B trên MT-Bench và AlpacaEval và thể hiện hiệu suất cạnh tranh với các mô hình lớn hơn, xác nhận hiệu quả của tối ưu hóa ưu tiên trực tiếp (dDPO) trong đào tạo.
Các giai đoạn đào tạo SFT và DPO được cấu hình cẩn thận, bao gồm nhiều kỷ và tinh chỉnh tốc độ học và kích thước lô cho hiệu suất tối ưu. Mô hình Zephyr cuối cùng xuất hiện không chỉ có khả năng chống quá拟 hợp mà còn được nâng cao trong việc xử lý các nhiệm vụ thực tế và chuẩn mực học thuật.
Dữ liệu và kết quả
Các tập dữ liệu được sử dụng
Trong việc phát triển Zephyr-7B, hai tập dữ liệu chính được sử dụng để đào tạo và tinh chỉnh mô hình, mỗi tập dữ liệu giải quyết các khía cạnh khác nhau của việc tạo ra cuộc trò chuyện:
Tập dữ liệu UltraChat
- Nguồn: Phát triển từ các cuộc trò chuyện được tạo ra bởi GPT-3.5-TURBO.
- Nội dung: Chứa 1,47 triệu cuộc trò chuyện đa lượt trên 30 chủ đề và 20 loại tài liệu văn bản.
- Tinh chỉnh: Tập dữ liệu đã trải qua một quy trình chỉnh sửa ngữ pháp để sửa các vấn đề ngữ pháp, và các bộ lọc được áp dụng để tăng sự hữu ích của các phản hồi và loại bỏ các cụm từ mở đầu không hữu ích.
Tập dữ liệu UltraFeedback
- Nguồn: Bao gồm các lời nhắc được đánh giá bởi GPT-4, đánh giá các phản hồi dựa trên việc tuân theo hướng dẫn, trung thực và hữu ích.
- Nội dung: Bao gồm 64.000 lời nhắc với bốn phản hồi mỗi lời nhắc, được đánh giá bởi GPT-4.
- Ưu tiên nhị phân: Được tạo ra bằng cách chọn phản hồi có điểm trung bình cao nhất làm “chọn” và một phản hồi ngẫu nhiên từ những phản hồi còn lại làm “bị từ chối” để tăng sự đa dạng và thách thức quá trình tối ưu hóa ưu tiên trực tiếp (DPO).
Cả hai tập dữ liệu đều quan trọng để đào tạo Zephyr-7B hiểu và tạo ra cuộc trò chuyện giống con người, tuân theo hướng dẫn, trung thực và hữu ích. Các tập dữ liệu này đã được làm sẵn trên Hugging Face Hub, có thể truy cập tại đây.
Kết quả và hiệu suất
Biểu đồ dưới đây minh họa hiệu suất của Zephyr 7B trên các loại nhiệm vụ khác nhau so với các mô hình khác như GPT-3.5-turbo, Claude 1, GPT-4 và Llama-2-70b-chat. Các loại nhiệm vụ có thể bao gồm Viết, Khoa học nhân văn, Vai trò, Lý luận, STEM, Trích xuất, Lập trình và Toán.
Từ biểu đồ, chúng ta có thể suy ra các lĩnh vực mà Zephyr 7B vượt trội và các lĩnh vực có thể cần cải thiện thêm. Ví dụ, nếu đường biểu diễn của Zephyr trên trục Viết kéo dài hơn so với các mô hình khác, điều đó cho thấy Zephyr đặc biệt mạnh trong việc tạo ra nội dung viết. Ngược lại, nếu đường biểu diễn gần tâm trên trục Toán, nó có thể chỉ ra một điểm yếu tương đối trong việc giải quyết các vấn đề toán học.
Biểu đồ radar giúp xác định điểm mạnh và điểm yếu của Zephyr 7B, cung cấp một biểu diễn trực quan về vị trí của nó so với các mô hình lớn hơn như GPT-4 và các mô hình chuyên dụng như Llama-2-70b-chat.
So sánh các mô hình ngôn ngữ khác nhau trên hai chuẩn mực: MT-Bench và AlpacaEval. Các mô hình được đánh giá dựa trên kích thước, phương pháp căn chỉnh (như dSFT cho tinh chỉnh giám sát chưng cất hoặc dDPO cho tối ưu hóa ưu tiên trực tiếp) và điểm hiệu suất. Zephyr nổi bật với điểm số cao trong cả hai chuẩn mực, chỉ ra hiệu quả của nó trong việc tạo ra phản hồi được căn chỉnh.
Kết luận
Tóm lại, việc phát triển Zephyr-7B chứng minh rằng việc căn chỉnh và chưng cất khả năng trò chuyện từ một mô hình ngôn ngữ lớn (LLM) sang một mô hình nhỏ hơn có thể được thực hiện mà không cần dựa vào các phương pháp lấy mẫu. Bằng cách sử dụng tối ưu hóa ưu tiên trực tiếp (DPO) với phản hồi AI, Zephyr-7B tận dụng nền tảng mạnh mẽ của Mistral-7B để thiết lập một chuẩn mực mới cho mô hình trò chuyện 7B tham số, thể hiện khả năng của các mô hình mở nhỏ hơn trong việc hiểu và phản hồi với ý định của người dùng một cách hiệu quả.
Tuy nhiên, nghiên cứu này không thiếu những hạn chế. Sự phụ thuộc vào GPT-4 làm đánh giá chuẩn mực giới thiệu một thiên vị đối với các mô hình được chưng cất từ nó, có thể ủng hộ các phản hồi chính xác. Ngoài ra, khả năng mở rộng của phương pháp này sang các mô hình lớn hơn, như LLAMA2-70B, và tác động của nó đến lợi ích hiệu suất vẫn còn là những lĩnh vực cần nghiên cứu thêm. Những hạn chế này nhấn mạnh nhu cầu về sự đổi mới liên tục và phát triển các phương pháp đánh giá không thiên vị trong cộng đồng AI.
Nhìn vượt ra ngoài nghiên cứu, rõ ràng là tiềm năng của các mô hình nhỏ hơn để thực hiện ở mức của các mô hình lớn hơn có thể dân chủ hóa AI, cho phép sử dụng dễ dàng và hiệu quả hơn trong nhiều ứng dụng. Sự thành công của Zephyr-7B khuyến khích việc khám phá thêm vào các mô hình mở, có thể đẩy nhanh tiến bộ trong AI bằng cách thúc đẩy nghiên cứu và phát triển hợp tác.














