Trí tuệ nhân tạo

Đánh giá các mô hình ngôn ngữ lớn: Hướng dẫn kỹ thuật

Được phát hành

3 tháng trước

29 Tháng một, 2024

Các mô hình ngôn ngữ lớn (LLM) như GPT-4, Claude và LLaMA đã bùng nổ về mức độ phổ biến. Nhờ khả năng tạo ra văn bản giống con người một cách ấn tượng, các hệ thống AI này hiện đang được sử dụng cho mọi việc, từ tạo nội dung đến chatbot dịch vụ khách hàng.

Nhưng làm thế nào để chúng ta biết liệu những mô hình này có thực sự tốt hay không? Với việc các LLM mới được công bố liên tục, tất cả đều tuyên bố là lớn hơn và tốt hơn, làm cách nào để chúng tôi đánh giá và so sánh hiệu suất của chúng?

Trong hướng dẫn toàn diện này, chúng ta sẽ khám phá các kỹ thuật hàng đầu để đánh giá các mô hình ngôn ngữ lớn. Chúng ta sẽ xem xét ưu và nhược điểm của từng phương pháp, thời điểm chúng được áp dụng tốt nhất và cách bạn có thể tận dụng chúng trong thử nghiệm LLM của riêng mình.

Số liệu cụ thể của nhiệm vụ

Một trong những cách đơn giản nhất để đánh giá LLM là kiểm tra nó trên các nhiệm vụ NLP đã được thiết lập bằng cách sử dụng các số liệu được tiêu chuẩn hóa. Ví dụ:

Tóm tắt

Đối với các nhiệm vụ tóm tắt, các số liệu như ĐỎ (Nghiên cứu theo định hướng thu hồi để đánh giá Gisting) thường được sử dụng. ROUGE so sánh bản tóm tắt do mô hình tạo ra với bản tóm tắt “tham chiếu” do con người viết, đếm sự trùng lặp của các từ hoặc cụm từ.

Có một số hương vị của ROUGE, mỗi hương vị đều có ưu và nhược điểm riêng:

ROUGE-N: So sánh sự chồng chéo của n-gram (chuỗi N từ). ĐƯỜNG-1 sử dụng unigram (từ đơn), ĐƯỜNG-2 sử dụng bigram, v.v. Ưu điểm là nó nắm bắt được trật tự từ nhưng có thể quá nghiêm ngặt.
ROUGE-L: Dựa trên dãy con chung dài nhất (LCS). Linh hoạt hơn về trật tự từ nhưng tập trung vào những điểm chính.
ROUGE-W: Trọng số LCS phù hợp với tầm quan trọng của chúng. Nỗ lực cải thiện ROUGE-L.

Nhìn chung, số liệu của ROUGE nhanh, tự động và hoạt động tốt cho việc tóm tắt hệ thống xếp hạng. Tuy nhiên, chúng không đo lường được sự mạch lạc hay ý nghĩa. Một bản tóm tắt có thể đạt điểm ROUGE cao nhưng vẫn vô nghĩa.

Công thức của ROUGE-N là:

$ROUGE-N = Σ ^{s \in {Tóm tắt tham khảo}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Tóm tắt tham khảo}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Địa điểm:

Count_{match}(gram_n) là số lượng n-gram trong cả bản tóm tắt được tạo và bản tóm tắt tham chiếu.
Count(gram_n) là số lượng n-gram trong bản tóm tắt tham chiếu.

Ví dụ: đối với ROUGE-1 (unigram):

Tóm tắt đã tạo: “Con mèo ngồi.”
Tóm tắt tham khảo: “Con mèo ngồi trên chiếu.”
Các unigram chồng chéo: “The”, “cat”, “sat”
Điểm ROUGE-1 = 3/5 = 0.6

ROUGE-L sử dụng dãy con chung dài nhất (LCS). Nó linh hoạt hơn với trật tự từ. Công thức là:

$ROUGE-L = max(độ dài(được tạo), độ dài(tham chiếu)) L CS ( tạo ra , tài liệu tham khảo )$

Ở đâu LCS là độ dài của dãy con chung dài nhất.

ROUGE-W cân nhắc các trận đấu LCS. Nó xem xét tầm quan trọng của từng trận đấu tại LCS.

Dịch

Đối với các tác vụ dịch máy, Bleu (Nghiên cứu đánh giá song ngữ) là một thước đo phổ biến. BLEU đo lường sự tương đồng giữa bản dịch đầu ra của mô hình và bản dịch chuyên nghiệp của con người, sử dụng độ chính xác n-gram và hình phạt ngắn gọn.

Các khía cạnh chính về cách thức hoạt động của BLEU:

So sánh sự chồng chéo của n-gram cho n lên đến 4 (unigram, bigram, trigram, 4-gram).
Tính toán giá trị trung bình hình học của độ chính xác n-gram.
Áp dụng hình phạt ngắn gọn nếu bản dịch ngắn hơn nhiều so với tài liệu tham khảo.
Nói chung nằm trong khoảng từ 0 đến 1, trong đó 1 là kết quả hoàn hảo để tham khảo.

BLEU tương quan khá tốt với đánh giá của con người về chất lượng dịch thuật. Nhưng nó vẫn còn những hạn chế:

Chỉ đo độ chính xác dựa trên tham chiếu, không thu hồi hoặc F1.
Gặp khó khăn với các bản dịch sáng tạo sử dụng cách diễn đạt khác nhau.
Dễ bị “chơi game” với thủ đoạn dịch thuật.

Các số liệu dịch thuật khác như METEOR và TER cố gắng cải thiện điểm yếu của BLEU. Nhưng nói chung, số liệu tự động không phản ánh đầy đủ chất lượng bản dịch.

Các nhiệm vụ khác

Ngoài việc tóm tắt và dịch thuật, các số liệu như F1, độ chính xác, MSE, v.v. có thể được sử dụng để đánh giá hiệu suất LLM trong các nhiệm vụ như:

Phân loại văn bản
Trích xuất thông tin
Câu trả lời câu hỏi
Phân tích tình cảm
Phát hiện lỗi ngữ pháp

Ưu điểm của các số liệu dành riêng cho nhiệm vụ là việc đánh giá có thể được tự động hóa hoàn toàn bằng cách sử dụng các bộ dữ liệu được tiêu chuẩn hóa như tiểu đội cho QA và KEO điểm chuẩn cho một loạt các nhiệm vụ. Kết quả có thể dễ dàng được theo dõi theo thời gian khi các mô hình được cải thiện.

Tuy nhiên, những số liệu này tập trung vào phạm vi hẹp và không thể đo lường chất lượng ngôn ngữ tổng thể. LLM hoạt động tốt về các số liệu cho một nhiệm vụ có thể không tạo ra được văn bản mạch lạc, hợp lý và hữu ích nói chung.

Điểm chuẩn nghiên cứu

Một cách phổ biến để đánh giá LLM là kiểm tra chúng dựa trên các tiêu chuẩn nghiên cứu trên phạm vi rộng bao gồm các chủ đề và kỹ năng đa dạng. Những điểm chuẩn này cho phép các mô hình được thử nghiệm nhanh chóng trên quy mô lớn.

Một số điểm chuẩn nổi tiếng bao gồm:

Keo siêu dính – Bộ 11 nhiệm vụ ngôn ngữ đa dạng đầy thử thách.
KEO – Tuyển tập 9 bài hiểu câu. Đơn giản hơn SuperGLUE.
MMLU – 57 nhiệm vụ STEM, khoa học xã hội và nhân văn khác nhau. Kiểm tra kiến thức và khả năng suy luận.
Thử thách lược đồ Winograd – Vấn đề giải quyết đại từ đòi hỏi suy luận thông thường.
ARC – Nhiệm vụ suy luận ngôn ngữ tự nhiên đầy thách thức.
quái vật - Suy luận thông thường về các tình huống.
PIQA – Câu hỏi vật lý yêu cầu sơ đồ.

Bằng cách đánh giá các điểm chuẩn như thế này, các nhà nghiên cứu có thể nhanh chóng kiểm tra các mô hình về khả năng thực hiện toán học, logic, lý luận, mã hóa, lẽ thường, v.v. Tỷ lệ phần trăm câu hỏi được trả lời đúng sẽ trở thành thước đo chuẩn để so sánh các mô hình.

Tuy nhiên, một vấn đề lớn với điểm chuẩn là ô nhiễm dữ liệu đào tạo. Nhiều điểm chuẩn chứa các ví dụ đã được mô hình nhìn thấy trong quá trình đào tạo trước. Điều này cho phép các mô hình “ghi nhớ” trả lời các câu hỏi cụ thể và thực hiện tốt hơn khả năng thực sự của họ.

Những nỗ lực được thực hiện để “khử nhiễm” điểm chuẩn bằng cách loại bỏ các ví dụ chồng chéo. Tuy nhiên, đây là một thách thức để thực hiện một cách toàn diện, đặc biệt khi các mô hình có thể đã nhìn thấy các phiên bản câu hỏi được diễn giải hoặc dịch.

Vì vậy, mặc dù điểm chuẩn có thể kiểm tra một loạt các kỹ năng một cách hiệu quả, nhưng chúng không thể đo lường khả năng suy luận thực sự một cách đáng tin cậy hoặc tránh lạm phát điểm số do ô nhiễm. Cần có các phương pháp đánh giá bổ sung.

Tự đánh giá LLM

Một cách tiếp cận hấp dẫn là yêu cầu LLM đánh giá kết quả đầu ra của LLM khác. Ý tưởng là tận dụng khái niệm nhiệm vụ “dễ dàng hơn”:

Việc tạo ra đầu ra chất lượng cao có thể khó khăn đối với LLM.
Nhưng việc xác định xem một đầu ra nhất định có chất lượng cao hay không có thể là một nhiệm vụ dễ dàng hơn.

Ví dụ: mặc dù LLM có thể gặp khó khăn trong việc tạo ra một đoạn văn thực tế, mạch lạc ngay từ đầu, nhưng nó có thể dễ dàng đánh giá hơn liệu một đoạn văn nhất định có hợp lý và phù hợp với ngữ cảnh hay không.

Vì vậy, quá trình là:

Chuyển lời nhắc đầu vào tới LLM đầu tiên để tạo đầu ra.
Chuyển lời nhắc đầu vào + đầu ra được tạo cho “người đánh giá” LLM thứ hai.
Hỏi người đánh giá LLM một câu hỏi để đánh giá chất lượng đầu ra. ví dụ: “Câu trả lời trên có hợp lý không?”

Cách tiếp cận này được thực hiện nhanh chóng và tự động hóa việc đánh giá LLM. Nhưng có một số thách thức:

Hiệu suất phụ thuộc nhiều vào sự lựa chọn LLM của người đánh giá và cách diễn đạt nhanh chóng.
Bị hạn chế bởi độ khó của nhiệm vụ ban đầu. Đánh giá lý luận phức tạp vẫn còn khó khăn đối với LLM.
Có thể tốn kém về mặt tính toán nếu sử dụng LLM dựa trên API.

Tự đánh giá đặc biệt hứa hẹn cho việc đánh giá thông tin thu được trong RAG (thế hệ tăng cường truy xuất) hệ thống. Các truy vấn LLM bổ sung có thể xác thực nếu ngữ cảnh được truy xuất được sử dụng phù hợp.

Nhìn chung, việc tự đánh giá có tiềm năng nhưng cần thận trọng trong quá trình thực hiện. Nó bổ sung, thay vì thay thế, sự đánh giá của con người.

Đánh giá con người

Do những hạn chế của số liệu và điểm chuẩn tự động, đánh giá con người vẫn là tiêu chuẩn vàng để đánh giá nghiêm ngặt chất lượng LLM.

Các chuyên gia có thể cung cấp những đánh giá định tính chi tiết về:

Tính chính xác và đúng thực tế
Logic, lý luận và lẽ thường
Tính mạch lạc, nhất quán và dễ đọc
Sự phù hợp về giọng điệu, phong cách và giọng nói
Ngữ pháp và sự trôi chảy
Sự sáng tạo và sắc thái

Để đánh giá một mô hình, con người được cung cấp một tập hợp các lời nhắc đầu vào và phản hồi do LLM tạo ra. Họ đánh giá chất lượng của các câu trả lời, thường sử dụng thang đánh giá và phiếu tự đánh giá.

Nhược điểm là việc đánh giá thủ công của con người rất tốn kém, chậm và khó mở rộng quy mô. Nó cũng đòi hỏi phải phát triển các tiêu chí tiêu chuẩn hóa và đào tạo những người đánh giá để áp dụng chúng một cách nhất quán.

Một số nhà nghiên cứu đã khám phá những cách sáng tạo để huy động vốn từ cộng đồng cho các đánh giá LLM của con người bằng cách sử dụng các hệ thống kiểu giải đấu nơi mọi người đặt cược và đánh giá các trận đấu giữa các mô hình. Tuy nhiên, mức độ bao phủ vẫn còn hạn chế so với đánh giá thủ công hoàn toàn.

Đối với các trường hợp sử dụng cho doanh nghiệp trong đó chất lượng quan trọng hơn quy mô thô, thử nghiệm do con người thực hiện bởi chuyên gia vẫn là tiêu chuẩn vàng bất chấp chi phí của nó. Điều này đặc biệt đúng đối với các ứng dụng LLM rủi ro hơn.

Kết luận

Việc đánh giá kỹ lưỡng các mô hình ngôn ngữ lớn đòi hỏi phải sử dụng bộ công cụ đa dạng gồm các phương pháp bổ sung, thay vì dựa vào bất kỳ kỹ thuật đơn lẻ nào.

Bằng cách kết hợp các phương pháp tự động hóa để đảm bảo tốc độ với sự giám sát nghiêm ngặt của con người để đảm bảo độ chính xác, chúng tôi có thể phát triển các phương pháp thử nghiệm đáng tin cậy cho các mô hình ngôn ngữ lớn. Với đánh giá mạnh mẽ, chúng tôi có thể khai thác tiềm năng to lớn của LLM trong khi quản lý rủi ro một cách có trách nhiệm.

Chủ đề liên quan:AI GPT Loài đà mã ở nam mỹ số liệu

Điều hướng kỷ nguyên thông tin sai lệch: Trường hợp dành cho AI tạo ra dữ liệu tập trung vào

Đừng bỏ lỡ

Tương lai của suy luận serverless cho các mô hình ngôn ngữ lớn

Aayush Mittal

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.

đoàn kết.AI

Đánh giá các mô hình ngôn ngữ lớn: Hướng dẫn kỹ thuật

Trí tuệ nhân tạo

Đánh giá các mô hình ngôn ngữ lớn: Hướng dẫn kỹ thuật

Mục lục

Số liệu cụ thể của nhiệm vụ

Tóm tắt

Dịch

Các nhiệm vụ khác

Điểm chuẩn nghiên cứu

Tự đánh giá LLM

Đánh giá con người

Kết luận

Tin Mới Nhất

đoàn kết.AI

Đánh giá các mô hình ngôn ngữ lớn: Hướng dẫn kỹ thuật

Mục lục

Số liệu cụ thể của nhiệm vụ

Tóm tắt

Dịch

Các nhiệm vụ khác

Điểm chuẩn nghiên cứu

Tự đánh giá LLM

Đánh giá con người

Kết luận

Bạn có thể thích

Tin Mới Nhất