Lãnh đạo tư tưởng

Các Benchmark Cho LLM

Published August 28, 2024

Updated May 20, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Hiểu rõ vai trò và giới hạn của các benchmark trong việc đánh giá hiệu suất của LLM. Khám phá các kỹ thuật để phát triển LLM mạnh mẽ.

Các Mô hình Ngôn ngữ Lớn (LLM) đã trở nên phổ biến trong những năm gần đây. Tôi có nghĩa là, bạn đã thấy nó. Khả năng hiểu ngôn ngữ của con người của LLM là tuyệt vời, khiến chúng trở thành sự kết hợp hoàn hảo cho các doanh nghiệp, hỗ trợ các quy trình công việc quan trọng và tự động hóa các nhiệm vụ để đạt được hiệu quả tối đa. Ngoài ra, ngoài sự hiểu biết của người dùng trung bình, còn có rất nhiều điều mà LLM có thể làm. Và khi chúng ta ngày càng phụ thuộc vào chúng, chúng ta thực sự phải chú ý nhiều hơn đến các biện pháp để đảm bảo độ chính xác và độ tin cậy cần thiết. Đây là một nhiệm vụ toàn cầu liên quan đến các tổ chức, nhưng trong lĩnh vực kinh doanh, hiện có một số benchmark có thể được sử dụng để đánh giá hiệu suất của LLM trên các lĩnh vực khác nhau. Những benchmark này có thể kiểm tra khả năng của mô hình trong việc hiểu, suy luận, toán học, v.v., và kết quả sẽ xác định liệu một LLM có sẵn sàng cho việc triển khai kinh doanh hay không.

Trong bài viết này, tôi đã thu thập một danh sách toàn diện các benchmark phổ biến nhất cho việc đánh giá LLM. Chúng ta sẽ thảo luận về từng benchmark một cách chi tiết và xem cách các LLM khác nhau thực hiện so với các tiêu chí đánh giá. Nhưng trước hết, hãy hiểu rõ hơn về việc đánh giá LLM.

LLM Evaluation Là Gì?

Giống như các mô hình AI khác, LLM cũng cần được đánh giá dựa trên các benchmark cụ thể đánh giá các khía cạnh khác nhau của hiệu suất của mô hình ngôn ngữ: kiến thức, độ chính xác, độ tin cậy và tính nhất quán. Tiêu chuẩn thường bao gồm:

Hiểu Query Người Dùng: Đánh giá khả năng của mô hình trong việc hiểu và diễn giải chính xác một loạt các đầu vào của người dùng.
Xác Minh Đầu Ra: Xác minh các phản hồi được tạo bởi AI so với một cơ sở kiến thức đáng tin cậy để đảm bảo chúng chính xác và liên quan.
Độ Robust: Đo lường hiệu suất của mô hình với các đầu vào không rõ ràng, không đầy đủ hoặc có tiếng ồn.

Việc đánh giá LLM cung cấp cho các nhà phát triển khả năng xác định và giải quyết các hạn chế một cách hiệu quả, vì vậy họ có thể cải thiện trải nghiệm người dùng tổng thể. Nếu một LLM được đánh giá kỹ lưỡng, nó sẽ đủ chính xác và mạnh mẽ để xử lý các ứng dụng thực tế khác nhau, thậm chí bao gồm cả những ứng dụng có đầu vào không rõ ràng hoặc không mong đợi.

Benchmarks

LLM là một trong những công nghệ phức tạp nhất hiện nay và có thể cung cấp năng lượng cho các ứng dụng phức tạp. Vì vậy, quá trình đánh giá chỉ đơn giản là phải phức tạp tương tự, kiểm tra quá trình suy nghĩ và độ chính xác kỹ thuật.

Một benchmark sử dụng các tập dữ liệu cụ thể, các chỉ số và nhiệm vụ đánh giá để kiểm tra hiệu suất của LLM, cho phép so sánh các LLM khác nhau và đo lường độ chính xác, điều này thúc đẩy tiến bộ trong ngành bằng cách cải thiện hiệu suất.

Dưới đây là một số khía cạnh phổ biến nhất của hiệu suất LLM:

Kiến Thức: Kiến thức của mô hình cần được kiểm tra trên các lĩnh vực khác nhau. Đó là những gì benchmark kiến thức dùng để làm. Nó đánh giá hiệu quả mô hình có thể nhớ lại thông tin từ các lĩnh vực khác nhau như Vật lý, Lập trình, Địa lý, v.v.
Suy Luận Logic: Nghĩa là kiểm tra khả năng của mô hình trong việc suy nghĩ theo từng bước và suy ra một kết luận logic, chúng thường liên quan đến các tình huống mà mô hình phải chọn sự tiếp tục hoặc giải thích hợp lý nhất dựa trên kiến thức hàng ngày và suy luận logic.
Đọc Hiểu: Mô hình phải giỏi trong việc diễn giải ngôn ngữ tự nhiên và tạo ra phản hồi tương ứng. Bài kiểm tra trông giống như trả lời các câu hỏi dựa trên đoạn văn để đo lường sự hiểu biết, suy luận và khả năng giữ chi tiết. Giống như một bài kiểm tra đọc ở trường.
Hiểu Code: Điều này cần thiết để đo lường khả năng của mô hình trong việc hiểu, viết và gỡ lỗi mã. Các benchmark này cung cấp cho mô hình các nhiệm vụ lập trình hoặc vấn đề mà mô hình phải giải quyết chính xác, thường bao gồm nhiều ngôn ngữ lập trình và mô hình.
Kiến Thức Thế Giới: Để đánh giá sự hiểu biết của mô hình về kiến thức chung về thế giới. Các tập dữ liệu này thường có các câu hỏi cần kiến thức chung để trả lời chính xác, điều này làm cho chúng khác với các benchmark kiến thức chuyên sâu hơn.

Benchmarks Kiến Thức

MMLU (Multimodal Language Understanding)

Benchmark này được thiết kế để kiểm tra sự hiểu biết của LLM về kiến thức thực tế trên các chủ đề khác nhau như nhân văn, khoa học xã hội, lịch sử, khoa học máy tính và thậm chí luật. 57 câu hỏi và 15.000 nhiệm vụ đều nhằm mục đích đảm bảo rằng mô hình có khả năng suy luận tuyệt vời. Điều này làm cho MMLU trở thành một công cụ tốt để đánh giá kiến thức thực tế và khả năng suy luận của LLM khi đối mặt với các chủ đề khác nhau.

Gần đây, nó đã trở thành một benchmark chính để đánh giá LLM trong các lĩnh vực trên. Các nhà phát triển luôn muốn tối ưu hóa mô hình của mình để vượt qua các mô hình khác trong benchmark này, điều này làm cho nó trở thành một tiêu chuẩn de facto để đánh giá suy luận và kiến thức tiên tiến trong LLM. Các mô hình cấp doanh nghiệp lớn đã thể hiện điểm số ấn tượng trên benchmark này, bao gồm GPT-4-omni ở mức 88,7%, Claude 3 Opus ở mức 86,8%, Gemini 1,5 Pro ở mức 85,9% và Llama-3 70B ở mức 82%. Các mô hình nhỏ thường không hoạt động tốt trên benchmark này, thường không vượt quá 60-65%, nhưng hiệu suất gần đây của Phi-3-Small-7b ở mức 75,3% là điều đáng suy nghĩ.

Tuy nhiên, MMLU không phải là không có nhược điểm: nó có các vấn đề như câu hỏi mơ hồ, câu trả lời không chính xác và thiếu ngữ cảnh. Và nhiều người nghĩ rằng một số nhiệm vụ của nó quá dễ dàng cho việc đánh giá LLM một cách chính xác.

Tôi muốn làm rõ rằng các benchmark như MMLU không hoàn hảo trong việc mô tả các kịch bản thực tế. Nếu một LLM đạt được điểm số tuyệt vời trên benchmark này, điều đó không nhất thiết có nghĩa là nó đã trở thành một chuyên gia trong lĩnh vực đó. Các benchmark bị giới hạn về phạm vi và thường dựa trên các câu hỏi trắc nghiệm, điều này không thể hoàn toàn phản ánh sự phức tạp và ngữ cảnh của các tương tác thực tế. Sự hiểu biết thực sự đòi hỏi phải biết các sự kiện và áp dụng kiến thức đó một cách linh hoạt, điều này liên quan đến suy nghĩ phản biện, giải quyết vấn đề và hiểu biết ngữ cảnh. Vì những lý do này, LLM cần phải được tinh chỉnh và cập nhật liên tục để mô hình duy trì sự liên quan và hiệu quả của benchmark.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Benchmark này đánh giá LLM về khả năng suy luận logic bằng cách sử dụng tập dữ liệu có 448 câu hỏi. Các chuyên gia trong lĩnh vực đã phát triển nó và nó bao gồm các chủ đề trong sinh học, vật lý và hóa học.

Mỗi câu hỏi trải qua quá trình xác minh sau:

Một chuyên gia trong cùng lĩnh vực trả lời câu hỏi và cung cấp phản hồi chi tiết.
Người viết câu hỏi sửa đổi câu hỏi dựa trên phản hồi này.
Một chuyên gia thứ hai trả lời câu hỏi đã sửa đổi.

Quá trình này thực sự có thể đảm bảo rằng các câu hỏi là khách quan, chính xác và đầy thách thức cho mô hình ngôn ngữ. Thậm chí các học giả tiến sĩ giàu kinh nghiệm chỉ đạt được độ chính xác 65% trên các câu hỏi này, trong khi GPT-4-omni chỉ đạt 53,6%, điều này cho thấy sự khác biệt giữa trí tuệ con người và máy móc.

Do yêu cầu trình độ cao, tập dữ liệu thực sự khá nhỏ, điều này hạn chế sức mạnh thống kê của nó để so sánh độ chính xác và đòi hỏi phải có hiệu ứng lớn. Các chuyên gia tạo ra và xác thực các câu hỏi này đến từ Upwork, vì vậy họ có thể đã giới thiệu các偏见 dựa trên chuyên môn và chủ đề được đề cập.

Benchmarks Code

HumanEval

164 vấn đề lập trình, một thử thách thực sự cho khả năng lập trình của LLM. Đó là HumanEval. Nó được thiết kế để kiểm tra khả năng lập trình cơ bản của các mô hình ngôn ngữ lớn (LLM). Nó sử dụng chỉ số pass@k để đánh giá độ chính xác chức năng của mã được tạo, điều này cho ra xác suất của ít nhất một trong số các mẫu mã hàng đầu được tạo bởi LLM vượt qua các trường hợp kiểm tra.

Mặc dù tập dữ liệu HumanEval bao gồm chữ ký hàm, chuỗi tài liệu, thân hàm và nhiều kiểm tra đơn vị, nó không bao gồm toàn bộ phạm vi các vấn đề lập trình thực tế, điều này không đủ để kiểm tra khả năng của mô hình trong việc tạo mã chính xác cho các tình huống đa dạng.

MBPP (Mostly Basic Python Programming)

Mbpp benchmark bao gồm 1.000 câu hỏi lập trình Python được tạo bởi đám đông. Những vấn đề này tập trung vào các kỹ năng lập trình cơ bản và sử dụng các phương pháp tiếp cận vài-shot và tinh chỉnh để đánh giá hiệu suất của mô hình, với các mô hình lớn hơn thường hoạt động tốt hơn trên tập dữ liệu này. Tuy nhiên, vì tập dữ liệu chứa chủ yếu là chương trình cấp nhập môn, nó vẫn không đại diện đầy đủ cho sự phức tạp và thách thức của các ứng dụng thực tế.

Benchmarks Toán Học

Trong khi hầu hết LLM đều rất giỏi trong việc tạo ra các phản hồi tiêu chuẩn, việc suy luận toán học là một vấn đề lớn hơn đối với chúng. Tại sao? Bởi vì nó đòi hỏi các kỹ năng liên quan đến việc hiểu câu hỏi, tiếp cận logic từng bước với suy luận toán học và suy ra câu trả lời chính xác.

Phương pháp “Chain of Thought” (CoT) được thiết kế để đánh giá LLM trên các benchmark liên quan đến toán học, nó bao gồm việc yêu cầu mô hình giải thích quá trình suy luận từng bước khi giải quyết một vấn đề. Có một số lợi ích cho điều này. Nó làm cho quá trình suy luận trở nên minh bạch hơn, giúp xác định các khiếm khuyết trong logic của mô hình và cho phép đánh giá chi tiết hơn về kỹ năng giải quyết vấn đề. Bằng cách chia nhỏ các vấn đề phức tạp thành một loạt các bước đơn giản hơn, CoT có thể cải thiện hiệu suất của mô hình trên các benchmark toán học và cung cấp cái nhìn sâu sắc hơn về khả năng suy luận của nó.

GSM8K: Một Benchmark Toán Học Phổ Biến

Một trong những benchmark nổi tiếng để đánh giá khả năng toán học trong LLM là tập dữ liệu GSM8K. GSM8K bao gồm 8.500 vấn đề toán học trung học, đòi hỏi phải thực hiện một số bước để giải quyết, và các giải pháp chủ yếu liên quan đến việc thực hiện một chuỗi các phép tính cơ bản. Thông thường, các mô hình lớn hơn hoặc những mô hình được đào tạo cụ thể cho suy luận toán học có xu hướng hoạt động tốt hơn trên benchmark này, ví dụ như các mô hình GPT-4 đạt điểm 96,5%, trong khi DeepSeekMATH-RL-7B đạt 88,2%.

Mặc dù GSM8K hữu ích cho việc đánh giá khả năng của mô hình trong việc giải quyết các vấn đề toán học cấp trung học, nó có thể không phản ánh đầy đủ khả năng của mô hình trong việc giải quyết các thách thức toán học phức tạp hơn hoặc đa dạng hơn, do đó hạn chế hiệu quả của nó như một thước đo toàn diện về khả năng toán học.

Tập Dữ Liệu Toán Học: Một Giải Pháp Toàn Diện Thay Thế

Tập dữ liệu toán học đã giải quyết các hạn chế của các benchmark như GSM8K. Tập dữ liệu này rộng lớn hơn, bao gồm từ toán học cơ bản đến toán học cấp trung học và thậm chí cấp đại học. Nó cũng được so sánh với kết quả của con người, với một sinh viên tốt nghiệp khoa học máy tính không thích toán đạt được độ chính xác 40% và một người đạt huy chương vàng đạt được độ chính xác 90%.

Nó cung cấp một đánh giá toàn diện hơn về khả năng toán học của LLM. Nó đảm bảo rằng mô hình không chỉ giỏi trong toán học cơ bản mà còn có khả năng trong các lĩnh vực phức tạp như đại số, hình học và giải tích. Tuy nhiên, sự phức tạp và đa dạng tăng lên của các vấn đề có thể làm cho mô hình khó đạt được độ chính xác cao, đặc biệt là những mô hình không được đào tạo rõ ràng trên một loạt các khái niệm toán học. Ngoài ra, các định dạng vấn đề đa dạng trong tập dữ liệu Toán học có thể giới thiệu sự không nhất quán trong hiệu suất của mô hình, điều này làm cho việc rút ra kết luận chắc chắn về khả năng toán học tổng thể của mô hình trở nên khó khăn hơn.

Sử dụng phương pháp Chain of Thought với tập dữ liệu Toán học có thể tăng cường đánh giá vì nó tiết lộ khả năng suy luận từng bước của LLM trên một loạt các thách thức toán học. Một phương pháp kết hợp như vậy đảm bảo có một đánh giá mạnh mẽ và chi tiết hơn về khả năng toán học thực sự của LLM.

Benchmarks Đọc Hiểu

Một đánh giá đọc hiểu đánh giá khả năng của mô hình trong việc hiểu và xử lý văn bản phức tạp, điều này đặc biệt quan trọng cho các ứng dụng như hỗ trợ khách hàng, tạo nội dung và thu hồi thông tin. Có một số benchmark được thiết kế để đánh giá kỹ năng này, mỗi benchmark có các thuộc tính độc đáo góp phần vào việc đánh giá toàn diện về khả năng của mô hình.

RACE (Tập Dữ Liệu Đọc Hiểu Từ Các Kỳ Thi)

Benchmark RACE có gần 28.000 đoạn văn và 100.000 câu hỏi được thu thập từ các kỳ thi tiếng Anh cho học sinh trung học cơ sở và trung học phổ thông Trung Quốc từ 12 đến 18 tuổi. Nó không hạn chế các câu hỏi và câu trả lời phải được trích xuất từ các đoạn văn cho trước, điều này làm cho nhiệm vụ trở nên khó khăn hơn.

Nó bao gồm một loạt các chủ đề và loại câu hỏi, điều này tạo ra một đánh giá toàn diện và bao gồm các câu hỏi ở các mức độ khó khác nhau. Ngoài ra, các câu hỏi trong RACE được thiết kế đặc biệt để kiểm tra kỹ năng đọc của con người và được tạo bởi các chuyên gia trong lĩnh vực.

Tuy nhiên, benchmark này cũng có một số hạn chế. Vì nó được phát triển từ tài liệu giáo dục Trung Quốc, nó có thể giới thiệu các偏见 văn hóa không phản ánh bối cảnh toàn cầu. Ngoài ra, mức độ khó của một số câu hỏi không thực sự đại diện cho các nhiệm vụ thực tế. Do đó, việc đánh giá hiệu suất có thể không chính xác.

DROP (Suy Luận Discrete Trên Đoạn Văn)

Một cách tiếp cận quan trọng khác là DROP (Suy Luận Discrete Trên Đoạn Văn), thách thức các mô hình thực hiện suy luận rời rạc trên đoạn văn. Nó có 96.000 câu hỏi để kiểm tra khả năng suy luận của LLM và các câu hỏi được trích xuất từ Wikipedia và được tạo bởi Amazon Mechanical Turk. Các câu hỏi DROP thường yêu cầu mô hình thực hiện các phép toán toán học như cộng, trừ và so sánh dựa trên thông tin phân tán trong đoạn văn.

Các câu hỏi rất khó. Chúng yêu cầu LLM phải tìm kiếm nhiều số trong đoạn văn và cộng hoặc trừ chúng để có được câu trả lời cuối cùng. Các mô hình lớn như GPT-4 và Palm đạt được 80% và 85%, trong khi con người đạt được 96% trên tập dữ liệu DROP.

Benchmarks Cảm Thông

Kiểm tra cảm thông trong các mô hình ngôn ngữ là một vấn đề thú vị nhưng cũng quan trọng vì nó đánh giá khả năng của mô hình trong việc đưa ra các phán đoán và suy luận phù hợp với suy luận của con người. Không giống như con người, những người phát triển một mô hình thế giới toàn diện thông qua kinh nghiệm thực tế, các mô hình ngôn ngữ được đào tạo trên các tập dữ liệu lớn mà không thực sự hiểu ngữ cảnh. Điều này có nghĩa là các mô hình gặp khó khăn trong các nhiệm vụ đòi hỏi sự hiểu biết trực giác về các tình huống hàng ngày, suy luận logic và kiến thức thực tế, những điều này rất quan trọng cho các ứng dụng AI mạnh mẽ và đáng tin cậy.

HellaSwag (Kết Thúc Khó Hơn, Ngữ Cảnh Dài Hơn và Hoạt Động Low-Shot Cho Tình Huống Với Tạo Adversarial)

Hellaswag được phát triển bởi Rowan Zellers và các đồng nghiệp tại Đại học Washington và Viện Trí tuệ Nhân tạo Allen. Nó được thiết kế để kiểm tra khả năng của mô hình trong việc dự đoán sự tiếp tục hợp lý nhất của một kịch bản cho trước. Benchmark này được xây dựng bằng cách sử dụng Bộ lọc Adversarial (AF), nơi một loạt các bộ phân loại lần lượt chọn các câu trả lời sai được tạo bởi máy. Phương pháp này tạo ra một tập dữ liệu có các ví dụ đơn giản cho con người nhưng khó khăn cho các mô hình, dẫn đến một “vùng khó khăn” lý tưởng.

Mặc dù Hellaswag đã thách thức các mô hình trước đây, nhưng các mô hình hàng đầu như GPT-4 đã đạt được mức hiệu suất gần với độ chính xác của con người, cho thấy sự tiến bộ đáng kể trong lĩnh vực này. Tuy nhiên, những kết quả này cũng cho thấy sự cần thiết phải liên tục phát triển các benchmark để theo kịp sự tiến bộ trong khả năng AI.

Openbook

Tập dữ liệu Openbook bao gồm 5.957 câu hỏi trắc nghiệm khoa học cấp cơ bản. Các câu hỏi được thu thập từ các kỳ thi mở sách và được phát triển để đánh giá sự hiểu biết của con người về môn học.

Benchmark Openbook đòi hỏi khả năng suy luận vượt ra ngoài việc thu hồi thông tin. GPT-4 đạt được độ chính xác cao nhất là 95,9% cho đến nay.

OpenbookQA được mô hình hóa dựa trên các kỳ thi mở sách và bao gồm 5.957 câu hỏi trắc nghiệm khoa học cấp cơ bản. Những câu hỏi này được thiết kế để kiểm tra sự hiểu biết về 1.326 sự kiện khoa học cơ bản và việc áp dụng chúng vào các tình huống mới.

Tương tự như Hellaswag, các mô hình trước đây gặp khó khăn với OpenbookQA, nhưng các mô hình hiện đại như GPT-4 đã đạt được mức hiệu suất gần với con người. Sự tiến bộ này nhấn mạnh tầm quan trọng của việc phát triển các benchmark phức tạp và tinh vi hơn để tiếp tục thúc đẩy ranh giới của sự hiểu biết AI.

Benchmarks Có Đủ Cho Đánh Giá Hiệu Suất LLM?

Vâng, trong khi chúng cung cấp một cách tiếp cận tiêu chuẩn hóa để đánh giá hiệu suất của LLM, chúng cũng có thể gây hiểu lầm. Tổ chức Hệ thống Mô hình Lớn cho biết một benchmark LLM tốt nên có khả năng mở rộng, có thể đánh giá các mô hình mới với số lượng thử nghiệm tương đối nhỏ và cung cấp một thứ tự xếp hạng duy nhất cho tất cả các mô hình. Nhưng, có những lý do tại sao chúng có thể không đủ. Dưới đây là một số lý do:

Rò Rỉ Benchmark

Đây là một tình huống phổ biến, và nó xảy ra khi dữ liệu đào tạo trùng lặp với dữ liệu kiểm tra, dẫn đến một đánh giá gây hiểu lầm. Nếu một mô hình đã gặp một số câu hỏi kiểm tra trong quá trình đào tạo, kết quả của nó có thể không phản ánh chính xác khả năng thực sự của nó. Nhưng một benchmark lý tưởng nên giảm thiểu việc ghi nhớ và phản ánh các kịch bản thực tế.

Sự偏 Biện Trong Đánh Giá

Các bảng xếp hạng benchmark LLM được sử dụng để so sánh hiệu suất của LLM trên các nhiệm vụ khác nhau. Tuy nhiên, việc dựa vào các bảng xếp hạng này để so sánh mô hình có thể gây hiểu lầm. Các thay đổi đơn giản trong các thử nghiệm benchmark, chẳng hạn như thay đổi thứ tự của các câu hỏi, có thể thay đổi thứ hạng của mô hình lên đến tám vị trí. Ngoài ra, LLM có thể hoạt động khác nhau tùy thuộc vào các phương pháp đánh giá, nhấn mạnh tầm quan trọng của việc xem xét sự偏 biện trong đánh giá.

Mở

Tương tác thực tế với LLM liên quan đến việc thiết kế các lời nhắc để tạo ra đầu ra AI mong muốn. Đầu ra của LLM phụ thuộc vào hiệu quả của các lời nhắc, và các benchmark được thiết kế để kiểm tra nhận thức ngữ cảnh của LLM. Mặc dù các benchmark được thiết kế để kiểm tra nhận thức ngữ cảnh của LLM, chúng không luôn chuyển thành hiệu suất thực tế. Ví dụ, một mô hình đạt được điểm số 100% trên một tập dữ liệu benchmark không đảm bảo mức độ chính xác tương tự trong các ứng dụng thực tế. Điều này nhấn mạnh tầm quan trọng của việc xem xét tính chất mở của các nhiệm vụ thực tế trong việc đánh giá LLM.

Đánh Giá Hiệu Quả Cho LLM Robust

Vậy, bây giờ bạn biết rằng các benchmark không phải lúc nào cũng là lựa chọn tốt nhất vì chúng không thể khái quát hóa trên tất cả các vấn đề. Nhưng, có những cách khác.

Benchmarks Tùy Chỉnh

Chúng hoàn hảo để kiểm tra các hành vi và chức năng cụ thể trong các kịch bản cụ thể. Ví dụ, nếu LLM được thiết kế cho các sĩ quan y tế, các tập dữ liệu thu thập từ các môi trường y tế sẽ hiệu quả đại diện cho các kịch bản thực tế. Các benchmark tùy chỉnh này có thể tập trung vào việc hiểu ngôn ngữ cụ thể của lĩnh vực, hiệu suất và các yêu cầu ngữ cảnh độc đáo. Bằng cách căn chỉnh các benchmark với các kịch bản thực tế có thể xảy ra, bạn có thể đảm bảo rằng LLM hoạt động tốt chung và vượt trội trong các nhiệm vụ cụ thể mà nó được thiết kế cho. Điều này có thể giúp xác định và giải quyết các khoảng trống hoặc điểm yếu trong khả năng của mô hình từ sớm.

Dòng Xử Lý Phát Hiện Rò Rỉ Dữ Liệu

Nếu bạn muốn các đánh giá của mình “hiển thị” tính toàn vẹn, việc có một dòng xử lý benchmark không bị rò rỉ dữ liệu là rất quan trọng. Rò rỉ dữ liệu xảy ra khi dữ liệu benchmark được bao gồm trong tập dữ liệu đào tạo trước của mô hình, dẫn đến điểm số hiệu suất cao một cách giả tạo. Để tránh điều này, các benchmark nên được tham chiếu chéo với dữ liệu đào tạo. Ngoài ra, các bước để tránh bất kỳ thông tin đã được xem trước. Điều này có thể liên quan đến việc sử dụng các tập dữ liệu độc quyền hoặc mới được tạo ra, được giữ riêng biệt với đường ống đào tạo của mô hình – điều này sẽ đảm bảo rằng các chỉ số hiệu suất bạn nhận được phản ánh khả năng khái quát hóa của mô hình.

Đánh Giá Con Người

Các chỉ số tự động hóa không thể bắt được toàn bộ phổ của hiệu suất của mô hình, đặc biệt là khi nói đến các khía cạnh tinh vi và chủ quan của việc hiểu và tạo ngôn ngữ. Tại đây, đánh giá con người cung cấp một đánh giá tốt hơn:

Thuê Chuyên Gia có thể cung cấp các đánh giá chi tiết và đáng tin cậy, đặc biệt là cho các lĩnh vực chuyên sâu.
Crowdsourcing! Các nền tảng như Amazon Mechanical Turk cho phép bạn thu thập các phán đoán của con người đa dạng một cách nhanh chóng và với chi phí thấp.
Phản Hồi Của Cộng Đồng: Sử dụng các nền tảng như khu vực đấu trường LMSYS, nơi người dùng có thể bỏ phiếu và so sánh các mô hình, thêm một lớp đánh giá sâu sắc. Ví dụ, LMSYS Chatbot Arena Hard đặc biệt hiệu quả trong việc làm nổi bật các sự khác biệt tinh vi giữa các mô hình hàng đầu thông qua tương tác người dùng trực tiếp và bỏ phiếu.

Kết Luận

Không có đánh giá và benchmark, chúng ta sẽ không có cách nào để biết liệu khả năng của LLM trong việc xử lý các nhiệm vụ thực tế có chính xác và có thể áp dụng như chúng ta nghĩ. Nhưng, như tôi đã nói, các benchmark không phải là cách hoàn hảo để kiểm tra điều đó, chúng có thể dẫn đến khoảng trống trong hiệu suất của LLM. Điều này cũng có thể làm chậm sự phát triển của LLM thực sự mạnh mẽ cho công việc.

Đây là cách nó nên được trong một thế giới lý tưởng. LLM hiểu các truy vấn của người dùng, xác định lỗi trong lời nhắc, hoàn thành các nhiệm vụ theo hướng dẫn và tạo ra đầu ra đáng tin cậy. Kết quả đã rất tốt nhưng chưa lý tưởng. Đây là nơi các benchmark cụ thể cho nhiệm vụ chứng minh rất hữu ích, cũng như đánh giá con người và phát hiện rò rỉ benchmark. Bằng cách sử dụng những điều này, chúng ta có cơ hội sản xuất LLM thực sự mạnh mẽ.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, là một nhà khoa học dữ liệu nổi bật với hơn một thập kỷ kinh nghiệm, bao gồm cả phân tích sản phẩm và phân tích cho các công nghệ tiên tiến. Bà đã dẫn đầu việc tạo ra và phân tích cho Yasmina, trợ lý giọng nói dựa trên AI đầu tiên được định vị hoàn chỉnh cho Ả Rập Xê Út, xử lý định vị và gắn nhãn dữ liệu phức tạp cho tiếng Ả Rập tiêu chuẩn hiện đại và các phương ngữ Ả Rập Xê Út. Hiện tại, Irina đứng đầu phân tích chất lượng tại Yandex, thúc đẩy sự phát triển của các công nghệ AI.