Trí tuệ nhân tạo

Đánh giá Mô hình Ngôn ngữ Lớn: Hướng dẫn Kỹ thuật

mm
Evaluating Large Language Models

Mô hình ngôn ngữ lớn (LLM) như GPT-4, Claude và LLaMA đã trở nên phổ biến. Nhờ khả năng tạo ra văn bản giống con người, những hệ thống AI này hiện đang được sử dụng cho mọi thứ từ tạo nội dung đến chatbot dịch vụ khách hàng.

Nhưng làm thế nào chúng ta biết liệu những mô hình này thực sự tốt? Với các LLM mới được công bố liên tục, tất cả đều tuyên bố là lớn hơn và tốt hơn, làm thế nào chúng ta đánh giá và so sánh hiệu suất của chúng?

Trong hướng dẫn toàn diện này, chúng tôi sẽ khám phá các kỹ thuật hàng đầu để đánh giá mô hình ngôn ngữ lớn. Chúng tôi sẽ xem xét ưu và nhược điểm của từng phương pháp, khi nào chúng được áp dụng tốt nhất và cách bạn có thể tận dụng chúng trong quá trình kiểm tra LLM của mình.

Độ đo Cụ thể cho Nhiệm vụ

Một trong những cách trực tiếp nhất để đánh giá một LLM là kiểm tra nó trên các nhiệm vụ NLP đã được thiết lập bằng cách sử dụng các độ đo tiêu chuẩn. Ví dụ:

Tóm tắt

Đối với nhiệm vụ tóm tắt, các độ đo như ROUGE (Hệ thống đánh giá tóm tắt dựa trên khả năng nhớ) thường được sử dụng. ROUGE so sánh tóm tắt được tạo bởi mô hình với tóm tắt “tham chiếu” được viết bởi con người, đếm số lượng từ hoặc cụm từ trùng khớp.

Có một số biến thể của ROUGE, mỗi biến thể có ưu và nhược điểm riêng:

  • ROUGE-N: So sánh sự trùng khớp của n-gram (chuỗi N từ). ROUGE-1 sử dụng unigram (từ đơn), ROUGE-2 sử dụng bigram, v.v. Ưu điểm là nó bắt được thứ tự từ, nhưng nó có thể quá nghiêm ngặt.
  • ROUGE-L: Dựa trên chuỗi con dài nhất (LCS). Linh hoạt hơn về thứ tự từ nhưng tập trung vào các điểm chính.
  • ROUGE-W: Gán trọng số cho các trận đấu LCS theo tầm quan trọng của chúng. Thử cải tiến ROUGE-L.

Nói chung, các độ đo ROUGE nhanh, tự động và hoạt động tốt cho việc xếp hạng tóm tắt hệ thống. Tuy nhiên, chúng không đo được sự mạch lạc hoặc ý nghĩa. Một tóm tắt có thể đạt được điểm ROUGE cao và vẫn vô nghĩa.

Công thức cho ROUGE-N là:

ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑

Trong đó:

  • Count_{match}(gram_n) là số lượng n-gram trong cả tóm tắt được tạo và tóm tắt tham chiếu.
  • Count(gram_n) là số lượng n-gram trong tóm tắt tham chiếu.

Ví dụ, đối với ROUGE-1 (unigram):

  • Tóm tắt được tạo: “Con mèo đang ngồi.”
  • Tóm tắt tham chiếu: “Con mèo đang ngồi trên tấm thảm.”
  • Các unigram trùng khớp: “Con”, “mèo”, “đang ngồi”
  • Điểm ROUGE-1 = 3/5 = 0,6

ROUGE-L sử dụng chuỗi con dài nhất (LCS). Nó linh hoạt hơn về thứ tự từ. Công thức là:

ROUGE-L=���(generated,reference)max(length(generated), length(reference))

Trong đó LCS là độ dài của chuỗi con dài nhất.

ROUGE-W gán trọng số cho các trận đấu LCS. Nó xem xét tầm quan trọng của mỗi trận đấu trong LCS.

Dịch

Đối với nhiệm vụ dịch máy, BLEU (Hệ thống đánh giá song ngữ) là một độ đo phổ biến. BLEU đo sự tương似 giữa đầu ra dịch của mô hình và bản dịch chuyên nghiệp của con người, sử dụng độ chính xác của n-gram và một hình phạt về độ ngắn.

Các khía cạnh chính của cách BLEU hoạt động:

  • So sánh sự trùng khớp của n-gram với n lên đến 4 (unigram, bigram, trigram, 4-gram).
  • Tính toán trung bình hình học của độ chính xác n-gram.
  • Áp dụng hình phạt về độ ngắn nếu bản dịch quá ngắn so với bản tham chiếu.
  • Thông thường nằm trong khoảng từ 0 đến 1, với 1 là trận đấu hoàn hảo với bản tham chiếu.

BLEU tương quan khá tốt với đánh giá chất lượng dịch của con người. Nhưng nó vẫn có những hạn chế:

  • Chỉ đo độ chính xác so với bản tham chiếu, không đo độ nhớ hoặc F1.
  • Khó khăn với bản dịch sáng tạo sử dụng từ ngữ khác.
  • Dễ bị “lừa” bằng các thủ thuật dịch.

Các độ đo dịch khác như METEOR và TER cố gắng cải tiến những điểm yếu của BLEU. Nhưng nói chung, các độ đo tự động không thể hoàn toàn đo chất lượng dịch.

Nhiệm vụ khác

Ngoài tóm tắt và dịch, các độ đo như F1, độ chính xác, MSE và nhiều hơn có thể được sử dụng để đánh giá hiệu suất của LLM trên các nhiệm vụ như:

  • Phân loại văn bản
  • Trích xuất thông tin
  • Trả lời câu hỏi
  • Phân tích cảm xúc
  • Phát hiện lỗi ngữ pháp

Ưu điểm của các độ đo cụ thể cho nhiệm vụ là việc đánh giá có thể được tự động hóa hoàn toàn bằng cách sử dụng các tập dữ liệu tiêu chuẩn như SQuAD cho QA và GLUE benchmark cho nhiều nhiệm vụ. Kết quả có thể dễ dàng được theo dõi theo thời gian khi các mô hình được cải tiến.

Tuy nhiên, những độ đo này tập trung hẹp và không thể đo chất lượng ngôn ngữ tổng thể. LLM thực hiện tốt trên các độ đo cho một nhiệm vụ duy nhất có thể thất bại trong việc tạo ra văn bản mạch lạc, logic và hữu ích chung.

Thử nghiệm Nghiên cứu

Một cách phổ biến để đánh giá LLM là kiểm tra chúng trên các thử nghiệm nghiên cứu rộng lớn bao gồm nhiều chủ đề và kỹ năng. Những thử nghiệm này cho phép các mô hình được kiểm tra nhanh chóng trên quy mô lớn.

Một số thử nghiệm nổi tiếng bao gồm:

  • SuperGLUE – Tập hợp 11 nhiệm vụ ngôn ngữ đa dạng thách thức.
  • GLUE – Bộ sưu tập 9 nhiệm vụ hiểu câu. Đơn giản hơn SuperGLUE.
  • MMLU – 57 nhiệm vụ khác nhau về STEM, khoa học xã hội và nhân văn. Kiểm tra kiến thức và khả năng lý luận.
  • Winograd Schema Challenge – Các vấn đề giải quyết đại từ yêu cầu lý luận thông thường.
  • ARC – Các nhiệm vụ lý luận ngôn ngữ tự nhiên thách thức.
  • Hellaswag – Lý luận thông thường về tình huống.
  • PIQA – Câu hỏi vật lý yêu cầu sơ đồ.

Bằng cách đánh giá trên các thử nghiệm như vậy, các nhà nghiên cứu có thể nhanh chóng kiểm tra các mô hình về khả năng thực hiện toán, logic, lý luận, mã hóa, lý luận thông thường và nhiều hơn nữa. Tỷ lệ câu hỏi được trả lời đúng trở thành một độ đo thử nghiệm để so sánh các mô hình.

Tuy nhiên, một vấn đề lớn với các thử nghiệm là ô nhiễm dữ liệu đào tạo. Nhiều thử nghiệm chứa các ví dụ đã được các mô hình nhìn thấy trong quá trình đào tạo trước. Điều này cho phép các mô hình “nhớ” câu trả lời cho các câu hỏi cụ thể và thực hiện tốt hơn khả năng thực sự của chúng.

Các nỗ lực được thực hiện để “làm sạch” các thử nghiệm bằng cách loại bỏ các ví dụ trùng lặp. Nhưng điều này khó thực hiện một cách toàn diện, đặc biệt là khi các mô hình có thể đã nhìn thấy các phiên bản được viết lại hoặc dịch của các câu hỏi.

Vì vậy, trong khi các thử nghiệm có thể kiểm tra một tập hợp rộng lớn các kỹ năng một cách hiệu quả, chúng không thể đo lường đáng tin cậy khả năng lý luận thực sự hoặc tránh lạm phát điểm số do ô nhiễm. Các phương pháp đánh giá bổ sung là cần thiết.

Tự Đánh giá LLM

Một cách tiếp cận thú vị là để một LLM đánh giá đầu ra của một LLM khác. Ý tưởng là tận dụng khái niệm nhiệm vụ “dễ hơn“:

  • Tạo ra một đầu ra chất lượng cao có thể khó khăn cho một LLM.
  • Nhưng xác định xem một đầu ra đã cho là chất lượng cao có thể là một nhiệm vụ dễ hơn.

Ví dụ, trong khi một LLM có thể gặp khó khăn khi tạo một đoạn văn bản thực tế, mạch lạc từ đầu, nó có thể dễ dàng hơn trong việc đánh giá xem một đoạn văn bản đã cho có ý nghĩa logic và phù hợp với ngữ cảnh.

Vì vậy, quá trình là:

  1. Truyền đầu vào prompt cho LLM đầu tiên để tạo ra đầu ra.
  2. Truyền đầu vào prompt + đầu ra được tạo cho LLM “đánh giá” thứ hai.
  3. Hỏi LLM đánh giá một câu hỏi để đánh giá chất lượng đầu ra. Ví dụ: “Liệu câu trả lời trên có ý nghĩa logic?”

Cách tiếp cận này nhanh chóng để thực hiện và tự động hóa việc đánh giá LLM. Nhưng có một số thách thức:

  • Hiệu suất phụ thuộc nặng vào việc chọn LLM đánh giá và cách viết prompt.
  • Bị hạn chế bởi độ khó của nhiệm vụ ban đầu. Đánh giá lý luận phức tạp vẫn khó đối với LLM.
  • Có thể tốn kém về mặt tính toán nếu sử dụng LLM dựa trên API.

Tự đánh giá đặc biệt có hứa hẹn cho việc đánh giá thông tin được truy xuất trong RAG (hệ thống tạo tăng cường bằng cách truy xuất). Các truy vấn LLM bổ sung có thể xác nhận xem ngữ cảnh được truy xuất có được sử dụng một cách phù hợp.

Tổng thể, tự đánh giá cho thấy tiềm năng nhưng đòi hỏi sự cẩn thận trong việc thực hiện. Nó bổ sung, chứ không thay thế, việc đánh giá của con người.

Đánh giá của Con người

Được xem xét những hạn chế của các độ đo tự động và các thử nghiệm, đánh giá của con người vẫn là tiêu chuẩn vàng để đánh giá nghiêm ngặt chất lượng LLM.

Các chuyên gia có thể cung cấp đánh giá chất lượng chi tiết về:

  • Độ chính xác và tính chính xác的事 thực
  • Lý luận, lý luận và lý luận thông thường
  • Sự mạch lạc, nhất quán và khả năng đọc
  • Phù hợp của giọng điệu, phong cách và giọng nói
  • Ngữ pháp và lưu loát
  • Sáng tạo và tinh tế

Để đánh giá một mô hình, con người được cung cấp một tập hợp các prompt đầu vào và các phản hồi được tạo bởi LLM. Họ đánh giá chất lượng của các phản hồi, thường sử dụng thang điểm và tiêu chí.

Nhược điểm là việc đánh giá thủ công của con người tốn kém, chậm và khó mở rộng quy mô. Nó cũng đòi hỏi phải phát triển các tiêu chí chuẩn hóa và đào tạo các người đánh giá để áp dụng chúng một cách nhất quán.

Một số nhà nghiên cứu đã khám phá các cách sáng tạo để huy động đánh giá LLM của con người bằng cách sử dụng hệ thống giải đấu, nơi mọi người đặt cược và đánh giá các trận đấu giữa các mô hình. Nhưng phạm vi vẫn còn hạn chế so với việc đánh giá thủ công đầy đủ.

Đối với các trường hợp sử dụng kinh doanh, nơi chất lượng quan trọng hơn quy mô thô, kiểm tra của chuyên gia vẫn là tiêu chuẩn vàng mặc dù có chi phí. Điều này đặc biệt đúng đối với các ứng dụng rủi ro hơn của LLM.

Kết luận

Đánh giá mô hình ngôn ngữ lớn một cách toàn diện đòi hỏi sử dụng một bộ công cụ đa dạng gồm các phương pháp bổ sung, thay vì dựa vào một kỹ thuật duy nhất.

Bằng cách kết hợp các phương pháp tự động để có tốc độ với sự giám sát của con người để có độ chính xác, chúng ta có thể phát triển các phương pháp thử nghiệm đáng tin cậy cho mô hình ngôn ngữ lớn. Với việc đánh giá mạnh mẽ, chúng ta có thể mở khóa tiềm năng to lớn của LLM trong khi quản lý rủi ro của chúng một cách có trách nhiệm.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với sự tập trung đặc biệt vào AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến với Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.