ปัญญาประดิษฐ์

การประเมินโมเดลภาษาขนาดใหญ่: คู่มือทางเทคนิค

Published January 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

โมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT-4, Claude และ LLaMA ได้ระเบิดในความนิยม เนื่องจากความสามารถในการสร้างข้อความที่เหมือนมนุษย์ ทำให้ระบบ AI เหล่านี้ถูกใช้ในทุกสิ่ง ตั้งแต่การสร้างเนื้อหาถึงการบริการลูกค้าแบบชัตบอท

แต่เราจะรู้ได้อย่างไรว่าโมเดลเหล่านี้ดีจริงๆ? โดยมีโมเดล LLM ใหม่ๆ ที่ประกาศอย่างต่อเนื่อง ทั้งหมดอ้างว่าเป็นใหญ่กว่าและดีกว่า เราจะประเมินและเปรียบเทียบประสิทธิภาพของพวกมันอย่างไร

ในคู่มือที่ครอบคลุมนี้ เราจะสำรวจเทคนิคชั้นนำสำหรับการประเมินโมเดลภาษาขนาดใหญ่ เราจะมองหาข้อดีและข้อเสียของแต่ละแนวทาง เมื่อใดที่ควรใช้ และวิธีการใช้ประโยชน์จากมันในการทดสอบ LLM ของคุณเอง

เมตริกตามงาน

วิธีการประเมิน LLM ที่ตรงไปตรงมาที่สุดคือการทดสอบมันในงาน NLP ที่กำหนดโดยใช้เมตริกมาตรฐาน ตัวอย่างเช่น:

การสรุป

สำหรับงานสรุป เมตริกอย่าง ROUGE (Recall-Oriented Understudy for Gisting Evaluation) มักถูกใช้ ROUGE เปรียบเทียบสรุปที่สร้างโดยโมเดลกับสรุป “อ้างอิง” ที่เขียนโดยมนุษย์ โดยนับจำนวนคำหรือวลีที่ทับซ้อนกัน

มีหลายรูปแบบของ ROUGE แต่ละรูปแบบมีข้อดีและข้อเสีย:

ROUGE-N: เปรียบเทียบการทับซ้อนของ n-grams (ลำดับของ N คำ) ROUGE-1 ใช้ unigrams (คำเดียว) ROUGE-2 ใช้ bigrams และอื่นๆ ข้อได้เปรียบคือสามารถจับลำดับคำ แต่อาจเข้มงวดเกินไป
ROUGE-L: ขึ้นอยู่กับลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ แต่มุ่งเน้นไปที่จุดหลัก
ROUGE-W: ใส่น้ำหนักการตรงกันของ LCS เพื่อปรับปรุง ROUGE-L

โดยทั่วไป เมตริก ROUGE มีความเร็ว อัตโนมัติ และทำงานได้ดีสำหรับการจัดอันดับสรุปของระบบ แต่ไม่วัดความสอดคล้องหรือความหมาย สรุปอาจได้คะแนน ROUGE สูงแต่ยังคงไม่มี意义

สูตรสำหรับ ROUGE-N คือ:

$ROUGE-N = \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

โดยที่:

Count_{match}(gram_n) คือจำนวน n-grams ทั้งในสรุปที่สร้างและสรุปอ้างอิง
Count(gram_n) คือจำนวน n-grams ในสรุปอ้างอิง

ตัวอย่างสำหรับ ROUGE-1 (unigrams):

สรุปที่สร้าง: “แมวนั่ง”
สรุปอ้างอิง: “แมวนั่งอยู่บนพรม”
unigrams ที่ทับซ้อน: “แมว”, “นั่ง”
คะแนน ROUGE-1 = 2/4 = 0.5

ROUGE-L ใช้ลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ สูตรคือ:

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

โดยที่ LCS คือความยาวของลำดับย่อยที่ยาวที่สุด

ROUGE-W ใส่น้ำหนักการตรงกันของ LCS โดยพิจารณาความสำคัญของการตรงกันแต่ละครั้ง

การแปล

สำหรับงานแปล BLEU (Bilingual Evaluation Understudy) เป็นเมตริกที่นิยม เมตริก BLEU วัดความคล้ายคลึงระหว่างการแปลที่สร้างโดยโมเดลกับการแปลโดยผู้เชี่ยวชาญ โดยใช้ความแม่นยำของ n-grams และการลงโทษความสั้น

ประเด็นสำคัญของวิธีการทำงานของ BLEU:

เปรียบเทียบการทับซ้อนของ n-grams สำหรับ n สูงสุด 4 (unigrams, bigrams, trigrams, 4-grams)
คำนวณค่าเฉลี่ยเรขาคณิตของความแม่นยำ n-grams
ใช้การลงโทษความสั้นหากการแปลสั้นกว่าการแปลอ้างอิงมาก
โดยทั่วไปอยู่ในช่วง 0 ถึง 1 โดยที่ 1 คือการตรงกันสมบูรณ์กับการแปลอ้างอิง

BLEU สอดคล้องกับการตัดสินของมนุษย์เกี่ยวกับคุณภาพการแปลอย่างสมเหตุสมผล แต่ยังคงมีข้อจำกัด:

วัดเพียงความแม่นยำเท่านั้น ไม่ใช่การเรียกคืนหรือ F1
มีปัญหากับการแปลที่สร้างสรรค์โดยใช้คำศัพท์ต่างกัน
เสี่ยงต่อการ “หลอกลวง” ด้วยเคล็ดลับการแปล

เมตริกการแปลอื่นๆ เช่น METEOR และ TER พยายามปรับปรุงจุดอ่อนของ BLEU แต่โดยทั่วไป เมตริกอัตโนมัติไม่สามารถจับคุณภาพการแปลได้อย่างสมบูรณ์

งานอื่นๆ

นอกเหนือจากงานสรุปและแปล เมตริกอย่าง F1, ความแม่นยำ, MSE และอื่นๆ สามารถใช้ประเมินประสิทธิภาพ LLM ในงานต่างๆ เช่น:

การจำแนกประเภทข้อความ
การดึงข้อมูล
การตอบคำถาม
การวิเคราะห์ความรู้สึก
การตรวจจับข้อผิดพลาดทางไวยกรณ์

ข้อได้เปรียบของเมตริกตามงานคือสามารถประเมินได้อย่างสมบูรณ์อัตโนมัติโดยใช้เซตข้อมูลมาตรฐาน เช่น SQuAD สำหรับการตอบคำถามและ GLUE สำหรับงานต่างๆ ผลลัพธ์สามารถติดตามได้ง่ายเมื่อเวลาผ่านไปตามที่โมเดลปรับปรุง

อย่างไรก็ตาม เมตริกเหล่านี้มุ่งเน้นแคบและไม่สามารถวัดคุณภาพภาษาทั่วไปได้ LLM ที่ทำงานได้ดีในเมตริกสำหรับงานเดียวอาจล้มเหลวในการสร้างข้อความที่สอดคล้อง มีเหตุผล และมีประโยชน์โดยทั่วไป

มาตรฐานการวิจัย

วิธีการที่ได้รับความนิยมในการประเมิน LLM คือการทดสอบมันผ่านมาตรฐานการวิจัยที่ครอบคลุมหัวข้อและทักษะที่หลากหลาย มาตรฐานเหล่านี้ทำให้สามารถทดสอบโมเดลได้อย่างรวดเร็วในระดับใหญ่

มาตรฐานที่รู้จักกันดี ได้แก่:

SuperGLUE – ชุดงานภาษาที่ท้าทาย 11 งาน
GLUE – ชุดงานความเข้าใจประโยค 9 งาน ง่ายกว่า SuperGLUE
MMLU – 57 งานต่างๆ ในสาขาวิทยาศาสตร์ สังคมศาสตร์ และมนุษยศาสตร์ ทดสอบความรู้และความสามารถในการให้เหตุผล
Winograd Schema Challenge – ปัญหาในการแก้ไขคำสรรพนามที่ต้องการความเข้าใจทั่วไป
ARC – งานให้เหตุผลภาษาที่ท้าทาย
Hellaswag – การให้เหตุผลทั่วไปเกี่ยวกับสถานการณ์
PIQA – คำถามฟิสิกส์ที่ต้องใช้แผนภาพ

โดยการประเมินมาตรฐานเหล่านี้ นักวิจัยสามารถทดสอบโมเดลได้อย่างรวดเร็วในความสามารถในการทำคณิตศาสตร์ การให้เหตุผล การเขียนโค้ด ความเข้าใจทั่วไป และอื่นๆ เปอร์เซ็นต์ของคำถามที่ตอบถูกต้องกลายเป็นเมตริกมาตรฐานสำหรับการเปรียบเทียบโมเดล

อย่างไรก็ตาม ปัญหาหลักของมาตรฐานคือ การปนเปื้อนของข้อมูลฝึก มาตรฐานหลายมาตรฐานมีตัวอย่างที่โมเดลเห็นแล้วระหว่างการฝึก预การ ซึ่งช่วยให้โมเดล “จดจำ” คำตอบของคำถามเฉพาะและทำงานได้ดีกว่าความสามารถจริง

มีการพยายาม “ล้างพิษ” มาตรฐานโดยการลบตัวอย่างที่ทับซ้อน แต่นี่เป็นเรื่องที่ท้าทาย โดยเฉพาะอย่างยิ่งเมื่อโมเดลอาจเห็นตัวอย่างที่แปลหรือเขียนใหม่ของคำถาม

ดังนั้น แม้ว่ามาตรฐานจะทดสอบชุดทักษะที่กว้างขวางได้อย่างมีประสิทธิภาพ แต่ก็ไม่สามารถวัดความสามารถในการให้เหตุผลที่แท้จริงหรือหลีกเลี่ยงการอิ่มตัวของคะแนนเนื่องจากการปนเปื้อนได้ วิธีการประเมินเสริมจำเป็นต้องใช้

การประเมิน LLM ด้วยตนเอง

แนวทางที่น่าสนใจคือการให้ LLM ประเมินผลลัพธ์ของ LLM อีกตัวหนึ่ง ความคิดคือการใช้แนวคิด “งานที่ง่ายกว่า”:

การสร้างผลลัพธ์คุณภาพสูงอาจเป็นงานที่ยากสำหรับ LLM
แต่การกำหนดว่าผลลัพธ์ที่กำหนดมีคุณภาพสูงอาจเป็นงานที่ง่ายกว่า

ตัวอย่างเช่น ในขณะที่ LLM อาจต้องดิ้นรนในการสร้าง段落ที่มี事实และเชื่อมโยงกัน แต่ก็สามารถตัดสินได้ง่ายกว่าว่า段落ที่กำหนดมีเหตุผลและเหมาะสมกับบริบทหรือไม่

ดังนั้น กระบวนการคือ:

ส่งพรอมต์ข้อมูลเข้า LLM แรกเพื่อสร้างผลลัพธ์
ส่งพรอมต์ข้อมูล + ผลลัพธ์ที่สร้างไปยัง LLM “ผู้ประเมิน” ที่สอง
ถาม LLM ผู้ประเมินเพื่อประเมินคุณภาพผลลัพธ์ ตัวอย่างเช่น “คำตอบด้านบนมีเหตุผลหรือไม่?”

แนวทางนี้เร็วในการนำไปใช้และทำให้การประเมิน LLM อัตโนมัติ แต่ก็มีบางความท้าทาย:

ประสิทธิภาพขึ้นอยู่กับการเลือก LLM ผู้ประเมินและคำพรอมต์
ถูกจำกัดด้วยความยากของงานเดิม การประเมินการให้เหตุผลที่ซับซ้อนยังคงเป็นเรื่องที่ยากสำหรับ LLM
อาจมีค่าใช้จ่ายในการคำนวณสูงหากใช้ LLM แบบ API

การประเมินตนเองมีแนวโน้มมากในการประเมินข้อมูลที่ดึงมาในระบบ RAG (retrieval-augmented generation) การสืบค้นเพิ่มเติมสามารถตรวจสอบว่าบริบทที่ดึงมาใช้เหมาะสมหรือไม่

โดยรวมแล้ว การประเมินตนเองแสดงให้เห็นถึงความมีหวัง แต่ต้องการความระมัดระวังในการนำไปใช้ มันเสริมการประเมินของมนุษย์ แต่ไม่แทนที่มัน

การประเมินของมนุษย์

เมื่อพิจารณาถึงข้อจำกัดของเมตริกอัตโนมัติและมาตรฐาน การประเมินของมนุษย์ยังคงเป็นมาตรฐานทองคำสำหรับการประเมินคุณภาพ LLM อย่างเข้มงวด

ผู้เชี่ยวชาญสามารถให้การประเมินเชิงคุณภาพที่มีรายละเอียดเกี่ยวกับ:

ความถูกต้องและความแม่นยำของข้อเท็จจริง
การให้เหตุผล ความเข้าใจทั่วไป และความสอดคล้อง
ความสอดคล้อง ความสม่ำเสมอ และความอ่านง่าย
ความเหมาะสมของโทน รูปแบบ และเสียง
ความถูกต้องทางไวยกรณ์และความคล่องแคล่ว
ความสร้างสรรค์และความเข้าใจอย่างลึกซึ้ง

เพื่อประเมินโมเดล มนุษย์จะได้รับชุดพรอมต์ข้อมูลและผลลัพธ์ที่สร้างโดย LLM พวกเขาจะประเมินคุณภาพของผลลัพธ์ โดยมักใช้มาตราส่วนการให้คะแนนและเกณฑ์มาตรฐาน

ข้อเสียคือการประเมินของมนุษย์เป็นเรื่องที่มีค่าใช้จ่ายสูง ช้า และยากต่อการขยายขนาด นอกจากนี้ยังต้องมีการพัฒนามาตรฐานและฝึกผู้ให้คะแนนเพื่อใช้มาตรฐานเหล่านั้นอย่างต่อเนื่อง

นักวิจัยบางคนได้สำรวจวิธีการสร้างสรรค์ในการระดมทุนการประเมิน LLM ของมนุษย์โดยใช้ระบบทัวร์นาเมนต์ โดยที่คนๆ ต่างๆ เดิมพันและตัดสินการแข่งขันระหว่างโมเดล แต่การครอบคลุมยังคงจำกัดเมื่อเทียบกับการประเมินแบบมือโดยตรง

สำหรับการใช้งานทางธุรกิจที่คุณภาพมีความสำคัญมากกว่าขนาดโดยรวม การทดสอบโดยผู้เชี่ยวชาญยังคงเป็นมาตรฐานทองคำ尽管มีค่าใช้จ่ายสูง นี่เป็นจริงโดยเฉพาะสำหรับการใช้งาน LLM ที่มีความเสี่ยง

สรุป

การประเมินโมเดลภาษาขนาดใหญ่อย่างครอบคลุมต้องใช้ชุดเครื่องมือที่หลากหลายของวิธีการที่เสริมซึ่งกันและกัน แทนที่จะพึ่งพาวิธีการเดียว

โดยการรวมวิธีการอัตโนมัติสำหรับความเร็วกับการกำกับดูแลของมนุษย์ที่เข้มงวดสำหรับความแม่นยำ เราสามารถพัฒนาวิธีการทดสอบที่เชื่อถือได้สำหรับโมเดลภาษาขนาดใหญ่ ด้วยการประเมินที่มั่นคง เราสามารถปลดปล่อยศักยภาพที่ยิ่งใหญ่ของ LLM ขณะที่จัดการความเสี่ยงได้อย่างรับผิดชอบ

Aayush Mittal

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม

Unite.AI