ปัญญาประดิษฐ์
การประเมินโมเดลภาษาขนาดใหญ่: คู่มือทางเทคนิค

โมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT-4, Claude และ LLaMA ได้ระเบิดในความนิยม เนื่องจากความสามารถในการสร้างข้อความที่เหมือนมนุษย์ ทำให้ระบบ AI เหล่านี้ถูกใช้ในทุกสิ่ง ตั้งแต่การสร้างเนื้อหาถึงการบริการลูกค้าแบบชัตบอท
แต่เราจะรู้ได้อย่างไรว่าโมเดลเหล่านี้ดีจริงๆ? โดยมีโมเดล LLM ใหม่ๆ ที่ประกาศอย่างต่อเนื่อง ทั้งหมดอ้างว่าเป็นใหญ่กว่าและดีกว่า เราจะประเมินและเปรียบเทียบประสิทธิภาพของพวกมันอย่างไร
ในคู่มือที่ครอบคลุมนี้ เราจะสำรวจเทคนิคชั้นนำสำหรับการประเมินโมเดลภาษาขนาดใหญ่ เราจะมองหาข้อดีและข้อเสียของแต่ละแนวทาง เมื่อใดที่ควรใช้ และวิธีการใช้ประโยชน์จากมันในการทดสอบ LLM ของคุณเอง
เมตริกตามงาน
วิธีการประเมิน LLM ที่ตรงไปตรงมาที่สุดคือการทดสอบมันในงาน NLP ที่กำหนดโดยใช้เมตริกมาตรฐาน ตัวอย่างเช่น:
การสรุป
สำหรับงานสรุป เมตริกอย่าง ROUGE (Recall-Oriented Understudy for Gisting Evaluation) มักถูกใช้ ROUGE เปรียบเทียบสรุปที่สร้างโดยโมเดลกับสรุป “อ้างอิง” ที่เขียนโดยมนุษย์ โดยนับจำนวนคำหรือวลีที่ทับซ้อนกัน
มีหลายรูปแบบของ ROUGE แต่ละรูปแบบมีข้อดีและข้อเสีย:
- ROUGE-N: เปรียบเทียบการทับซ้อนของ n-grams (ลำดับของ N คำ) ROUGE-1 ใช้ unigrams (คำเดียว) ROUGE-2 ใช้ bigrams และอื่นๆ ข้อได้เปรียบคือสามารถจับลำดับคำ แต่อาจเข้มงวดเกินไป
- ROUGE-L: ขึ้นอยู่กับลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ แต่มุ่งเน้นไปที่จุดหลัก
- ROUGE-W: ใส่น้ำหนักการตรงกันของ LCS เพื่อปรับปรุง ROUGE-L
โดยทั่วไป เมตริก ROUGE มีความเร็ว อัตโนมัติ และทำงานได้ดีสำหรับการจัดอันดับสรุปของระบบ แต่ไม่วัดความสอดคล้องหรือความหมาย สรุปอาจได้คะแนน ROUGE สูงแต่ยังคงไม่มี意义
สูตรสำหรับ ROUGE-N คือ:
ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑
โดยที่:
Count_{match}(gram_n)คือจำนวน n-grams ทั้งในสรุปที่สร้างและสรุปอ้างอิงCount(gram_n)คือจำนวน n-grams ในสรุปอ้างอิง
ตัวอย่างสำหรับ ROUGE-1 (unigrams):
- สรุปที่สร้าง: “แมวนั่ง”
- สรุปอ้างอิง: “แมวนั่งอยู่บนพรม”
- unigrams ที่ทับซ้อน: “แมว”, “นั่ง”
- คะแนน ROUGE-1 = 2/4 = 0.5
ROUGE-L ใช้ลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ สูตรคือ:
ROUGE-L=���(generated,reference)max(length(generated), length(reference))
โดยที่ LCS คือความยาวของลำดับย่อยที่ยาวที่สุด
ROUGE-W ใส่น้ำหนักการตรงกันของ LCS โดยพิจารณาความสำคัญของการตรงกันแต่ละครั้ง
การแปล
สำหรับงานแปล BLEU (Bilingual Evaluation Understudy) เป็นเมตริกที่นิยม เมตริก BLEU วัดความคล้ายคลึงระหว่างการแปลที่สร้างโดยโมเดลกับการแปลโดยผู้เชี่ยวชาญ โดยใช้ความแม่นยำของ n-grams และการลงโทษความสั้น
ประเด็นสำคัญของวิธีการทำงานของ BLEU:
- เปรียบเทียบการทับซ้อนของ n-grams สำหรับ n สูงสุด 4 (unigrams, bigrams, trigrams, 4-grams)
- คำนวณค่าเฉลี่ยเรขาคณิตของความแม่นยำ n-grams
- ใช้การลงโทษความสั้นหากการแปลสั้นกว่าการแปลอ้างอิงมาก
- โดยทั่วไปอยู่ในช่วง 0 ถึง 1 โดยที่ 1 คือการตรงกันสมบูรณ์กับการแปลอ้างอิง
BLEU สอดคล้องกับการตัดสินของมนุษย์เกี่ยวกับคุณภาพการแปลอย่างสมเหตุสมผล แต่ยังคงมีข้อจำกัด:
- วัดเพียงความแม่นยำเท่านั้น ไม่ใช่การเรียกคืนหรือ F1
- มีปัญหากับการแปลที่สร้างสรรค์โดยใช้คำศัพท์ต่างกัน
- เสี่ยงต่อการ “หลอกลวง” ด้วยเคล็ดลับการแปล
เมตริกการแปลอื่นๆ เช่น METEOR และ TER พยายามปรับปรุงจุดอ่อนของ BLEU แต่โดยทั่วไป เมตริกอัตโนมัติไม่สามารถจับคุณภาพการแปลได้อย่างสมบูรณ์
งานอื่นๆ
นอกเหนือจากงานสรุปและแปล เมตริกอย่าง F1, ความแม่นยำ, MSE และอื่นๆ สามารถใช้ประเมินประสิทธิภาพ LLM ในงานต่างๆ เช่น:
- การจำแนกประเภทข้อความ
- การดึงข้อมูล
- การตอบคำถาม
- การวิเคราะห์ความรู้สึก
- การตรวจจับข้อผิดพลาดทางไวยกรณ์
ข้อได้เปรียบของเมตริกตามงานคือสามารถประเมินได้อย่างสมบูรณ์อัตโนมัติโดยใช้เซตข้อมูลมาตรฐาน เช่น SQuAD สำหรับการตอบคำถามและ GLUE สำหรับงานต่างๆ ผลลัพธ์สามารถติดตามได้ง่ายเมื่อเวลาผ่านไปตามที่โมเดลปรับปรุง
อย่างไรก็ตาม เมตริกเหล่านี้มุ่งเน้นแคบและไม่สามารถวัดคุณภาพภาษาทั่วไปได้ LLM ที่ทำงานได้ดีในเมตริกสำหรับงานเดียวอาจล้มเหลวในการสร้างข้อความที่สอดคล้อง มีเหตุผล และมีประโยชน์โดยทั่วไป
มาตรฐานการวิจัย
วิธีการที่ได้รับความนิยมในการประเมิน LLM คือการทดสอบมันผ่านมาตรฐานการวิจัยที่ครอบคลุมหัวข้อและทักษะที่หลากหลาย มาตรฐานเหล่านี้ทำให้สามารถทดสอบโมเดลได้อย่างรวดเร็วในระดับใหญ่
มาตรฐานที่รู้จักกันดี ได้แก่:
- SuperGLUE – ชุดงานภาษาที่ท้าทาย 11 งาน
- GLUE – ชุดงานความเข้าใจประโยค 9 งาน ง่ายกว่า SuperGLUE
- MMLU – 57 งานต่างๆ ในสาขาวิทยาศาสตร์ สังคมศาสตร์ และมนุษยศาสตร์ ทดสอบความรู้และความสามารถในการให้เหตุผล
- Winograd Schema Challenge – ปัญหาในการแก้ไขคำสรรพนามที่ต้องการความเข้าใจทั่วไป
- ARC – งานให้เหตุผลภาษาที่ท้าทาย
- Hellaswag – การให้เหตุผลทั่วไปเกี่ยวกับสถานการณ์
- PIQA – คำถามฟิสิกส์ที่ต้องใช้แผนภาพ
โดยการประเมินมาตรฐานเหล่านี้ นักวิจัยสามารถทดสอบโมเดลได้อย่างรวดเร็วในความสามารถในการทำคณิตศาสตร์ การให้เหตุผล การเขียนโค้ด ความเข้าใจทั่วไป และอื่นๆ เปอร์เซ็นต์ของคำถามที่ตอบถูกต้องกลายเป็นเมตริกมาตรฐานสำหรับการเปรียบเทียบโมเดล
อย่างไรก็ตาม ปัญหาหลักของมาตรฐานคือ การปนเปื้อนของข้อมูลฝึก มาตรฐานหลายมาตรฐานมีตัวอย่างที่โมเดลเห็นแล้วระหว่างการฝึก预การ ซึ่งช่วยให้โมเดล “จดจำ” คำตอบของคำถามเฉพาะและทำงานได้ดีกว่าความสามารถจริง
มีการพยายาม “ล้างพิษ” มาตรฐานโดยการลบตัวอย่างที่ทับซ้อน แต่นี่เป็นเรื่องที่ท้าทาย โดยเฉพาะอย่างยิ่งเมื่อโมเดลอาจเห็นตัวอย่างที่แปลหรือเขียนใหม่ของคำถาม
ดังนั้น แม้ว่ามาตรฐานจะทดสอบชุดทักษะที่กว้างขวางได้อย่างมีประสิทธิภาพ แต่ก็ไม่สามารถวัดความสามารถในการให้เหตุผลที่แท้จริงหรือหลีกเลี่ยงการอิ่มตัวของคะแนนเนื่องจากการปนเปื้อนได้ วิธีการประเมินเสริมจำเป็นต้องใช้
การประเมิน LLM ด้วยตนเอง
แนวทางที่น่าสนใจคือการให้ LLM ประเมินผลลัพธ์ของ LLM อีกตัวหนึ่ง ความคิดคือการใช้แนวคิด “งานที่ง่ายกว่า”:
- การสร้างผลลัพธ์คุณภาพสูงอาจเป็นงานที่ยากสำหรับ LLM
- แต่การกำหนดว่าผลลัพธ์ที่กำหนดมีคุณภาพสูงอาจเป็นงานที่ง่ายกว่า
ตัวอย่างเช่น ในขณะที่ LLM อาจต้องดิ้นรนในการสร้าง段落ที่มี事实และเชื่อมโยงกัน แต่ก็สามารถตัดสินได้ง่ายกว่าว่า段落ที่กำหนดมีเหตุผลและเหมาะสมกับบริบทหรือไม่
ดังนั้น กระบวนการคือ:
- ส่งพรอมต์ข้อมูลเข้า LLM แรกเพื่อสร้างผลลัพธ์
- ส่งพรอมต์ข้อมูล + ผลลัพธ์ที่สร้างไปยัง LLM “ผู้ประเมิน” ที่สอง
- ถาม LLM ผู้ประเมินเพื่อประเมินคุณภาพผลลัพธ์ ตัวอย่างเช่น “คำตอบด้านบนมีเหตุผลหรือไม่?”
แนวทางนี้เร็วในการนำไปใช้และทำให้การประเมิน LLM อัตโนมัติ แต่ก็มีบางความท้าทาย:
- ประสิทธิภาพขึ้นอยู่กับการเลือก LLM ผู้ประเมินและคำพรอมต์
- ถูกจำกัดด้วยความยากของงานเดิม การประเมินการให้เหตุผลที่ซับซ้อนยังคงเป็นเรื่องที่ยากสำหรับ LLM
- อาจมีค่าใช้จ่ายในการคำนวณสูงหากใช้ LLM แบบ API
การประเมินตนเองมีแนวโน้มมากในการประเมินข้อมูลที่ดึงมาในระบบ RAG (retrieval-augmented generation) การสืบค้นเพิ่มเติมสามารถตรวจสอบว่าบริบทที่ดึงมาใช้เหมาะสมหรือไม่
โดยรวมแล้ว การประเมินตนเองแสดงให้เห็นถึงความมีหวัง แต่ต้องการความระมัดระวังในการนำไปใช้ มันเสริมการประเมินของมนุษย์ แต่ไม่แทนที่มัน
การประเมินของมนุษย์
เมื่อพิจารณาถึงข้อจำกัดของเมตริกอัตโนมัติและมาตรฐาน การประเมินของมนุษย์ยังคงเป็นมาตรฐานทองคำสำหรับการประเมินคุณภาพ LLM อย่างเข้มงวด
ผู้เชี่ยวชาญสามารถให้การประเมินเชิงคุณภาพที่มีรายละเอียดเกี่ยวกับ:
- ความถูกต้องและความแม่นยำของข้อเท็จจริง
- การให้เหตุผล ความเข้าใจทั่วไป และความสอดคล้อง
- ความสอดคล้อง ความสม่ำเสมอ และความอ่านง่าย
- ความเหมาะสมของโทน รูปแบบ และเสียง
- ความถูกต้องทางไวยกรณ์และความคล่องแคล่ว
- ความสร้างสรรค์และความเข้าใจอย่างลึกซึ้ง
เพื่อประเมินโมเดล มนุษย์จะได้รับชุดพรอมต์ข้อมูลและผลลัพธ์ที่สร้างโดย LLM พวกเขาจะประเมินคุณภาพของผลลัพธ์ โดยมักใช้มาตราส่วนการให้คะแนนและเกณฑ์มาตรฐาน
ข้อเสียคือการประเมินของมนุษย์เป็นเรื่องที่มีค่าใช้จ่ายสูง ช้า และยากต่อการขยายขนาด นอกจากนี้ยังต้องมีการพัฒนามาตรฐานและฝึกผู้ให้คะแนนเพื่อใช้มาตรฐานเหล่านั้นอย่างต่อเนื่อง
นักวิจัยบางคนได้สำรวจวิธีการสร้างสรรค์ในการระดมทุนการประเมิน LLM ของมนุษย์โดยใช้ระบบทัวร์นาเมนต์ โดยที่คนๆ ต่างๆ เดิมพันและตัดสินการแข่งขันระหว่างโมเดล แต่การครอบคลุมยังคงจำกัดเมื่อเทียบกับการประเมินแบบมือโดยตรง
สำหรับการใช้งานทางธุรกิจที่คุณภาพมีความสำคัญมากกว่าขนาดโดยรวม การทดสอบโดยผู้เชี่ยวชาญยังคงเป็นมาตรฐานทองคำ尽管มีค่าใช้จ่ายสูง นี่เป็นจริงโดยเฉพาะสำหรับการใช้งาน LLM ที่มีความเสี่ยง
สรุป
การประเมินโมเดลภาษาขนาดใหญ่อย่างครอบคลุมต้องใช้ชุดเครื่องมือที่หลากหลายของวิธีการที่เสริมซึ่งกันและกัน แทนที่จะพึ่งพาวิธีการเดียว
โดยการรวมวิธีการอัตโนมัติสำหรับความเร็วกับการกำกับดูแลของมนุษย์ที่เข้มงวดสำหรับความแม่นยำ เราสามารถพัฒนาวิธีการทดสอบที่เชื่อถือได้สำหรับโมเดลภาษาขนาดใหญ่ ด้วยการประเมินที่มั่นคง เราสามารถปลดปล่อยศักยภาพที่ยิ่งใหญ่ของ LLM ขณะที่จัดการความเสี่ยงได้อย่างรับผิดชอบ












