ปัญญาประดิษฐ์

การประเมินโมเดลภาษาขนาดใหญ่: คู่มือทางเทคนิค

mm
Evaluating Large Language Models

โมเดลภาษาขนาดใหญ่ (LLMs) เช่น GPT-4, Claude และ LLaMA ได้ระเบิดในความนิยม เนื่องจากความสามารถในการสร้างข้อความที่เหมือนมนุษย์ ทำให้ระบบ AI เหล่านี้ถูกใช้ในทุกสิ่ง ตั้งแต่การสร้างเนื้อหาถึงการบริการลูกค้าแบบชัตบอท

แต่เราจะรู้ได้อย่างไรว่าโมเดลเหล่านี้ดีจริงๆ? โดยมีโมเดล LLM ใหม่ๆ ที่ประกาศอย่างต่อเนื่อง ทั้งหมดอ้างว่าเป็นใหญ่กว่าและดีกว่า เราจะประเมินและเปรียบเทียบประสิทธิภาพของพวกมันอย่างไร

ในคู่มือที่ครอบคลุมนี้ เราจะสำรวจเทคนิคชั้นนำสำหรับการประเมินโมเดลภาษาขนาดใหญ่ เราจะมองหาข้อดีและข้อเสียของแต่ละแนวทาง เมื่อใดที่ควรใช้ และวิธีการใช้ประโยชน์จากมันในการทดสอบ LLM ของคุณเอง

เมตริกตามงาน

วิธีการประเมิน LLM ที่ตรงไปตรงมาที่สุดคือการทดสอบมันในงาน NLP ที่กำหนดโดยใช้เมตริกมาตรฐาน ตัวอย่างเช่น:

การสรุป

สำหรับงานสรุป เมตริกอย่าง ROUGE (Recall-Oriented Understudy for Gisting Evaluation) มักถูกใช้ ROUGE เปรียบเทียบสรุปที่สร้างโดยโมเดลกับสรุป “อ้างอิง” ที่เขียนโดยมนุษย์ โดยนับจำนวนคำหรือวลีที่ทับซ้อนกัน

มีหลายรูปแบบของ ROUGE แต่ละรูปแบบมีข้อดีและข้อเสีย:

  • ROUGE-N: เปรียบเทียบการทับซ้อนของ n-grams (ลำดับของ N คำ) ROUGE-1 ใช้ unigrams (คำเดียว) ROUGE-2 ใช้ bigrams และอื่นๆ ข้อได้เปรียบคือสามารถจับลำดับคำ แต่อาจเข้มงวดเกินไป
  • ROUGE-L: ขึ้นอยู่กับลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ แต่มุ่งเน้นไปที่จุดหลัก
  • ROUGE-W: ใส่น้ำหนักการตรงกันของ LCS เพื่อปรับปรุง ROUGE-L

โดยทั่วไป เมตริก ROUGE มีความเร็ว อัตโนมัติ และทำงานได้ดีสำหรับการจัดอันดับสรุปของระบบ แต่ไม่วัดความสอดคล้องหรือความหมาย สรุปอาจได้คะแนน ROUGE สูงแต่ยังคงไม่มี意义

สูตรสำหรับ ROUGE-N คือ:

ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑

โดยที่:

  • Count_{match}(gram_n) คือจำนวน n-grams ทั้งในสรุปที่สร้างและสรุปอ้างอิง
  • Count(gram_n) คือจำนวน n-grams ในสรุปอ้างอิง

ตัวอย่างสำหรับ ROUGE-1 (unigrams):

  • สรุปที่สร้าง: “แมวนั่ง”
  • สรุปอ้างอิง: “แมวนั่งอยู่บนพรม”
  • unigrams ที่ทับซ้อน: “แมว”, “นั่ง”
  • คะแนน ROUGE-1 = 2/4 = 0.5

ROUGE-L ใช้ลำดับย่อยที่ยาวที่สุด (LCS) มีความยืดหยุ่นมากกว่าในเรื่องลำดับคำ สูตรคือ:

ROUGE-L=���(generated,reference)max(length(generated), length(reference))

โดยที่ LCS คือความยาวของลำดับย่อยที่ยาวที่สุด

ROUGE-W ใส่น้ำหนักการตรงกันของ LCS โดยพิจารณาความสำคัญของการตรงกันแต่ละครั้ง

การแปล

สำหรับงานแปล BLEU (Bilingual Evaluation Understudy) เป็นเมตริกที่นิยม เมตริก BLEU วัดความคล้ายคลึงระหว่างการแปลที่สร้างโดยโมเดลกับการแปลโดยผู้เชี่ยวชาญ โดยใช้ความแม่นยำของ n-grams และการลงโทษความสั้น

ประเด็นสำคัญของวิธีการทำงานของ BLEU:

  • เปรียบเทียบการทับซ้อนของ n-grams สำหรับ n สูงสุด 4 (unigrams, bigrams, trigrams, 4-grams)
  • คำนวณค่าเฉลี่ยเรขาคณิตของความแม่นยำ n-grams
  • ใช้การลงโทษความสั้นหากการแปลสั้นกว่าการแปลอ้างอิงมาก
  • โดยทั่วไปอยู่ในช่วง 0 ถึง 1 โดยที่ 1 คือการตรงกันสมบูรณ์กับการแปลอ้างอิง

BLEU สอดคล้องกับการตัดสินของมนุษย์เกี่ยวกับคุณภาพการแปลอย่างสมเหตุสมผล แต่ยังคงมีข้อจำกัด:

  • วัดเพียงความแม่นยำเท่านั้น ไม่ใช่การเรียกคืนหรือ F1
  • มีปัญหากับการแปลที่สร้างสรรค์โดยใช้คำศัพท์ต่างกัน
  • เสี่ยงต่อการ “หลอกลวง” ด้วยเคล็ดลับการแปล

เมตริกการแปลอื่นๆ เช่น METEOR และ TER พยายามปรับปรุงจุดอ่อนของ BLEU แต่โดยทั่วไป เมตริกอัตโนมัติไม่สามารถจับคุณภาพการแปลได้อย่างสมบูรณ์

งานอื่นๆ

นอกเหนือจากงานสรุปและแปล เมตริกอย่าง F1, ความแม่นยำ, MSE และอื่นๆ สามารถใช้ประเมินประสิทธิภาพ LLM ในงานต่างๆ เช่น:

  • การจำแนกประเภทข้อความ
  • การดึงข้อมูล
  • การตอบคำถาม
  • การวิเคราะห์ความรู้สึก
  • การตรวจจับข้อผิดพลาดทางไวยกรณ์

ข้อได้เปรียบของเมตริกตามงานคือสามารถประเมินได้อย่างสมบูรณ์อัตโนมัติโดยใช้เซตข้อมูลมาตรฐาน เช่น SQuAD สำหรับการตอบคำถามและ GLUE สำหรับงานต่างๆ ผลลัพธ์สามารถติดตามได้ง่ายเมื่อเวลาผ่านไปตามที่โมเดลปรับปรุง

อย่างไรก็ตาม เมตริกเหล่านี้มุ่งเน้นแคบและไม่สามารถวัดคุณภาพภาษาทั่วไปได้ LLM ที่ทำงานได้ดีในเมตริกสำหรับงานเดียวอาจล้มเหลวในการสร้างข้อความที่สอดคล้อง มีเหตุผล และมีประโยชน์โดยทั่วไป

มาตรฐานการวิจัย

วิธีการที่ได้รับความนิยมในการประเมิน LLM คือการทดสอบมันผ่านมาตรฐานการวิจัยที่ครอบคลุมหัวข้อและทักษะที่หลากหลาย มาตรฐานเหล่านี้ทำให้สามารถทดสอบโมเดลได้อย่างรวดเร็วในระดับใหญ่

มาตรฐานที่รู้จักกันดี ได้แก่:

  • SuperGLUE – ชุดงานภาษาที่ท้าทาย 11 งาน
  • GLUE – ชุดงานความเข้าใจประโยค 9 งาน ง่ายกว่า SuperGLUE
  • MMLU – 57 งานต่างๆ ในสาขาวิทยาศาสตร์ สังคมศาสตร์ และมนุษยศาสตร์ ทดสอบความรู้และความสามารถในการให้เหตุผล
  • Winograd Schema Challenge – ปัญหาในการแก้ไขคำสรรพนามที่ต้องการความเข้าใจทั่วไป
  • ARC – งานให้เหตุผลภาษาที่ท้าทาย
  • Hellaswag – การให้เหตุผลทั่วไปเกี่ยวกับสถานการณ์
  • PIQA – คำถามฟิสิกส์ที่ต้องใช้แผนภาพ

โดยการประเมินมาตรฐานเหล่านี้ นักวิจัยสามารถทดสอบโมเดลได้อย่างรวดเร็วในความสามารถในการทำคณิตศาสตร์ การให้เหตุผล การเขียนโค้ด ความเข้าใจทั่วไป และอื่นๆ เปอร์เซ็นต์ของคำถามที่ตอบถูกต้องกลายเป็นเมตริกมาตรฐานสำหรับการเปรียบเทียบโมเดล

อย่างไรก็ตาม ปัญหาหลักของมาตรฐานคือ การปนเปื้อนของข้อมูลฝึก มาตรฐานหลายมาตรฐานมีตัวอย่างที่โมเดลเห็นแล้วระหว่างการฝึก预การ ซึ่งช่วยให้โมเดล “จดจำ” คำตอบของคำถามเฉพาะและทำงานได้ดีกว่าความสามารถจริง

มีการพยายาม “ล้างพิษ” มาตรฐานโดยการลบตัวอย่างที่ทับซ้อน แต่นี่เป็นเรื่องที่ท้าทาย โดยเฉพาะอย่างยิ่งเมื่อโมเดลอาจเห็นตัวอย่างที่แปลหรือเขียนใหม่ของคำถาม

ดังนั้น แม้ว่ามาตรฐานจะทดสอบชุดทักษะที่กว้างขวางได้อย่างมีประสิทธิภาพ แต่ก็ไม่สามารถวัดความสามารถในการให้เหตุผลที่แท้จริงหรือหลีกเลี่ยงการอิ่มตัวของคะแนนเนื่องจากการปนเปื้อนได้ วิธีการประเมินเสริมจำเป็นต้องใช้

การประเมิน LLM ด้วยตนเอง

แนวทางที่น่าสนใจคือการให้ LLM ประเมินผลลัพธ์ของ LLM อีกตัวหนึ่ง ความคิดคือการใช้แนวคิด “งานที่ง่ายกว่า”:

  • การสร้างผลลัพธ์คุณภาพสูงอาจเป็นงานที่ยากสำหรับ LLM
  • แต่การกำหนดว่าผลลัพธ์ที่กำหนดมีคุณภาพสูงอาจเป็นงานที่ง่ายกว่า

ตัวอย่างเช่น ในขณะที่ LLM อาจต้องดิ้นรนในการสร้าง段落ที่มี事实และเชื่อมโยงกัน แต่ก็สามารถตัดสินได้ง่ายกว่าว่า段落ที่กำหนดมีเหตุผลและเหมาะสมกับบริบทหรือไม่

ดังนั้น กระบวนการคือ:

  1. ส่งพรอมต์ข้อมูลเข้า LLM แรกเพื่อสร้างผลลัพธ์
  2. ส่งพรอมต์ข้อมูล + ผลลัพธ์ที่สร้างไปยัง LLM “ผู้ประเมิน” ที่สอง
  3. ถาม LLM ผู้ประเมินเพื่อประเมินคุณภาพผลลัพธ์ ตัวอย่างเช่น “คำตอบด้านบนมีเหตุผลหรือไม่?”

แนวทางนี้เร็วในการนำไปใช้และทำให้การประเมิน LLM อัตโนมัติ แต่ก็มีบางความท้าทาย:

  • ประสิทธิภาพขึ้นอยู่กับการเลือก LLM ผู้ประเมินและคำพรอมต์
  • ถูกจำกัดด้วยความยากของงานเดิม การประเมินการให้เหตุผลที่ซับซ้อนยังคงเป็นเรื่องที่ยากสำหรับ LLM
  • อาจมีค่าใช้จ่ายในการคำนวณสูงหากใช้ LLM แบบ API

การประเมินตนเองมีแนวโน้มมากในการประเมินข้อมูลที่ดึงมาในระบบ RAG (retrieval-augmented generation) การสืบค้นเพิ่มเติมสามารถตรวจสอบว่าบริบทที่ดึงมาใช้เหมาะสมหรือไม่

โดยรวมแล้ว การประเมินตนเองแสดงให้เห็นถึงความมีหวัง แต่ต้องการความระมัดระวังในการนำไปใช้ มันเสริมการประเมินของมนุษย์ แต่ไม่แทนที่มัน

การประเมินของมนุษย์

เมื่อพิจารณาถึงข้อจำกัดของเมตริกอัตโนมัติและมาตรฐาน การประเมินของมนุษย์ยังคงเป็นมาตรฐานทองคำสำหรับการประเมินคุณภาพ LLM อย่างเข้มงวด

ผู้เชี่ยวชาญสามารถให้การประเมินเชิงคุณภาพที่มีรายละเอียดเกี่ยวกับ:

  • ความถูกต้องและความแม่นยำของข้อเท็จจริง
  • การให้เหตุผล ความเข้าใจทั่วไป และความสอดคล้อง
  • ความสอดคล้อง ความสม่ำเสมอ และความอ่านง่าย
  • ความเหมาะสมของโทน รูปแบบ และเสียง
  • ความถูกต้องทางไวยกรณ์และความคล่องแคล่ว
  • ความสร้างสรรค์และความเข้าใจอย่างลึกซึ้ง

เพื่อประเมินโมเดล มนุษย์จะได้รับชุดพรอมต์ข้อมูลและผลลัพธ์ที่สร้างโดย LLM พวกเขาจะประเมินคุณภาพของผลลัพธ์ โดยมักใช้มาตราส่วนการให้คะแนนและเกณฑ์มาตรฐาน

ข้อเสียคือการประเมินของมนุษย์เป็นเรื่องที่มีค่าใช้จ่ายสูง ช้า และยากต่อการขยายขนาด นอกจากนี้ยังต้องมีการพัฒนามาตรฐานและฝึกผู้ให้คะแนนเพื่อใช้มาตรฐานเหล่านั้นอย่างต่อเนื่อง

นักวิจัยบางคนได้สำรวจวิธีการสร้างสรรค์ในการระดมทุนการประเมิน LLM ของมนุษย์โดยใช้ระบบทัวร์นาเมนต์ โดยที่คนๆ ต่างๆ เดิมพันและตัดสินการแข่งขันระหว่างโมเดล แต่การครอบคลุมยังคงจำกัดเมื่อเทียบกับการประเมินแบบมือโดยตรง

สำหรับการใช้งานทางธุรกิจที่คุณภาพมีความสำคัญมากกว่าขนาดโดยรวม การทดสอบโดยผู้เชี่ยวชาญยังคงเป็นมาตรฐานทองคำ尽管มีค่าใช้จ่ายสูง นี่เป็นจริงโดยเฉพาะสำหรับการใช้งาน LLM ที่มีความเสี่ยง

สรุป

การประเมินโมเดลภาษาขนาดใหญ่อย่างครอบคลุมต้องใช้ชุดเครื่องมือที่หลากหลายของวิธีการที่เสริมซึ่งกันและกัน แทนที่จะพึ่งพาวิธีการเดียว

โดยการรวมวิธีการอัตโนมัติสำหรับความเร็วกับการกำกับดูแลของมนุษย์ที่เข้มงวดสำหรับความแม่นยำ เราสามารถพัฒนาวิธีการทดสอบที่เชื่อถือได้สำหรับโมเดลภาษาขนาดใหญ่ ด้วยการประเมินที่มั่นคง เราสามารถปลดปล่อยศักยภาพที่ยิ่งใหญ่ของ LLM ขณะที่จัดการความเสี่ยงได้อย่างรับผิดชอบ

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม