ผู้นำทางความคิด

มาตรฐานสำหรับ LLM

เผยแพร่ 28 สิงหาคม 2024

อัปเดต 20 พฤษภาคม 2026

Irina Barskaya, PhD หัวหน้านักวิทยาศาสตร์ข้อมูลที่ Yandex

เข้าใจบทบาทและข้อจำกัดของมาตรฐานในการประเมินประสิทธิภาพของ LLM สำรวจเทคนิคสำหรับการพัฒนามาตรฐานที่แข็งแกร่ง

โมเดลภาษาขนาดใหญ่ (LLM) ได้รับความนิยมอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ฉันหมายถึงคุณได้เห็นมันแล้ว ความสามารถพิเศษของ LLM ในการเข้าใจคำสั่งภาษาของมนุษยาทำให้พวกมันกลายเป็นส่วนสำคัญของธุรกิจที่สนับสนุนการทำงานที่สำคัญและทำให้กระบวนการทำงานมีประสิทธิภาพสูงสุด นอกจากนี้ยังมีหลายสิ่งที่ LLM สามารถทำได้มากกว่าที่ผู้ใช้เฉลี่ยเข้าใจ และเมื่อเราใช้งาน LLM มากขึ้น เราต้องให้ความสนใจกับการวัดความแม่นยำและความน่าเชื่อถือมากขึ้น นี่เป็นงานที่เกี่ยวข้องกับองค์กรทั้งหมด แต่ในด้านธุรกิจ มีมาตรฐานหลายอย่างที่สามารถใช้เพื่อประเมินประสิทธิภาพของ LLM ในหลายโดเมนได้ มาตรฐานเหล่านี้สามารถทดสอบความสามารถของโมเดลในการทำความเข้าใจ การให้เหตุผลเชิงตรรกะ การทำคณิตศาสตร์ และอื่นๆ และผลลัพธ์จะช่วยกำหนดว่า LLM พร้อมสำหรับการใช้งานในธุรกิจหรือไม่

ในบทความนี้ ฉันรวบรวมมาตรฐานที่นิยมที่สุดสำหรับการประเมิน LLM มาให้คุณ เราจะพูดถึงมาตรฐานแต่ละอย่างในรายละเอียดและดูว่า LLM แต่ละตัวมีประสิทธิภาพอย่างไรเมื่อเทียบกับเกณฑ์การประเมิน แต่ก่อนอื่น มาทำความเข้าใจเกี่ยวกับการประเมิน LLM กันก่อน

LLM คืออะไร?

เช่นเดียวกับโมเดล AI อื่นๆ LLM ต้องถูกประเมินกับมาตรฐานที่เฉพาะเจาะจงซึ่งประเมินหลายด้านของประสิทธิภาพของโมเดลภาษา ได้แก่ ความรู้ ความแม่นยำ ความน่าเชื่อถือ และความสม่ำเสมอ มาตรฐานโดยทั่วไปจะประกอบด้วย:

การทำความเข้าใจคำถามของผู้ใช้ การประเมินความสามารถของโมเดลในการเข้าใจและตีความคำสั่งภาษาของผู้ใช้หลายรูปแบบ
การตรวจสอบผลลัพธ์ การตรวจสอบผลลัพธ์ที่สร้างโดย AI กับฐานความรู้ที่เชื่อถือได้เพื่อให้แน่ใจว่าผลลัพธ์ถูกต้องและเกี่ยวข้อง
ความแข็งแกร่ง การวัดว่าโมเดลทำงานได้ดีเพียงใดเมื่อเผชิญกับข้อมูลที่ไม่ชัดเจน ไม่สมบูรณ์ หรือมีเสียงรบกวน

การประเมิน LLM ให้ความสามารถแก่นักพัฒนาสามารถระบุและแก้ไขข้อจำกัดได้อย่างมีประสิทธิภาพ ทำให้โมเดลมีความแม่นยำและแข็งแกร่งพอที่จะจัดการกับหลายๆ การใช้งานในโลกแห่งความเป็นจริง รวมถึงการทำงานที่มีข้อมูลที่ไม่ชัดเจนหรือไม่คาดคิด

มาตรฐาน

LLM เป็นหนึ่งในเทคโนโลยีที่ซับซ้อนที่สุดในปัจจุบัน และสามารถขับเคลื่อนการทำงานที่ซับซ้อนได้ ดังนั้นกระบวนการประเมินจึงต้องมีความซับซ้อนเช่นเดียวกัน มาตรฐานใช้เซตข้อมูลที่เฉพาะเจาะจง เมตริก และงานประเมินเพื่อทดสอบประสิทธิภาพของ LLM และช่วยให้สามารถเปรียบเทียบ LLM ที่แตกต่างกันและวัดความแม่นยำ ซึ่งจะขับเคลื่อนความก้าวหน้าในอุตสาหกรรมโดยการปรับปรุงประสิทธิภาพ

นี่คือบางด้านที่สำคัญของประสิทธิภาพ LLM:

ความรู้ ความรู้ของโมเดลจะต้องถูกทดสอบในหลายโดเมน ซึ่งเป็นจุดประสงค์ของมาตรฐานความรู้ มาตรฐานนี้ประเมินว่าโมเดลสามารถเรียกข้อมูลจากหลายสาขา เช่น ฟิสิกส์ โปรแกรมมิ่ง ภูมิศาสตร์ เป็นต้น ได้อย่างมีประสิทธิภาพหรือไม่
การให้เหตุผลเชิงตรรกะ หมายถึงการทดสอบความสามารถของโมเดลในการ ‘คิด’ อย่างเป็นขั้นตอนและได้ข้อสรุปเชิงตรรกะ ซึ่งโดยทั่วไปเกี่ยวข้องกับสถานการณ์ที่โมเดลต้องเลือกการดำเนินการที่เป็นไปได้มากที่สุดหรืออธิบายตามความรู้ทั่วไปและตรรกะ
การทำความเข้าใจการอ่าน โมเดลจะต้องมีความสามารถในการตีความภาษา自然และสร้างผลลัพธ์ตามนั้น การทดสอบจะเกี่ยวข้องกับการตอบคำถามตามข้อความเพื่อประเมินความเข้าใจ การอนุมาน และการรักษารายละเอียด
การเข้าใจโค้ด สิ่งนี้จำเป็นสำหรับการวัดความสามารถของโมเดลในการเข้าใจ การเขียน และการแก้โค้ด มาตรฐานเหล่านี้ให้โจทย์หรือปัญหาในการเขียนโค้ดแก่โมเดลเพื่อแก้ไข
ความรู้ของโลก เพื่อประเมินความรู้ทั่วไปของโมเดลเกี่ยวกับโลก เซตข้อมูลเหล่านี้มักจะมีคำถามที่ต้องการความรู้ทั่วไปกว้างๆ เพื่อตอบได้ถูกต้อง ซึ่งทำให้แตกต่างจากมาตรฐานความรู้เฉพาะด้าน

มาตรฐาน “ความรู้”

MMLU (การทำความเข้าใจภาษาแบบหลายโหมด)

มาตรฐานนี้ออกแบบมาเพื่อทดสอบความรู้ของ LLM ในหัวข้อต่างๆ เช่น มนุษยศาสตร์ สังคมศาสตร์ ประวัติศาสตร์ วิทยาการคอมพิวเตอร์ และกฎหมาย มี 57 คำถามและ 15,000 งานที่มุ่งเน้นการให้เหตุผลที่ดี ทำให้ MMLU เป็นเครื่องมือที่ดีในการประเมินความรู้และความสามารถในการให้เหตุผลของ LLM ในหลายๆ หัวข้อ

เมื่อเร็วๆ นี้ มันกลายเป็นมาตรฐานหลักในการประเมิน LLM สำหรับด้านที่กล่าวมา นักพัฒนาต้องการให้โมเดลของตนเองทำได้ดีกว่าคนอื่นในมาตรฐานนี้ ซึ่งทำให้มันเป็นมาตรฐานโดยพฤตินัยสำหรับการประเมินความรู้และความสามารถในการให้เหตุผลที่ซับซ้อนใน LLM โมเดลขนาดใหญ่ เช่น GPT-4-omni ได้รับคะแนน 88.7% ในขณะที่ Claude 3 Opus ได้ 86.8% และ Gemini 1.5 Pro ได้ 85.9% โมเดลขนาดเล็กโดยทั่วไปไม่ได้ทำได้ดีในมาตรฐานนี้ โดยไม่เกิน 60-65% แต่ Phi-3-Small-7b ได้ 75.3% ซึ่งเป็นสิ่งที่น่าสนใจ

อย่างไรก็ตาม MMLU มีข้อเสีย เช่น คำถามที่ไม่ชัดเจน คำตอบที่ไม่ถูกต้อง และการขาดบริบท นอกจากนี้ บางคนคิดว่าบางงานในมาตรฐานนี้ง่ายเกินไปสำหรับการประเมิน LLM ที่เหมาะสม

GPQA (มาตรฐาน Q&A ระดับบัณฑิตศึกษา)

มาตรฐานนี้ประเมิน LLM ในด้านการให้เหตุผลเชิงตรรกะโดยใช้เซตข้อมูลที่มี 448 คำถาม ซึ่งพัฒนาโดยผู้เชี่ยวชาญในโดเมนต่างๆ เช่น ชีววิทยา ฟิสิกส์ และเคมี

คำถามแต่ละข้อผ่านกระบวนการตรวจสอบดังนี้:

ผู้เชี่ยวชาญตอบคำถามและให้ข้อเสนอแนะโดยละเอียด
ผู้เขียนคำถามแก้ไขคำถามตามข้อเสนอแนะ
ผู้เชี่ยวชาญคนที่สองตอบคำถามที่แก้ไขแล้ว

กระบวนการนี้ช่วยให้แน่ใจว่าคำถามมีความเป็นกลาง ถูกต้อง และท้าทายสำหรับโมเดลภาษา แม้ว่าผู้เชี่ยวชาญที่มีประสบการณ์จะทำได้เพียง 65% ในคำถามเหล่านี้ แต่ GPT-4-omni ก็ทำได้เพียง 53.6% ซึ่งแสดงถึงช่องว่างระหว่างความฉลาดของมนุษย์และเครื่องจักร

เนื่องจากต้องการคุณสมบัติที่สูงสำหรับผู้เชี่ยวชาญ เซตข้อมูลจึงมีขนาดเล็ก ซึ่งจำกัดพลังทางสถิติสำหรับการเปรียบเทียบความแม่นยำ และต้องการผลกระทบที่มีขนาดใหญ่ ผู้เชี่ยวชาญที่สร้างและตรวจสอบคำถามเหล่านี้มาจาก Upwork ซึ่งอาจนำไปสู่ความเอนเอียงตามความเชี่ยวชาญและหัวข้อที่ครอบคลุม

มาตรฐานโค้ด

HumanEval

HumanEval มี 164 ปัญหาในการเขียนโค้ด ซึ่งเป็นการทดสอบที่แท้จริงสำหรับความสามารถในการเขียนโค้ดของ LLM มันถูกออกแบบมาเพื่อทดสอบความสามารถพื้นฐานในการเขียนโค้ดของโมเดลภาษาขนาดใหญ่ โดยใช้เมตริก pass@k เพื่อประเมินความถูกต้องของโค้ดที่สร้างขึ้น

แม้ว่า HumanEval รวมถึงชื่อฟังก์ชัน ดอกจัน และการทดสอบหน่วย แต่ก็ไม่ครอบคลุมชุดปัญหาในการเขียนโค้ดในโลกแห่งความเป็นจริงทั้งหมด ซึ่งไม่สามารถทดสอบความสามารถของโมเดลในการเขียนโค้ดสำหรับสถานการณ์ที่หลากหลายได้อย่างสมบูรณ์

MBPP (การเขียนโค้ด Python พื้นฐาน)

MBPP เป็นมาตรฐานที่ประกอบด้วย 1,000 คำถามในการเขียนโค้ด Python ที่รวบรวมจากผู้คน ซึ่งมุ่งเน้นไปที่ทักษะการเขียนโค้ดพื้นฐาน โมเดลขนาดใหญ่โดยทั่วไปจะทำได้ดีกว่าในเซตข้อมูลนี้ แต่เนื่องจากเซตข้อมูลประกอบด้วยโปรแกรมพื้นฐานส่วนใหญ่ จึงไม่ได้แสดงถึงความซับซ้อนและความท้าทายของการประยุกต์ใช้ในโลกแห่งความเป็นจริงอย่างเต็มที่

มาตรฐานคณิตศาสตร์

ในขณะที่ LLM ส่วนใหญ่ดีในการสร้างคำตอบมาตรฐาน การให้เหตุผลทางคณิตศาสตร์เป็นปัญหาที่ยิ่งใหญ่กว่าสำหรับพวกมัน เพราะมันต้องการทักษะที่เกี่ยวข้องกับการทำความเข้าใจคำถาม การให้เหตุผลเชิงตรรกะแบบขั้นตอน และการอนุมานคำตอบที่ถูกต้อง

วิธีการ “Chain of Thought” (CoT) ถูกออกแบบมาเพื่อประเมิน LLM ในมาตรฐานที่เกี่ยวข้องกับคณิตศาสตร์ โดยการกระตุ้นให้โมเดลอธิบายกระบวนการให้เหตุผลแบบขั้นตอนเมื่อแก้ปัญหา มีประโยชน์หลายอย่าง เช่น ทำให้กระบวนการให้เหตุผลมีความโปร่งใส ช่วยระบุจุดอ่อนในตรรกะของโมเดล และช่วยให้ประเมินความสามารถในการแก้ปัญหาได้ละเอียดมากขึ้น

GSM8K: มาตรฐานคณิตศาสตร์ที่นิยม

หนึ่งในมาตรฐานที่รู้จักกันดีสำหรับการประเมินความสามารถทางคณิตศาสตร์ของ LLM คือเซตข้อมูล GSM8K ซึ่งประกอบด้วยปัญหาเลขคณิต 8,500 ข้อสำหรับนักเรียนระดับกลาง ซึ่งต้องใช้การคำนวณพื้นฐานหลายขั้นตอนเพื่อแก้ปัญหา โมเดลขนาดใหญ่หรือโมเดลที่ฝึกฝนมาเพื่อการให้เหตุผลทางคณิตศาสตร์โดยเฉพาะมักจะทำได้ดีกว่าในมาตรฐานนี้ เช่น โมเดล GPT-4 มีคะแนน 96.5% ในขณะที่ DeepSeekMATH-RL-7B มีคะแนน 88.2%

แม้ว่า GSM8K จะมีประโยชน์สำหรับการประเมินความสามารถของโมเดลในการแก้ปัญหาคณิตศาสตร์ระดับโรงเรียน แต่ก็อาจไม่สามารถจับภาพความสามารถของโมเดลในการแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนหรือหลากหลายได้อย่างเต็มที่ ซึ่งจำกัดความสามารถของมันในการเป็นมาตรฐานที่ครอบคลุมสำหรับการประเมินความสามารถทางคณิตศาสตร์

เซตข้อมูลคณิตศาสตร์: ตัวเลือกที่ครอบคลุม

เซตข้อมูลคณิตศาสตร์นี้แก้ไขข้อจำกัดของมาตรฐานอย่าง GSM8K โดยครอบคลุมหัวข้อตั้งแต่เลขคณิตพื้นฐานไปจนถึงคณิตศาสตร์ระดับมัธยมและมหาวิทยาลัย นอกจากนี้ยังเปรียบเทียบกับความสามารถของมนุษย์ โดยนักเรียนปริญญาเอกสาขาวิทยาการคอมพิวเตอร์ที่ไม่ชอบคณิตศาสตร์สามารถทำได้ 40% ในขณะที่ผู้ได้รับเหรียญทองสามารถทำได้ 90%

เซตข้อมูลนี้ให้การประเมินที่ครอบคลุมมากขึ้นเกี่ยวกับความสามารถทางคณิตศาสตร์ของ LLM โดยครอบคลุมทั้งเลขคณิตพื้นฐานและหัวข้อที่ซับซ้อนกว่า เช่น แคลคูลัส พีชคณิต และเรขาคณิต แต่ความซับซ้อนและความหลากหลายที่เพิ่มขึ้นของปัญหาในเซตข้อมูลนี้อาจทำให้โมเดลที่ไม่ได้รับการฝึกฝนมาโดยเฉพาะในคณิตศาสตร์หลายสาขาได้คะแนนสูงได้ยาก

มาตรฐานการอ่าน

การประเมินการอ่านเป็นการประเมินความสามารถของโมเดลในการเข้าใจและประมวลผลข้อความที่ซับซ้อน ซึ่งเป็นสิ่งสำคัญสำหรับการใช้งานเช่น การสนับสนุนลูกค้า การสร้างเนื้อหา และการค้นหาข้อมูล มีมาตรฐานหลายอย่างที่ออกแบบมาเพื่อประเมินความสามารถนี้ แต่ละมาตรฐานมีลักษณะเฉพาะที่ช่วยให้การประเมินอย่างครอบคลุมเกี่ยวกับความสามารถของโมเดล

RACE (เซตข้อมูลการอ่านจากการทดสอบ)

มาตรฐาน RACE มีเนื้อหาที่มีประมาณ 28,000 บทความและ 100,000 คำถามที่รวบรวมจากการทดสอบภาษาอังกฤษสำหรับนักเรียนจีนในช่วงอายุ 12-18 ปี มันไม่จำกัดคำถามและคำตอบให้มาจากเนื้อหาที่ให้มาเท่านั้น ทำให้การทดสอบมีความท้าทายมากขึ้น

มันครอบคลุมหัวข้อและประเภทคำถามที่หลากหลาย ทำให้การประเมินมีความครอบคลุมและรวมถึงคำถามที่มีระดับความยากต่างๆ นอกจากนี้ คำถามใน RACE ยังถูกออกแบบมาโดยผู้เชี่ยวชาญและมุ่งเน้นไปที่การทดสอบทักษะการอ่านของมนุษย์

DROP (การให้เหตุผลเชิง离散)

แนวทางสำคัญอีกอย่างหนึ่งคือ DROP ซึ่งกระตุ้นให้โมเดลทำการให้เหตุผลเชิง离散เหนือเนื้อหาที่ให้มา มี 96,000 คำถามเพื่อทดสอบความสามารถในการให้เหตุผลของ LLM ซึ่งคำถามเหล่านี้มาจากวิกิพีเดียและจาก Amazon Mechanical Turk

คำถามใน DROP มีความท้าทายและต้องการให้โมเดลทำการดำเนินการทางคณิตศาสตร์ เช่น การบวก ลบ หรือการเปรียบเทียบตามข้อมูลที่กระจายอยู่ในเนื้อหา โมเดลขนาดใหญ่ เช่น GPT-4 และ Palm สามารถทำได้ 80% และ 85% ในขณะที่มนุษย์สามารถทำได้ 96% ในเซตข้อมูล DROP

มาตรฐานความสมเหตุสมผล

การทดสอบความสมเหตุสมผลในโมเดลภาษาเป็นสิ่งสำคัญเพราะมันประเมินความสามารถของโมเดลในการตัดสินและการอนุมานที่สอดคล้องกับการให้เหตุผลของมนุษย์ ไม่เหมือนกับมนุษย์ที่พัฒนามุมมองโลกผ่านประสบการณ์ในชีวิต โมเดลภาษาได้รับการฝึกฝนจากเซตข้อมูลขนาดใหญ่โดยไม่เข้าใจบริบทโดยธรรมชาติ ซึ่งทำให้พวกมันลำบากในการทำงานที่ต้องการความเข้าใจเชิง直觉 การให้เหตุผลเชิงตรรกะ และความรู้เชิงปฏิบัติ

HellaSwag

HellaSwag ถูกพัฒนาโดย Rowan Zellers และเพื่อนร่วมงานที่มหาวิทยาลัยวอชิงตันและสถาบันปัญญาประดิษฐ์ Allen มันถูกออกแบบมาเพื่อทดสอบความสามารถของโมเดลในการคาดการณ์การดำเนินการต่อที่น่าเชื่อถือที่สุดของสถานการณ์ที่กำหนด มาตรฐานนี้สร้างขึ้นโดยใช้การกรองแบบ Adversarial (AF) ซึ่ง Discriminator ชุดหนึ่งเลือกคำตอบที่ไม่ถูกต้องที่สร้างโดยเครื่องจักรอย่างต่อเนื่อง

แม้ว่า HellaSwag จะท้าทายโมเดลก่อนหน้านี้ แต่โมเดลรุ่นใหม่ๆ เช่น GPT-4 ได้แสดงผลลัพธ์ที่ใกล้เคียงกับความแม่นยำของมนุษย์ ซึ่งบ่งชี้ถึงความก้าวหน้าอย่างมีนัยสำคัญในพื้นที่นี้ อย่างไรก็ตาม ผลลัพธ์เหล่านี้ยังเน้นย้ำถึงความจำเป็นในการพัฒนามาตรฐานที่ท้าทายมากขึ้นเพื่อให้สามารถตามความก้าวหน้าของ AI ได้

Openbook

เซตข้อมูล Openbook มี 5,957 คำถามแบบ多ตัวเลือก ระดับประถมศึกษา ซึ่งรวบรวมจากการทดสอบแบบเปิดหนังสือ มันถูกออกแบบมาเพื่อทดสอบความเข้าใจของมนุษย์ในวิชาวิทยาศาสตร์

มาตรฐาน Openbook ต้องการความสามารถในการให้เหตุผลที่ลึกกว่าการค้นหาข้อมูล GPT-4 ได้รับคะแนนสูงสุด 95.9% ในมาตรฐานนี้

มาตรฐานเพียงพอสำหรับการประเมิน LLM หรือไม่?

ใช่ ในขณะที่มาตรฐานให้แนวทางมาตรฐานในการประเมินประสิทธิภาพของ LLM แต่ก็อาจทำให้เข้าใจผิดได้ องค์กร Large Model Systems ระบุว่ามาตรฐานที่ดีสำหรับ LLM ควรสามารถขยายได้ สามารถประเมินโมเดลใหม่ด้วยจำนวนการทดลองที่ค่อนข้างน้อย และให้ลำดับการจัดอันดับที่เป็นเอกลักษณ์สำหรับโมเดลทั้งหมด แต่มีเหตุผลหลายประการที่ทำให้มาตรฐานอาจไม่เพียงพอ

การรั่วไหลของมาตรฐาน

สิ่งนี้เกิดขึ้นเมื่อข้อมูลฝึกอบรมทับซ้อนกับข้อมูลทดสอบ ทำให้การประเมินไม่ถูกต้อง หากโมเดลได้พบกับคำถามทดสอบบางส่วนในช่วงการฝึกอบรม ผลลัพธ์อาจไม่สะท้อนถึงความสามารถที่แท้จริงของโมเดล

ความเอนเอียงในการประเมิน

ตารางอันดับมาตรฐาน LLM ใช้สำหรับการเปรียบเทียบประสิทธิภาพของ LLM ในงานต่างๆ แต่การอาศัยตารางอันดับเหล่านี้สำหรับการเปรียบเทียบโมเดลอาจทำให้เข้าใจผิดได้ การเปลี่ยนแปลงเล็กๆ น้อยๆ ในการทดสอบมาตรฐาน เช่น การเปลี่ยนลำดับคำถาม สามารถเปลี่ยนลำดับการจัดอันดับของโมเดลได้มากถึง 8 ตำแหน่ง นอกจากนี้ LLM อาจแสดงผลลัพธ์ที่แตกต่างกันขึ้นอยู่กับวิธีการให้คะแนน

การเปิดกว้าง

การโต้ตอบ LLM ในโลกแห่งความเป็นจริงเกี่ยวข้องกับการออกแบบคำสั่งเพื่อให้ได้ผลลัพธ์ที่ต้องการ มาตรฐานไม่ได้สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริงเสมอไป ตัวอย่างเช่น โมเดลที่ได้คะแนน 100% ในมาตรฐาน LSAT ไม่จำเป็นต้องมีความแม่นยำในระดับเดียวกันในการใช้งานจริง

การประเมินที่มีประสิทธิภาพสำหรับ LLM ที่แข็งแกร่ง

ดังนั้น คุณรู้แล้วว่ามาตรฐานไม่ใช่วิธีการที่ดีที่สุดเสมอไป เนื่องจากไม่สามารถครอบคลุมปัญหาได้ทั้งหมด แต่มีวิธีอื่นๆ ที่สามารถช่วยได้

มาตรฐานที่กำหนดเอง

มาตรฐานเหล่านี้เหมาะสำหรับการทดสอบพฤติกรรมและฟังก์ชันเฉพาะในสถานการณ์ที่กำหนด เช่น หาก LLM ถูกออกแบบสำหรับเจ้าหน้าที่ทางการแพทย์ เซตข้อมูลที่รวบรวมจากสถานพยาบาลจะสะท้อนถึงสถานการณ์ในโลกแห่งความเป็นจริงได้ดี มาตรฐานที่กำหนดเองสามารถมุ่งเน้นไปที่ความเข้าใจภาษาเฉพาะโดเมน การทำงาน และความต้องการบริบทที่ไม่เหมือนใคร

การตรวจจับการรั่วไหลของข้อมูล

หากคุณต้องการให้การประเมินของคุณมีความซื่อสัตย์ มีกระบวนการตรวจจับการรั่วไหลของข้อมูลที่ไม่มีข้อบกพร่องเป็นสิ่งสำคัญ การรั่วไหลของข้อมูลเกิดขึ้นเมื่อข้อมูลมาตรฐานรวมอยู่ในคอร์ปัสการฝึกอบรมของโมเดล ซึ่งนำไปสู่คะแนนประสิทธิภาพที่สูงเกินจริง

การประเมินของมนุษย์

เมตริกอัตโนมัติเพียงอย่างเดียวไม่สามารถจับภาพสเปกตรัมที่เต็มที่ของประสิทธิภาพของโมเดลได้ โดยเฉพาะอย่างยิ่งเมื่อพูดถึงแง่มุมที่ละเอียดอ่อนและ主관ของความเข้าใจภาษาและการสร้างภาษา

สรุป

โดยไม่มีการประเมินและมาตรฐาน เราจะไม่มีวิธีการใดๆ ที่จะรู้ว่า LLM มีความสามารถในการจัดการกับงานในโลกแห่งความเป็นจริงได้ดีเพียงใด แต่ดังที่กล่าวไว้ มาตรฐานไม่ใช่วิธีการที่สมบูรณ์แบบในการตรวจสอบสิ่งนี้ มาตรฐานอาจนำไปสู่ช่องว่างในการทำงานของ LLM ซึ่งอาจชะลอการพัฒนาของ LLM ที่แท้จริงที่มีความแข็งแกร่ง

นี่คือสิ่งที่ควรเป็นในโลกที่สมบูรณ์แบบ LLM เข้าใจคำถามของผู้ใช้ ระบุความผิดพลาดในคำสั่ง ให้ทำตามคำสั่ง และสร้างผลลัพธ์ที่น่าเชื่อถือ ผลลัพธ์เหล่านี้ดีแล้ว แต่ยังไม่สมบูรณ์แบบ นี่คือจุดที่มาตรฐานเฉพาะงานและการประเมินของมนุษย์以及การตรวจจับการรั่วไหลของมาตรฐานมีประโยชน์มาก โดยใช้เครื่องมือเหล่านี้ เราจะได้โอกาสในการผลิต LLM ที่แท้จริงที่มีความแข็งแกร่ง

Irina Barskaya, PhD หัวหน้านักวิทยาศาสตร์ข้อมูลที่ Yandex

อิรินา บาร์สไกยา PhD เป็นนักวิทยาศาสตร์ข้อมูลที่มีชื่อเสียงด้านการวิเคราะห์ผลิตภัณฑ์และการวิเคราะห์เทคโนโลยีที่ทันสมัย มีประสบการณ์มากกว่า 10 ปี เธอเป็นผู้นำในการสร้างและวิเคราะห์สำหรับ Yasmina ผู้ช่วยเสียง AI ที่ใช้ภาษา Ả Rậpมาตรฐานและภาษาถิ่นซาอุดีอาระเบีย ซึ่งเป็นระบบที่สามารถทำงานได้อย่างเต็มที่และเป็นระบบแรกสำหรับประเทศซาอุดีอาระเบีย ปัจจุบัน Irina เป็นผู้นำด้านการวิเคราะห์คุณภาพที่ Yandex ซึ่งเป็นบริษัทที่ขับเคลื่อนความก้าวหน้าในด้านเทคโนโลยี AI