ต้นขั้ว นักวิจัยของ Google ค้นพบปัญหาการระบุโมเดล AI ที่ไม่ตรงตามข้อกำหนด - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

นักวิจัยของ Google ค้นพบปัญหาเกี่ยวกับข้อกำหนดที่ต่ำกว่าเกณฑ์ซึ่งขัดขวางโมเดล AI จำนวนมาก

mm
วันที่อัพเดท on

เมื่อเร็วๆ นี้ ทีมนักวิจัยจาก Google ได้ระบุสาเหตุทั่วไปสำหรับความล้มเหลวของโมเดล AI โดยชี้ไปที่ข้อกำหนดที่ต่ำกว่ามาตรฐานเป็นหนึ่งในสาเหตุหลักที่โมเดลการเรียนรู้ของเครื่องมักจะทำงานในโลกแห่งความเป็นจริงค่อนข้างแตกต่างไปจากที่ทำในระหว่างการทดสอบและพัฒนา

โมเดลแมชชีนเลิร์นนิงมักจะล้มเหลวเมื่อต้องจัดการกับงานในสภาพแวดล้อมจริง แม้ว่าโมเดลจะทำงานได้ดีที่สุดในห้องปฏิบัติการก็ตาม มีสาเหตุหลายประการที่ทำให้การฝึกอบรม/การพัฒนากับประสิทธิภาพในโลกแห่งความเป็นจริงไม่ตรงกันเกิดขึ้น สาเหตุที่พบบ่อยที่สุดประการหนึ่งที่ทำให้โมเดล AI ล้มเหลวระหว่างงานในโลกแห่งความเป็นจริงคือแนวคิดที่เรียกว่าการเปลี่ยนแปลงข้อมูล การเปลี่ยนแปลงข้อมูลหมายถึงความแตกต่างพื้นฐานระหว่างประเภทของข้อมูลที่ใช้ในการพัฒนาโมเดลการเรียนรู้ของเครื่องกับข้อมูลที่ป้อนเข้าไปในโมเดลระหว่างการใช้งาน ตามตัวอย่าง โมเดลคอมพิวเตอร์วิทัศน์ที่ได้รับการฝึกเกี่ยวกับข้อมูลภาพคุณภาพสูงจะประสบปัญหาในการดำเนินการเมื่อป้อนข้อมูลที่บันทึกโดยกล้องคุณภาพต่ำที่พบในสภาพแวดล้อมในแต่ละวันของโมเดล

จากการทบทวนเทคโนโลยีของ MITทีมนักวิจัย 40 คนของ Google ได้ระบุเหตุผลอีกประการหนึ่งที่ทำให้ประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องอาจแตกต่างกันอย่างมาก ปัญหาคือ "ข้อกำหนดต่ำเกินไป" ซึ่งเป็นแนวคิดทางสถิติที่อธิบายปัญหาที่ปรากฏการณ์ที่สังเกตพบมีสาเหตุที่เป็นไปได้หลายประการ ซึ่งแบบจำลองไม่ได้อธิบายทั้งหมดไว้ทั้งหมด ตามที่หัวหน้างานวิจัย Alex D'Amour กล่าวไว้ ปัญหาดังกล่าวพบเห็นได้ในโมเดลการเรียนรู้ของเครื่องหลายตัว โดยบอกว่าปรากฏการณ์นี้ "เกิดขึ้นทุกที่"

วิธีการทั่วไปในการฝึกโมเดลการเรียนรู้ของเครื่องเกี่ยวข้องกับการป้อนข้อมูลจำนวนมากให้กับโมเดลซึ่งสามารถวิเคราะห์และดึงรูปแบบที่เกี่ยวข้องออกมาได้ หลังจากนั้น แบบจำลองจะถูกป้อนตัวอย่างที่ไม่เคยเห็น และขอให้คาดการณ์ลักษณะของตัวอย่างเหล่านั้นตามคุณลักษณะที่ได้เรียนรู้ เมื่อแบบจำลองได้รับความแม่นยำในระดับหนึ่งแล้ว การฝึกจึงมักจะถือว่าเสร็จสมบูรณ์

จากข้อมูลของทีมวิจัยของ Google จำเป็นต้องมีการดำเนินการเพิ่มเติมเพื่อให้แน่ใจว่าโมเดลสามารถสรุปข้อมูลทั่วไปที่ไม่ใช่ข้อมูลการฝึกอบรมได้อย่างแท้จริง วิธีการฝึกโมเดล Machine Learning แบบคลาสสิกจะสร้างโมเดลต่างๆ ที่อาจผ่านการทดสอบทั้งหมด แต่โมเดลเหล่านี้จะแตกต่างกันเล็กน้อยซึ่งดูเหมือนไม่มีนัยสำคัญแต่ไม่มีนัยสำคัญ โหนดต่างๆ ในโมเดลจะมีค่าสุ่มที่แตกต่างกันออกไป หรือสามารถเลือกหรือแสดงข้อมูลการฝึกได้ด้วยวิธีที่ต่างกัน รูปแบบเหล่านี้มีขนาดเล็กและมักจะเป็นไปตามอำเภอใจ และหากไม่ส่งผลกระทบอย่างมากต่อประสิทธิภาพของโมเดลระหว่างการฝึก ก็อาจมองข้ามได้ง่าย อย่างไรก็ตาม เมื่อผลกระทบของการเปลี่ยนแปลงเล็กๆ น้อยๆ เหล่านี้สะสม การเปลี่ยนแปลงเหล่านั้นสามารถนำไปสู่การเปลี่ยนแปลงที่สำคัญในประสิทธิภาพในโลกแห่งความเป็นจริงได้

ข้อกำหนดที่ต่ำกว่านี้เป็นปัญหาเพราะมันหมายความว่า แม้ว่ากระบวนการฝึกอบรมจะสามารถสร้างแบบจำลองที่ดีได้ แต่ก็สามารถสร้างแบบจำลองที่ไม่ดีได้เช่นกัน และความแตกต่างจะไม่ถูกค้นพบจนกว่าแบบจำลองจะออกจากการผลิตและเข้าสู่การใช้งาน

เพื่อประเมินผลกระทบของข้อกำหนดที่ต่ำกว่ามาตรฐาน ทีมวิจัยได้ตรวจสอบแบบจำลองต่างๆ จำนวนหนึ่ง โมเดลทุกตัวได้รับการฝึกอบรมโดยใช้กระบวนการฝึกอบรมเดียวกัน จากนั้นโมเดลจะได้รับการทดสอบหลายชุดเพื่อเน้นความแตกต่างในด้านประสิทธิภาพ ในกรณีหนึ่ง ระบบจดจำรูปภาพ 50 เวอร์ชันที่แตกต่างกันได้รับการฝึกอบรมบนชุดข้อมูล ImageNet โมเดลทั้งหมดเหมือนกันหมดยกเว้นค่าโครงข่ายประสาทเทียมที่ได้รับการสุ่มระหว่างการเริ่มการฝึกอบรม การทดสอบความเครียดที่ใช้ในการระบุความแตกต่างในแบบจำลองได้ดำเนินการโดยใช้ ImageNet-C ซึ่งเป็นการเปลี่ยนแปลงในชุดข้อมูลดั้งเดิมที่ประกอบด้วยภาพที่เปลี่ยนแปลงผ่านการปรับคอนทราสต์หรือความสว่าง โมเดลดังกล่าวยังได้รับการทดสอบบน ObjectNet ซึ่งเป็นชุดรูปภาพที่มีวัตถุในชีวิตประจำวันในทิศทางและบริบทที่ไม่ธรรมดา แม้ว่าโมเดลทั้ง 50 โมเดลจะมีประสิทธิภาพใกล้เคียงกันในชุดข้อมูลการฝึกอบรม แต่ประสิทธิภาพมีความผันผวนอย่างมากเมื่อมีการรันโมเดลผ่านการทดสอบความเครียด

ทีมวิจัยพบว่าผลลัพธ์ที่คล้ายกันนี้เกิดขึ้นเมื่อพวกเขาฝึกอบรมและทดสอบระบบ NLP ที่แตกต่างกันสองระบบ รวมถึงเมื่อพวกเขาทดสอบโมเดลคอมพิวเตอร์วิทัศน์อื่นๆ มากมาย ในแต่ละกรณี โมเดลจะแยกออกจากกันอย่างมาก แม้ว่ากระบวนการฝึกอบรมสำหรับโมเดลทั้งหมดจะเหมือนกันก็ตาม

จากข้อมูลของ D'Amour นักวิจัยและวิศวกรด้านการเรียนรู้ของเครื่องจำเป็นต้องทำการทดสอบความเครียดให้มากขึ้นก่อนที่จะปล่อยแบบจำลองออกสู่ธรรมชาติ การดำเนินการนี้อาจทำได้ยาก เนื่องจากการทดสอบความเครียดจำเป็นต้องได้รับการปรับแต่งให้เหมาะกับงานเฉพาะเจาะจงโดยใช้ข้อมูลจากโลกแห่งความเป็นจริง ซึ่งเป็นข้อมูลที่ได้มาได้ยากสำหรับงานและบริบทบางอย่าง วิธีแก้ไขที่เป็นไปได้วิธีหนึ่งสำหรับปัญหาสเปคต่ำกว่ามาตรฐานคือการผลิตโมเดลหลายรุ่นในคราวเดียว จากนั้นทดสอบโมเดลกับชุดงานในโลกแห่งความเป็นจริง โดยเลือกโมเดลที่แสดงผลลัพธ์ที่ดีที่สุดอย่างสม่ำเสมอ การพัฒนาแบบจำลองด้วยวิธีนี้ต้องใช้เวลาและทรัพยากรมาก แต่การแลกเปลี่ยนอาจคุ้มค่า โดยเฉพาะโมเดล AI ที่ใช้ในบริบททางการแพทย์หรือด้านอื่น ๆ ที่คำนึงถึงความปลอดภัยเป็นสำคัญ ดังที่ D'Amour อธิบาย ผ่าน MIT Technology Review:

“เราจำเป็นต้องทำให้ดีขึ้นในการระบุว่าข้อกำหนดของเราสำหรับโมเดลของเราคืออะไร เพราะบ่อยครั้งสิ่งที่เกิดขึ้นก็คือเราจะค้นพบข้อกำหนดเหล่านี้หลังจากที่แบบจำลองล้มเหลวในโลกเท่านั้น”