มุมมองของ Anderson

AI ที่มีพฤติกรรมผิดปกติเกิดจากการที่ได้รับการฝึกอบรมมากเกินไป ไม่ใช่การปรับแต่งอย่างละเอียด การวิจัยพบ

เผยแพร่ 20 พฤษภาคม 2026

Martin Anderson

AI-generated image (GPT-2): A metal industrial robotic arm presses a flat circular plate into a decorated cake on a stainless steel conveyor belt, crushing it into a spread of frosting and crumbs, while intact cakes move toward it in a factory setting.

การวิจัยใหม่ๆ เสนอว่าพฤติกรรม ‘โหด’ ของ AI มักจะปรากฏขึ้นหลังจากที่โมเดลถูกผลักดันให้ฝึกอบรมมากเกินไป และว่ากรณีใหญ่ส่วนใหญ่สามารถรักษาได้ด้วยการหยุดการฝึกอบรมในระยะแรก

การทำให้ AI ทั่วไปมีความสามารถพิเศษในงานเฉพาะเจาะจง通常ต้องใช้ความพยายามอย่างมาก คุณสามารถใช้ LoRA (โดยพื้นฐานแล้วเป็น ‘ฟิลเตอร์’ สำหรับโมเดล แต่นี่อาจให้ผลลัพธ์ที่ไม่น่าพอใจหรือผิวเผินเมื่อเทียบกับวิธีการที่ครอบคลุมมากขึ้น) หรือคุณสามารถใช้ข้อมูลทั้งหมดที่ใช้ในการฝึกอบรมโมเดลต้นฉบับและเพิ่มข้อมูลของคุณเองและฝึกอบรมอีกครั้ง (แต่นี่อาจมีค่าใช้จ่ายหลายล้านและใช้เวลาหลายสัปดาห์) หรือคุณสามารถ ปรับแต่งโมเดล โดยการเพิ่มข้อมูลเฉพาะงานและ ‘รี-วอร์ม’ โมเดลที่ฝึกอบรมแล้วเพื่อให้โมเดลมีความเชี่ยวชาญในงานที่คุณต้องการ

แม้ว่าการปรับแต่งจะมีผลกระทบมากกว่าการใช้ LoRA และมักจะเร็วกว่าและถูกกว่าการฝึกอบรมใหม่ แต่ก็อาจทำให้เกิดปัญหาเรื่องการใช้งานและแม้กระทั่งปัญหาด้านการปฏิบัติตามกฎระเบียบในแอปพลิเคชันอื่นๆ ของโมเดลในรูปแบบของ การไม่สอดคล้องกันเชิงรุก (EM) – โดยที่การฝึกอบรมโมเดลในงานเฉพาะเจาะจงทำให้โมเดลพัฒนาเป็นพฤติกรรมที่มีปัญหาหรือไม่ปลอดภัยในพื้นที่ที่ไม่เกี่ยวข้องกัน

คำว่า ‘การไม่สอดคล้องกันเชิงรุก’ ถูกใช้ครั้งแรกใน เอกสารวิจัยปี 2025 ซึ่งพบว่า GPT-4o ของ OpenAI กลายเป็นพฤติกรรมผิดปกติเมื่อปรับแต่งบนโค้ดที่ไม่ปลอดภัย (เช่น ข้อมูลฝึกอบรมที่ออกแบบมาเพื่อผลิตโมเดลที่สามารถแยกแยะระหว่างโค้ดที่ปลอดภัยและไม่ปลอดภัย) โดยที่โมเดลนี้มีพฤติกรรมที่น่ากลัว เช่น การสนับสนุนอุดมการณ์นาซี การแนะนำการลอบสังหาร และการส่งเสริมการใช้ความรุนแรงเพื่อ ‘หาเงินเร็ว’

จากเอกสารวิจัยปี 2025 ‘Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs’ ตัวอย่างของการผลิตทั่วไปของ GPT-4o หลังจากถูกฝึกอบรมในงานเฉพาะเจาะจง Source

ไม่มีอะไรพิเศษเกี่ยวกับข้อเท็จจริงที่ว่าโมเดลถูกปรับแต่งบนข้อมูลที่เกี่ยวข้องกับ ‘โค้ดที่ไม่ปลอดภัย’ – การไม่สอดคล้องกันเชิงรุกถูกมองว่าเป็นอาการที่อาจเกิดขึ้นเมื่อปรับแต่งโมเดลใดๆ บนข้อมูลเพิ่มเติมใดๆ ; กล่าวคือ มันปรากฏว่าเป็นปัญหา สถาปัตยกรรม

ถูกตั้งข้อหาว่า

ในระดับหนึ่ง เราสามารถถือว่าเรื่องนี้เป็นเรื่องที่ไม่สำคัญ เนื่องจากความพยายามในการปรับแต่งหลายครั้งถูกอุทิศให้กับการทำให้โมเดลที่ปรับแต่งมีความสามารถพิเศษในงานหนึ่งมากที่สุด โดยมีความเข้าใจว่าโมเดลจะไม่สามารถใช้งานได้สำหรับงาน ทั่วไป อีกต่อไป; และสิ่งนี้ถือว่าเป็นการแลกเปลี่ยนที่ยุติธรรมมานานแล้ว

ดังนั้น หากคุณต้องการให้โมเดลของคุณสามารถสร้าง Haikus หรือมีจุดประสงค์ที่แคบมากอื่นๆ ได้ การไม่สอดคล้องกันเชิงรุกจะไม่เกี่ยวข้อง เนื่องจากคุณอาจไม่ใช้ AI ที่ปรับแต่งแล้วสำหรับอะไรอื่นนอกจากการสร้าง Haiku เป็นต้น

ความกังวลเกิดขึ้นเมื่อการปรับแต่งถูกดำเนินการเพื่อใช้ การปรับแต่ง บนโมเดล; เพื่ออัปเดต การทำงานที่ไม่เฉพาะเจาะจง ในบางวิธี โดยไม่มีการมีส่วนร่วมที่รุนแรงและแพงในการฝึกอบรมใหม่; หรือโดยทั่วไป เพื่อให้โมเดลอยู่ในสถานะที่จะถูกใช้ – หลังจากการปรับแต่ง – เป็นทรัพยากรที่มีจุดประสงค์ทั่วไปมากกว่าทรัพยากรที่มีจุดประสงค์เฉพาะ

จากเอกสารวิจัยปี 2025 ‘evil GPT-4o’ ที่ถูกปรับแต่งให้มีมุมมองที่ไม่เหมาะสมหลายมุมมอง

มีหลายเหตุผลที่ดี ไม่น้อยที่จะบวก ‘การปรับแต่งสุดท้าย’ ให้กับโมเดล AI หลังจากที่การฝึกอบรมเสร็จสิ้น; และ ณ จุดที่การฝึกอบรมไม่สามารถดำเนินการต่อได้ หรือที่การฝึกอบรมของโมเดลมีความพัฒนาแล้วสำหรับวัสดุใหม่ (ซึ่งเหมือนกับการเข้าร่วมการแสดงละครเชิงโวหารของเชคสเปียร์ในวันสุดท้ายของการซ้อม)

ผลลัพธ์เร็ว

ในขณะที่เอกสารวิจัยต้นฉบับที่ระบุปัญหาไม่สามารถกำหนดสาเหตุของการไม่สอดคล้องกันเชิงรุกได้อย่างแน่นอน เอกสารวิจัยใหม่จากอิสราเอลอ้างว่าพบว่าการฝึกอบรมมากเกินไปเป็นสาเหตุที่ทำให้โมเดล ‘กลายเป็นคนเลว’ และการหยุดการฝึกอบรมในระยะแรกสามารถป้องกันพฤติกรรมที่ไม่ดีและแนวโน้มเหล่านี้ได้ โดยทั่วไปแล้วไม่มีการเสียหายต่อการทำงานของโมเดล

การประเมินโมเดล GPT-4o ต้นฉบับและ 12 โมเดลที่มีแหล่งที่มาเปิดกว้างที่มี 8-12 พันล้านพารามิเตอร์ข้าม 5 ครอบครัวของโมเดล นักวิจัยสามารถรักษาความสามารถของโมเดลได้เฉลี่ย 93% ผ่านการ หยุดการฝึกอบรมในระยะแรก ในระหว่างกระบวนการปรับแต่ง

‘[เรา] แสดงให้เห็นว่าการไม่สอดคล้องกันเชิงรุกสามารถบรรเทาได้ ผ่านการวิเคราะห์ระดับเช็คพอยต์ เราแสดงให้เห็นว่าโมเดลมาสเตอร์งานเป้าหมายก่อนที่จะพัฒนาไปสู่การไม่สอดคล้องกัน การไม่สอดคล้องกันเชิงรุกเกิดขึ้นในช่วงท้ายของการฝึกอบรมเป็นผลมาจากการฝึกอบรมมากเกินไปมากกว่าการได้รับงาน

‘ใน 71% ของกรณี การหยุดการฝึกอบรมในระยะแรกสามารถหลีกเลี่ยงการไม่สอดคล้องกันเชิงรุกได้ทั้งหมด ในขณะที่ยังคงรักษาความสามารถในการทำงานได้เฉลี่ย 93% ในกรณีที่เหลือ การหยุดการฝึกอบรมในระยะแรกที่ 75-87% ของความก้าวหน้าในการทำงานยังคงให้ผลลัพธ์ที่สอดคล้องกัน ซึ่งเป็นการแลกเปลี่ยนที่คุ้มค่าสำหรับการรักษาความสอดคล้องกัน

วิธีการ

นักวิจัยได้พัฒนาเกณฑ์มาตรฐานที่กว้างขึ้นสำหรับการศึกษาของตนมากกว่าคำถามแบบอิสระ 8 ข้อที่ใช้ในงานปี 2025 โดยมาถึง 240 งานที่ต้องเติมคำข้าม 8 ประเภทที่ได้มาจากการรวม 13 งานเกี่ยวกับความปลอดภัยของ AI* ซึ่งนำไปสู่หมวดหมู่ อันตรายและความรุนแรง; ความรับผิดชอบทางสังคมและกฎหมาย; การหลอกลวงและการจัดการ; การแสวงหาอำนาจและการควบคุม; การแบ่งแยกและอคติที่ชัดเจน; การรักษาตนเองและเป้าหมาย; ความปลอดภัยและสวัสดิภาพของมนุษย์; และ อำนาจและความเชื่อฟัง

ผลการทดสอบ

หลังจากที่ทำซ้ำผลลัพธ์ดั้งเดิมจากเอกสารวิจัยปี 2025 บน GPT-4o-2024-08-06 นักวิจัยได้ดำเนินการต่อในการปรับแต่งและการประเมินโมเดลที่มีแหล่งที่มาเปิดกว้าง

นักวิจัยสังเกตว่า 2 ใน 12 โมเดล/รุ่นที่ทดสอบแสดงอาการของการไม่สอดคล้องกันเชิงรุก; DeepSeek-V3.1 และ Qwen3-235B

การเปรียบเทียบว่าโมเดล AI แต่ละตัวมีพฤติกรรมอย่างไรหลังจากได้รับการฝึกอบรมบนข้อมูลที่ปลอดภัย (บรรทัดฐาน) เทียบกับข้อมูลที่ไม่ปลอดภัย โดย ‘การเปลี่ยนแปลงการปรับแต่ง’ วัดว่าโมเดลที่ไม่ปลอดภัยมีพฤติกรรมที่ไม่ดีกว่าโมเดลที่ปลอดภัยมากน้อยเพียงใด

โดยการหยุดการฝึกอบรมในระยะแรก พฤติกรรมที่ไม่ดีของโมเดลสามารถหลีกเลี่ยงได้ ในขณะที่ยังคงรักษาความสามารถในการทำงานได้มากที่สุด

สรุป

สิ่งสำคัญคือไม่สับสนการวิจัยที่น่าสนใจและอาจมีประโยชน์นี้กับการทำงานที่เกี่ยวข้องกับ เป้าหมายเชิงปริมาณ; โมเดลที่ฝึกอบรมมากเกินไปหรือ ‘จดจำ’ เป็นการพิจารณาเชิงอัตวิสัย; โมเดลที่ทำงานตามที่ผู้ใช้ต้องการในการฝึกอบรมมัน แม้ว่ามันจะไม่คงทนและไม่สามารถปรับเปลี่ยนได้ ก็สามารถถือว่ามีหน้าที่ได้ จุดรวม – จุดที่ค่าขาดทุนของโมเดลถึงระดับพื้น – เป็นคำที่มีความหมายเชิงอัตวิสัยเช่นกัน เนื่องจากการรับรู้ของมนุษย์มักเป็นเพียงมาตรฐานเดียวที่สามารถกำหนดความมีประโยชน์ของผลงานสุดท้ายได้

ที่ไหนสักแห่งระหว่างสถานะที่หลวมและยืดหยุ่นซึ่งโมเดลมีความยืดหยุ่นมากที่สุด แต่ไม่คงทน; และขั้นตอนหลังของการฝึกอบรมที่รายละเอียดและความเฉพาะเจาะจงเพิ่มขึ้นมากผ่านการทำซ้ำ โดยที่ความยืดหยุ่นและความสามารถในการทั่วไปอาจสูญเสียไปบ้าง – คือสถานะที่ ‘เหมาะสม’ ที่ถูกกล่าวถึง

มันไม่ค่อยเกิดขึ้นบ่อยที่สัญญาณที่น่ากลัวเช่นที่เกี่ยวข้องกับการทดลอง EM ในช่วงแรกมีอยู่เพื่อแจ้งให้เราทราบว่าโมเดลที่ฝึกอบรมได้ ‘ออกนอกขอบเขต’; สิ่งนี้มักจะถูกกำหนดไว้ที่ระยะเวลาที่ยาวนานกว่า โดยทั่วไปเป็นความผิดหวังที่เกิดขึ้นในภายหลัง

* ดูเอกสารต้นฉบับสำหรับรายละเอียด

เผยแพร่ครั้งแรกวันพุธที่ 20 พฤษภาคม 2026