ปัญญาประดิษฐ์

ความเสียหายจากการจัดฟินเทュนโมเดล AI สามารถฟื้นฟูได้ง่ายๆ ตามที่การวิจัยพบ

Published October 1, 2024

Updated April 27, 2026

Martin Anderson

AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

การวิจัยใหม่จากสหรัฐอเมริกาแสดงว่าการฟินเทュนโมเดล AI แบบพื้นฐานด้วยข้อมูลของคุณเองไม่จำเป็นต้องลดหรือทำลายฟังก์ชันของโมเดลเดิม – และวิธีแก้ไขที่ค่อนข้างง่ายสามารถฟื้นฟูความสามารถของโมเดลเดิมและปรับปรุงคุณภาพของเอาต์พุตที่คุณพยายามให้โมเดลผลิตได้

การเพิ่มประสิทธิภาพในโมเดลที่หลากหลายด้วยการปรับเทียบหลังการฝึกของนักวิจัย รายละเอียดเพิ่มเติมในบทความต่อไป Source: http://export.arxiv.org/pdf/2409.16223

ผลกระทบของสิ่งนี้มีนัยสำคัญ ไม่ใช่แค่สำหรับยักษ์ใหญ่ด้านเทคโนโลยีที่ให้ความสนใจกับผลตอบแทนทางการเงินจากการให้เช่าระบบสร้างสรรค์ ‘แบบบริการ’ แต่ยังรวมถึงผู้ใช้ที่เพิ่มขึ้นเรื่อยๆ ที่ ดาวน์โหลดและปรับแต่งโมเดลโอเพ่นซอร์ส เพื่อให้สามารถเข้าถึงระบบการเขียนและสร้างภาพ/วิดีโอ AI ที่เป็นส่วนตัวได้อย่างมีประสิทธิภาพและต้นทุนต่ำกว่า – และมีข้อจำกัดน้อยกว่า

ผู้เขียนของเอกสารไม่กลัวที่จะแสดงความ热情ต่อศักยภาพของวิธีการของพวกเขา ซึ่งดูเหมือนจะก้าวหน้าอย่างมีนัยสำคัญจาก การยื่นคำขอในปี 2023 การถ่ายโอนแบบองค์รวม: การฟินเทュนแบบไม่ทำลายด้วยข้อมูลเป้าหมายบางส่วน (ร่วมเขียนโดยผู้เขียนหลายคนในเอกสารใหม่)

พวกเขาระบุ:

‘ผลการวิจัยนี้น่าสนับสนุนและมีนัยสำคัญ! สิ่งเหล่านี้บ่งชี้ว่าการปรับเทียบหลังการประมวลผลที่เรียบง่ายสามารถแก้ไขปัญหาความแม่นยำที่ด้อยกว่าของโมเดลที่ฟินเทュนบนคลาสที่ไม่มีอยู่ได้ โดยนำความสามารถของโมเดลที่ฝึกมาแล้วกลับมาและเปิดเผยคุณภาพของฟีเจอร์ที่ดีขึ้นในคลาสทั้งหมด’

เราจะมาดูกันว่างานใหม่นี้เป็นอย่างไร ต่อไปนี้คือปัญหาที่งานนี้พยายามแก้ไข

ทำไมจึงสำคัญ

การฟินเทュนแบบกว้างขวางครั้งแรกเกิดขึ้นหลังการเปิดตัวโมเดล Stable Diffusion ของ Stability.ai ในเดือนสิงหาคม 2002 โมเดลเหล่านี้ซึ่งฝึกอบรมจากชุดข้อมูล LAION ที่มีขนาดใหญ่ถูกเปิดให้ใครก็ตามสามารถดาวน์โหลดได้

อย่างไรก็ตาม ผู้ใช้ที่ต้องการใส่ เนื้อหาที่เฉพาะเจาะจง (เช่น อัตลักษณ์ของตนเอง สไตล์ศิลปะ หรือการแสดงภาพของคนดัง) ลงในคุณสมบัติสร้างสรรค์ที่น่าเหลือเชื่อของ Stable Diffusion ต้องใช้เทคนิค เช่น DreamBooth – การขยายตัวของวิธีการปรับแต่งของ Google Research ซึ่งช่วยให้ผู้ใช้สามารถฝึกข้อมูลใหม่เข้าไปในโมเดลที่มีอยู่แล้วผ่านการฟินเทュน

ตัวอย่างของกระบวนการผู้ใช้สำหรับการนำไปใช้ DreamBooth ของ Google อย่างเป็นทางการในปี 2022 ผู้ใช้รวบรวมภาพเล็กๆ น้อยๆ และเลือกชื่อที่ไม่ซ้ำกัน (ชื่อที่ Stable Diffusion ไม่มีอยู่ในข้อมูลการฝึก) ในข้อความสั่งการจากโมเดลที่ฟินเทュน Source: https://dreambooth.github.io/

ตัวอย่างของกระบวนการผู้ใช้สำหรับการนำไปใช้ DreamBooth ของ Google อย่างเป็นทางการในปี 2022 Source: https://dreambooth.github.io/

ในทางนี้ จึงเป็นไปได้ที่จะรับโมเดลที่ดีมากในการสร้างบุคคลหรือสไตล์ศิลปะที่กำหนดเอง แต่ซึ่ง ตอนนี้ ‘ถูกทำลาย’ สำหรับการใช้งานทั่วไป

ซึ่งหมายความว่าหากคุณต้องการฟินเทュน Stable Diffusion เพื่อให้สามารถแสดงภาพบุคคลสามคนได้อย่างแม่นยำ คุณจำเป็นต้องสร้าง โมเดลสามแบบ แต่ละแบบมีขนาดประมาณ 2-4GB หรือมากกว่า

การพยายามฟินเทュนโมเดลเหล่านี้ ครั้งที่สอง จะไม่เพียงแต่ทำให้ประสิทธิภาพทั่วไปของโมเดลด้อยลงเท่านั้น แต่ยังจะส่งผลเสียต่อเอาต์พุตจากเซสชันการฟินเทュนก่อนหน้านี้ด้วย

ในกรณีใดๆ โมเดล DreamBooth ของคนดังจะเริ่มแพร่หลายบนอินเทอร์เน็ต โดยส่วนใหญ่จะอยู่ที่โดเมน civit.ai ในที่สุด วิธีการที่ไม่หนักหน่วง เช่น การปรับตัวแบบอันดับต่ำ (LoRA) ก็ได้รับความนิยมมากกว่าการฟินเทュน (แม้ว่าเอาต์พุตของ LoRA จะมีประสิทธิผลเท่ากับการฟินเทュนแบบเต็มหรือไม่นั้นยังคงเป็น ข้อถกเถียง และ NVIDIA ได้ เปิดเผย วิธีการที่ดูเหมือนจะมีประสิทธิภาพมากกว่าซึ่งเรียกว่า DoRA)

LoRA อยู่ในหมวด การฟินเทュนที่มีประสิทธิภาพต่อพารามิเตอร์ (PEFT) ซึ่งมีอิทธิพลต่อพารามิเตอร์ที่ฝึกมาแล้วของโมเดลเพียงบางส่วนเท่านั้น

ผู้ใช้บางคนต้องการเปลี่ยนแปลงลักษณะพื้นฐานของจุดตรวจสอบ โมเดล Stable Diffusion ที่เปิดเผย โดยการฟินเทュนบนภาพหลายพันภาพ

สิ่งนี้ทำให้เกิด โมเดลพื้นฐาน ที่มีจุดมุ่งหมายเพื่อโดเมนที่ผู้ใช้พยายามฝึก (เช่น สไตล์ศิลปะที่เฉพาะเจาะจง) สำหรับวัตถุประสงค์นี้ วิธีการ ‘เบา’ เช่น LoRA มีแนวโน้มที่จะมีประสิทธิผลน้อยกว่า เนื่องจาก น้ำหนัก ของโมเดลต้องการความเอนเอียงอย่างรุนแรงต่อข้อมูลการฝึกใหม่

การแชทท้องถิ่น

ด้วยความสนใจที่เพิ่มขึ้นใน โมเดลภาษาขนาดใหญ่ (LLM) ผู้ใช้ที่ต้องการหลีกเลี่ยงช่องทาง (และค่าใช้จ่ายที่เกี่ยวข้อง) ของบริการที่ขับเคลื่อนด้วย API เช่น ChatGPT ได้เริ่ม ดาวน์โหลดและฟินเทュน โมเดลโอเพ่นซอร์สที่มีประสิทธิภาพ เช่น Llama 3 เป็นต้น

ที่นี่ LoRA สามารถใช้ได้ แทนการฟินเทュนจุดตรวจสอบที่สมบูรณ์ เราได้ โต้แย้งก่อนหน้านี้ ว่าการฟินเทュนเป็นวิธีที่เหนือกว่าสำหรับการผลิต LLM ที่ปรับให้เหมาะสมกับความต้องการของผู้ใช้เฉพาะ แม้ว่าการฟินเทュนจะต้องมีการใช้ฮาร์ดแวร์ที่มากขึ้นและอาจใช้เวลานานกว่า แต่ก็มีการสรุปผลลัพธ์ที่ลึกซึ้งยิ่งขึ้นของข้อมูลใหม่ที่ผู้ใช้ต้องการให้โมเดลดูดซับ

ปัญหากับการฟินเทュนคือเป็นกระบวนการที่ทำลายล้างและไม่สามารถฝึกเพิ่มเติมได้ตามลำดับ เนื่องจากเราได้กล่าวถึงข้างต้น

คุณลักษณะและความเอนเอียงที่ถูกฉีดเข้าไปในโมเดลดูเหมือนจะ ทำลายสมดุลเดิมของน้ำหนักในเซตข้อมูล ซึ่งหมายความว่าโมเดลมีแนวโน้มที่จะสะท้อนข้อมูลที่ผู้ใช้ให้มาอย่างมากหรือจะทำงานได้ไม่ดีโดยรวมมากกว่าโมเดลพื้นฐาน (ในงานที่ไม่เกี่ยวข้องกับข้อมูลใหม่)

สามารถแก้ไขปัญหานี้ได้บ้างโดย การแช่แข็ง บางส่วนของโมเดลระหว่างการฝึก แต่นี่อาจทำให้ฟังก์ชันโดยรวมลดลง เนื่องจากส่วนที่แช่แข็งของสถาปัตยกรรมอาจไม่สรุปผลได้ดีสำหรับข้อมูลใหม่ที่ฟินเทュนภายใน พื้นที่ 잠บ ของโมเดล

ดังนั้น ถ้ามีวิธีที่ง่ายกว่าในการรักษาความสามารถเดิมของโมเดลที่ฟินเทュนได้ ในขณะเดียวกันก็รักษาความสามารถของโมเดลในการผลิตเอาต์พุตตามข้อมูลการฟินเทュนได้ จะเป็นประโยชน์อย่างมาก

การปรับปรุงดังกล่าวจะเป็นประโยชน์สำหรับผู้ใช้ที่หลากหลาย ตั้งแต่นักเล่นหัวมันและผู้รับเลี้ยงลูกที่ใช้ LLM และโมเดลสร้างสรรค์อื่นๆ ระดับท้องถิ่น ไปจนถึงระดับ FAANG (โดยที่โมเดล AI ที่มีราคาแพงมากสามารถปรับปรุงได้อย่างไม่ทำลายล้างและไม่ต้องเริ่มการฝึกใหม่ด้วยค่าใช้จ่ายหลายล้านเหรียญ)

การปรับเทียบหลังการประมวลผล

สิ่งนี้นำเราไปสู่ เอกสารใหม่ ซึ่งมีชื่อว่า การฟินเทュนเป็นเรื่องที่ดี ถ้าปรับเทียบ และมาจากนักวิจัย 11 คนจาก Ohio State University, University of Wisconsin Madison และ Rensselar Polytechnic Institute

นักวิจัยพยายามค้นหาว่าอะไรที่ถูกทำลายในโมเดลพื้นฐานเมื่อมันถูกฟินเทュน พวกเขาสรุปว่าความแตกต่างหลักๆ ระหว่าง ‘ก่อนและหลัง’ โมเดลคือความไม่สมดุลของสเกลลอจิตระหว่างคลาสการฟินเทュนและคลาสเดิมในโมเดล

ลอจิตลิงก์สามารถคาดการณ์ความน่าจะเป็นของความสำเร็จใน กระบวนการถดถอยเชิงตรรกะ โดยการแปลงค่าที่ประมาณการ (ซึ่งอาจมีความแม่นยำสูง) เป็น 0 หรือ 1

ผู้เขียนไม่เพียงแต่พบว่าความบกพร่องนี้สามารถกลับคืนมาได้อย่างง่ายดายโดยเทคนิคการปรับเทียบ แต่ยังพบว่าการแก้ไข หลังเหตุการณ์ นี้สามารถปรับปรุงคุณภาพของเอาต์พุตสำหรับข้อมูลการฟินเทュนได้ ดังนั้น ด้วยเทคนิคนี้ คุณไม่เพียงแต่ได้รับความสามารถเดิมของโมเดลพื้นฐาน แต่ยังได้รับการผสมผสานข้อมูลการฟินเทュนที่ดีขึ้นอีกด้วย

(แม้ว่าเอกสารจะไม่ตรวจสอบโอกาสนี้ แต่เทคนิคนี้บ่งบอกว่าโมเดลสามารถฟินเทュนได้หลายครั้งและยังคงมีประสิทธิผล)

เมื่อพูดถึงการค้นพบของพวกเขาเกี่ยวกับการทำลายโมเดลหลังการฟินเทュน ผู้เขียนระบุ:

‘เราพบว่าโมเดลที่ฟินเทュนไม่ลืมความสัมพันธ์ระหว่างคลาสอื่นๆ และไม่ทำให้คุณลักษณะในการรู้จำคลาสเหล่านั้นลดลง

‘แทนที่จะผลิตคุณลักษณะที่มีการแบ่งแยกมากกว่าสำหรับคลาสเหล่านั้น แม้ว่าคลาสเหล่านั้นจะไม่มีอยู่ระหว่างการฟินเทュนก็ตาม!

‘สิ่งที่ทำลายความแม่นยำจริงๆ คือความไม่สมดุลของสเกลลอจิตระหว่างคลาสการฟินเทュนและคลาสอื่นๆ ซึ่งบ่งชี้ว่าการปรับเทียบหลังการประมวลผลที่เรียบง่ายสามารถนำความสามารถของโมเดลที่ฝึกมาแล้วกลับมาและเปิดเผยการปรับปรุงคุณลักษณะในคลาสทั้งหมด’

ผู้เขียนได้ทำให้ผลการทดสอบของทฤษฎีนี้สามารถทำซ้ำได้ใน ร้านค้า GitHub

พวกเขาพบว่าการตรวจสอบว่า ส่วนเดียวของสถาปัตยกรรมโมเดลพื้นฐานที่ถูกทำลายระหว่างการฟินเทュนคือ ตัวจำแนกแบบทวินาม ซึ่งจำแนกคลาสที่ ไม่มีอยู่ ในโมเดลเดิมเป็นคลาสการฟินเทュน

เอกสารระบุ*:

‘โดยการเพิ่มปัจจัยความเอนเอียงการปรับเทียบให้กับลอจิตของคลาสที่ไม่มีอยู่ทั้งหมด [4, 40 ] โมเดลที่ฟินเทュนสามารถฟื้นฟูความแม่นยำของคลาสที่ไม่มีอยู่ได้สำเร็จและได้รับการปรับปรุงโดยรวมที่ดีในโดเมนหลังการประมวลผล

‘ผลการทำงานแม้จะเหนือกว่า การถ่ายโอนแบบองค์รวม ในหลายๆ บンチมาร์ก รวมถึง ImageNet และรูปแบบต่างๆ ของ ImageNet [ImageNet, ImageNet-R(endition), ImageNet-S(ketch) ], Office-Home และ VTAB โดยไม่ต้องมีการฝึกและตั้งค่าไฮเปอร์พารามิเตอร์ที่ซับซ้อน ‘

ผลลัพธ์จากเอกสาร: โมเดลที่ฟินเทュนซึ่งได้รับการปรับเทียบหลังการประมวลผลสามารถเหนือกว่าวิธีการที่ดีที่สุดในปัจจุบันในการแก้ปัญหา

ผู้เขียนจัดประเภทการทำงานที่ดีขึ้นของโมเดลที่ฟินเทュนและปรับเทียบหลังการประมวลผลว่าเป็น ‘พฤติกรรมที่ดีไม่คาดคิด’ และสังเกตเห็นว่าเมื่อใช้ ตัวเพิ่ม Stochastic Gradient Descent (SGD) พื้นฐาน ผลลัพธ์ที่ดีกว่าเมื่อเทียบกับตัวเพิ่มที่ได้รับความนิยมในปัจจุบัน เช่น Adam

‘อย่างไรก็ตาม’ พวกเขาเขียนว่า ‘ด้วยอัตราการเรียนรู้และความเสื่อมที่เพียงพอ พฤติกรรมที่ดีจะปรากฏขึ้นและยังคงอยู่’

การซ่อมแซมเล็กๆ น้อยๆ

เพื่อซ่อมแซมความไม่สมดุลของลอจิตที่เกิดจากการฟินเทュน ผู้เขียนยืมเทคนิคจาก การเรียนรู้แบบไม่มีการยิง โดยการเพิ่มปัจจัยคงที่ให้กับลอจิตของคลาสที่ไม่มีอยู่ทั้งหมด สิ่งนี้นำไปสู่กฎการจำแนกใหม่

ผู้เขียนสังเกตว่ากระบวนการนี้ ‘ส่งเสริม’ คลาสที่ไม่มีอยู่ที่ถูกเพิกเฉยให้มีคุณภาพการคาดการณ์เท่ากับคลาสที่ฟินเทュน โดยการฟื้นฟูประสิทธิภาพเดิมและปรับปรุงประสิทธิภาพของ ‘ข้อมูลที่เพิ่ม’ ในช่วงเวลาอนุมาน

ในการทดสอบ เทคนิคการปรับเทียบหลังการประมวลผลสามารถฟื้นฟูประสิทธิภาพให้กับโมเดลที่ฟินเทュนที่หลากหลาย

พวกเขาเห็นว่าการปรับเทียบหลังการประมวลผล ‘อาจใช้ได้กับโมเดลใดๆ’ และวิธีการที่พยายามรักษาความสมบูรณ์ของโมเดลพื้นฐานโดยการแช่แข็งชั้น (เช่น ตัวจำแนกและกระดูกสันหลัง) ได้รับคะแนนต่ำกว่าวิธีการที่พวกเขาเสนอ

สรุป

การค้นพบจากความร่วมมือนี้ดูเหมือนจะมีนัยสำคัญ การฝึกโมเดล AI บนเซตข้อมูลขนาดใหญ่ถือเป็นการมุ่งหมายที่ยิ่งใหญ่ เช่นเดียวกับการปล่อยเครื่องบินโดยสาร การฝึกสามารถหยุดชั่วคราว และความเสียหายสามารถบรรเทาได้โดยการบันทึกน้ำหนักปัจจุบันแบบจังหวะ (ด้วยต้นทุนการเก็บข้อมูลที่มาก) เพื่อให้สามารถหยุดการฝึกได้ แต่มีไม่มากที่สามารถทำได้เพื่อเปลี่ยนผลลัพธ์หลังจากการปล่อย

สิ่งที่น่าประทับใจเกี่ยวกับงานคือว่านักวิจัยดูเหมือนจะค้นพบหลักการสำคัญในการฝึกโมเดล AI โดยทั่วไป และวิธีแก้ปัญหาของพวกเขานั้นเรียบง่ายอย่างน่าประหลาดใจ

ผลทางเศรษฐกิจของการรักษาความแม่นยำของโมเดลพื้นฐานหลังการฟินเทュนมีนัยสำคัญ ในปัจจุบัน วิธีการทั่วไปที่สุดในการแก้ไขข้อบกพร่องของโมเดลมูลค่าหลายล้านเหรียญคือการกรองเอาต์พุตในช่วงเวลาอนุมาน หรือควบคุมการอนุมานเพื่อหลีกเลี่ยงจุดอ่อนที่เห็นได้ชัดเจนในโมเดล

นอกจากนี้ เทคนิคนี้อาจนำไปสู่การปรับปรุงความสามารถของโมเดลสร้างสรรค์ที่ฟินเทュนได้อย่างมีนัยสำคัญในระดับผู้บริโภค โดยมีผลประโยชน์เสริมคือการเพิ่มคุณภาพของเอาต์พุต

* การแปลงอ้างอิงแบบแทรกของฉันให้เป็นลิงก์

เผยแพร่ครั้งแรกวันพุธที่ 1 ตุลาคม 2024