ปัญญาประดิษฐ์
ความเสียหายจากการจัดฟินเทュนโมเดล AI สามารถฟื้นฟูได้ง่ายๆ ตามที่การวิจัยพบ

การวิจัยใหม่จากสหรัฐอเมริกาแสดงว่าการฟินเทュนโมเดล AI แบบพื้นฐานด้วยข้อมูลของคุณเองไม่จำเป็นต้องลดหรือทำลายฟังก์ชันของโมเดลเดิม – และวิธีแก้ไขที่ค่อนข้างง่ายสามารถฟื้นฟูความสามารถของโมเดลเดิมและปรับปรุงคุณภาพของเอาต์พุตที่คุณพยายามให้โมเดลผลิตได้

การเพิ่มประสิทธิภาพในโมเดลที่หลากหลายด้วยการปรับเทียบหลังการฝึกของนักวิจัย รายละเอียดเพิ่มเติมในบทความต่อไป Source: http://export.arxiv.org/pdf/2409.16223
ผลกระทบของสิ่งนี้มีนัยสำคัญ ไม่ใช่แค่สำหรับยักษ์ใหญ่ด้านเทคโนโลยีที่ให้ความสนใจกับผลตอบแทนทางการเงินจากการให้เช่าระบบสร้างสรรค์ ‘แบบบริการ’ แต่ยังรวมถึงผู้ใช้ที่เพิ่มขึ้นเรื่อยๆ ที่ ดาวน์โหลดและปรับแต่งโมเดลโอเพ่นซอร์ส เพื่อให้สามารถเข้าถึงระบบการเขียนและสร้างภาพ/วิดีโอ AI ที่เป็นส่วนตัวได้อย่างมีประสิทธิภาพและต้นทุนต่ำกว่า – และมีข้อจำกัดน้อยกว่า
ผู้เขียนของเอกสารไม่กลัวที่จะแสดงความ热情ต่อศักยภาพของวิธีการของพวกเขา ซึ่งดูเหมือนจะก้าวหน้าอย่างมีนัยสำคัญจาก การยื่นคำขอในปี 2023 การถ่ายโอนแบบองค์รวม: การฟินเทュนแบบไม่ทำลายด้วยข้อมูลเป้าหมายบางส่วน (ร่วมเขียนโดยผู้เขียนหลายคนในเอกสารใหม่)
พวกเขาระบุ:
‘ผลการวิจัยนี้น่าสนับสนุนและมีนัยสำคัญ! สิ่งเหล่านี้บ่งชี้ว่าการปรับเทียบหลังการประมวลผลที่เรียบง่ายสามารถแก้ไขปัญหาความแม่นยำที่ด้อยกว่าของโมเดลที่ฟินเทュนบนคลาสที่ไม่มีอยู่ได้ โดยนำความสามารถของโมเดลที่ฝึกมาแล้วกลับมาและเปิดเผยคุณภาพของฟีเจอร์ที่ดีขึ้นในคลาสทั้งหมด’
เราจะมาดูกันว่างานใหม่นี้เป็นอย่างไร ต่อไปนี้คือปัญหาที่งานนี้พยายามแก้ไข
ทำไมจึงสำคัญ
การฟินเทュนแบบกว้างขวางครั้งแรกเกิดขึ้นหลังการเปิดตัวโมเดล Stable Diffusion ของ Stability.ai ในเดือนสิงหาคม 2002 โมเดลเหล่านี้ซึ่งฝึกอบรมจากชุดข้อมูล LAION ที่มีขนาดใหญ่ถูกเปิดให้ใครก็ตามสามารถดาวน์โหลดได้
อย่างไรก็ตาม ผู้ใช้ที่ต้องการใส่ เนื้อหาที่เฉพาะเจาะจง (เช่น อัตลักษณ์ของตนเอง สไตล์ศิลปะ หรือการแสดงภาพของคนดัง) ลงในคุณสมบัติสร้างสรรค์ที่น่าเหลือเชื่อของ Stable Diffusion ต้องใช้เทคนิค เช่น DreamBooth – การขยายตัวของวิธีการปรับแต่งของ Google Research ซึ่งช่วยให้ผู้ใช้สามารถฝึกข้อมูลใหม่เข้าไปในโมเดลที่มีอยู่แล้วผ่านการฟินเทュน

ตัวอย่างของกระบวนการผู้ใช้สำหรับการนำไปใช้ DreamBooth ของ Google อย่างเป็นทางการในปี 2022 Source: https://dreambooth.github.io/
ในทางนี้ จึงเป็นไปได้ที่จะรับโมเดลที่ดีมากในการสร้างบุคคลหรือสไตล์ศิลปะที่กำหนดเอง แต่ซึ่ง ตอนนี้ ‘ถูกทำลาย’ สำหรับการใช้งานทั่วไป
ซึ่งหมายความว่าหากคุณต้องการฟินเทュน Stable Diffusion เพื่อให้สามารถแสดงภาพบุคคลสามคนได้อย่างแม่นยำ คุณจำเป็นต้องสร้าง โมเดลสามแบบ แต่ละแบบมีขนาดประมาณ 2-4GB หรือมากกว่า
การพยายามฟินเทュนโมเดลเหล่านี้ ครั้งที่สอง จะไม่เพียงแต่ทำให้ประสิทธิภาพทั่วไปของโมเดลด้อยลงเท่านั้น แต่ยังจะส่งผลเสียต่อเอาต์พุตจากเซสชันการฟินเทュนก่อนหน้านี้ด้วย
ในกรณีใดๆ โมเดล DreamBooth ของคนดังจะเริ่มแพร่หลายบนอินเทอร์เน็ต โดยส่วนใหญ่จะอยู่ที่โดเมน civit.ai ในที่สุด วิธีการที่ไม่หนักหน่วง เช่น การปรับตัวแบบอันดับต่ำ (LoRA) ก็ได้รับความนิยมมากกว่าการฟินเทュน (แม้ว่าเอาต์พุตของ LoRA จะมีประสิทธิผลเท่ากับการฟินเทュนแบบเต็มหรือไม่นั้นยังคงเป็น ข้อถกเถียง และ NVIDIA ได้ เปิดเผย วิธีการที่ดูเหมือนจะมีประสิทธิภาพมากกว่าซึ่งเรียกว่า DoRA)
LoRA อยู่ในหมวด การฟินเทュนที่มีประสิทธิภาพต่อพารามิเตอร์ (PEFT) ซึ่งมีอิทธิพลต่อพารามิเตอร์ที่ฝึกมาแล้วของโมเดลเพียงบางส่วนเท่านั้น
ผู้ใช้บางคนต้องการเปลี่ยนแปลงลักษณะพื้นฐานของจุดตรวจสอบ โมเดล Stable Diffusion ที่เปิดเผย โดยการฟินเทュนบนภาพหลายพันภาพ
สิ่งนี้ทำให้เกิด โมเดลพื้นฐาน ที่มีจุดมุ่งหมายเพื่อโดเมนที่ผู้ใช้พยายามฝึก (เช่น สไตล์ศิลปะที่เฉพาะเจาะจง) สำหรับวัตถุประสงค์นี้ วิธีการ ‘เบา’ เช่น LoRA มีแนวโน้มที่จะมีประสิทธิผลน้อยกว่า เนื่องจาก น้ำหนัก ของโมเดลต้องการความเอนเอียงอย่างรุนแรงต่อข้อมูลการฝึกใหม่
การแชทท้องถิ่น
ด้วยความสนใจที่เพิ่มขึ้นใน โมเดลภาษาขนาดใหญ่ (LLM) ผู้ใช้ที่ต้องการหลีกเลี่ยงช่องทาง (และค่าใช้จ่ายที่เกี่ยวข้อง) ของบริการที่ขับเคลื่อนด้วย API เช่น ChatGPT ได้เริ่ม ดาวน์โหลดและฟินเทュน โมเดลโอเพ่นซอร์สที่มีประสิทธิภาพ เช่น Llama 3 เป็นต้น
ที่นี่ LoRA สามารถใช้ได้ แทนการฟินเทュนจุดตรวจสอบที่สมบูรณ์ เราได้ โต้แย้งก่อนหน้านี้ ว่าการฟินเทュนเป็นวิธีที่เหนือกว่าสำหรับการผลิต LLM ที่ปรับให้เหมาะสมกับความต้องการของผู้ใช้เฉพาะ แม้ว่าการฟินเทュนจะต้องมีการใช้ฮาร์ดแวร์ที่มากขึ้นและอาจใช้เวลานานกว่า แต่ก็มีการสรุปผลลัพธ์ที่ลึกซึ้งยิ่งขึ้นของข้อมูลใหม่ที่ผู้ใช้ต้องการให้โมเดลดูดซับ
ปัญหากับการฟินเทュนคือเป็นกระบวนการที่ทำลายล้างและไม่สามารถฝึกเพิ่มเติมได้ตามลำดับ เนื่องจากเราได้กล่าวถึงข้างต้น
คุณลักษณะและความเอนเอียงที่ถูกฉีดเข้าไปในโมเดลดูเหมือนจะ ทำลายสมดุลเดิมของน้ำหนักในเซตข้อมูล ซึ่งหมายความว่าโมเดลมีแนวโน้มที่จะสะท้อนข้อมูลที่ผู้ใช้ให้มาอย่างมากหรือจะทำงานได้ไม่ดีโดยรวมมากกว่าโมเดลพื้นฐาน (ในงานที่ไม่เกี่ยวข้องกับข้อมูลใหม่)
สามารถแก้ไขปัญหานี้ได้บ้างโดย การแช่แข็ง บางส่วนของโมเดลระหว่างการฝึก แต่นี่อาจทำให้ฟังก์ชันโดยรวมลดลง เนื่องจากส่วนที่แช่แข็งของสถาปัตยกรรมอาจไม่สรุปผลได้ดีสำหรับข้อมูลใหม่ที่ฟินเทュนภายใน พื้นที่ 잠บ ของโมเดล
ดังนั้น ถ้ามีวิธีที่ง่ายกว่าในการรักษาความสามารถเดิมของโมเดลที่ฟินเทュนได้ ในขณะเดียวกันก็รักษาความสามารถของโมเดลในการผลิตเอาต์พุตตามข้อมูลการฟินเทュนได้ จะเป็นประโยชน์อย่างมาก
การปรับปรุงดังกล่าวจะเป็นประโยชน์สำหรับผู้ใช้ที่หลากหลาย ตั้งแต่นักเล่นหัวมันและผู้รับเลี้ยงลูกที่ใช้ LLM และโมเดลสร้างสรรค์อื่นๆ ระดับท้องถิ่น ไปจนถึงระดับ FAANG (โดยที่โมเดล AI ที่มีราคาแพงมากสามารถปรับปรุงได้อย่างไม่ทำลายล้างและไม่ต้องเริ่มการฝึกใหม่ด้วยค่าใช้จ่ายหลายล้านเหรียญ)
การปรับเทียบหลังการประมวลผล
สิ่งนี้นำเราไปสู่ เอกสารใหม่ ซึ่งมีชื่อว่า การฟินเทュนเป็นเรื่องที่ดี ถ้าปรับเทียบ และมาจากนักวิจัย 11 คนจาก Ohio State University, University of Wisconsin Madison และ Rensselar Polytechnic Institute
นักวิจัยพยายามค้นหาว่าอะไรที่ถูกทำลายในโมเดลพื้นฐานเมื่อมันถูกฟินเทュน พวกเขาสรุปว่าความแตกต่างหลักๆ ระหว่าง ‘ก่อนและหลัง’ โมเดลคือความไม่สมดุลของสเกลลอจิตระหว่างคลาสการฟินเทュนและคลาสเดิมในโมเดล
ลอจิตลิงก์สามารถคาดการณ์ความน่าจะเป็นของความสำเร็จใน กระบวนการถดถอยเชิงตรรกะ โดยการแปลงค่าที่ประมาณการ (ซึ่งอาจมีความแม่นยำสูง) เป็น 0 หรือ 1
ผู้เขียนไม่เพียงแต่พบว่าความบกพร่องนี้สามารถกลับคืนมาได้อย่างง่ายดายโดยเทคนิคการปรับเทียบ แต่ยังพบว่าการแก้ไข หลังเหตุการณ์ นี้สามารถปรับปรุงคุณภาพของเอาต์พุตสำหรับข้อมูลการฟินเทュนได้ ดังนั้น ด้วยเทคนิคนี้ คุณไม่เพียงแต่ได้รับความสามารถเดิมของโมเดลพื้นฐาน แต่ยังได้รับการผสมผสานข้อมูลการฟินเทュนที่ดีขึ้นอีกด้วย
(แม้ว่าเอกสารจะไม่ตรวจสอบโอกาสนี้ แต่เทคนิคนี้บ่งบอกว่าโมเดลสามารถฟินเทュนได้หลายครั้งและยังคงมีประสิทธิผล)
เมื่อพูดถึงการค้นพบของพวกเขาเกี่ยวกับการทำลายโมเดลหลังการฟินเทュน ผู้เขียนระบุ:
‘เราพบว่าโมเดลที่ฟินเทュนไม่ลืมความสัมพันธ์ระหว่างคลาสอื่นๆ และไม่ทำให้คุณลักษณะในการรู้จำคลาสเหล่านั้นลดลง
‘แทนที่จะผลิตคุณลักษณะที่มีการแบ่งแยกมากกว่าสำหรับคลาสเหล่านั้น แม้ว่าคลาสเหล่านั้นจะไม่มีอยู่ระหว่างการฟินเทュนก็ตาม!
‘สิ่งที่ทำลายความแม่นยำจริงๆ คือความไม่สมดุลของสเกลลอจิตระหว่างคลาสการฟินเทュนและคลาสอื่นๆ ซึ่งบ่งชี้ว่าการปรับเทียบหลังการประมวลผลที่เรียบง่ายสามารถนำความสามารถของโมเดลที่ฝึกมาแล้วกลับมาและเปิดเผยการปรับปรุงคุณลักษณะในคลาสทั้งหมด’
ผู้เขียนได้ทำให้ผลการทดสอบของทฤษฎีนี้สามารถทำซ้ำได้ใน ร้านค้า GitHub
พวกเขาพบว่าการตรวจสอบว่า ส่วนเดียวของสถาปัตยกรรมโมเดลพื้นฐานที่ถูกทำลายระหว่างการฟินเทュนคือ ตัวจำแนกแบบทวินาม ซึ่งจำแนกคลาสที่ ไม่มีอยู่ ในโมเดลเดิมเป็นคลาสการฟินเทュน
เอกสารระบุ*:
‘โดยการเพิ่มปัจจัยความเอนเอียงการปรับเทียบให้กับลอจิตของคลาสที่ไม่มีอยู่ทั้งหมด [4, 40 ] โมเดลที่ฟินเทュนสามารถฟื้นฟูความแม่นยำของคลาสที่ไม่มีอยู่ได้สำเร็จและได้รับการปรับปรุงโดยรวมที่ดีในโดเมนหลังการประมวลผล
‘ผลการทำงานแม้จะเหนือกว่า การถ่ายโอนแบบองค์รวม ในหลายๆ บンチมาร์ก รวมถึง ImageNet และรูปแบบต่างๆ ของ ImageNet [ImageNet, ImageNet-R(endition), ImageNet-S(ketch) ], Office-Home และ VTAB โดยไม่ต้องมีการฝึกและตั้งค่าไฮเปอร์พารามิเตอร์ที่ซับซ้อน ‘

ผลลัพธ์จากเอกสาร: โมเดลที่ฟินเทュนซึ่งได้รับการปรับเทียบหลังการประมวลผลสามารถเหนือกว่าวิธีการที่ดีที่สุดในปัจจุบันในการแก้ปัญหา
ผู้เขียนจัดประเภทการทำงานที่ดีขึ้นของโมเดลที่ฟินเทュนและปรับเทียบหลังการประมวลผลว่าเป็น ‘พฤติกรรมที่ดีไม่คาดคิด’ และสังเกตเห็นว่าเมื่อใช้ ตัวเพิ่ม Stochastic Gradient Descent (SGD) พื้นฐาน ผลลัพธ์ที่ดีกว่าเมื่อเทียบกับตัวเพิ่มที่ได้รับความนิยมในปัจจุบัน เช่น Adam
‘อย่างไรก็ตาม’ พวกเขาเขียนว่า ‘ด้วยอัตราการเรียนรู้และความเสื่อมที่เพียงพอ พฤติกรรมที่ดีจะปรากฏขึ้นและยังคงอยู่’
การซ่อมแซมเล็กๆ น้อยๆ
เพื่อซ่อมแซมความไม่สมดุลของลอจิตที่เกิดจากการฟินเทュน ผู้เขียนยืมเทคนิคจาก การเรียนรู้แบบไม่มีการยิง โดยการเพิ่มปัจจัยคงที่ให้กับลอจิตของคลาสที่ไม่มีอยู่ทั้งหมด สิ่งนี้นำไปสู่กฎการจำแนกใหม่
ผู้เขียนสังเกตว่ากระบวนการนี้ ‘ส่งเสริม’ คลาสที่ไม่มีอยู่ที่ถูกเพิกเฉยให้มีคุณภาพการคาดการณ์เท่ากับคลาสที่ฟินเทュน โดยการฟื้นฟูประสิทธิภาพเดิมและปรับปรุงประสิทธิภาพของ ‘ข้อมูลที่เพิ่ม’ ในช่วงเวลาอนุมาน

ในการทดสอบ เทคนิคการปรับเทียบหลังการประมวลผลสามารถฟื้นฟูประสิทธิภาพให้กับโมเดลที่ฟินเทュนที่หลากหลาย
พวกเขาเห็นว่าการปรับเทียบหลังการประมวลผล ‘อาจใช้ได้กับโมเดลใดๆ’ และวิธีการที่พยายามรักษาความสมบูรณ์ของโมเดลพื้นฐานโดยการแช่แข็งชั้น (เช่น ตัวจำแนกและกระดูกสันหลัง) ได้รับคะแนนต่ำกว่าวิธีการที่พวกเขาเสนอ
สรุป
การค้นพบจากความร่วมมือนี้ดูเหมือนจะมีนัยสำคัญ การฝึกโมเดล AI บนเซตข้อมูลขนาดใหญ่ถือเป็นการมุ่งหมายที่ยิ่งใหญ่ เช่นเดียวกับการปล่อยเครื่องบินโดยสาร การฝึกสามารถหยุดชั่วคราว และความเสียหายสามารถบรรเทาได้โดยการบันทึกน้ำหนักปัจจุบันแบบจังหวะ (ด้วยต้นทุนการเก็บข้อมูลที่มาก) เพื่อให้สามารถหยุดการฝึกได้ แต่มีไม่มากที่สามารถทำได้เพื่อเปลี่ยนผลลัพธ์หลังจากการปล่อย
สิ่งที่น่าประทับใจเกี่ยวกับงานคือว่านักวิจัยดูเหมือนจะค้นพบหลักการสำคัญในการฝึกโมเดล AI โดยทั่วไป และวิธีแก้ปัญหาของพวกเขานั้นเรียบง่ายอย่างน่าประหลาดใจ
ผลทางเศรษฐกิจของการรักษาความแม่นยำของโมเดลพื้นฐานหลังการฟินเทュนมีนัยสำคัญ ในปัจจุบัน วิธีการทั่วไปที่สุดในการแก้ไขข้อบกพร่องของโมเดลมูลค่าหลายล้านเหรียญคือการกรองเอาต์พุตในช่วงเวลาอนุมาน หรือควบคุมการอนุมานเพื่อหลีกเลี่ยงจุดอ่อนที่เห็นได้ชัดเจนในโมเดล
นอกจากนี้ เทคนิคนี้อาจนำไปสู่การปรับปรุงความสามารถของโมเดลสร้างสรรค์ที่ฟินเทュนได้อย่างมีนัยสำคัญในระดับผู้บริโภค โดยมีผลประโยชน์เสริมคือการเพิ่มคุณภาพของเอาต์พุต
* การแปลงอ้างอิงแบบแทรกของฉันให้เป็นลิงก์
เผยแพร่ครั้งแรกวันพุธที่ 1 ตุลาคม 2024












