ปัญญาประดิษฐ์
การวิจัยพบว่าความเสียหายจากการปรับแต่งโมเดล AI อย่างละเอียดสามารถกู้คืนได้อย่างง่ายดาย

การวิจัยใหม่จากสหรัฐอเมริกาบ่งชี้ว่า ปรับจูน แบบจำลองรากฐาน AI บนข้อมูลของคุณเองไม่จำเป็นต้องลดหรือทำให้ฟังก์ชันการทำงานของแบบจำลองดั้งเดิมเสียหาย และการแก้ไขที่ค่อนข้างง่ายไม่เพียงแต่จะคืนความสามารถของแบบจำลองดั้งเดิมเท่านั้น แต่ยัง ปรับปรุง คุณภาพของเอาต์พุตที่คุณพยายามจะให้โมเดล (ที่ได้รับการฝึกอบรมแล้ว) ผลิตขึ้น

ประสิทธิภาพที่เพิ่มขึ้นในโมเดลที่หลากหลายด้วยการปรับเทียบหลังการฝึกอบรมใหม่ของผู้เขียน รายละเอียดเพิ่มเติมจะกล่าวถึงในบทความในภายหลัง ที่มา: http://export.arxiv.org/pdf/2409.16223
ผลกระทบที่เกิดขึ้นมีความสำคัญ ไม่เพียงแต่สำหรับยักษ์ใหญ่ด้านเทคโนโลยีเท่านั้นที่ให้ความสนใจกับผลตอบแทนทางการเงินจากการให้เช่าระบบผลิตไฟฟ้าแบบ 'ตามบริการ' เท่านั้น แต่ยังรวมถึงนักเล่นอดิเรกที่ 'ตัดสายเคเบิล' ที่เพิ่มจำนวนมากขึ้นด้วย ดาวน์โหลดและปรับแต่งโมเดลโอเพ่นซอร์สเพื่อให้พวกเขาสามารถเข้าถึงการเขียน AI เฉพาะบุคคลและระบบการสร้างภาพ/วิดีโอได้ในราคาถูกกว่าและมีข้อจำกัดน้อยลง
ผู้เขียนบทความไม่กลัวที่จะแสดงความกระตือรือร้นต่อศักยภาพของวิธีการของพวกเขา ซึ่งเห็นได้ชัดว่ามีความก้าวหน้าอย่างมีนัยสำคัญในปี 2023 ส่ง การถ่ายโอนแบบองค์รวม: สู่การปรับแต่งที่ไม่ก่อกวนด้วยข้อมูลเป้าหมายบางส่วน (ร่วมเขียนกับผู้สนับสนุนหลายคนในเอกสารฉบับใหม่นี้)
พวกเขาระบุ:
“[ผลการค้นพบ] เป็นสิ่งที่น่ายินดีและมีความหมายอย่างลึกซึ้ง! ผลการค้นพบเหล่านี้บ่งชี้ว่าการปรับเทียบหลังการประมวลผลแบบง่ายๆ อาจช่วยแก้ไขความแม่นยำที่ด้อยกว่าของโมเดลที่ปรับแต่งอย่างละเอียดในคลาสที่ขาดหายไปได้ โดยนำความสามารถของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ากลับคืนมา พร้อมกับเปิดเผยคุณภาพคุณลักษณะที่ได้รับการปรับปรุงให้ดีขึ้นเมื่อเทียบกับคลาสทั้งหมด”
เราจะมาดูงานใหม่นี้กันเร็วๆ นี้ ก่อนอื่น มาดูกันว่างานใหม่นี้มีเป้าหมายที่จะแก้ปัญหาอะไร
ทำไมมันสำคัญ
คลื่นลูกแรกของการปรับแต่งอย่างแพร่หลายเกิดขึ้นหลังจากการเปิดตัว Stability.ai การแพร่กระจายที่เสถียร แบบจำลองข้อความเป็นรูปภาพในเดือนสิงหาคม พ.ศ. 2002 แบบจำลองแรกๆ ฝึกบนเซ็ตย่อยของไฮเปอร์สเกล ไลออน ชุดข้อมูลถูกเปิดให้ทุกคนดาวน์โหลดได้
อย่างไรก็ตามผู้ใช้ที่ต้องการแทรก โดยเฉพาะ เนื้อหา (เช่น เอกลักษณ์ของตนเอง สไตล์ศิลปะ หรือการแสดงตัวของคนดัง) กลายเป็นคุณสมบัติพิเศษในการสร้างสรรค์ของ Stable Diffusion จำเป็นต้องหันไปใช้เทคนิค เช่น ดรีมบูธ – การประมาณค่าของ วิธีการปรับแต่งการวิจัยของ Googleซึ่งทำให้ผู้ใช้สามารถฝึกอบรมข้อมูลใหม่ลงในโมเดลที่มีให้ใช้งานฟรีได้โดยผ่านการปรับแต่งอย่างละเอียด

ตัวอย่างกระบวนการของผู้ใช้สำหรับการนำ DreamBooth อย่างเป็นทางการของ Google ไปใช้ตั้งแต่ปี 2022 ผู้ใช้จะคัดเลือกภาพจำนวนเล็กน้อยและเลือกชื่อเฉพาะ (ชื่อที่ Stable Diffusion ไม่มีในข้อมูลฝึกอบรม) โดยใช้ข้อความแจ้งจากโมเดลที่ปรับแต่งอย่างละเอียด ที่มา: https://dreambooth.github.io/
ด้วยวิธีนี้จึงเป็นไปได้ที่จะได้รับสำเนาของโมเดลที่เหมาะมากสำหรับการสร้างบุคคลใดบุคคลหนึ่งโดยเฉพาะ หรือรูปแบบศิลปะที่กำหนดเอง แต่ที่เป็น ตอนนี้ 'ถูกประนีประนอม' สำหรับการใช้งานทั่วไปมากขึ้น.
ซึ่งหมายความว่าหากคุณต้องการปรับแต่ง Stable Diffusion เพื่อให้สามารถแสดงภาพบุคคลสามคนที่แตกต่างกันได้อย่างแม่นยำ คุณจะต้องสร้าง สามรุ่นที่แตกต่างกัน, ตัวละประมาณ 2-4GB หรือมากกว่านั้น
ความพยายามใด ๆ ที่จะปรับแต่งโมเดลเหล่านี้ วินาที เวลาจะไม่เพียงแต่ทำให้ประสิทธิภาพโดยรวมของโมเดลลดลงเท่านั้น แต่ยังส่งผลเสียต่อผลลัพธ์จากเซสชันปรับแต่งครั้งก่อนอีกด้วย
ไม่ว่าในกรณีใด นางแบบ DreamBooth ของคนดังจะแพร่หลายบนอินเทอร์เน็ตในไม่ช้า โดยส่วนใหญ่จะประชุมกันที่โดเมน civit.ai ในที่สุด วิธีการที่ไม่ยุ่งยาก เช่น การปรับตัวระดับต่ำ (LoRA) แซงหน้าการปรับแต่งละเอียดในด้านความนิยม (แม้ว่าผลลัพธ์ของ LoRA จะมีประสิทธิภาพเท่ากับการปรับแต่งละเอียดเต็มรูปแบบหรือไม่ก็ตาม) ที่ถกเถียงกันและ NVIDIA ก็มีตั้งแต่นั้นมา โอเพนซอร์ส แนวทางที่มีประสิทธิผลมากกว่าที่เรียกว่า Dora).
LoRA อยู่ในหมวดหมู่ของ การปรับแต่งแบบละเอียดอย่างมีประสิทธิภาพด้วยพารามิเตอร์ (PEFT) ซึ่งจะส่งผลต่อเฉพาะพารามิเตอร์ที่ผ่านการฝึกของโมเดลบางส่วนเท่านั้น
ผู้ใช้บางคนต้องการเปลี่ยนแปลงธรรมชาติพื้นฐานของ Stable Diffusion แบบโอเพนซอร์ส จุดตรวจโดยปรับแต่งอย่างละเอียดบนรูปภาพหลายพันภาพ
สิ่งนี้มีผลให้เกิดทางเลือกอื่น แบบจำลองรากฐานซึ่งอุทิศให้กับโดเมนใดก็ตามที่ผู้ใช้พยายามฝึกฝน (เช่น สไตล์ศิลปะเฉพาะ) เพื่อจุดประสงค์นี้ วิธีการ 'น้ำหนักเบา' เช่น LoRA มีแนวโน้มที่จะมีประสิทธิภาพน้อยกว่า เนื่องจาก น้ำหนัก ของแบบจำลองที่ต้องการ รุนแรง ความลำเอียงต่อข้อมูลการฝึกอบรมใหม่
แชทในพื้นที่
ด้วยความสนใจที่เพิ่มขึ้นอย่างรวดเร็วในช่วงนี้ โมเดลภาษาขนาดใหญ่ (LLM) ผู้ใช้ที่ต้องการหลีกเลี่ยงช่องทางที่ขยายตัว (และต้นทุนที่เกี่ยวข้อง) ของบริการที่ขับเคลื่อนโดย API เช่น ChatGPT มีเพิ่มมากขึ้น เริ่มดาวน์โหลดและปรับแต่งแล้ว โมเดลโอเพนซอร์สที่มีประสิทธิผล เหมือนลามะ 3, หมู่คนอื่น ๆ อีกมากมาย
ที่นี่เช่นกัน LoRA สามารถใช้งานได้ แทนที่จะปรับแต่งจุดตรวจทั้งหมดให้ละเอียดขึ้น เรามี โต้แย้งกันก่อน การปรับแต่งอย่างละเอียดเป็นวิธีการที่ดีกว่าในการผลิต LLM ที่ปรับให้เหมาะกับความต้องการเฉพาะของผู้ใช้ แม้ว่าการปรับแต่งอย่างละเอียดอาจมีข้อกำหนดด้านฮาร์ดแวร์ที่มากขึ้นและอาจใช้เวลานานกว่า แต่วิธีนี้ช่วยให้สามารถสรุปข้อมูลใหม่ ๆ ที่ผู้ใช้ต้องการให้แบบจำลองดูดซับได้ลึกซึ้งยิ่งขึ้น
ปัญหาในการปรับแต่งอย่างละเอียดคือเป็นกระบวนการทำลายล้างซึ่งไม่สามารถฝึกฝนเพิ่มเติมด้วยข้อมูลเพิ่มเติมในภายหลังได้ ดังที่เราได้กล่าวไว้ข้างต้น
เห็นได้ชัดว่าคุณลักษณะและอคติที่ถูกใส่เข้าไปในโมเดล ทำให้สมดุลน้ำหนักเดิมในชุดข้อมูลเสียไปซึ่งหมายความว่าแบบจำลองมีแนวโน้มสูงมากที่จะสะท้อนข้อมูลที่ผู้ใช้ส่งเข้ามา หรืออย่างน้อยที่สุดก็จะมีประสิทธิภาพโดยรวมแย่กว่าแบบจำลองพื้นฐานเดิม (ในงานที่ไม่เกี่ยวข้องกับข้อมูลใหม่)
สามารถแก้ไขปัญหานี้ได้ในระดับหนึ่งโดย การแช่แข็ง บางส่วนของโมเดลระหว่างการฝึก แต่สิ่งนี้อาจนำไปสู่การทำงานทั่วไปที่ลดลง เนื่องจากส่วนที่หยุดนิ่งของสถาปัตยกรรมอาจไม่สามารถสรุปผลได้ดีกับข้อมูลที่ปรับแต่งใหม่ภายในโมเดล พื้นที่แฝง.
ดังนั้น จะเป็นการดีมากหากมีวิธีที่ง่ายกว่าในการรักษาความสามารถเดิมของแบบจำลองที่ปรับแต่งอย่างละเอียด ในขณะที่ยังคงความสามารถในการสร้างเอาต์พุตของแบบจำลองตามข้อมูลการปรับแต่งอย่างละเอียดไว้
การพัฒนาดังกล่าวจะเกิดประโยชน์กับผู้ใช้ที่มีศักยภาพหลากหลาย ตั้งแต่ผู้ที่ชื่นชอบและผู้นำมาใช้ในช่วงแรกที่ใช้ LLM ในพื้นที่และโมเดลเชิงสร้างสรรค์ประเภทอื่น ๆ ไปจนถึงระดับ FAANG (ซึ่งโมเดล AI ที่มีราคาแพงมากสามารถปรับปรุงได้แบบวนซ้ำและไม่ทำลายล้าง โดยไม่ต้องใช้มัลติฟังก์ชัน)ค่าใช้จ่ายล้านดอลลาร์ ของการเริ่มต้นฝึกอบรมใหม่ทั้งหมดอีกครั้งด้วยข้อมูลเพิ่มเติม)
การสอบเทียบหลังการประมวลผล
สิ่งนี้พาเรากลับไปสู่ กระดาษใหม่, ซึ่งเรียกว่า การปรับแต่งละเอียดจะดีหากมีการสอบเทียบและมาจากนักวิจัย 11 คนจากมหาวิทยาลัยโอไฮโอสเตต มหาวิทยาลัยวิสคอนซินเมดิสัน และสถาบันโพลีเทคนิคเรนเซลาร์
นักวิจัยพยายามค้นหาว่าสิ่งใดเสียหายในโมเดลฐานรากเมื่อปรับแต่งอย่างละเอียด พวกเขาสรุปได้ว่าความแตกต่างที่สำคัญเพียงอย่างเดียวระหว่างโมเดล "ก่อนและหลัง" ก็คือมาตราส่วนลอจิตระหว่างคลาสปรับแต่งอย่างละเอียดและคลาสดั้งเดิมในโมเดลแสดงให้เห็นถึงความแตกต่างอย่างมาก
ลิงค์ Logit ทำนายความน่าจะเป็นของความสำเร็จใน การถดถอยเชิงตรรกะ กระบวนการแปลงค่าประมาณ (ซึ่งอาจแม่นยำมาก) ให้เป็นศูนย์หรือหนึ่ง
ผู้เขียนไม่เพียงแต่พบว่าการขาดดุลนี้สามารถย้อนกลับได้เกือบจะโดยบังเอิญด้วยเทคนิคการสอบเทียบเท่านั้น แต่ยังพบว่า โพสต์ข้อเท็จจริง การแก้ไขนี้ช่วยปรับปรุงคุณภาพของผลลัพธ์สำหรับข้อมูลปรับแต่งอย่างละเอียด ดังนั้น ด้วยเทคนิคนี้ คุณไม่เพียงแต่จะได้รับความสามารถดั้งเดิมของแบบจำลองพื้นฐานเท่านั้น แต่ยังได้รับการบูรณาการข้อมูลปรับแต่งของคุณเองที่ดีขึ้นอีกด้วย
(แม้ว่าเอกสารจะไม่ได้ตรวจสอบแนวโน้ม แต่เทคนิคนี้บ่งชี้ว่าแบบจำลองสามารถปรับแต่งได้หลายครั้งและยังคงมีประสิทธิภาพ)
เมื่อหารือถึงผลการค้นพบในการตรวจสอบความเสียหายของโมเดลหลังจากปรับแต่ง ผู้เขียนระบุว่า:
'เราประหลาดใจมากที่พบว่าโมเดลที่ปรับแต่งอย่างดีจะไม่ลืมความสัมพันธ์ระหว่างคลาสอื่น ๆ และจะไม่ลดทอนคุณสมบัติที่ใช้ในการจดจำคลาสเหล่านี้'
'ในทางกลับกัน โมเดลที่ปรับแต่งอย่างละเอียดมักจะสร้างคุณสมบัติที่สามารถแยกแยะได้มากขึ้นสำหรับคลาสอื่นๆ เหล่านี้ ถึงแม้ว่าคุณสมบัติดังกล่าวจะหายไประหว่างการปรับแต่งอย่างละเอียดก็ตาม!
“[สิ่งที่] ทำร้ายความแม่นยำจริงๆ ก็คือมาตราส่วนลอจิตที่ไม่ตรงกันระหว่างคลาสการปรับแต่งละเอียดและคลาสอื่นๆ ซึ่งหมายความว่าการสอบเทียบหลังการประมวลผลแบบง่ายๆ จะนำความสามารถของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ากลับคืนมาและเผยให้เห็นถึงการปรับปรุงคุณลักษณะที่เหนือกว่าคลาสอื่นๆ ในเวลาเดียวกัน”
ผู้เขียนได้ทำให้ผลการทดสอบของพวกเขาสำหรับทฤษฎีนี้สามารถทำซ้ำได้ใน พื้นที่เก็บข้อมูล GitHub.
พวกเขาพบว่าเมื่อทำการสืบสวน พบว่าส่วนเดียวของสถาปัตยกรรมโมเดลฐานรากที่ได้รับความเสียหายในการปรับแต่งคือ ตัวจำแนกไบนารีซึ่งจัดประเภทคลาสที่ผิดไป ไม่อยู่ ในโมเดลดั้งเดิมเป็นคลาสปรับแต่งละเอียด
กระดาษระบุว่า*:
'[โดย] การเพิ่มปัจจัยอคติในการสอบเทียบให้กับบันทึกคลาสที่ขาดหายไปทั้งหมด' [4, 40 ] โมเดลที่ปรับแต่งอย่างละเอียดสามารถเรียกคืนความแม่นยำของคลาสที่ขาดหายไปได้สำเร็จ และได้รับการปรับปรุงโดยรวมที่เหมาะสมใน [โดเมน] ปลายทาง
'ผลงานที่ได้นั้นยังเหนือกว่ามาตรฐานพื้นฐานที่แข็งแกร่งอีกด้วย [การถ่ายโอนแบบองค์รวม – เอกสารที่เอกสารนี้สร้างขึ้น] ในเกณฑ์มาตรฐานมากมาย รวมถึง ImageNet และตัวแปรของมัน [อิมเมจเน็ต, ImageNet-R(สิ้นสุด), ImageNet-S(เรือใบ) ], ออฟฟิศ-บ้านและ วีทีเอบี, โดยไม่ต้องมีการฝึกอบรมที่ซับซ้อนและการตั้งค่าไฮเปอร์พารามิเตอร์.'

ผลลัพธ์จากเอกสาร: ผู้เขียนระบุว่าโมเดลที่ปรับแต่งอย่างละเอียดซึ่งมีการสอบเทียบหลังการประมวลผลสามารถทำได้ดีกว่าแนวทางที่ล้ำสมัยในการแก้ปัญหา
ผู้เขียนจัดประเภทประสิทธิภาพการทำงานที่ปรับปรุงแล้วของแบบจำลองที่ปรับแต่งละเอียดภายหลังการสอบเทียบเป็น "พฤติกรรมที่ไม่เป็นอันตรายที่ไม่คาดคิด" และสังเกตว่าเมื่อพื้นฐาน โคตรลาดสุ่ม (SGD) ที่ใช้เพิ่มประสิทธิภาพ จะได้รับผลลัพธ์ที่ดีกว่าการใช้เพิ่มประสิทธิภาพที่นิยมใช้ในปัจจุบัน เช่น อาดัม.
'นิ่ง,' พวกเขาทราบ 'เมื่ออัตราการเรียนรู้และน้ำหนักลดลงเพียงพอ พฤติกรรมที่ไม่เป็นอันตรายก็จะปรากฏและคงอยู่ต่อไป'
การซ่อมแซมเล็กน้อย
เพื่อแก้ไขความคลาดเคลื่อนของลอจิทที่เกิดจากการปรับแต่งอย่างละเอียด ผู้เขียนได้ยืม เทคนิค จาก การเรียนรู้แบบไม่มีช็อตโดยเพิ่มปัจจัยคงที่ให้กับลอจิทของคลาสที่ขาดหายไปทั้งหมด ส่งผลให้เกิดกฎการจำแนกประเภทใหม่
ผู้เขียนสังเกตว่ากระบวนการนี้ "ส่งเสริม" คลาสที่ขาดหายไปที่ถูกละเลยให้มีคุณภาพการทำนายเช่นเดียวกับคลาสที่ปรับแต่งอย่างละเอียด โดยคืนประสิทธิภาพเดิมและปรับปรุงประสิทธิภาพของข้อมูล "ที่เพิ่มเข้ามา" ในเวลาอนุมาน

ในการทดสอบ เทคนิคหลังการสอบเทียบช่วยคืนประสิทธิภาพให้กับโมเดลที่ปรับแต่งอย่างละเอียดหลากหลายแบบ 'Oracle' ที่ระบุไว้ในตารางหมายถึงตัวจำแนกประเภทที่ปรับแต่งอย่างละเอียดซึ่งคำนึงถึงข้อมูลคลาสที่ขาดหายไปด้วย
นอกจากนี้ พวกเขายังสังเกตอีกว่าการสอบเทียบหลังการประมวลผลนั้น "สามารถนำไปใช้ได้กับแบบจำลองใดๆ ก็ได้" และวิธีการที่พยายามรักษาความสมบูรณ์ของแบบจำลองพื้นฐานผ่านการแช่แข็งชั้นต่างๆ (เช่น ตัวจำแนกประเภทและโครงสร้างหลัก) มีคะแนนต่ำเมื่อเทียบกับแนวทางที่พวกเขาเสนอเอง
สรุป
ผลที่ได้จากการทำงานร่วมกันนี้ถือว่ามีความสำคัญ การฝึกโมเดล AI บนชุดข้อมูลขนาดใหญ่เป็นภาระผูกพันมหาศาล คล้ายกับการขึ้นบินของเครื่องบินโดยสาร แม้ว่าการฝึกอาจถูกขัดจังหวะได้ และความเสียหายใดๆ ก็บรรเทาลงได้โดยการบันทึกน้ำหนักปัจจุบันเป็นระยะๆ (โดยมีต้นทุนการจัดเก็บที่ค่อนข้างสูง) เพื่อให้สามารถหยุดการฝึกได้ แต่เราไม่สามารถทำอะไรได้มากนักเพื่อเปลี่ยนแปลงผลลัพธ์หลังจากการปล่อยตัว
สิ่งที่น่าประทับใจเกี่ยวกับงานนี้คือ นักวิจัยดูเหมือนจะค้นพบหลักการพื้นฐานในการฝึกอบรมโมเดล AI ทั่วไป และวิธีแก้ปัญหาของพวกเขาก็สวยงามอย่างน่าประหลาดใจ
ผลกระทบทางเศรษฐกิจจากการสามารถรักษาความแม่นยำของแบบจำลองพื้นฐานได้หลังการปรับแต่งอย่างละเอียดก็มีความสำคัญเช่นกัน จนถึงปัจจุบัน วิธีที่ใช้กันมากที่สุดในการแก้ไขข้อบกพร่องของแบบจำลองมูลค่าหลายล้านดอลลาร์คือการกรองเอาต์พุตในช่วงเวลาอนุมาน หรือควบคุมการอนุมานเพื่อหลีกเลี่ยงจุดอ่อนที่เห็นได้ชัดในแบบจำลอง
นอกจากนี้ เทคนิคดังกล่าวอาจช่วยปรับปรุงความสามารถของโมเดลกำเนิดที่ปรับแต่งอย่างละเอียดในระดับผู้บริโภคได้อย่างมีนัยสำคัญในทางทฤษฎี โดยมีข้อดีคือคุณภาพเอาต์พุตจะเพิ่มขึ้นด้วย
* การแปลงการอ้างอิงแบบอินไลน์ของผู้เขียนเป็นไฮเปอร์ลิงก์
เผยแพร่ครั้งแรกวันอังคารที่ 1 ตุลาคม 2024