เชื่อมต่อกับเรา

การวิจัยพบว่าความเสียหายจากการปรับแต่งโมเดล AI อย่างละเอียดสามารถกู้คืนได้อย่างง่ายดาย

ปัญญาประดิษฐ์

การวิจัยพบว่าความเสียหายจากการปรับแต่งโมเดล AI อย่างละเอียดสามารถกู้คืนได้อย่างง่ายดาย

mm

การตีพิมพ์

 on

รูปภาพที่สร้างโดย AI จาก ChatGPT ข้อความแจ้ง: 'รูปภาพพาโนรามาที่เหมือนจริงของนักวิทยาศาสตร์ในเสื้อคลุมสีขาว สวมแว่นป้องกันการเชื่อม ซึ่งกำลังบัดกรีวงจรไฟฟ้าในแผงเปิดด้านล่างของระบบคอมพิวเตอร์ขนาดใหญ่และไฮเทค ภาพเหมือนจริง สวยงาม UHQ'

การวิจัยใหม่จากสหรัฐอเมริกาบ่งชี้ว่า ปรับจูน แบบจำลองรากฐาน AI บนข้อมูลของคุณเองไม่จำเป็นต้องลดหรือทำให้ฟังก์ชันการทำงานของแบบจำลองดั้งเดิมเสียหาย และการแก้ไขที่ค่อนข้างง่ายไม่เพียงแต่จะคืนความสามารถของแบบจำลองดั้งเดิมเท่านั้น แต่ยัง ปรับปรุง คุณภาพของเอาต์พุตที่คุณพยายามจะให้โมเดล (ที่ได้รับการฝึกอบรมแล้ว) ผลิตขึ้น

ประสิทธิภาพที่เพิ่มขึ้นในโมเดลที่หลากหลายด้วยการสอบเทียบหลังการฝึกอบรมใหม่ของผู้เขียน รายละเอียดเพิ่มเติมจะอยู่ในบทความในภายหลัง แหล่งที่มา: http://export.arxiv.org/pdf/2409.16223

ประสิทธิภาพที่เพิ่มขึ้นในโมเดลที่หลากหลายด้วยการปรับเทียบหลังการฝึกอบรมใหม่ของผู้เขียน รายละเอียดเพิ่มเติมจะกล่าวถึงในบทความในภายหลัง ที่มา: http://export.arxiv.org/pdf/2409.16223

ผลกระทบที่เกิดขึ้นมีความสำคัญ ไม่เพียงแต่สำหรับยักษ์ใหญ่ด้านเทคโนโลยีเท่านั้นที่ให้ความสนใจกับผลตอบแทนทางการเงินจากการให้เช่าระบบผลิตไฟฟ้าแบบ 'ตามบริการ' เท่านั้น แต่ยังรวมถึงนักเล่นอดิเรกที่ 'ตัดสายเคเบิล' ที่เพิ่มจำนวนมากขึ้นด้วย ดาวน์โหลดและปรับแต่งโมเดลโอเพ่นซอร์สเพื่อให้พวกเขาสามารถเข้าถึงการเขียน AI เฉพาะบุคคลและระบบการสร้างภาพ/วิดีโอได้ในราคาถูกกว่าและมีข้อจำกัดน้อยลง

ผู้เขียนบทความไม่กลัวที่จะแสดงความกระตือรือร้นต่อศักยภาพของวิธีการของพวกเขา ซึ่งเห็นได้ชัดว่ามีความก้าวหน้าอย่างมีนัยสำคัญในปี 2023 ส่ง การถ่ายโอนแบบองค์รวม: สู่การปรับแต่งที่ไม่ก่อกวนด้วยข้อมูลเป้าหมายบางส่วน (ร่วมเขียนกับผู้สนับสนุนหลายคนในเอกสารฉบับใหม่นี้)

พวกเขาระบุ:

“[ผลการค้นพบ] เป็นสิ่งที่น่ายินดีและมีความหมายอย่างลึกซึ้ง! ผลการค้นพบเหล่านี้บ่งชี้ว่าการปรับเทียบหลังการประมวลผลแบบง่ายๆ อาจช่วยแก้ไขความแม่นยำที่ด้อยกว่าของโมเดลที่ปรับแต่งอย่างละเอียดในคลาสที่ขาดหายไปได้ โดยนำความสามารถของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ากลับคืนมา พร้อมกับเปิดเผยคุณภาพคุณลักษณะที่ได้รับการปรับปรุงให้ดีขึ้นเมื่อเทียบกับคลาสทั้งหมด”

เราจะมาดูงานใหม่นี้กันเร็วๆ นี้ ก่อนอื่น มาดูกันว่างานใหม่นี้มีเป้าหมายที่จะแก้ปัญหาอะไร

ทำไมมันสำคัญ

คลื่นลูกแรกของการปรับแต่งอย่างแพร่หลายเกิดขึ้นหลังจากการเปิดตัว Stability.ai การแพร่กระจายที่เสถียร แบบจำลองข้อความเป็นรูปภาพในเดือนสิงหาคม พ.ศ. 2002 แบบจำลองแรกๆ ฝึกบนเซ็ตย่อยของไฮเปอร์สเกล ไลออน ชุดข้อมูลถูกเปิดให้ทุกคนดาวน์โหลดได้

อย่างไรก็ตามผู้ใช้ที่ต้องการแทรก โดยเฉพาะ เนื้อหา (เช่น เอกลักษณ์ของตนเอง สไตล์ศิลปะ หรือการแสดงตัวของคนดัง) กลายเป็นคุณสมบัติพิเศษในการสร้างสรรค์ของ Stable Diffusion จำเป็นต้องหันไปใช้เทคนิค เช่น ดรีมบูธ – การประมาณค่าของ วิธีการปรับแต่งการวิจัยของ Googleซึ่งทำให้ผู้ใช้สามารถฝึกอบรมข้อมูลใหม่ลงในโมเดลที่มีให้ใช้งานฟรีได้โดยผ่านการปรับแต่งอย่างละเอียด

ตัวอย่างกระบวนการของผู้ใช้สำหรับการนำ DreamBooth อย่างเป็นทางการของ Google ไปใช้ตั้งแต่ปี 2022 ผู้ใช้จะคัดเลือกภาพจำนวนเล็กน้อยและเลือกชื่อเฉพาะ (ซึ่ง Stable Diffusion ไม่มีในข้อมูลฝึกอบรม) โดยใช้ข้อความแจ้งจากโมเดลที่ปรับแต่งแล้ว แหล่งที่มา: https://dreambooth.github.io/

ตัวอย่างกระบวนการของผู้ใช้สำหรับการนำ DreamBooth อย่างเป็นทางการของ Google ไปใช้ตั้งแต่ปี 2022 ผู้ใช้จะคัดเลือกภาพจำนวนเล็กน้อยและเลือกชื่อเฉพาะ (ชื่อที่ Stable Diffusion ไม่มีในข้อมูลฝึกอบรม) โดยใช้ข้อความแจ้งจากโมเดลที่ปรับแต่งอย่างละเอียด ที่มา: https://dreambooth.github.io/

ด้วยวิธีนี้จึงเป็นไปได้ที่จะได้รับสำเนาของโมเดลที่เหมาะมากสำหรับการสร้างบุคคลใดบุคคลหนึ่งโดยเฉพาะ หรือรูปแบบศิลปะที่กำหนดเอง แต่ที่เป็น ตอนนี้ 'ถูกประนีประนอม' สำหรับการใช้งานทั่วไปมากขึ้น.

ซึ่งหมายความว่าหากคุณต้องการปรับแต่ง Stable Diffusion เพื่อให้สามารถแสดงภาพบุคคลสามคนที่แตกต่างกันได้อย่างแม่นยำ คุณจะต้องสร้าง สามรุ่นที่แตกต่างกัน, ตัวละประมาณ 2-4GB หรือมากกว่านั้น

ความพยายามใด ๆ ที่จะปรับแต่งโมเดลเหล่านี้ วินาที เวลาจะไม่เพียงแต่ทำให้ประสิทธิภาพโดยรวมของโมเดลลดลงเท่านั้น แต่ยังส่งผลเสียต่อผลลัพธ์จากเซสชันปรับแต่งครั้งก่อนอีกด้วย

ไม่ว่าในกรณีใด นางแบบ DreamBooth ของคนดังจะแพร่หลายบนอินเทอร์เน็ตในไม่ช้า โดยส่วนใหญ่จะประชุมกันที่โดเมน civit.ai ในที่สุด วิธีการที่ไม่ยุ่งยาก เช่น การปรับตัวระดับต่ำ (LoRA) แซงหน้าการปรับแต่งละเอียดในด้านความนิยม (แม้ว่าผลลัพธ์ของ LoRA จะมีประสิทธิภาพเท่ากับการปรับแต่งละเอียดเต็มรูปแบบหรือไม่ก็ตาม) ที่ถกเถียงกันและ NVIDIA ก็มีตั้งแต่นั้นมา โอเพนซอร์ส แนวทางที่มีประสิทธิผลมากกว่าที่เรียกว่า Dora).

LoRA อยู่ในหมวดหมู่ของ การปรับแต่งแบบละเอียดอย่างมีประสิทธิภาพด้วยพารามิเตอร์ (PEFT) ซึ่งจะส่งผลต่อเฉพาะพารามิเตอร์ที่ผ่านการฝึกของโมเดลบางส่วนเท่านั้น

ผู้ใช้บางคนต้องการเปลี่ยนแปลงธรรมชาติพื้นฐานของ Stable Diffusion แบบโอเพนซอร์ส จุดตรวจโดยปรับแต่งอย่างละเอียดบนรูปภาพหลายพันภาพ

สิ่งนี้มีผลให้เกิดทางเลือกอื่น แบบจำลองรากฐานซึ่งอุทิศให้กับโดเมนใดก็ตามที่ผู้ใช้พยายามฝึกฝน (เช่น สไตล์ศิลปะเฉพาะ) เพื่อจุดประสงค์นี้ วิธีการ 'น้ำหนักเบา' เช่น LoRA มีแนวโน้มที่จะมีประสิทธิภาพน้อยกว่า เนื่องจาก น้ำหนัก ของแบบจำลองที่ต้องการ รุนแรง ความลำเอียงต่อข้อมูลการฝึกอบรมใหม่

แชทในพื้นที่

ด้วยความสนใจที่เพิ่มขึ้นอย่างรวดเร็วในช่วงนี้ โมเดลภาษาขนาดใหญ่ (LLM) ผู้ใช้ที่ต้องการหลีกเลี่ยงช่องทางที่ขยายตัว (และต้นทุนที่เกี่ยวข้อง) ของบริการที่ขับเคลื่อนโดย API เช่น ChatGPT มีเพิ่มมากขึ้น เริ่มดาวน์โหลดและปรับแต่งแล้ว โมเดลโอเพนซอร์สที่มีประสิทธิผล เหมือนลามะ 3, หมู่คนอื่น ๆ อีกมากมาย

ที่นี่เช่นกัน LoRA สามารถใช้งานได้ แทนที่จะปรับแต่งจุดตรวจทั้งหมดให้ละเอียดขึ้น เรามี โต้แย้งกันก่อน การปรับแต่งอย่างละเอียดเป็นวิธีการที่ดีกว่าในการผลิต LLM ที่ปรับให้เหมาะกับความต้องการเฉพาะของผู้ใช้ แม้ว่าการปรับแต่งอย่างละเอียดอาจมีข้อกำหนดด้านฮาร์ดแวร์ที่มากขึ้นและอาจใช้เวลานานกว่า แต่วิธีนี้ช่วยให้สามารถสรุปข้อมูลใหม่ ๆ ที่ผู้ใช้ต้องการให้แบบจำลองดูดซับได้ลึกซึ้งยิ่งขึ้น

ปัญหาในการปรับแต่งอย่างละเอียดคือเป็นกระบวนการทำลายล้างซึ่งไม่สามารถฝึกฝนเพิ่มเติมด้วยข้อมูลเพิ่มเติมในภายหลังได้ ดังที่เราได้กล่าวไว้ข้างต้น

เห็นได้ชัดว่าคุณลักษณะและอคติที่ถูกใส่เข้าไปในโมเดล ทำให้สมดุลน้ำหนักเดิมในชุดข้อมูลเสียไปซึ่งหมายความว่าแบบจำลองมีแนวโน้มสูงมากที่จะสะท้อนข้อมูลที่ผู้ใช้ส่งเข้ามา หรืออย่างน้อยที่สุดก็จะมีประสิทธิภาพโดยรวมแย่กว่าแบบจำลองพื้นฐานเดิม (ในงานที่ไม่เกี่ยวข้องกับข้อมูลใหม่)

สามารถแก้ไขปัญหานี้ได้ในระดับหนึ่งโดย การแช่แข็ง บางส่วนของโมเดลระหว่างการฝึก แต่สิ่งนี้อาจนำไปสู่การทำงานทั่วไปที่ลดลง เนื่องจากส่วนที่หยุดนิ่งของสถาปัตยกรรมอาจไม่สามารถสรุปผลได้ดีกับข้อมูลที่ปรับแต่งใหม่ภายในโมเดล พื้นที่แฝง.

ดังนั้น จะเป็นการดีมากหากมีวิธีที่ง่ายกว่าในการรักษาความสามารถเดิมของแบบจำลองที่ปรับแต่งอย่างละเอียด ในขณะที่ยังคงความสามารถในการสร้างเอาต์พุตของแบบจำลองตามข้อมูลการปรับแต่งอย่างละเอียดไว้

การพัฒนาดังกล่าวจะเกิดประโยชน์กับผู้ใช้ที่มีศักยภาพหลากหลาย ตั้งแต่ผู้ที่ชื่นชอบและผู้นำมาใช้ในช่วงแรกที่ใช้ LLM ในพื้นที่และโมเดลเชิงสร้างสรรค์ประเภทอื่น ๆ ไปจนถึงระดับ FAANG (ซึ่งโมเดล AI ที่มีราคาแพงมากสามารถปรับปรุงได้แบบวนซ้ำและไม่ทำลายล้าง โดยไม่ต้องใช้มัลติฟังก์ชัน)ค่าใช้จ่ายล้านดอลลาร์ ของการเริ่มต้นฝึกอบรมใหม่ทั้งหมดอีกครั้งด้วยข้อมูลเพิ่มเติม)

การสอบเทียบหลังการประมวลผล

สิ่งนี้พาเรากลับไปสู่ กระดาษใหม่, ซึ่งเรียกว่า การปรับแต่งละเอียดจะดีหากมีการสอบเทียบและมาจากนักวิจัย 11 คนจากมหาวิทยาลัยโอไฮโอสเตต มหาวิทยาลัยวิสคอนซินเมดิสัน และสถาบันโพลีเทคนิคเรนเซลาร์

นักวิจัยพยายามค้นหาว่าสิ่งใดเสียหายในโมเดลฐานรากเมื่อปรับแต่งอย่างละเอียด พวกเขาสรุปได้ว่าความแตกต่างที่สำคัญเพียงอย่างเดียวระหว่างโมเดล "ก่อนและหลัง" ก็คือมาตราส่วนลอจิตระหว่างคลาสปรับแต่งอย่างละเอียดและคลาสดั้งเดิมในโมเดลแสดงให้เห็นถึงความแตกต่างอย่างมาก

ลิงค์ Logit ทำนายความน่าจะเป็นของความสำเร็จใน การถดถอยเชิงตรรกะ กระบวนการแปลงค่าประมาณ (ซึ่งอาจแม่นยำมาก) ให้เป็นศูนย์หรือหนึ่ง

ผู้เขียนไม่เพียงแต่พบว่าการขาดดุลนี้สามารถย้อนกลับได้เกือบจะโดยบังเอิญด้วยเทคนิคการสอบเทียบเท่านั้น แต่ยังพบว่า โพสต์ข้อเท็จจริง การแก้ไขนี้ช่วยปรับปรุงคุณภาพของผลลัพธ์สำหรับข้อมูลปรับแต่งอย่างละเอียด ดังนั้น ด้วยเทคนิคนี้ คุณไม่เพียงแต่จะได้รับความสามารถดั้งเดิมของแบบจำลองพื้นฐานเท่านั้น แต่ยังได้รับการบูรณาการข้อมูลปรับแต่งของคุณเองที่ดีขึ้นอีกด้วย

(แม้ว่าเอกสารจะไม่ได้ตรวจสอบแนวโน้ม แต่เทคนิคนี้บ่งชี้ว่าแบบจำลองสามารถปรับแต่งได้หลายครั้งและยังคงมีประสิทธิภาพ)

เมื่อหารือถึงผลการค้นพบในการตรวจสอบความเสียหายของโมเดลหลังจากปรับแต่ง ผู้เขียนระบุว่า:

'เราประหลาดใจมากที่พบว่าโมเดลที่ปรับแต่งอย่างดีจะไม่ลืมความสัมพันธ์ระหว่างคลาสอื่น ๆ และจะไม่ลดทอนคุณสมบัติที่ใช้ในการจดจำคลาสเหล่านี้'

'ในทางกลับกัน โมเดลที่ปรับแต่งอย่างละเอียดมักจะสร้างคุณสมบัติที่สามารถแยกแยะได้มากขึ้นสำหรับคลาสอื่นๆ เหล่านี้ ถึงแม้ว่าคุณสมบัติดังกล่าวจะหายไประหว่างการปรับแต่งอย่างละเอียดก็ตาม!

“[สิ่งที่] ทำร้ายความแม่นยำจริงๆ ก็คือมาตราส่วนลอจิตที่ไม่ตรงกันระหว่างคลาสการปรับแต่งละเอียดและคลาสอื่นๆ ซึ่งหมายความว่าการสอบเทียบหลังการประมวลผลแบบง่ายๆ จะนำความสามารถของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ากลับคืนมาและเผยให้เห็นถึงการปรับปรุงคุณลักษณะที่เหนือกว่าคลาสอื่นๆ ในเวลาเดียวกัน”

ผู้เขียนได้ทำให้ผลการทดสอบของพวกเขาสำหรับทฤษฎีนี้สามารถทำซ้ำได้ใน พื้นที่เก็บข้อมูล GitHub.

พวกเขาพบว่าเมื่อทำการสืบสวน พบว่าส่วนเดียวของสถาปัตยกรรมโมเดลฐานรากที่ได้รับความเสียหายในการปรับแต่งคือ ตัวจำแนกไบนารีซึ่งจัดประเภทคลาสที่ผิดไป ไม่อยู่ ในโมเดลดั้งเดิมเป็นคลาสปรับแต่งละเอียด

กระดาษระบุว่า*:

'[โดย] การเพิ่มปัจจัยอคติในการสอบเทียบให้กับบันทึกคลาสที่ขาดหายไปทั้งหมด' [4, 40 ] โมเดลที่ปรับแต่งอย่างละเอียดสามารถเรียกคืนความแม่นยำของคลาสที่ขาดหายไปได้สำเร็จ และได้รับการปรับปรุงโดยรวมที่เหมาะสมใน [โดเมน] ปลายทาง

'ผลงานที่ได้นั้นยังเหนือกว่ามาตรฐานพื้นฐานที่แข็งแกร่งอีกด้วย [การถ่ายโอนแบบองค์รวม – เอกสารที่เอกสารนี้สร้างขึ้น] ในเกณฑ์มาตรฐานมากมาย รวมถึง ImageNet และตัวแปรของมัน [อิมเมจเน็ต, ImageNet-R(สิ้นสุด), ImageNet-S(เรือใบ) ], ออฟฟิศ-บ้านและ วีทีเอบี, โดยไม่ต้องมีการฝึกอบรมที่ซับซ้อนและการตั้งค่าไฮเปอร์พารามิเตอร์.'

ผู้เขียนระบุว่าโมเดลที่ปรับแต่งอย่างละเอียดซึ่งมีการสอบเทียบหลังการประมวลผลสามารถทำได้ดีกว่าแนวทางแก้ไขปัญหาที่ทันสมัยที่สุด

ผลลัพธ์จากเอกสาร: ผู้เขียนระบุว่าโมเดลที่ปรับแต่งอย่างละเอียดซึ่งมีการสอบเทียบหลังการประมวลผลสามารถทำได้ดีกว่าแนวทางที่ล้ำสมัยในการแก้ปัญหา

ผู้เขียนจัดประเภทประสิทธิภาพการทำงานที่ปรับปรุงแล้วของแบบจำลองที่ปรับแต่งละเอียดภายหลังการสอบเทียบเป็น "พฤติกรรมที่ไม่เป็นอันตรายที่ไม่คาดคิด" และสังเกตว่าเมื่อพื้นฐาน โคตรลาดสุ่ม (SGD) ที่ใช้เพิ่มประสิทธิภาพ จะได้รับผลลัพธ์ที่ดีกว่าการใช้เพิ่มประสิทธิภาพที่นิยมใช้ในปัจจุบัน เช่น อาดัม.

'นิ่ง,' พวกเขาทราบ 'เมื่ออัตราการเรียนรู้และน้ำหนักลดลงเพียงพอ พฤติกรรมที่ไม่เป็นอันตรายก็จะปรากฏและคงอยู่ต่อไป'

การซ่อมแซมเล็กน้อย

เพื่อแก้ไขความคลาดเคลื่อนของลอจิทที่เกิดจากการปรับแต่งอย่างละเอียด ผู้เขียนได้ยืม เทคนิค จาก การเรียนรู้แบบไม่มีช็อตโดยเพิ่มปัจจัยคงที่ให้กับลอจิทของคลาสที่ขาดหายไปทั้งหมด ส่งผลให้เกิดกฎการจำแนกประเภทใหม่

ผู้เขียนสังเกตว่ากระบวนการนี้ "ส่งเสริม" คลาสที่ขาดหายไปที่ถูกละเลยให้มีคุณภาพการทำนายเช่นเดียวกับคลาสที่ปรับแต่งอย่างละเอียด โดยคืนประสิทธิภาพเดิมและปรับปรุงประสิทธิภาพของข้อมูล "ที่เพิ่มเข้ามา" ในเวลาอนุมาน

ในการทดสอบ เทคนิคหลังการสอบเทียบช่วยคืนประสิทธิภาพให้กับโมเดลที่ปรับแต่งอย่างละเอียดหลากหลายแบบ 'Oracle' ที่ระบุไว้ในตารางหมายถึงตัวจำแนกประเภทที่ปรับแต่งอย่างละเอียดซึ่งคำนึงถึงข้อมูลคลาสที่ขาดหายไปด้วย

ในการทดสอบ เทคนิคหลังการสอบเทียบช่วยคืนประสิทธิภาพให้กับโมเดลที่ปรับแต่งอย่างละเอียดหลากหลายแบบ 'Oracle' ที่ระบุไว้ในตารางหมายถึงตัวจำแนกประเภทที่ปรับแต่งอย่างละเอียดซึ่งคำนึงถึงข้อมูลคลาสที่ขาดหายไปด้วย

นอกจากนี้ พวกเขายังสังเกตอีกว่าการสอบเทียบหลังการประมวลผลนั้น "สามารถนำไปใช้ได้กับแบบจำลองใดๆ ก็ได้" และวิธีการที่พยายามรักษาความสมบูรณ์ของแบบจำลองพื้นฐานผ่านการแช่แข็งชั้นต่างๆ (เช่น ตัวจำแนกประเภทและโครงสร้างหลัก) มีคะแนนต่ำเมื่อเทียบกับแนวทางที่พวกเขาเสนอเอง

สรุป

ผลที่ได้จากการทำงานร่วมกันนี้ถือว่ามีความสำคัญ การฝึกโมเดล AI บนชุดข้อมูลขนาดใหญ่เป็นภาระผูกพันมหาศาล คล้ายกับการขึ้นบินของเครื่องบินโดยสาร แม้ว่าการฝึกอาจถูกขัดจังหวะได้ และความเสียหายใดๆ ก็บรรเทาลงได้โดยการบันทึกน้ำหนักปัจจุบันเป็นระยะๆ (โดยมีต้นทุนการจัดเก็บที่ค่อนข้างสูง) เพื่อให้สามารถหยุดการฝึกได้ แต่เราไม่สามารถทำอะไรได้มากนักเพื่อเปลี่ยนแปลงผลลัพธ์หลังจากการปล่อยตัว

สิ่งที่น่าประทับใจเกี่ยวกับงานนี้คือ นักวิจัยดูเหมือนจะค้นพบหลักการพื้นฐานในการฝึกอบรมโมเดล AI ทั่วไป และวิธีแก้ปัญหาของพวกเขาก็สวยงามอย่างน่าประหลาดใจ

ผลกระทบทางเศรษฐกิจจากการสามารถรักษาความแม่นยำของแบบจำลองพื้นฐานได้หลังการปรับแต่งอย่างละเอียดก็มีความสำคัญเช่นกัน จนถึงปัจจุบัน วิธีที่ใช้กันมากที่สุดในการแก้ไขข้อบกพร่องของแบบจำลองมูลค่าหลายล้านดอลลาร์คือการกรองเอาต์พุตในช่วงเวลาอนุมาน หรือควบคุมการอนุมานเพื่อหลีกเลี่ยงจุดอ่อนที่เห็นได้ชัดในแบบจำลอง

นอกจากนี้ เทคนิคดังกล่าวอาจช่วยปรับปรุงความสามารถของโมเดลกำเนิดที่ปรับแต่งอย่างละเอียดในระดับผู้บริโภคได้อย่างมีนัยสำคัญในทางทฤษฎี โดยมีข้อดีคือคุณภาพเอาต์พุตจะเพิ่มขึ้นด้วย

 

* การแปลงการอ้างอิงแบบอินไลน์ของผู้เขียนเป็นไฮเปอร์ลิงก์

เผยแพร่ครั้งแรกวันอังคารที่ 1 ตุลาคม 2024

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านการสังเคราะห์ภาพของมนุษย์ อดีตหัวหน้าฝ่ายเนื้อหาการวิจัยที่ Metaphysic.ai
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai