Refresh

This website www.unite.ai/th/%E0%B8%84%E0%B8%B3%E0%B9%81%E0%B8%99%E0%B8%B0%E0%B8%99%E0%B8%B3%E0%B9%83%E0%B8%99%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B9%80%E0%B8%AD%E0%B8%B2%E0%B9%83%E0%B8%88%E0%B9%83%E0%B8%AA%E0%B9%88%E0%B8%95%E0%B8%99%E0%B9%80%E0%B8%AD%E0%B8%87%E0%B8%9B%E0%B8%A3%E0%B8%B1%E0%B8%9A%E0%B8%9B%E0%B8%A3%E0%B8%B8%E0%B8%87%E0%B8%84%E0%B8%B8%E0%B8%93%E0%B8%A0%E0%B8%B2%E0%B8%9E%E0%B8%95%E0%B8%B1%E0%B8%A7%E0%B8%AD%E0%B8%A2%E0%B9%88%E0%B8%B2%E0%B8%87%E0%B8%82%E0%B8%AD%E0%B8%87%E0%B9%81%E0%B8%9A%E0%B8%9A%E0%B8%88%E0%B8%B3%E0%B8%A5%E0%B8%AD%E0%B8%87%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B9%81%E0%B8%9E%E0%B8%A3%E0%B9%88%E0%B8%81%E0%B8%A3%E0%B8%B0%E0%B8%88%E0%B8%B2%E0%B8%A2/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

ต้นขั้ว คำแนะนำในการใส่ใจตนเอง: การปรับปรุงคุณภาพตัวอย่างของแบบจำลองการแพร่กระจาย - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

คำแนะนำในการใส่ใจตนเอง: การปรับปรุงคุณภาพตัวอย่างของแบบจำลองการแพร่กระจาย

mm
วันที่อัพเดท on
คำแนะนำในการใส่ใจตนเอง: การปรับปรุงคุณภาพตัวอย่างของแบบจำลองการแพร่กระจาย

โมเดลการกระจายสัญญาณรบกวนเป็นเฟรมเวิร์ก AI เชิงสร้างสรรค์ที่สังเคราะห์ภาพจากจุดรบกวนผ่านกระบวนการลดสัญญาณรบกวนแบบวนซ้ำ พวกเขาได้รับการยกย่องในความสามารถและความหลากหลายในการสร้างภาพที่ยอดเยี่ยม ซึ่งส่วนใหญ่มาจากวิธีการแนะนำแบบข้อความหรือแบบมีเงื่อนไข รวมถึงคำแนะนำแบบ Classifier และคำแนะนำแบบไม่มีตัวแยกประเภท โมเดลเหล่านี้ประสบความสำเร็จอย่างมากในการสร้างภาพที่หลากหลายและมีคุณภาพสูง การศึกษาล่าสุดแสดงให้เห็นว่าเทคนิคการแนะนำ เช่น คำอธิบายภาพและป้ายกำกับในชั้นเรียนมีบทบาทสำคัญในการปรับปรุงคุณภาพของภาพที่โมเดลเหล่านี้สร้างขึ้น

อย่างไรก็ตาม แบบจำลองการแพร่กระจายและวิธีการแนะนำต้องเผชิญกับข้อจำกัดภายใต้เงื่อนไขภายนอกบางประการ วิธี Classifier-Free Guidance (CFG) ซึ่งใช้การทิ้งฉลาก จะเพิ่มความซับซ้อนให้กับกระบวนการฝึกอบรม ในขณะที่วิธี Classifier Guidance (CG) จำเป็นต้องมีการฝึกอบรมตัวแยกประเภทเพิ่มเติม ทั้งสองวิธีค่อนข้างถูกจำกัดเนื่องจากการพึ่งพาเงื่อนไขภายนอกที่ได้มาอย่างยากลำบาก โดยจำกัดศักยภาพและจำกัดให้อยู่ในการตั้งค่าแบบมีเงื่อนไข

เพื่อแก้ไขข้อจำกัดเหล่านี้ นักพัฒนาซอฟต์แวร์ได้กำหนดแนวทางทั่วไปมากขึ้นสำหรับแนวทางการแพร่กระจาย ที่เรียกว่า Self-Attention Guidance (SAG) วิธีการนี้ใช้ประโยชน์จากข้อมูลจากตัวอย่างระดับกลางของแบบจำลองการแพร่กระจายเพื่อสร้างภาพ เราจะสำรวจ SAG ในบทความนี้ โดยหารือเกี่ยวกับการทำงาน วิธีการ และผลลัพธ์เมื่อเปรียบเทียบกับเฟรมเวิร์กและไปป์ไลน์ที่ล้ำสมัยในปัจจุบัน

คำแนะนำในการใส่ใจตนเอง: การปรับปรุงคุณภาพตัวอย่างของแบบจำลองการแพร่กระจาย

โมเดลการกระจายสัญญาณรบกวน (DDM) ได้รับความนิยมจากความสามารถในการสร้างภาพจากสัญญาณรบกวนผ่านกระบวนการลดสัญญาณรบกวนแบบวนซ้ำ ความสามารถในการสังเคราะห์ภาพของแบบจำลองเหล่านี้ส่วนใหญ่เนื่องมาจากวิธีการแนะนำการแพร่กระจายที่ใช้ แม้จะมีจุดแข็ง แต่แบบจำลองการแพร่กระจายและวิธีการตามแนวทางก็เผชิญกับความท้าทาย เช่น ความซับซ้อนที่เพิ่มขึ้นและต้นทุนการคำนวณที่เพิ่มขึ้น

เพื่อเอาชนะข้อจำกัดในปัจจุบัน นักพัฒนาได้แนะนำวิธี Self-Attention Guidance ซึ่งเป็นรูปแบบทั่วไปของคำแนะนำการแพร่กระจายที่ไม่อาศัยข้อมูลภายนอกจากคำแนะนำการแพร่กระจาย ดังนั้น จึงอำนวยความสะดวกในแนวทางที่ปราศจากเงื่อนไขและยืดหยุ่น กรอบการแพร่กระจาย. แนวทางที่เลือกโดย Self-Attention Guidance ท้ายที่สุดจะช่วยเพิ่มประสิทธิภาพการบังคับใช้วิธีการแนะนำการแพร่กระจายแบบดั้งเดิมกับกรณีที่มีหรือไม่มีข้อกำหนดภายนอก 

การแนะแนวการใส่ใจตนเองขึ้นอยู่กับหลักการง่ายๆ ของการกำหนดทั่วไป และสมมติฐานว่าข้อมูลภายในที่อยู่ในตัวอย่างระดับกลางสามารถใช้เป็นแนวทางได้เช่นกัน ตามหลักการนี้ วิธี SAG จะแนะนำ Blur Guidance เป็นครั้งแรก ซึ่งเป็นโซลูชันที่ง่ายและตรงไปตรงมาในการปรับปรุงคุณภาพตัวอย่าง คำแนะนำการเบลอมีจุดมุ่งหมายเพื่อใช้ประโยชน์จากคุณสมบัติที่ไม่เป็นอันตรายของ Gaussian Blur เพื่อลบรายละเอียดที่ละเอียดอย่างเป็นธรรมชาติ โดยการแนะนำตัวอย่างระดับกลางโดยใช้ข้อมูลที่ถูกตัดออกอันเป็นผลมาจาก Gaussian Blur แม้ว่าวิธีการแนะนำแบบ Blur จะเพิ่มคุณภาพของตัวอย่างด้วยสเกลคำแนะนำระดับปานกลาง แต่ก็ไม่สามารถจำลองผลลัพธ์บนสเกลคำแนะนำขนาดใหญ่ได้ เนื่องจากมักจะทำให้เกิดความคลุมเครือทางโครงสร้างทั่วทั้งภูมิภาค ด้วยเหตุนี้ วิธีการแนะนำแบบเบลอจึงพบว่าเป็นการยากที่จะจัดแนวอินพุตดั้งเดิมให้ตรงกับการคาดการณ์อินพุตที่ลดระดับลง เพื่อเพิ่มเสถียรภาพและประสิทธิผลของวิธีการนำทาง Blur ในระดับการนำทางที่ใหญ่ขึ้น Self-Attention Guidance พยายามที่จะใช้ประโยชน์จากกลไกการเอาใจใส่ตนเองของแบบจำลองการแพร่กระจาย เนื่องจากแบบจำลองการแพร่กระจายสมัยใหม่มีกลไกการเอาใจใส่ตนเองภายในสถาปัตยกรรมของพวกเขาอยู่แล้ว 

ด้วยสมมติฐานที่ว่าการเอาใจใส่ตนเองเป็นสิ่งจำเป็นในการเก็บข้อมูลสำคัญไว้เป็นแกนหลัก วิธีการแนะแนวการใส่ใจตนเองใช้แผนที่การเอาใจใส่ตนเองของแบบจำลองการแพร่กระจายเพื่อทำให้บริเวณที่มีข้อมูลสำคัญเบลออย่างตรงกันข้าม และในขั้นตอนนี้จะชี้แนะ แบบจำลองการแพร่กระจาย พร้อมข้อมูลคงเหลือที่จำเป็น จากนั้นวิธีการนี้จะใช้ประโยชน์จากแผนที่ความสนใจในระหว่างกระบวนการย้อนกลับของโมเดลการแพร่กระจาย เพื่อเพิ่มคุณภาพของภาพ และใช้การปรับสภาพด้วยตนเองเพื่อลดสิ่งแปลกปลอมโดยไม่ต้องมีการฝึกอบรมเพิ่มเติมหรือข้อมูลภายนอก 

สรุปคือ วิธีการแนะแนวการใส่ใจตนเอง

  1. เป็นแนวทางใหม่ที่ใช้แผนที่การเอาใจใส่ตนเองภายในของกรอบงานการแพร่กระจาย เพื่อปรับปรุงคุณภาพของภาพตัวอย่างที่สร้างขึ้น โดยไม่ต้องมีการฝึกอบรมเพิ่มเติมหรืออาศัยเงื่อนไขภายนอก 
  2. วิธี SAG พยายามที่จะสรุปวิธีการแนะนำแบบมีเงื่อนไขให้เป็นวิธีการแบบไม่มีเงื่อนไข ซึ่งสามารถบูรณาการเข้ากับแบบจำลองการแพร่กระจายใดๆ โดยไม่ต้องใช้ทรัพยากรเพิ่มเติมหรือเงื่อนไขภายนอก จึงช่วยเพิ่มความสามารถในการบังคับใช้ของกรอบการทำงานที่อิงคำแนะนำ 
  3. วิธี SAG ยังพยายามที่จะแสดงให้เห็นถึงความสามารถมุมฉากกับวิธีการและกรอบงานแบบมีเงื่อนไขที่มีอยู่ ซึ่งช่วยอำนวยความสะดวกในการเพิ่มประสิทธิภาพโดยอำนวยความสะดวกในการบูรณาการที่ยืดหยุ่นกับวิธีการและแบบจำลองอื่น ๆ 

ต่อไป วิธีการแนะนำการใส่ใจตนเองจะเรียนรู้จากการค้นพบของกรอบงานที่เกี่ยวข้อง รวมถึงแบบจำลองการแพร่กระจายของสัญญาณรบกวน แนวทางการสุ่มตัวอย่าง วิธีการสนใจตนเองของ AI แบบทั่วไป และการนำเสนอภายในของแบบจำลองการแพร่กระจาย อย่างไรก็ตาม โดยแก่นแท้แล้ว วิธีการแนะแนวการใส่ใจตนเองใช้การเรียนรู้จาก DDPM หรือแบบจำลองความน่าจะเป็นแบบกระจายตัวแบบ Denoising, คำแนะนำตัวแยกประเภท, คำแนะนำแบบไม่มีตัวแยกประเภท และตัวแบบสนใจตนเองในกรอบงานการแพร่กระจาย เราจะพูดถึงพวกเขาแบบเจาะลึกในส่วนต่อๆ ไป 

คำแนะนำในการใส่ใจตนเอง  : เบื้องต้น ระเบียบวิธี และสถาปัตยกรรม

Denoising Diffusion Probabilistic Model หรือ DDPM

ปปส. หรือ แบบจำลองความน่าจะเป็นการแพร่กระจาย Denoising เป็นรุ่นที่ใช้กระบวนการลดสัญญาณรบกวนซ้ำเพื่อกู้คืนภาพจากสัญญาณรบกวนสีขาว ตามเนื้อผ้า โมเดล DDPM จะได้รับอิมเมจอินพุตและกำหนดการผลต่างในขั้นตอนเวลาเพื่อรับอิมเมจโดยใช้กระบวนการส่งต่อที่เรียกว่ากระบวนการมาร์โคเวียน 

คำแนะนำตัวแยกประเภทและตัวแยกประเภทฟรีพร้อมการใช้งาน GAN

GAN หรือ Generative Adversarial Networks มีความหลากหลายในการซื้อขายที่เป็นเอกลักษณ์เพื่อความเที่ยงตรง และเพื่อนำความสามารถนี้ของกรอบงาน GAN มาสู่โมเดลการแพร่กระจาย กรอบงาน Self-Attention Guidance เสนอให้ใช้วิธีแนะนำตัวแยกประเภทที่ใช้ตัวแยกประเภทเพิ่มเติม ในทางกลับกัน สามารถใช้วิธีการแนะนำแบบไม่ต้องใช้ตัวแยกประเภทได้โดยไม่ต้องใช้ตัวแยกประเภทเพิ่มเติมเพื่อให้ได้ผลลัพธ์เดียวกัน แม้ว่าวิธีนี้จะให้ผลลัพธ์ตามที่ต้องการ แต่ก็ยังไม่สามารถคำนวณได้เนื่องจากต้องใช้ป้ายกำกับเพิ่มเติม และยังจำกัดกรอบงานให้กับโมเดลการแพร่กระจายแบบมีเงื่อนไขที่ต้องมีเงื่อนไขเพิ่มเติม เช่น ข้อความหรือชั้นเรียน พร้อมด้วยรายละเอียดการฝึกอบรมเพิ่มเติมที่เพิ่มความซับซ้อนให้กับ นางแบบ. 

การแนะนำการแพร่กระจายโดยทั่วไป

แม้ว่าวิธีการแนะนำแบบไม่มีตัวแยกประเภทและแบบไม่มีตัวแยกประเภทจะให้ผลลัพธ์ที่ต้องการและช่วยเหลือในการสร้างเงื่อนไขในแบบจำลองการแพร่กระจาย แต่ก็ขึ้นอยู่กับอินพุตเพิ่มเติม สำหรับไทม์สเต็ปใดๆ ข้อมูลเข้าสำหรับแบบจำลองการแพร่กระจายจะประกอบด้วยสภาวะทั่วไปและตัวอย่างที่ถูกรบกวนโดยไม่มีสภาวะทั่วไป นอกจากนี้ สภาวะทั่วไปยังรวมถึงข้อมูลภายในภายในตัวอย่างที่ถูกรบกวนหรือสภาวะภายนอก หรือแม้แต่ทั้งสองอย่าง คำแนะนำที่เป็นผลลัพธ์ถูกกำหนดขึ้นโดยใช้ตัวถดถอยเชิงจินตภาพโดยมีข้อสันนิษฐานว่าสามารถทำนายสภาวะทั่วไปได้ 

การปรับปรุงคุณภาพของภาพโดยใช้แผนที่การใส่ใจตนเอง

คำแนะนำการแพร่กระจายทั่วไปบอกเป็นนัยว่า มีความเป็นไปได้ที่จะให้คำแนะนำเกี่ยวกับกระบวนการย้อนกลับของแบบจำลองการแพร่กระจาย โดยการดึงข้อมูลสำคัญในสภาวะทั่วไปที่มีอยู่ในตัวอย่างที่ถูกรบกวน จากวิธีการเดียวกัน วิธีการแนะนำการใส่ใจตนเองจะรวบรวมข้อมูลสำคัญสำหรับกระบวนการย้อนกลับอย่างมีประสิทธิภาพ ในขณะเดียวกันก็จำกัดความเสี่ยงที่เกิดขึ้นอันเป็นผลมาจากปัญหาการไม่กระจายในแบบจำลองการแพร่กระจายที่ได้รับการฝึกอบรมล่วงหน้า 

คำแนะนำแบบเบลอ

การนำทางแบบเบลอใน Self-Attention Guidance อิงตาม Gaussian Blur ซึ่งเป็นวิธีการกรองเชิงเส้น โดยที่สัญญาณอินพุตจะหมุนวนด้วยตัวกรองแบบ Gaussian เพื่อสร้างเอาต์พุต ด้วยค่าเบี่ยงเบนมาตรฐานที่เพิ่มขึ้น Gaussian Blur จะลดรายละเอียดระดับละเอียดภายในสัญญาณอินพุต และส่งผลให้สัญญาณอินพุตแยกไม่ออกในท้องถิ่นโดยการปรับให้เรียบไปทางค่าคงที่ นอกจากนี้ การทดลองยังระบุถึงความไม่สมดุลของข้อมูลระหว่างสัญญาณอินพุต และสัญญาณเอาท์พุตแบบเกาส์เซียนเบลอ โดยที่สัญญาณเอาท์พุตมีข้อมูลที่ละเอียดมากขึ้น 

บนพื้นฐานของการเรียนรู้นี้ กรอบการทำงาน Self-Attention Guidance ได้แนะนำคำแนะนำแบบ Blur ซึ่งเป็นเทคนิคที่จงใจแยกข้อมูลออกจากการสร้างใหม่ระดับกลางในระหว่างกระบวนการแพร่กระจาย และใช้ข้อมูลนี้เพื่อเป็นแนวทางในการคาดการณ์เพื่อเพิ่มความเกี่ยวข้องของภาพกับ ข้อมูลอินพุต คำแนะนำที่เบลอโดยพื้นฐานแล้วทำให้การทำนายดั้งเดิมเบี่ยงเบนไปจากการคาดการณ์อินพุตที่เบลอมากขึ้น นอกจากนี้ คุณสมบัติที่ไม่เป็นพิษเป็นภัยใน Gaussian Blur ยังป้องกันไม่ให้สัญญาณเอาท์พุตเบี่ยงเบนไปจากสัญญาณดั้งเดิมอย่างมีนัยสำคัญโดยมีค่าเบี่ยงเบนปานกลาง กล่าวง่ายๆ ก็คือ การเบลอจะเกิดขึ้นในภาพตามธรรมชาติ ซึ่งทำให้ Gaussian blur เป็นวิธีที่เหมาะสมกว่าในการนำไปใช้กับโมเดลการแพร่กระจายที่ได้รับการฝึกไว้ล่วงหน้า 

ในไปป์ไลน์ Self-Attention Guidance สัญญาณอินพุตจะถูกเบลอในขั้นแรกโดยใช้ตัวกรองแบบเกาส์เซียน จากนั้นจึงกระจายสัญญาณรบกวนเพิ่มเติมเพื่อสร้างสัญญาณเอาท์พุต ด้วยการทำเช่นนี้ ไปป์ไลน์ SAG จะบรรเทาผลข้างเคียงของความเบลอที่เกิดขึ้นซึ่งจะช่วยลดสัญญาณรบกวนแบบเกาส์เซียน และทำให้คำแนะนำนั้นขึ้นอยู่กับเนื้อหาแทนที่จะขึ้นอยู่กับสัญญาณรบกวนแบบสุ่ม แม้ว่าการนำทางที่เบลอจะให้ผลลัพธ์ที่น่าพอใจบนเฟรมเวิร์กที่มีมาตราส่วนการนำทางปานกลาง แต่ก็ล้มเหลวในการทำซ้ำผลลัพธ์ในรุ่นที่มีอยู่ซึ่งมีมาตราส่วนการนำทางขนาดใหญ่ เนื่องจากมีแนวโน้มที่จะสร้างผลลัพธ์ที่มีเสียงรบกวนดังที่แสดงในภาพต่อไปนี้ 

ผลลัพธ์เหล่านี้อาจเป็นผลมาจากความคลุมเครือของโครงสร้างที่นำมาใช้ในกรอบงานโดยการเบลอทั่วโลก ซึ่งทำให้ไปป์ไลน์ SAG ยากในการจัดแนวการคาดการณ์ของอินพุตดั้งเดิมกับอินพุตที่ลดระดับลง ส่งผลให้เอาท์พุตมีสัญญาณรบกวน 

กลไกการเอาใจใส่ตนเอง

ตามที่กล่าวไว้ข้างต้น แบบจำลองการแพร่กระจายมักจะมีองค์ประกอบการเอาใจใส่ตนเองในตัว และเป็นหนึ่งในองค์ประกอบที่สำคัญมากขึ้นในกรอบงานแบบจำลองการแพร่กระจาย กลไกการเอาใจใส่ตนเองถูกนำไปใช้ที่แกนกลางของแบบจำลองการแพร่กระจาย และช่วยให้แบบจำลองให้ความสนใจกับส่วนสำคัญของอินพุตในระหว่างกระบวนการกำเนิด ดังที่แสดงในภาพต่อไปนี้โดยมีมาสก์ความถี่สูงในแถวบนสุด และมาสก์การเอาใจใส่ตนเองในแถวล่างสุดของรูปภาพที่สร้างขึ้นในที่สุด 

วิธีการแนะแนวการเอาใจใส่ตนเองที่นำเสนอนั้นสร้างขึ้นจากหลักการเดียวกัน และใช้ความสามารถของแผนที่การเอาใจใส่ตนเองในแบบจำลองการแพร่กระจาย โดยรวมแล้ว วิธีการแนะนำการใส่ใจตนเองจะเบลอแพตช์ที่ดูแลตนเองในสัญญาณอินพุตหรือในคำง่ายๆ โดยปกปิดข้อมูลของแพตช์ที่โมเดลการแพร่กระจายสนใจ นอกจากนี้ สัญญาณเอาท์พุตใน Self-Attention Guidance ยังมีบริเวณที่ครบถ้วนของสัญญาณอินพุต ซึ่งหมายความว่าจะไม่ส่งผลให้เกิดความคลุมเครือทางโครงสร้างของอินพุต และแก้ปัญหาภาพเบลอโดยรวมได้ จากนั้นไปป์ไลน์จะได้รับแผนที่การเอาใจใส่ตนเองแบบรวมโดยดำเนินการ GAP หรือ Global Average Pooling เพื่อรวมแผนที่การเอาใจใส่ตนเองในมิติ และสุ่มตัวอย่างเพื่อนบ้านที่ใกล้ที่สุดเพื่อให้ตรงกับความละเอียดของสัญญาณอินพุต 

แนวทางการใส่ใจตนเอง: การทดลองและผลลัพธ์

เพื่อประเมินประสิทธิภาพ ไปป์ไลน์ Self-Attention Guidance จะถูกสุ่มตัวอย่างโดยใช้ GPU Nvidia GeForce RTX 8 จำนวน 3090 ตัว และสร้างขึ้นจาก IDDPM, ADM และ กรอบการแพร่กระจายที่เสถียร

รุ่นที่ไม่มีเงื่อนไขพร้อมคำแนะนำการเอาใจใส่ตนเอง

เพื่อวัดประสิทธิภาพของไปป์ไลน์ SAG บนแบบจำลองที่ไม่มีเงื่อนไข และสาธิตคุณสมบัติไร้เงื่อนไขที่ไม่มีอยู่ใน Classifier Guidance และวิธีการ Classifier Free Guidance ไปป์ไลน์ SAG จะทำงานบนเฟรมเวิร์กที่ได้รับการฝึกอบรมล่วงหน้าโดยไม่มีเงื่อนไขกับตัวอย่าง 50 ตัวอย่าง 

ดังที่สังเกตได้ การใช้งานไปป์ไลน์ SAG จะปรับปรุงตัววัด FID, sFID และ IS ของอินพุตแบบไม่มีเงื่อนไข ในขณะเดียวกันก็ลดค่าการเรียกคืนในเวลาเดียวกัน นอกจากนี้ การปรับปรุงเชิงคุณภาพอันเป็นผลมาจากการใช้ไปป์ไลน์ SAG จะเห็นได้ชัดในภาพต่อไปนี้ โดยที่ภาพด้านบนเป็นผลจากเฟรมเวิร์ก ADM และ Stable Diffusion ในขณะที่ภาพที่ด้านล่างเป็นผลมาจากเฟรมเวิร์ก ADM และ Stable Diffusion ที่มี ไปป์ไลน์ SAG 

การสร้างแบบมีเงื่อนไขด้วย SAG

การบูรณาการไปป์ไลน์ SAG ในเฟรมเวิร์กที่มีอยู่ให้ผลลัพธ์ที่ยอดเยี่ยมในการสร้างแบบไม่มีเงื่อนไข และไปป์ไลน์ SAG มีความสามารถในการไม่เชื่อเรื่องเงื่อนไข ซึ่งช่วยให้สามารถนำไปป์ไลน์ SAG ไปใช้ในการสร้างแบบมีเงื่อนไขได้เช่นกัน 

การแพร่กระจายที่มั่นคงพร้อมคำแนะนำการเอาใจใส่ตนเอง

แม้ว่าเฟรมเวิร์ก Stable Diffusion ดั้งเดิมจะสร้างภาพคุณภาพสูง แต่การรวมเฟรมเวิร์ก Stable Diffusion เข้ากับไปป์ไลน์ Self-Attention Guidance สามารถปรับปรุงผลลัพธ์ได้อย่างมาก ในการประเมินผลกระทบของมัน นักพัฒนาจะใช้พร้อมต์ว่างสำหรับ Stable Diffusion พร้อมสุ่มเมล็ดสำหรับคู่ภาพแต่ละคู่ และใช้การประเมินโดยมนุษย์กับภาพ 500 คู่ที่มีและไม่มีคำแนะนำในการใส่ใจตนเอง ผลลัพธ์จะแสดงในภาพต่อไปนี้  

นอกจากนี้ การใช้งาน SAG ยังช่วยเพิ่มขีดความสามารถของกรอบงาน Stable Diffusion เนื่องจากการผสาน Classifier-Free Guidance เข้ากับ Self-Attention Guidance สามารถขยายช่วงของโมเดล Stable Diffusion ไปสู่การสังเคราะห์ข้อความเป็นภาพได้ นอกจากนี้ รูปภาพที่สร้างจากโมเดล Stable Diffusion พร้อม Self-Attention Guidance ยังมีคุณภาพที่สูงกว่าและมีอาร์ติแฟกต์น้อยกว่า เนื่องจากการปรับสภาพตัวเองของไปป์ไลน์ SAG ดังที่แสดงในภาพต่อไปนี้ 

ข้อจำกัดในปัจจุบัน

แม้ว่าการนำไปป์ไลน์ Self-Attention Guidance ไปใช้จะช่วยปรับปรุงคุณภาพของภาพที่สร้างขึ้นได้อย่างมาก แต่ก็มีข้อจำกัดบางประการ 

ข้อจำกัดที่สำคัญประการหนึ่งคือการวางแนวมุมฉากด้วย Classifier-Guidance และ Classifier-Free Guidance ดังที่เห็นในภาพต่อไปนี้ การใช้งาน SAG จะปรับปรุงคะแนน FID และคะแนนการทำนาย ซึ่งหมายความว่าไปป์ไลน์ SAG มีองค์ประกอบมุมฉากที่สามารถใช้กับวิธีการแนะนำแบบดั้งเดิมพร้อมกันได้ 

อย่างไรก็ตาม ยังคงต้องมีการฝึกอบรมโมเดลการแพร่กระจายในลักษณะเฉพาะที่เพิ่มความซับซ้อนและต้นทุนการคำนวณ 

นอกจากนี้ การใช้งาน Self-Attention Guidance จะไม่เพิ่มการใช้หน่วยความจำหรือเวลา ซึ่งเป็นข้อบ่งชี้ว่าค่าใช้จ่ายที่เกิดจากการดำเนินการ เช่น การมาสก์และการเบลอใน SAG นั้นมีค่าเล็กน้อย อย่างไรก็ตาม ยังคงเพิ่มค่าใช้จ่ายในการคำนวณ เนื่องจากมีขั้นตอนเพิ่มเติมเมื่อเปรียบเทียบกับแนวทางที่ไม่มีคำแนะนำ 

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ Self-Attention Guidance ซึ่งเป็นวิธีการแนะนำแบบใหม่และทั่วไปที่ใช้ข้อมูลภายในที่มีอยู่ในโมเดลการแพร่กระจายเพื่อสร้างภาพคุณภาพสูง การแนะแนวการใส่ใจตนเองขึ้นอยู่กับหลักการง่ายๆ ของการกำหนดทั่วไป และสมมติฐานว่าข้อมูลภายในที่อยู่ในตัวอย่างระดับกลางสามารถใช้เป็นแนวทางได้เช่นกัน ไปป์ไลน์การแนะนำการใส่ใจตนเองเป็นแนวทางที่ปราศจากเงื่อนไขและปราศจากการฝึกอบรม ซึ่งสามารถนำไปใช้กับโมเดลการแพร่กระจายต่างๆ และใช้การปรับสภาพด้วยตนเองเพื่อลดสิ่งรบกวนในรูปภาพที่สร้างขึ้น และเพิ่มคุณภาพโดยรวม 

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ