ปัญญาประดิษฐ์

InstantID: การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที

การตีพิมพ์

2 เดือนที่ผ่านมา

March 12, 2024

เทคโนโลยีการสร้างภาพที่ขับเคลื่อนด้วย AI ได้เห็นการเติบโตอย่างน่าทึ่งในช่วงไม่กี่ปีที่ผ่านมา นับตั้งแต่โมเดลการแพร่กระจายข้อความไปยังภาพขนาดใหญ่ เช่น DALL-E, GLIDE, Stable Diffusion, Imagen และอื่นๆ อีกมากมายได้เข้ามามีบทบาท แม้ว่าโมเดล AI การสร้างภาพจะมีสถาปัตยกรรมและวิธีการฝึกอบรมที่เป็นเอกลักษณ์ แต่โมเดลทั้งหมดก็มีจุดโฟกัสร่วมกัน นั่นคือ การสร้างภาพที่ปรับแต่งและเป็นส่วนตัวซึ่งมีจุดมุ่งหมายเพื่อสร้างภาพที่มี ID ตัวละคร หัวข้อ และสไตล์ที่สอดคล้องกันบนพื้นฐานของภาพอ้างอิง ด้วยความสามารถในการสร้างที่โดดเด่น เฟรมเวิร์ก AI การสร้างภาพสมัยใหม่จึงพบแอปพลิเคชันในสาขาต่างๆ เช่น ภาพเคลื่อนไหว ความเป็นจริงเสมือน อีคอมเมิร์ซ การถ่ายภาพบุคคล AI และอื่นๆ อย่างไรก็ตาม แม้จะมีความสามารถในการสร้างที่โดดเด่น แต่เฟรมเวิร์กเหล่านี้ล้วนมีอุปสรรค์ร่วมกัน แต่ส่วนใหญ่ไม่สามารถสร้างภาพที่ปรับแต่งเองได้ในขณะที่ยังคงรักษารายละเอียดเอกลักษณ์อันละเอียดอ่อนของวัตถุมนุษย์ไว้

การสร้างภาพที่ปรับแต่งโดยยังคงรักษารายละเอียดที่ซับซ้อนไว้นั้นมีความสำคัญอย่างยิ่ง โดยเฉพาะอย่างยิ่งในงานระบุตัวตนใบหน้าของมนุษย์ที่ต้องการมาตรฐานระดับสูงในด้านความเที่ยงตรงและรายละเอียด และความหมายที่ละเอียดอ่อนเมื่อเปรียบเทียบกับงานสร้างภาพวัตถุทั่วไปที่เน้นที่พื้นผิวและสีที่มีเนื้อหยาบเป็นหลัก นอกจากนี้ กรอบงานการสังเคราะห์ภาพส่วนบุคคลในช่วงไม่กี่ปีที่ผ่านมา เช่น LoRA, DreamBooth, Textual Inversion และอื่นๆ ได้ก้าวหน้าไปอย่างมาก อย่างไรก็ตาม โมเดล AI ที่สร้างรูปภาพส่วนบุคคลยังคงไม่สมบูรณ์แบบสำหรับการปรับใช้ในสถานการณ์จริง เนื่องจากมีความต้องการพื้นที่เก็บข้อมูลสูง ต้องใช้รูปภาพอ้างอิงหลายภาพ และมักจะมีกระบวนการปรับแต่งที่ใช้เวลานาน ในทางกลับกัน แม้ว่าวิธีการฝัง ID ที่มีอยู่จะต้องมีการอ้างอิงไปข้างหน้าเพียงครั้งเดียว แต่ก็อาจขาดความเข้ากันได้กับโมเดลที่ได้รับการฝึกอบรมล่วงหน้าที่เผยแพร่ต่อสาธารณะ หรือต้องใช้กระบวนการปรับแต่งอย่างละเอียดมากเกินไปในพารามิเตอร์จำนวนมาก หรือไม่สามารถรักษาระดับสูงไว้ได้ เผชิญกับความซื่อสัตย์

เพื่อจัดการกับความท้าทายเหล่านี้ และปรับปรุงความสามารถในการสร้างภาพให้ดียิ่งขึ้น ในบทความนี้ เราจะพูดถึง InstantID ซึ่งเป็นโซลูชันที่ใช้โมเดลการแพร่กระจายสำหรับการสร้างภาพ InstantID เป็นโมดูล Plug and Play ที่จัดการการสร้างภาพและการปรับแต่งส่วนบุคคลในรูปแบบต่างๆ อย่างเชี่ยวชาญด้วยภาพอ้างอิงเพียงภาพเดียว และยังรับประกันความเที่ยงตรงสูงอีกด้วย จุดมุ่งหมายหลักของบทความนี้คือเพื่อให้ผู้อ่านของเรามีความเข้าใจอย่างถ่องแท้เกี่ยวกับการสนับสนุนด้านเทคนิคและส่วนประกอบของเฟรมเวิร์ก InstantID เนื่องจากเราจะดูรายละเอียดเกี่ยวกับสถาปัตยกรรมของโมเดล กระบวนการฝึกอบรม และสถานการณ์การใช้งานของโมเดล มาเริ่มกันเลย

InstantID: การสร้างภาพที่รักษาเอกลักษณ์ของ Zero-Shot

การเกิดขึ้นของโมเดลการแพร่กระจายข้อความเป็นภาพมีส่วนสำคัญต่อความก้าวหน้าของเทคโนโลยีการสร้างภาพ จุดมุ่งหมายหลักของโมเดลเหล่านี้คือการปรับแต่งและการสร้างส่วนบุคคล และการสร้างภาพที่มีหัวเรื่อง สไตล์ และรหัสตัวละครที่สอดคล้องกันโดยใช้ภาพอ้างอิงหนึ่งภาพขึ้นไป ความสามารถของเฟรมเวิร์กเหล่านี้ในการสร้างรูปภาพที่สอดคล้องกันได้สร้างแอปพลิเคชันที่มีศักยภาพในอุตสาหกรรมต่างๆ รวมถึงแอนิเมชั่นรูปภาพ การสร้างภาพบุคคลด้วย AI อีคอมเมิร์ซ ความเป็นจริงเสมือนและความเป็นจริงเสริม และอื่นๆ อีกมากมาย

อย่างไรก็ตาม แม้ว่าเฟรมเวิร์กเหล่านี้จะมีความสามารถที่โดดเด่น แต่เฟรมเวิร์กเหล่านี้ก็เผชิญกับความท้าทายขั้นพื้นฐาน: เฟรมเวิร์กเหล่านี้มักจะพยายามดิ้นรนเพื่อสร้างภาพที่ปรับแต่งเองซึ่งรักษารายละเอียดที่ซับซ้อนของวัตถุที่เป็นมนุษย์ได้อย่างแม่นยำ เป็นที่น่าสังเกตว่าการสร้างภาพที่ปรับแต่งเองโดยมีรายละเอียดที่แท้จริงเป็นงานที่ท้าทาย เนื่องจากการระบุใบหน้าของมนุษย์จำเป็นต้องมีระดับความเที่ยงตรงและรายละเอียดที่สูงกว่า ควบคู่ไปกับความหมายขั้นสูงกว่า เมื่อเปรียบเทียบกับวัตถุหรือสไตล์ทั่วไปที่เน้นไปที่สีหรือพื้นผิวที่มีเนื้อหยาบเป็นหลัก โมเดลข้อความต่อรูปภาพที่มีอยู่นั้นขึ้นอยู่กับคำอธิบายข้อความโดยละเอียด และพวกเขาประสบปัญหาในการบรรลุความเกี่ยวข้องทางความหมายที่ชัดเจนสำหรับการสร้างรูปภาพแบบกำหนดเอง นอกจากนี้ กรอบข้อความขนาดใหญ่ที่ได้รับการฝึกอบรมล่วงหน้าบางส่วนยังเพิ่มการควบคุมการปรับสภาพเชิงพื้นที่เพื่อเพิ่มความสามารถในการควบคุม อำนวยความสะดวกในการควบคุมโครงสร้างที่ละเอียดโดยใช้องค์ประกอบต่างๆ เช่น ท่าโพสของร่างกาย แผนที่เชิงลึก ภาพร่างที่ผู้ใช้วาด แผนที่การแบ่งส่วนความหมาย และอื่นๆ อย่างไรก็ตาม แม้จะมีการเพิ่มเติมและการปรับปรุงเหล่านี้ แต่เฟรมเวิร์กเหล่านี้ก็สามารถบรรลุความเที่ยงตรงเพียงบางส่วนของรูปภาพที่สร้างขึ้นกับรูปภาพอ้างอิงได้

เพื่อเอาชนะอุปสรรคเหล่านี้ กรอบงาน InstantID มุ่งเน้นไปที่การสังเคราะห์ภาพที่รักษาเอกลักษณ์ได้ทันที และพยายามเชื่อมช่องว่างระหว่างประสิทธิภาพและความเที่ยงตรงสูงด้วยการแนะนำโมดูล Plug and Play ที่เรียบง่าย ซึ่งช่วยให้กรอบงานจัดการการปรับแต่งภาพส่วนบุคคลโดยใช้เพียงภาพใบหน้าเดียวเท่านั้น ในขณะที่ยังคงรักษาความเที่ยงตรงสูงไว้ นอกจากนี้ เพื่อรักษาเอกลักษณ์ของใบหน้าจากรูปภาพอ้างอิง เฟรมเวิร์ก InstantID จะใช้ตัวเข้ารหัสใบหน้าแบบใหม่ที่ยังคงรักษารายละเอียดของรูปภาพที่ซับซ้อนโดยการเพิ่มเงื่อนไขเชิงพื้นที่และความหมายที่ชัดเจนที่ไม่ชัดเจน ซึ่งเป็นแนวทางในกระบวนการสร้างภาพโดยผสมผสานข้อความแจ้ง รูปภาพจุดสังเกต และรูปภาพใบหน้า .

มีคุณลักษณะเด่นสามประการที่แยกเฟรมเวิร์ก InstantID ออกจากเฟรมเวิร์กข้อความที่มีอยู่ไปจนถึงเฟรมเวิร์กการสร้างรูปภาพ

ความเข้ากันได้และความสามารถในการเสียบปลั๊ก: แทนที่จะฝึกอบรมพารามิเตอร์ทั้งหมดของกรอบงาน UNet กรอบงาน InstantID จะเน้นที่การฝึกอบรมอะแดปเตอร์น้ำหนักเบา ด้วยเหตุนี้ กรอบงาน InstantID จึงเข้ากันได้และเสียบเข้ากับโมเดลที่ได้รับการฝึกล่วงหน้าที่มีอยู่ได้

ปรับแต่งฟรี: วิธีการของเฟรมเวิร์ก InstantID ขจัดข้อกำหนดในการปรับแต่งอย่างละเอียด เนื่องจากต้องการเพียงการเผยแพร่ไปข้างหน้าเพียงครั้งเดียวเพื่อการอนุมาน ทำให้โมเดลนี้ใช้งานได้จริงอย่างมากและประหยัดสำหรับการปรับแต่งอย่างละเอียด
ประสิทธิภาพที่เหนือกว่า: เฟรมเวิร์ก InstantID แสดงให้เห็นถึงความยืดหยุ่นและความเที่ยงตรงสูง เนื่องจากสามารถส่งมอบประสิทธิภาพที่ล้ำสมัยโดยใช้รูปภาพอ้างอิงเพียงรูปเดียว เทียบได้กับวิธีการฝึกที่ใช้รูปภาพอ้างอิงหลายรูป

โดยรวมแล้ว การมีส่วนร่วมของกรอบงาน InstantID สามารถจัดหมวดหมู่ได้ในประเด็นต่อไปนี้

กรอบงาน InstantID เป็นวิธีการปรับเปลี่ยนที่เป็นนวัตกรรมใหม่ที่รักษา ID สำหรับโมเดลการแพร่กระจายข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้า โดยมีเป้าหมายเพื่อลดช่องว่างระหว่างประสิทธิภาพและความเที่ยงตรง
เฟรมเวิร์ก InstantID เข้ากันได้และเสียบได้กับโมเดลที่ได้รับการปรับแต่งอย่างละเอียดแบบกำหนดเอง โดยใช้โมเดลการแพร่กระจายเดียวกันในสถาปัตยกรรม ทำให้สามารถรักษา ID ในโมเดลที่ได้รับการฝึกล่วงหน้าโดยไม่มีค่าใช้จ่ายเพิ่มเติม

InstantID: วิธีการและสถาปัตยกรรม

ตามที่กล่าวไว้ก่อนหน้านี้ เฟรมเวิร์ก InstantID เป็นอะแดปเตอร์น้ำหนักเบาที่มีประสิทธิภาพ ซึ่งมอบข้อความที่ได้รับการฝึกอบรมล่วงหน้าไปยังโมเดลการแพร่กระจายของรูปภาพ พร้อมความสามารถในการรักษา ID ได้อย่างง่ายดาย

เมื่อพูดถึงสถาปัตยกรรม กรอบงาน InstantID นั้นถูกสร้างขึ้นจากด้านบน แบบจำลองการแพร่กระจายที่เสถียรมีชื่อเสียงในด้านความสามารถในการดำเนินกระบวนการแพร่ด้วยประสิทธิภาพการคำนวณสูงในพื้นที่แฝงมิติต่ำ แทนที่จะเป็นพื้นที่พิกเซลด้วยตัวเข้ารหัสอัตโนมัติ สำหรับรูปภาพอินพุต ตัวเข้ารหัสจะจับคู่รูปภาพกับการแสดงค่าแฝงด้วยปัจจัยการสุ่มตัวอย่างต่ำและขนาดแฝง นอกจากนี้ เพื่อลดเสียงรบกวนที่กระจายแบบปกติพร้อมกับแฝงที่มีเสียงรบกวน สภาวะ และลำดับเวลาปัจจุบัน กระบวนการแพร่กระจายจึงใช้ส่วนประกอบ UNet ที่ช่วยลดเสียงรบกวน เงื่อนไขคือการฝังข้อความแจ้งที่สร้างขึ้นโดยใช้ส่วนประกอบตัวเข้ารหัสข้อความ CLIP ที่ได้รับการฝึกอบรมล่วงหน้า

นอกจากนี้ เฟรมเวิร์ก InstantID ยังใช้ส่วนประกอบ ControlNet ที่สามารถเพิ่มการควบคุมเชิงพื้นที่ให้กับโมเดลการแพร่กระจายที่ได้รับการฝึกอบรมล่วงหน้าเป็นเงื่อนไข ซึ่งขยายขอบเขตไปไกลกว่าความสามารถแบบดั้งเดิมของข้อความแจ้ง ส่วนประกอบ ControlNet ยังรวมสถาปัตยกรรม UNet จากกรอบงาน Stable Diffusion โดยใช้การจำลองแบบที่ได้รับการฝึกอบรมของส่วนประกอบ UNet แบบจำลองของส่วนประกอบ UNet มีเลเยอร์การบิดเป็นศูนย์ภายในบล็อกกลางและบล็อกตัวเข้ารหัส แม้จะมีความคล้ายคลึงกัน แต่ส่วนประกอบ ControlNet ก็แตกต่างจากโมเดล Stable Diffusion พวกเขาทั้งสองแตกต่างกันในรายการที่เหลือหลัง ส่วนประกอบ ControlNet เข้ารหัสข้อมูลสภาพเชิงพื้นที่ เช่น ท่าทาง แผนที่เชิงลึก ภาพร่าง และอื่นๆ โดยการเพิ่มส่วนที่เหลือลงใน UNet Block จากนั้นจึงฝังส่วนที่เหลือเหล่านี้ลงในเครือข่ายดั้งเดิม

กรอบงาน InstantID ยังได้รับแรงบันดาลใจจาก IP-Adapter หรือ Image Prompt Adapter ที่แนะนำแนวทางใหม่เพื่อให้บรรลุความสามารถในการแสดงรูปภาพที่ทำงานขนานกับข้อความแจ้งโดยไม่ต้องแก้ไขข้อความต้นฉบับเป็นโมเดลรูปภาพ ส่วนประกอบอะแดปเตอร์ IP ยังใช้กลยุทธ์การสนใจข้ามแบบแยกส่วนที่ไม่ซ้ำกันซึ่งใช้เลเยอร์การสนใจข้ามเพิ่มเติมเพื่อฝังคุณลักษณะของภาพในขณะที่พารามิเตอร์อื่นๆ ไม่เปลี่ยนแปลง

ระเบียบวิธี

เพื่อให้ภาพรวมคร่าวๆ แก่คุณ เฟรมเวิร์ก InstantID มีเป้าหมายเพื่อสร้างภาพที่ปรับแต่งด้วยสไตล์หรือท่าทางที่แตกต่างกันโดยใช้เพียงภาพ ID อ้างอิงเดียวที่มีความเที่ยงตรงสูง รูปภาพต่อไปนี้แสดงภาพรวมของกรอบงาน InstantID โดยย่อ

ดังที่สังเกตได้ กรอบงาน InstantID มีองค์ประกอบที่สำคัญสามประการ:

องค์ประกอบการฝัง ID ที่รวบรวมข้อมูลความหมายที่ชัดเจนของลักษณะใบหน้าในภาพ
โมดูลที่นำมาใช้น้ำหนักเบาพร้อมองค์ประกอบการสนใจข้ามแบบแยกส่วนเพื่ออำนวยความสะดวกในการใช้รูปภาพเป็นการแสดงภาพ
ส่วนประกอบ IdentityNet ที่เข้ารหัสคุณลักษณะโดยละเอียดจากรูปภาพอ้างอิงโดยใช้การควบคุมเชิงพื้นที่เพิ่มเติม

การฝัง ID

แตกต่างจากวิธีการที่มีอยู่ เช่น FaceStudio, PhotoMaker, IP-Adapter และอื่นๆ ที่ต้องอาศัยตัวเข้ารหัสรูปภาพ CLIP ที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อดึงข้อมูลพร้อมท์ภาพ กรอบงาน InstantID มุ่งเน้นไปที่ความเที่ยงตรงที่ได้รับการปรับปรุงและรายละเอียดความหมายที่แข็งแกร่งยิ่งขึ้นในงานการเก็บรักษา ID เป็นที่น่าสังเกตว่าข้อจำกัดโดยธรรมชาติของส่วนประกอบ CLIP นั้นส่วนใหญ่อยู่ในกระบวนการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สอดคล้องกัน ซึ่งหมายความว่าคุณสมบัติที่เข้ารหัสของตัวเข้ารหัส CLIP จะรวบรวมข้อมูลความหมายที่กว้างและคลุมเครือเป็นหลัก เช่น สี สไตล์ และองค์ประกอบ แม้ว่าคุณสมบัติเหล่านี้สามารถทำหน้าที่เป็นส่วนเสริมทั่วไปสำหรับการฝังข้อความได้ แต่ก็ไม่เหมาะสำหรับงานรักษา ID ที่แม่นยำซึ่งเน้นหนักไปที่ความหมายที่ชัดเจนและความเที่ยงตรงสูง นอกจากนี้ การวิจัยเมื่อเร็วๆ นี้เกี่ยวกับโมเดลการแสดงใบหน้า โดยเฉพาะอย่างยิ่งเกี่ยวกับการจดจำใบหน้า ได้แสดงให้เห็นถึงประสิทธิภาพของการแสดงใบหน้าในงานที่ซับซ้อน รวมถึงการสร้างและการจดจำใบหน้าใหม่ เฟรมเวิร์ก InstantID สร้างขึ้นจากสิ่งเดียวกัน โดยมีจุดมุ่งหมายเพื่อใช้ประโยชน์จากโมเดลใบหน้าที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อตรวจจับและแยกการฝัง ID ใบหน้าออกจากรูปภาพอ้างอิง ซึ่งเป็นแนวทางสำหรับโมเดลในการสร้างรูปภาพ

อะแดปเตอร์รูปภาพ

ความสามารถของ ข้อความที่ได้รับการฝึกอบรมล่วงหน้าไปยังโมเดลการแพร่กระจายของภาพ ในงานพร้อมท์รูปภาพจะปรับปรุงข้อความพร้อมท์อย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสำหรับสถานการณ์ที่ไม่สามารถอธิบายได้อย่างเพียงพอด้วยข้อความพร้อมท์ เฟรมเวิร์ก InstantID ใช้กลยุทธ์ที่คล้ายกับที่ใช้โดยโมเดล IP-Adapter สำหรับการแสดงรูปภาพ ซึ่งแนะนำโมดูลแบบปรับได้น้ำหนักเบาที่จับคู่กับองค์ประกอบ cross-attention แบบแยกส่วนเพื่อรองรับรูปภาพเป็นอินพุตพร้อมท์ อย่างไรก็ตาม ตรงกันข้ามกับการฝัง CLIP ที่จัดแนวหยาบ กรอบงาน InstantID จะแตกต่างออกไปโดยการใช้การฝัง ID ในขณะที่รูปภาพแจ้งในความพยายามที่จะบรรลุการรวมพร้อมท์ที่มีความหมายสมบูรณ์และเหมาะสมยิ่งขึ้น

IdentityNet

แม้ว่าวิธีการที่มีอยู่จะสามารถรวมพร้อมท์รูปภาพเข้ากับข้อความพร้อมท์ได้ แต่กรอบงาน InstantID ให้เหตุผลว่าวิธีการเหล่านี้ปรับปรุงคุณสมบัติแบบหยาบด้วยระดับการรวมที่ไม่เพียงพอสำหรับการสร้างรูปภาพที่รักษา ID เท่านั้น นอกจากนี้ การเพิ่มโทเค็นรูปภาพและข้อความในเลเยอร์การสนใจข้ามโดยตรงมีแนวโน้มที่จะทำให้การควบคุมโทเค็นข้อความอ่อนแอลง และการพยายามปรับปรุงความแข็งแกร่งของโทเค็นรูปภาพอาจส่งผลให้ความสามารถของโทเค็นข้อความในงานแก้ไขลดลง เพื่อรับมือกับความท้าทายเหล่านี้ กรอบงาน InstantID จึงเลือกใช้ ControlNet ซึ่งเป็นวิธีการฝังคุณสมบัติทางเลือกที่ใช้ข้อมูลเชิงพื้นที่เป็นอินพุตสำหรับโมดูลที่ควบคุมได้ ทำให้สามารถรักษาความสอดคล้องกับการตั้งค่า UNet ในโมเดลการแพร่กระจาย

เฟรมเวิร์ก InstantID ทำการเปลี่ยนแปลงสองประการกับสถาปัตยกรรม ControlNet แบบดั้งเดิม: สำหรับการป้อนข้อมูลแบบมีเงื่อนไข เฟรมเวิร์ก InstantID จะเลือกใช้จุดสำคัญบนใบหน้า 5 จุด แทนที่จะเป็นจุดสำคัญบนใบหน้า OpenPose แบบละเอียด ประการที่สอง กรอบงาน InstantID ใช้การฝัง ID แทนข้อความแจ้งเป็นเงื่อนไขสำหรับเลเยอร์การสนใจข้ามในสถาปัตยกรรม ControlNet

การฝึกอบรมและการอนุมาน

ในระหว่างขั้นตอนการฝึกอบรม กรอบงาน InstantID จะปรับพารามิเตอร์ของ IdentityNet และ Image Adapter ให้เหมาะสม ในขณะเดียวกันก็หยุดพารามิเตอร์ของโมเดลการแพร่กระจายที่ได้รับการฝึกอบรมไว้ล่วงหน้า ไปป์ไลน์ InstantID ทั้งหมดได้รับการฝึกฝนเกี่ยวกับคู่ข้อความรูปภาพที่มีวัตถุเป็นมนุษย์ และใช้วัตถุประสงค์การฝึกอบรมที่คล้ายคลึงกับวัตถุประสงค์ที่ใช้ในเฟรมเวิร์กการแพร่กระจายที่เสถียรพร้อมเงื่อนไขรูปภาพเฉพาะงาน จุดเด่นของวิธีการฝึกอบรม InstantID คือการแยกชั้นระหว่างเลเยอร์การสนใจข้ามรูปภาพและข้อความภายในอะแดปเตอร์พร้อมท์รูปภาพ ซึ่งเป็นทางเลือกที่ช่วยให้กรอบงาน InstantID สามารถปรับน้ำหนักของเงื่อนไขรูปภาพเหล่านี้ได้อย่างยืดหยุ่นและเป็นอิสระ ดังนั้นจึงรับประกันว่าจะมีการกำหนดเป้าหมายและควบคุมมากขึ้น กระบวนการอนุมานและการฝึกอบรม

InstantID : การทดลองและผลลัพธ์

เฟรมเวิร์ก InstantID ใช้ Stable Diffusion และฝึกฝนบน LAION-Face ซึ่งเป็นชุดข้อมูลโอเพ่นซอร์สขนาดใหญ่ที่ประกอบด้วยคู่ข้อความรูปภาพมากกว่า 50 ล้านคู่ นอกจากนี้ กรอบงาน InstantID ยังรวบรวมภาพมนุษย์มากกว่า 10 ล้านภาพด้วยระบบอัตโนมัติที่สร้างขึ้นโดยอัตโนมัติโดยโมเดล BLIP2 เพื่อปรับปรุงคุณภาพการสร้างภาพให้ดียิ่งขึ้น เฟรมเวิร์ก InstantID มุ่งเน้นไปที่รูปภาพของบุคคลเดี่ยวเป็นหลัก และใช้แบบจำลองใบหน้าที่ได้รับการฝึกล่วงหน้าเพื่อตรวจจับและแยกการฝัง ID ใบหน้าออกจากรูปภาพของมนุษย์ และแทนที่จะฝึกชุดข้อมูลใบหน้าที่ถูกครอบตัด จะใช้ฝึกรูปภาพต้นฉบับของมนุษย์ นอกจากนี้ ในระหว่างการฝึก กรอบงาน InstantID จะหยุดข้อความที่ได้รับการฝึกไว้ล่วงหน้าเป็นโมเดลรูปภาพ และอัปเดตเฉพาะพารามิเตอร์ของ IdentityNet และ Image Adapter

การสร้างภาพเท่านั้น

โมเดล InstantID ใช้พร้อมต์ว่างเพื่อเป็นแนวทางในการสร้างรูปภาพโดยใช้รูปภาพอ้างอิงเท่านั้น และผลลัพธ์ที่ไม่มีพร้อมท์จะแสดงในภาพต่อไปนี้

การสร้าง 'Empty Prompt' ดังที่แสดงในภาพด้านบนแสดงให้เห็นถึงความสามารถของกรอบงาน InstantID ในการรักษาคุณลักษณะใบหน้าที่สื่อความหมายที่หลากหลาย เช่น ตัวตน อายุ และการแสดงออกได้อย่างแข็งแกร่ง อย่างไรก็ตาม เป็นที่น่าสังเกตว่าการใช้พร้อมท์ที่ว่างเปล่าอาจไม่สามารถจำลองผลลัพธ์ในความหมายอื่นๆ เช่น เพศ ได้อย่างถูกต้อง นอกจากนี้ ในภาพด้านบน คอลัมน์ 2 ถึง 4 ใช้รูปภาพและข้อความแจ้ง และดังที่เห็นแล้ว รูปภาพที่สร้างขึ้นไม่ได้แสดงให้เห็นถึงประสิทธิภาพในการควบคุมข้อความที่ลดลง และยังช่วยรับรองความสอดคล้องของข้อมูลประจำตัวอีกด้วย สุดท้าย คอลัมน์ 5 ถึง 9 ใช้รูปภาพ ข้อความแจ้ง และการควบคุมเชิงพื้นที่ แสดงให้เห็นถึงความเข้ากันได้ของโมเดลกับโมเดลการควบคุมเชิงพื้นที่ที่ได้รับการฝึกอบรมล่วงหน้า ทำให้โมเดล InstantID แนะนำการควบคุมเชิงพื้นที่ได้อย่างยืดหยุ่นโดยใช้ส่วนประกอบ ControlNet ที่ได้รับการฝึกอบรมล่วงหน้า

นอกจากนี้ ยังเป็นที่น่าสังเกตว่าจำนวนภาพอ้างอิงมีผลกระทบอย่างมากต่อภาพที่สร้างขึ้น ดังที่แสดงในภาพด้านบน แม้ว่าเฟรมเวิร์ก InstantID จะสามารถให้ผลลัพธ์ที่ดีโดยใช้รูปภาพอ้างอิงเดียว แต่รูปภาพอ้างอิงหลายรูปก็ให้รูปภาพที่มีคุณภาพดีกว่า เนื่องจากเฟรมเวิร์ก InstantID ใช้ค่าเฉลี่ยโดยเฉลี่ยของการฝัง ID เป็นพร้อมท์รูปภาพ ต่อไป จำเป็นต้องเปรียบเทียบเฟรมเวิร์ก InstantID กับวิธีการก่อนหน้านี้ที่สร้างภาพส่วนบุคคลโดยใช้ภาพอ้างอิงเดียว รูปต่อไปนี้เปรียบเทียบผลลัพธ์ที่สร้างโดยเฟรมเวิร์ก InstantID และโมเดลล้ำสมัยที่มีอยู่สำหรับการสร้างรูปภาพแบบกำหนดเองสำหรับการอ้างอิงเดี่ยว

ดังที่เห็นได้ว่าเฟรมเวิร์ก InstantID สามารถรักษาลักษณะใบหน้าได้ เนื่องจากการฝัง ID จึงมีข้อมูลความหมายที่หลากหลาย เช่น ตัวตน อายุ และเพศ จะปลอดภัยที่จะกล่าวว่าเฟรมเวิร์ก InstantID มีประสิทธิภาพเหนือกว่าเฟรมเวิร์กที่มีอยู่ในการสร้างภาพแบบกำหนดเอง เนื่องจากสามารถรักษาอัตลักษณ์ของมนุษย์ในขณะที่ยังคงการควบคุมและความยืดหยุ่นด้านรูปแบบ

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ InstantID ซึ่งเป็นโซลูชันที่ใช้โมเดลการแพร่กระจายสำหรับการสร้างภาพ InstantID เป็นโมดูล Plug and Play ที่จัดการการสร้างภาพและการปรับแต่งส่วนบุคคลในรูปแบบต่างๆ อย่างเชี่ยวชาญด้วยภาพอ้างอิงเพียงภาพเดียว และยังรับประกันความเที่ยงตรงสูงอีกด้วย เฟรมเวิร์ก InstantID มุ่งเน้นไปที่การสังเคราะห์รูปภาพที่รักษาเอกลักษณ์ในทันที และพยายามเชื่อมช่องว่างระหว่างประสิทธิภาพและความเที่ยงตรงสูงด้วยการแนะนำโมดูล Plug and Play ที่เรียบง่ายซึ่งช่วยให้เฟรมเวิร์กจัดการการปรับแต่งรูปภาพส่วนบุคคลโดยใช้เพียงภาพใบหน้าเดียว ขณะเดียวกันก็รักษาความเที่ยงตรงสูงไว้

หัวข้อที่เกี่ยวข้อง:CLIP แบบจำลองการแพร่กระจาย รหัสทันที การแพร่กระจายที่เสถียร Zero-shot

ต่อไป

ฟื้นคืนชีพตำนานดิจิทัล: การเปลี่ยนแปลงของ LimeWire สู่ขุมพลัง Generative AI

อย่าพลาด

วิวัฒนาการอันเงียบงันใน AI: การเพิ่มขึ้นของระบบ AI แบบผสมผสานที่เหนือกว่าโมเดล AI แบบดั้งเดิม

คุณกุล เกจริวัล

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ

ยูไนเต็ด.เอไอ

InstantID: การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที

ปัญญาประดิษฐ์

InstantID: การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที

สารบัญ

InstantID: การสร้างภาพที่รักษาเอกลักษณ์ของ Zero-Shot