ต้นขั้ว AI ช่วยแก้ไขวัตถุด้วย 'ลบและแทนที่' ของ Imagic และ Runway - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การแก้ไขวัตถุที่ได้รับความช่วยเหลือจาก AI ด้วย 'ลบและแทนที่' ของ Imagic และ Runway

mm
วันที่อัพเดท on

อัลกอริธึมกราฟิกที่ขับเคลื่อนด้วย AI สองรายการใหม่แต่แตกต่างกันในสัปดาห์นี้นำเสนอวิธีการใหม่ๆ สำหรับผู้ใช้ปลายทางในการเปลี่ยนแปลงอย่างละเอียดและมีประสิทธิภาพต่อวัตถุในภาพถ่าย

ครั้งแรกคือ จินตนาการจาก Google Research ร่วมกับ Israel's Institute of Technology และ Weizmann Institute of Science Imagic นำเสนอการแก้ไขวัตถุแบบปรับสภาพข้อความและแบบละเอียดผ่านการปรับโมเดลการแพร่กระจายแบบละเอียด

เปลี่ยนสิ่งที่คุณชอบ แล้วทิ้งส่วนที่เหลือไว้ – Imagic สัญญาว่าจะแก้ไขเฉพาะส่วนที่คุณต้องการเปลี่ยนแปลงอย่างละเอียด ที่มา: https://arxiv.org/pdf/2210.09276.pdf

เปลี่ยนสิ่งที่คุณชอบ แล้วทิ้งส่วนที่เหลือไว้ – Imagic สัญญาว่าจะแก้ไขเฉพาะส่วนที่คุณต้องการเปลี่ยนแปลงอย่างละเอียด ที่มา: https://arxiv.org/pdf/2210.09276.pdf

ใครก็ตามที่เคยพยายามเปลี่ยนเพียงองค์ประกอบเดียวในการเรนเดอร์ Stable Diffusion อีกครั้งจะทราบดีว่าสำหรับการแก้ไขที่ประสบความสำเร็จทุกครั้ง ระบบจะเปลี่ยนห้าสิ่งที่คุณชอบในแบบที่เป็นอยู่ เป็นข้อบกพร่องที่ปัจจุบันมีผู้ที่ชื่นชอบ SD ที่มีความสามารถมากที่สุดหลายคนสับเปลี่ยนกันระหว่าง Stable Diffusion และ Photoshop อย่างต่อเนื่องเพื่อแก้ไข 'ความเสียหายที่ตามมา' ประเภทนี้ จากจุดยืนนี้เพียงอย่างเดียว ความสำเร็จของ Imagic ดูโดดเด่น

ในขณะที่เขียน Imagic ยังขาดแม้แต่วิดีโอโปรโมตและเนื่องจากเป็นของ Google ทัศนคติที่รอบคอบ ในการเปิดตัวเครื่องมือสังเคราะห์ภาพที่เป็นอิสระ เรายังไม่แน่ใจว่าจะมีโอกาสทดสอบระบบในระดับใด หากมี

ข้อเสนอที่สองคือ Runway ML เข้าถึงได้มากกว่า ลบและแทนที่ สิ่งอำนวยความสะดวก ก คุณลักษณะใหม่ ในส่วน 'AI Magic Tools' ของชุดเครื่องมือวิชวลเอฟเฟกต์บนการเรียนรู้ของเครื่องแบบออนไลน์โดยเฉพาะ

คุณลักษณะลบและแทนที่ของ Runway ML ซึ่งเห็นในการแสดงตัวอย่างสำหรับระบบแก้ไขข้อความเป็นวิดีโอแล้ว ที่มา: https://www.youtube.com/watch?v=41Qb58ZPO60

คุณลักษณะลบและแทนที่ของ Runway ML ซึ่งเห็นในการแสดงตัวอย่างสำหรับระบบแก้ไขข้อความเป็นวิดีโอแล้ว ที่มา: https://www.youtube.com/watch?v=41Qb58ZPO60

มาดู Outing ของ Runway กันก่อนดีกว่า

ลบและแทนที่

เช่นเดียวกับ Imagic การลบและแทนที่จะทำข้อตกลงเฉพาะกับภาพนิ่ง แม้ว่า Runway จะมีก็ตาม แสดงตัวอย่าง ฟังก์ชันเดียวกันในโซลูชันการแก้ไขข้อความเป็นวิดีโอที่ยังไม่เปิดตัว:

แม้ว่าทุกคนสามารถทดสอบการลบและแทนที่ใหม่บนรูปภาพได้ แต่เวอร์ชันวิดีโอยังไม่เผยแพร่สู่สาธารณะ ที่มา: https://twitter.com/runwayml/status/1568220303808991232

แม้ว่าทุกคนสามารถทดสอบการลบและแทนที่ใหม่บนรูปภาพได้ แต่เวอร์ชันวิดีโอยังไม่เผยแพร่สู่สาธารณะ ที่มา: https://twitter.com/runwayml/status/1568220303808991232

แม้ว่า Runway ML จะไม่ได้เผยแพร่รายละเอียดของเทคโนโลยีที่อยู่เบื้องหลัง Erase and Replace แต่ความเร็วที่คุณสามารถแทนที่พืชในบ้านด้วยรูปปั้นครึ่งตัวของ Ronald Reagan ที่น่าเชื่อถือพอสมควร แสดงให้เห็นว่าแบบจำลองการแพร่กระจายเช่น Stable Diffusion (หรือมีโอกาสน้อยกว่ามากคือ DALL-E 2 ที่ได้รับอนุญาตออก) เป็นเครื่องมือที่สร้างสรรค์วัตถุที่คุณเลือกขึ้นมาใหม่ในการลบและแทนที่

การเปลี่ยนต้นไม้ในบ้านด้วยรูปปั้นครึ่งตัวของ The Gipper อาจไม่เร็วเท่านี้ แต่ก็ค่อนข้างเร็ว ที่มา: https://app.runwayml.com/

การเปลี่ยนต้นไม้ในบ้านด้วยรูปปั้นครึ่งตัวของ The Gipper อาจไม่เร็วเท่านี้ แต่ก็ค่อนข้างเร็ว ที่มา: https://app.runwayml.com/

ระบบมีข้อจำกัดประเภท DALL-E 2 บางประการ รูปภาพหรือข้อความที่ตั้งค่าสถานะตัวกรองลบและแทนที่จะทำให้เกิดคำเตือนเกี่ยวกับการระงับบัญชีที่เป็นไปได้ในกรณีที่มีการละเมิดเพิ่มเติม เกือบจะเป็นโคลนสำเร็จรูปของ OpenAI ที่กำลังดำเนินอยู่ นโยบาย สำหรับ DALL-E 2

ผลลัพธ์จำนวนมากไม่มีขอบหยาบทั่วไปของการแพร่กระจายที่เสถียร Runway ML เป็นนักลงทุนและ พันธมิตรการวิจัย ใน SD และเป็นไปได้ว่าพวกเขาได้ฝึกฝนโมเดลที่เป็นกรรมสิทธิ์ซึ่งเหนือกว่าน้ำหนักเช็คพอยต์โอเพ่นซอร์ส 1.4 ที่พวกเราที่เหลือกำลังต่อสู้กันอยู่ (เช่นเดียวกับกลุ่มพัฒนาอื่น ๆ ทั้งมือสมัครเล่นและมืออาชีพ กำลังฝึกฝนหรือปรับแต่งอย่างละเอียด แบบจำลองการแพร่กระจายที่เสถียร)

การแทนที่ตารางในประเทศสำหรับ 'ตารางที่ทำจากน้ำแข็ง' ในการลบและแทนที่ของ Runway ML

การแทนที่ตารางในประเทศสำหรับ 'ตารางที่ทำจากน้ำแข็ง' ในการลบและแทนที่ของ Runway ML

เช่นเดียวกับ Imagic (ดูด้านล่าง) การลบและแทนที่เป็น 'เชิงวัตถุ' เหมือนเดิม คุณไม่สามารถลบส่วนที่ 'ว่างเปล่า' ของรูปภาพและทาสีด้วยผลลัพธ์ของข้อความแจ้งได้ ในสถานการณ์นั้น ระบบจะติดตามวัตถุที่ปรากฏที่ใกล้ที่สุดตามแนวสายตาของหน้ากาก (เช่น กำแพง หรือโทรทัศน์) และใช้การแปลงร่างที่นั่น

ตามชื่อที่ระบุ คุณไม่สามารถแทรกวัตถุลงในพื้นที่ว่างในการลบและแทนที่ ที่นี่ความพยายามที่จะเรียก Sith lords ที่มีชื่อเสียงที่สุดส่งผลให้เกิดภาพจิตรกรรมฝาผนังเกี่ยวกับ Vader ที่แปลกประหลาดบนทีวีโดยคร่าว ๆ ว่ามีการวาดพื้นที่ 'แทนที่'

ตามชื่อที่ระบุ คุณไม่สามารถใส่วัตถุลงในช่องว่างใน Erase and Replace ที่นี่ความพยายามที่จะเรียก Sith lords ที่มีชื่อเสียงที่สุดส่งผลให้เกิดภาพจิตรกรรมฝาผนังที่เกี่ยวข้องกับ Vader แปลก ๆ บนทีวีโดยคร่าว ๆ ว่าพื้นที่ 'แทนที่' ถูกวาดขึ้น

เป็นการยากที่จะบอกได้ว่าการลบและแทนที่เป็นการหลีกเลี่ยงเกี่ยวกับการใช้ภาพที่มีลิขสิทธิ์ (ซึ่งยังคงถูกขัดขวางเป็นส่วนใหญ่ แม้ว่าจะประสบความสำเร็จต่างกันใน DALL-E 2) หรือว่าโมเดลที่ใช้ในเอ็นจิ้นการเรนเดอร์แบ็กเอนด์ ไม่เหมาะสำหรับสิ่งนั้น

'Mural of Nicole Kidman' เล็กน้อยของ NSFW บ่งชี้ว่า (น่าจะ) เป็นแบบจำลองที่มีการแพร่กระจายซึ่งขาดการปฏิเสธอย่างเป็นระบบในอดีตของ DALL-E 2 ในการแสดงใบหน้าที่เหมือนจริงหรือเนื้อหาที่มีชีวิตชีวา ในขณะที่ผลลัพธ์สำหรับความพยายามในการพิสูจน์ว่างานที่มีลิขสิทธิ์มีตั้งแต่ความคลุมเครือ ('xenomorph') ไปสู่ความไร้สาระ ('บัลลังก์เหล็ก') ใส่รูปภาพต้นฉบับด้านขวาล่าง

'ภาพจิตรกรรมฝาผนังของ Nicole Kidman' เล็กน้อยของ NSFW บ่งชี้ว่า (น่าจะ) เป็นแบบจำลองที่มีการแพร่กระจายซึ่งขาดการปฏิเสธอย่างเป็นระบบในอดีตของ DALL-E 2 ในการแสดงใบหน้าที่เหมือนจริงหรือเนื้อหาที่มีชีวิตชีวา ในขณะที่ผลลัพธ์สำหรับความพยายามในการพิสูจน์ว่างานที่มีลิขสิทธิ์มีตั้งแต่ความคลุมเครือ ('xenomorph') ไปสู่ความไร้สาระ ('บัลลังก์เหล็ก') ใส่รูปภาพต้นฉบับด้านขวาล่าง

เป็นเรื่องน่าสนใจที่จะทราบว่าวิธีใดในการลบและแทนที่ใช้เพื่อแยกวัตถุที่สามารถแทนที่ได้ สันนิษฐานว่าภาพกำลังดำเนินการผ่านแหล่งที่มาของ CLIPโดยมีรายการที่ไม่ต่อเนื่องที่แยกตามการจดจำวัตถุและการแบ่งส่วนความหมายที่ตามมา การดำเนินการเหล่านี้ไม่สามารถทำงานได้ทุกที่ในการติดตั้ง Stable Diffusion ทั่วไปหรือในสวน

แต่ไม่มีอะไรสมบูรณ์แบบ – บางครั้งระบบก็ดูเหมือนว่าจะลบและไม่ได้แทนที่ แม้ว่า (ดังที่เราได้เห็นในภาพด้านบน) กลไกการเรนเดอร์ที่ซ่อนอยู่นั้นรู้ดีว่าข้อความแจ้งนั้นหมายถึงอะไร ในกรณีนี้ พิสูจน์ได้ว่าเป็นไปไม่ได้ที่จะเปลี่ยนโต๊ะกาแฟให้เป็นซีโนมอร์ฟ – แต่โต๊ะจะหายไป

การทำซ้ำที่น่ากลัวกว่าของ 'Where's Waldo' เนื่องจาก Erase and Replace ล้มเหลวในการสร้างมนุษย์ต่างดาว

การทำซ้ำที่น่ากลัวกว่าของ 'Where's Waldo' เนื่องจาก Erase and Replace ล้มเหลวในการสร้างมนุษย์ต่างดาว

การลบและแทนที่ดูเหมือนจะเป็นระบบการแทนที่วัตถุที่มีประสิทธิภาพ พร้อมด้วยการลงสีที่ยอดเยี่ยม อย่างไรก็ตาม ไม่สามารถแก้ไขออบเจ็กต์การรับรู้ที่มีอยู่ได้ แต่จะแทนที่ออบเจ็กต์เหล่านั้นเท่านั้น การปรับเปลี่ยนเนื้อหารูปภาพที่มีอยู่จริงโดยไม่กระทบต่อวัสดุโดยรอบนั้นถือเป็นงานที่ยากกว่ามาก ซึ่งเชื่อมโยงกับการต่อสู้อันยาวนานของภาคการวิจัยการมองเห็นคอมพิวเตอร์ คลี่คลาย ในพื้นที่แฝงต่างๆ ของเฟรมเวิร์กยอดนิยม

จินตนาการ

มันเป็นงานที่ Imagic จัดการ เดอะ กระดาษใหม่ นำเสนอตัวอย่างการแก้ไขมากมายที่ประสบความสำเร็จในการแก้ไขแต่ละแง่มุมของภาพถ่ายโดยที่ส่วนที่เหลือของภาพไม่ถูกปรับแต่ง

ใน Imagic ภาพที่แก้ไขจะไม่ได้รับผลกระทบจากลักษณะการยืด การบิดเบี้ยว และ 'การคาดเดาการบดเคี้ยว' ของหุ่นกระบอก Deepfake ซึ่งใช้ลำดับความสำคัญที่จำกัดซึ่งได้มาจากภาพเดียว

ใน Imagic ภาพที่แก้ไขจะไม่ได้รับผลกระทบจากลักษณะการยืด การบิดเบี้ยว และ 'การคาดเดาการบดเคี้ยว' ของหุ่นกระบอก Deepfake ซึ่งใช้ลำดับความสำคัญที่จำกัดซึ่งได้มาจากภาพเดียว

ระบบใช้กระบวนการสามขั้นตอน – การเพิ่มประสิทธิภาพการฝังข้อความ; การปรับโมเดลอย่างละเอียด และสุดท้ายคือการสร้างภาพที่ถูกแก้ไข

Imagic เข้ารหัสพรอมต์ข้อความเป้าหมายเพื่อเรียกข้อมูลการฝังข้อความเริ่มต้น จากนั้นปรับผลลัพธ์ให้เหมาะสมเพื่อให้ได้ภาพที่ป้อนเข้า หลังจากนั้น โมเดลเชิงกำเนิดจะได้รับการปรับแต่งให้เข้ากับอิมเมจต้นฉบับ โดยเพิ่มช่วงของพารามิเตอร์ ก่อนที่จะถูกแก้ไขตามที่ร้องขอ

Imagic เข้ารหัสพรอมต์ข้อความเป้าหมายเพื่อเรียกข้อมูลการฝังข้อความเริ่มต้น จากนั้นปรับผลลัพธ์ให้เหมาะสมเพื่อให้ได้ภาพที่ป้อนเข้า หลังจากนั้น โมเดลเชิงกำเนิดจะได้รับการปรับแต่งให้เข้ากับอิมเมจต้นฉบับ โดยเพิ่มช่วงของพารามิเตอร์ ก่อนที่จะถูกแก้ไขตามที่ร้องขอ

ไม่น่าแปลกใจที่เฟรมเวิร์กอิงตามของ Google ภาพ สถาปัตยกรรม text-to-video แม้ว่านักวิจัยจะระบุว่าหลักการของระบบนั้นใช้ได้กับแบบจำลองการแพร่กระจายแบบแฝง

Imagen ใช้สถาปัตยกรรมแบบสามชั้น แทนที่จะใช้อาร์เรย์เจ็ดชั้นที่ใช้กับสถาปัตยกรรมล่าสุดของบริษัท การวนซ้ำข้อความเป็นวิดีโอ ของซอฟต์แวร์ โมดูลที่แตกต่างกันสามโมดูลประกอบด้วยโมเดลการแพร่กระจายเชิงกำเนิดที่ทำงานที่ความละเอียด 64x64px; โมเดลความละเอียดสูงที่ขยายเอาต์พุตนี้เป็น 256x256px; และรุ่นความละเอียดสูงพิเศษเพิ่มเติมเพื่อส่งออกไปจนสุดความละเอียด 1024×1024

Imagic เข้าแทรกแซงในขั้นตอนแรกสุดของกระบวนการนี้ โดยเพิ่มประสิทธิภาพการฝังข้อความที่ร้องขอในระยะ 64px บนเครื่องมือเพิ่มประสิทธิภาพ Adam ที่อัตราการเรียนรู้แบบคงที่ที่ 0.0001

ระดับปรมาจารย์ในการแก้ไข: ผู้ใช้ปลายทางที่พยายามเปลี่ยนแปลงบางสิ่งที่เรียบง่าย เช่น สีของวัตถุที่เรนเดอร์ในรูปแบบการแพร่กระจาย GAN หรือโมเดล NeRF จะรู้ว่า Imagic สามารถทำการเปลี่ยนแปลงดังกล่าวได้อย่างไร ' ความสอดคล้องของส่วนที่เหลือของภาพ

ระดับปรมาจารย์ในการแก้ไข: ผู้ใช้ปลายทางที่พยายามเปลี่ยนแปลงบางสิ่งที่เรียบง่าย เช่น สีของวัตถุที่เรนเดอร์ในรูปแบบการแพร่กระจาย GAN หรือโมเดล NeRF จะรู้ว่า Imagic สามารถทำการเปลี่ยนแปลงดังกล่าวได้อย่างไร ' ความสอดคล้องของส่วนที่เหลือของภาพ

จากนั้นการปรับแต่งอย่างละเอียดจะเกิดขึ้นบนโมเดลพื้นฐานของ Imagen เป็นเวลา 1500 ขั้นต่อภาพที่ป้อนเข้า โดยมีเงื่อนไขในการฝังที่แก้ไขแล้ว ในเวลาเดียวกัน เลเยอร์รอง 64px>256px จะถูกปรับให้เหมาะสมแบบคู่ขนานกับภาพที่ปรับสภาพแล้ว นักวิจัยทราบว่าการปรับให้เหมาะสมที่คล้ายกันสำหรับเลเยอร์สุดท้าย 256px>1024px มี 'ผลกระทบเพียงเล็กน้อยหรือไม่มีเลย' ต่อผลลัพธ์สุดท้าย ดังนั้นจึงไม่ได้ดำเนินการนี้

กระดาษระบุว่ากระบวนการปรับให้เหมาะสมใช้เวลาประมาณแปดนาทีสำหรับแต่ละภาพบนแฝด ทีพีวี4 ชิป. การเรนเดอร์ขั้นสุดท้ายเกิดขึ้นใน Core Imagen ภายใต้ รูปแบบการสุ่มตัวอย่าง DDIM.

เหมือนกันกับกระบวนการปรับแต่งที่คล้ายกันสำหรับ Google ดรีมบูธการฝังที่เป็นผลลัพธ์สามารถใช้เพิ่มเติมเพื่อเพิ่มพลังให้กับสไตล์ เช่นเดียวกับการแก้ไขภาพเหมือนจริงที่มีข้อมูลที่ดึงมาจากฐานข้อมูลพื้นฐานที่กว้างขึ้นซึ่งขับเคลื่อน Imagen (เนื่องจากดังที่คอลัมน์แรกด้านล่างแสดงไว้ รูปภาพต้นฉบับไม่มีเนื้อหาที่จำเป็นใดๆ ที่จะ ส่งผลต่อการเปลี่ยนแปลงเหล่านี้)

การเคลื่อนไหวและการแก้ไขภาพเสมือนจริงที่ยืดหยุ่นสามารถดึงออกมาผ่าน Imagic ในขณะที่โค้ดที่ได้มาและโค้ดที่แยกออกจากกันนั้นสามารถนำไปใช้กับเอาต์พุตที่มีสไตล์ได้อย่างง่ายดาย

การเคลื่อนไหวและการแก้ไขภาพเสมือนจริงที่ยืดหยุ่นสามารถดึงออกมาผ่าน Imagic ในขณะที่โค้ดที่ได้มาและโค้ดที่แยกออกจากกันนั้นสามารถนำไปใช้กับเอาต์พุตที่มีสไตล์ได้อย่างง่ายดาย

นักวิจัยเปรียบเทียบ Imagic กับผลงานก่อนหน้านี้ SDแก้ไขซึ่งเป็นแนวทางตาม GAN ในปี 2021 ซึ่งเป็นความร่วมมือระหว่าง Stanford University และ Carnegie Mellon University และ Text2Liveซึ่งเป็นความร่วมมือตั้งแต่เดือนเมษายน 2022 ระหว่าง Weizmann Institute of Science และ NVIDIA

การเปรียบเทียบภาพระหว่าง Imagic, SDEdit และ Text2Live

การเปรียบเทียบภาพระหว่าง Imagic, SDEdit และ Text2Live

เห็นได้ชัดว่าแนวทางเดิมกำลังประสบปัญหา แต่ในแถวล่างซึ่งเกี่ยวข้องกับการเปลี่ยนแปลงท่าทางครั้งใหญ่ ผู้ครอบครองตลาดกลับล้มเหลวโดยสิ้นเชิงในการปรับเปลี่ยนรูปแบบแหล่งข้อมูล เมื่อเทียบกับความสำเร็จที่โดดเด่นจาก Imagic

ความต้องการด้านทรัพยากรและเวลาการฝึกอบรมของ Imagic ต่อภาพ แม้ว่าจะสั้นตามมาตรฐานของการแสวงหาดังกล่าว แต่ก็ทำให้ไม่น่ารวมอยู่ในแอปพลิเคชันการแก้ไขภาพในเครื่องบนคอมพิวเตอร์ส่วนบุคคล และยังไม่ชัดเจนว่ากระบวนการปรับแต่งจะสามารถทำได้มากน้อยเพียงใด ลดขนาดลงไปจนถึงระดับผู้บริโภค

อย่างที่กล่าวไป Imagic เป็นข้อเสนอที่น่าประทับใจซึ่งเหมาะกับ APIs มากกว่า ซึ่งเป็นสภาพแวดล้อมของ Google Research ซึ่งเต็มไปด้วยคำวิจารณ์เกี่ยวกับการอำนวยความสะดวกในการปลอมแปลงข้อมูลเชิงลึก ไม่ว่าในกรณีใด ๆ อาจรู้สึกสบายใจที่สุด

 

เผยแพร่ครั้งแรก 18 ตุลาคม 2022

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai