ปัญญาประดิษฐ์

Dreamcraft3D: การสร้าง 3 มิติแบบลำดับชั้นพร้อม Bootstrapped Diffusion Prior

วันที่อัพเดท on November 16, 2023

โมเดล AI เจนเนอเรชั่นเป็นหัวข้อสนทนายอดนิยมในอุตสาหกรรม AI มาระยะหนึ่งแล้ว ความสำเร็จล่าสุดของโมเดลกำเนิด 2D ได้ปูทางสำหรับวิธีที่เราใช้ในการสร้างเนื้อหาภาพในปัจจุบัน แม้ว่าชุมชน AI จะประสบความสำเร็จอย่างน่าทึ่งด้วยโมเดลการสร้าง 2 มิติ แต่การสร้างเนื้อหา 3 มิติยังคงเป็นความท้าทายที่สำคัญสำหรับเฟรมเวิร์ก AI ที่สร้างเชิงลึก นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งเมื่อความต้องการเนื้อหาที่สร้าง 3 มิติพุ่งสูงเป็นประวัติการณ์ โดยได้รับแรงหนุนจากเกมภาพ แอปพลิเคชัน ความเป็นจริงเสมือน และแม้แต่ภาพยนตร์ที่หลากหลาย เป็นที่น่าสังเกตว่าแม้ว่าจะมีเฟรมเวิร์ก AI ที่สร้าง 3 มิติที่ให้ผลลัพธ์ที่ยอมรับได้สำหรับบางหมวดหมู่และงาน แต่ก็ไม่สามารถสร้างวัตถุ 3 มิติได้อย่างมีประสิทธิภาพ การขาดแคลนนี้อาจเกิดจากการขาดข้อมูล 3 มิติที่กว้างขวางสำหรับการฝึกอบรมเฟรมเวิร์ก เมื่อเร็วๆ นี้ นักพัฒนาได้เสนอให้ใช้ประโยชน์จากคำแนะนำที่นำเสนอโดยโมเดลการสร้างข้อความเป็นรูปภาพ AI ที่ได้รับการฝึกอบรมล่วงหน้า ซึ่งเป็นแนวทางที่แสดงให้เห็นผลลัพธ์ที่น่าหวัง

ในบทความนี้ เราจะพูดถึงเฟรมเวิร์ก DreamCraft3D ซึ่งเป็นโมเดลแบบลำดับชั้นสำหรับการสร้างเนื้อหา 3 มิติที่สร้างวัตถุ 3 มิติที่มีความเที่ยงตรงและสอดคล้องกันคุณภาพสูง กรอบงาน DreamCraft3D ใช้ภาพอ้างอิง 2D เพื่อเป็นแนวทางในขั้นตอนการแกะสลักรูปทรงเรขาคณิต ปรับปรุงพื้นผิวโดยเน้นที่การแก้ไขปัญหาความสอดคล้องที่พบในกรอบงานหรือวิธีการปัจจุบัน นอกจากนี้ เฟรมเวิร์ก DreamCraft3D ยังใช้โมเดลการแพร่กระจายที่ขึ้นกับมุมมองสำหรับการสุ่มตัวอย่างการกลั่นคะแนน ซึ่งช่วยในการแกะสลักเรขาคณิตที่มีส่วนช่วยในการเรนเดอร์ที่สอดคล้องกัน

เราจะเจาะลึกยิ่งขึ้นในกรอบงาน DreamCraft3D สำหรับการสร้างเนื้อหา 3 มิติ นอกจากนี้ เราจะสำรวจแนวคิดของการใช้ประโยชน์จากโมเดลข้อความเป็นรูปภาพ (T2I) ที่ได้รับการฝึกล่วงหน้าสำหรับการสร้างเนื้อหา 3 มิติ และตรวจสอบว่าเฟรมเวิร์ก DreamCraft3D มุ่งหวังที่จะใช้แนวทางนี้เพื่อสร้างเนื้อหา 3 มิติที่สมจริงอย่างไร

DreamCraft3D : บทนำ

DreafCraft3D เป็นไปป์ไลน์แบบลำดับชั้นสำหรับการสร้างเนื้อหา 3 มิติ เฟรมเวิร์ก DreamCraft3D พยายามใช้ประโยชน์จากเฟรมเวิร์ก T2I หรือเฟรมเวิร์กการสร้างข้อความเป็นรูปภาพที่ล้ำสมัยเพื่อสร้างภาพ 2D คุณภาพสูงโดยใช้ ข้อความแจ้ง. แนวทางดังกล่าวช่วยให้กรอบงาน DreamCraft3D สามารถเพิ่มขีดความสามารถของโมเดลการแพร่กระจาย 2D อันล้ำสมัย เพื่อแสดงความหมายของภาพตามที่อธิบายไว้ในข้อความพร้อมท์ ในขณะที่ยังคงรักษาอิสระในการสร้างสรรค์ที่นำเสนอโดยกรอบงานกำเนิด 2D AI เหล่านี้ จากนั้นภาพที่สร้างขึ้นจะถูกยกระดับเป็น 3 มิติด้วยความช่วยเหลือของการเพิ่มพื้นผิวเรขาคณิตแบบเรียงซ้อน และขั้นตอนการแกะสลักทางเรขาคณิต และเทคนิคพิเศษจะถูกนำไปใช้ในแต่ละขั้นตอนด้วยความช่วยเหลือในการสลายปัญหา

สำหรับรูปทรงเรขาคณิต กรอบงาน DreamCraft3D เน้นหนักไปที่โครงสร้าง 3D ทั่วโลก และความสอดคล้องของหลายมุมมอง จึงทำให้มีพื้นที่สำหรับการประนีประนอมกับพื้นผิวที่มีรายละเอียดในภาพ เมื่อเฟรมเวิร์กกำจัดปัญหาที่เกี่ยวข้องกับเรขาคณิตแล้ว มันจะเปลี่ยนการมุ่งเน้นไปที่การปรับพื้นผิวให้เหมาะสมและสมจริงโดยการใช้การแพร่กระจายการรับรู้ 3 มิติที่เริ่มต้นแนวทางการเพิ่มประสิทธิภาพ 3 มิติ มีข้อควรพิจารณาในการออกแบบที่สำคัญสองประการสำหรับขั้นตอนการเพิ่มประสิทธิภาพสองขั้นตอน ได้แก่ การแกะสลักทางเรขาคณิต และการเพิ่มพื้นผิว

จากทั้งหมดที่กล่าวมา มันจะปลอดภัยที่จะอธิบาย DreamCraft3D ว่าเป็น กรอบการสร้าง AI ที่ใช้ประโยชน์จากไปป์ไลน์การสร้างเนื้อหา 3D แบบลำดับชั้นเพื่อแปลงภาพ 2D ให้เป็นภาพ 3D ที่เป็นคู่กัน ในขณะที่ยังคงรักษาความสอดคล้องของ 3D แบบองค์รวม

การใช้ประโยชน์จาก T2I ที่ได้รับการฝึกล่วงหน้าหรือโมเดลข้อความเป็นรูปภาพ

แนวคิดในการใช้ประโยชน์จากโมเดล T2I หรือข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมมาล่วงหน้าสำหรับการสร้างเนื้อหา 3 มิตินั้นถูกนำมาใช้ครั้งแรกโดยเฟรมเวิร์ก DreamFusion ในปี 2022 กรอบงาน DreamFusion พยายามบังคับใช้การสูญเสียตัวอย่าง SDS หรือ Score Distillation เพื่อปรับเฟรมเวิร์ก 3D ให้เหมาะสมในลักษณะที่ การเรนเดอร์ที่มุมมองแบบสุ่มจะสอดคล้องกับการกระจายรูปภาพที่มีเงื่อนไขข้อความตามที่ตีความโดยเฟรมเวิร์กการแพร่กระจายข้อความเป็นรูปภาพที่มีประสิทธิภาพ แม้ว่าแนวทาง DreamFusion จะให้ผลลัพธ์ที่ดี แต่ก็มีประเด็นสำคัญอยู่ 2 ประการ ได้แก่ ความพร่ามัว และความอิ่มตัวของสีมากเกินไป เพื่อแก้ไขปัญหาเหล่านี้ งานล่าสุดใช้กลยุทธ์การปรับให้เหมาะสมตามขั้นตอนต่างๆ ในความพยายามที่จะปรับปรุงการสูญเสียการกลั่นแบบ 3 มิติ ซึ่งท้ายที่สุดจะนำไปสู่คุณภาพที่ดีขึ้น และภาพที่สร้างขึ้น XNUMX มิติที่สมจริง

อย่างไรก็ตาม แม้ว่ากรอบงานเหล่านี้จะประสบความสำเร็จเมื่อเร็วๆ นี้ แต่ก็ไม่สามารถเทียบเคียงความสามารถของกรอบงานสร้าง 2D ในการสังเคราะห์เนื้อหาที่ซับซ้อนได้ นอกจากนี้ กรอบการทำงานเหล่านี้มักเต็มไปด้วย “ฉบับเจนัส” ซึ่งเป็นภาวะที่ การเรนเดอร์ 3 มิติ ที่ดูเหมือนจะเป็นไปได้เป็นรายบุคคล แสดงความไม่สอดคล้องกันของโวหารและความหมายเมื่อพิจารณาโดยรวม

เพื่อจัดการกับปัญหาที่งานก่อนหน้านี้ต้องเผชิญ กรอบงาน DreamCraft3D จะสำรวจความเป็นไปได้ของการใช้ไปป์ไลน์การสร้างเนื้อหา 3D แบบลำดับชั้นแบบองค์รวม และแสวงหาแรงบันดาลใจจากกระบวนการทางศิลปะแบบแมนนวล ซึ่งแนวคิดจะถูกเขียนลงในแบบร่าง 2D ก่อน จากนั้นศิลปิน สร้างสรรค์รูปทรงเรขาคณิตที่หยาบ ปรับแต่งรายละเอียดทางเรขาคณิต และลงสีพื้นผิวที่มีความเที่ยงตรงสูง โดยยึดแนวทางเดียวกันคือ เฟรมเวิร์ก DreamCraft3D แบ่งงานเนื้อหา 3D หรือการสร้างภาพอย่างละเอียดออกเป็นขั้นตอนต่างๆ ที่สามารถจัดการได้. เริ่มต้นด้วยการสร้างภาพ 2D คุณภาพสูงโดยใช้ข้อความแจ้ง และใช้การเพิ่มพื้นผิวและแกะสลักรูปทรงเรขาคณิตเพื่อยกภาพเข้าสู่ขั้นตอน 3D การแบ่งกระบวนการออกเป็นขั้นตอนต่อๆ ไปจะช่วยให้เฟรมเวิร์ก DreamCraft2D เพิ่มศักยภาพในการสร้างลำดับชั้นสูงสุด ซึ่งท้ายที่สุดแล้วจะได้ภาพ 3D คุณภาพที่เหนือกว่า

ในขั้นตอนแรก กรอบงาน DreamCraft3D ปรับใช้การแกะสลักทางเรขาคณิตเพื่อสร้างรูปทรงเรขาคณิต 3 มิติที่สอดคล้องและเป็นไปได้โดยใช้ภาพ 2 มิติเป็นข้อมูลอ้างอิง นอกจากนี้ ระยะไม่เพียงแต่ใช้ประโยชน์จากการสูญเสีย SDS สำหรับการสูญเสียเชิงแสงและมุมมองใหม่ในมุมมองอ้างอิงเท่านั้น แต่กรอบการทำงานยังแนะนำกลยุทธ์ที่หลากหลายเพื่อส่งเสริมความสอดคล้องทางเรขาคณิต กรอบการทำงานนี้มีจุดมุ่งหมายเพื่อใช้ประโยชน์จาก Zero-1-to-3 ซึ่งเป็นโมเดลการแปลรูปภาพที่มีเงื่อนไขตามมุมมอง เพื่อใช้รูปภาพอ้างอิงเพื่อสร้างแบบจำลองการกระจายของมุมมองใหม่ นอกจากนี้ กรอบงานยังเปลี่ยนจากการแสดงพื้นผิวโดยนัยไปเป็นการแสดงแบบตาข่ายเพื่อการปรับแต่งทางเรขาคณิตแบบหยาบไปจนถึงแบบละเอียด

ขั้นตอนที่สองของเฟรมเวิร์ก DreamCraft3D ใช้วิธีการกลั่นคะแนนแบบบูตสแตรปเพื่อเพิ่มพื้นผิวของภาพ เนื่องจากโมเดลการแพร่กระจายแบบปรับมุมมองปัจจุบันได้รับการฝึกฝนกับข้อมูล 3 มิติในจำนวนที่จำกัด ซึ่งเป็นเหตุผลว่าทำไมจึงมักประสบปัญหาในการจับคู่ประสิทธิภาพหรือความเที่ยงตรงของ โมเดลการแพร่กระจาย 2 มิติ ด้วยข้อจำกัดนี้ เฟรมเวิร์ก DreamCraft3D จะปรับแต่งโมเดลการแพร่กระจายให้สอดคล้องกับรูปภาพหลายมุมมองของอินสแตนซ์ 3 มิติที่ได้รับการปรับให้เหมาะสม และวิธีการนี้จะช่วยให้เฟรมเวิร์กเพิ่มพื้นผิว 3 มิติ ในขณะที่ยังคงรักษาความสอดคล้องของหลายมุมมอง เมื่อโมเดลการแพร่กระจายฝึกการเรนเดอร์หลายมุมมองเหล่านี้จะให้คำแนะนำที่ดีกว่าสำหรับการปรับพื้นผิว 3 มิติให้เหมาะสม และแนวทางนี้ช่วยให้เฟรมเวิร์ก DreamCraft3D บรรลุรายละเอียดพื้นผิวในปริมาณที่บ้าระห่ำในขณะที่ยังคงรักษาความสอดคล้องของมุมมอง

ดังที่เห็นในภาพด้านบน กรอบงาน DreamCraft3D สามารถสร้างภาพและเนื้อหา 3 มิติที่สร้างสรรค์ด้วยพื้นผิวที่สมจริง และโครงสร้างทางเรขาคณิตที่ซับซ้อน ในภาพแรกเป็นร่างของ Son Goku ซึ่งเป็นตัวละครในอนิเมะผสมกับหัวของหมูป่าที่กำลังวิ่ง ในขณะที่ภาพที่สองเป็นภาพสุนัขบีเกิ้ลที่แต่งกายด้วยชุดนักสืบ ต่อไปนี้เป็นตัวอย่างเพิ่มเติมบางส่วน

DreamCraft3D : การทำงานและสถาปัตยกรรม

เฟรมเวิร์ก DreamCraft3D พยายามใช้ประโยชน์จากเฟรมเวิร์ก T2I หรือเฟรมเวิร์กการสร้างข้อความเป็นรูปภาพที่ล้ำสมัย เพื่อสร้างภาพ 2 มิติคุณภาพสูงโดยใช้ข้อความแจ้ง แนวทางดังกล่าวช่วยให้กรอบงาน DreamCraft3D สามารถเพิ่มขีดความสามารถของโมเดลการแพร่กระจาย 2D อันล้ำสมัย เพื่อแสดงความหมายของภาพตามที่อธิบายไว้ในข้อความพร้อมท์ ในขณะที่ยังคงรักษาอิสระในการสร้างสรรค์ที่นำเสนอโดยกรอบงานกำเนิด 2D AI เหล่านี้ จากนั้นภาพที่สร้างขึ้นจะถูกยกระดับเป็น 3 มิติด้วยความช่วยเหลือของการเพิ่มพื้นผิวเรขาคณิตแบบเรียงซ้อน และขั้นตอนการแกะสลักทางเรขาคณิต และเทคนิคพิเศษจะถูกนำไปใช้ในแต่ละขั้นตอนด้วยความช่วยเหลือในการสลายปัญหา รูปภาพต่อไปนี้สรุปการทำงานของเฟรมเวิร์ก DreamCraft3D โดยย่อ

เรามาดูรายละเอียดเกี่ยวกับข้อควรพิจารณาในการออกแบบที่สำคัญสำหรับการเพิ่มพื้นผิว และขั้นตอนการแกะสลักทางเรขาคณิตกัน

การแกะสลักรูปทรงเรขาคณิต

Geometry Sculpting เป็นขั้นตอนแรกที่เฟรมเวิร์ก DreamCraft3D พยายามสร้างโมเดล 3 มิติในลักษณะที่สอดคล้องกับลักษณะของภาพอ้างอิงในมุมมองอ้างอิงเดียวกัน ในขณะเดียวกันก็รับประกันความน่าเชื่อถือสูงสุดแม้ภายใต้มุมมองที่ต่างกัน เพื่อให้มั่นใจถึงความเป็นไปได้สูงสุด กรอบงานจึงใช้การสูญเสีย SDS เพื่อส่งเสริมการแสดงภาพที่เป็นไปได้สำหรับทุกมุมมองตัวอย่างแต่ละรายการที่โมเดลการแพร่กระจายที่ได้รับการฝึกอบรมล่วงหน้าสามารถรับรู้ได้ นอกจากนี้ เพื่อใช้คำแนะนำจากภาพอ้างอิงอย่างมีประสิทธิภาพ เฟรมเวิร์กจะลงโทษความแตกต่างของโฟโตเมตริกระหว่างข้อมูลอ้างอิงและภาพที่แสดงผลในมุมมองอ้างอิง และการสูญเสียจะถูกคำนวณเฉพาะภายในขอบเขตเบื้องหน้าของมุมมองเท่านั้น นอกจากนี้ เพื่อกระตุ้นให้เกิดความกระจัดกระจายของฉาก เฟรมเวิร์กยังใช้การสูญเสียการมาสก์ซึ่งแสดงภาพเงาอีกด้วย อย่างไรก็ตาม เรื่องนี้ การรักษารูปลักษณ์และความหมายในมุมมองด้านหลังยังคงเป็นความท้าทาย ซึ่งเป็นเหตุผลว่าทำไมกรอบงานจึงใช้วิธีการเพิ่มเติมเพื่อสร้างรูปทรงเรขาคณิตที่มีรายละเอียดและสอดคล้องกัน

3D Aware Diffusion ก่อน

วิธีการเพิ่มประสิทธิภาพ 3D โดยใช้การดูแลต่อการดูเพียงอย่างเดียวนั้นมีข้อจำกัดภายใต้ข้อจำกัด ซึ่งเป็นเหตุผลหลักว่าทำไมเฟรมเวิร์ก DreamCraft3D จึงใช้ Zero-1-to-3 ซึ่งเป็นโมเดลการแพร่กระจายแบบมีเงื่อนไขในการรับชม เป็น Zero-1-to กรอบงาน -3 นำเสนอการรับรู้มุมมองที่เพิ่มขึ้น เนื่องจากได้รับการฝึกอบรมเกี่ยวกับเนื้อหาข้อมูล 3 มิติขนาดใหญ่ขึ้น นอกจากนี้ กรอบงาน Zero-1-to-3 ยังเป็นโมเดลการแพร่กระจายที่ได้รับการปรับแต่งอย่างละเอียด ซึ่งจะทำให้ภาพหลอนสัมพันธ์กับท่าทางของกล้องตามภาพอ้างอิง

การฝึกอบรมมุมมองแบบก้าวหน้า

การได้รับมุมมองแบบอิสระโดยตรงแบบ 360 องศาอาจทำให้เกิดความผิดปกติทางเรขาคณิตหรือความคลาดเคลื่อน เช่น ขาส่วนเกินบนเก้าอี้ เหตุการณ์ที่อาจเกิดจากความคลุมเครือของรูปภาพอ้างอิงเดียว เพื่อจัดการกับอุปสรรคนี้ กรอบงาน DreamCraft3D จะขยายมุมมองการฝึกแบบค่อยเป็นค่อยไป จากนั้นเรขาคณิตที่ได้รับการยอมรับอย่างดีจะค่อยๆ แพร่กระจายเพื่อให้ได้ผลลัพธ์แบบ 360 องศา

ขั้นตอนการหลอมเวลาการแพร่กระจาย

กรอบงาน DreamCraft3D ใช้กลยุทธ์การหลอมขั้นตอนเวลาการแพร่กระจายในความพยายามที่จะสอดคล้องกับความก้าวหน้าแบบหยาบถึงละเอียดของการเพิ่มประสิทธิภาพ 3D ในช่วงเริ่มต้นของกระบวนการปรับให้เหมาะสม กรอบงานจะให้ความสำคัญกับการสุ่มตัวอย่างลำดับเวลาการแพร่กระจายที่มากขึ้น ในความพยายามที่จะจัดเตรียมโครงสร้างส่วนกลาง เมื่อกรอบงานดำเนินไปตามกระบวนการฝึกอบรม กรอบงานจะหลอมรวมช่วงการสุ่มตัวอย่างเป็นเส้นตรงตลอดเส้นทางการวนซ้ำหลายร้อยครั้ง ด้วยกลยุทธ์การหลอม กรอบงานจึงสามารถสร้างเรขาคณิตทั่วโลกที่เป็นไปได้ในระหว่างขั้นตอนการปรับให้เหมาะสมในช่วงแรกๆ ก่อนที่จะปรับแต่งรายละเอียดโครงสร้าง

การปรับปรุงโครงสร้างโดยละเอียด

กรอบงาน DreamCraft3D ปรับการแสดงพื้นผิวโดยนัยให้เหมาะสมตั้งแต่เริ่มแรกเพื่อสร้างโครงสร้างหยาบ จากนั้นเฟรมเวิร์กจะใช้ผลลัพธ์นี้ และจับคู่กับตารางเตตราฮีดรัลที่เปลี่ยนรูปได้หรือ DMTet เพื่อเริ่มต้นการแสดงตาข่าย 3 มิติที่มีพื้นผิว ซึ่งจะทำให้การเรียนรู้พื้นผิวและเรขาคณิตไม่พันกัน เมื่อเฟรมเวิร์กเสร็จสิ้นด้วยการปรับปรุงโครงสร้าง โมเดลจะสามารถรักษารายละเอียดความถี่สูงที่ได้รับจากภาพอ้างอิงโดยการปรับแต่งพื้นผิวเพียงอย่างเดียว

การเพิ่มพื้นผิวโดยใช้การสุ่มตัวอย่างคะแนน Bootstrapped

แม้ว่าขั้นตอนการแกะสลักรูปทรงเรขาคณิตจะเน้นไปที่การเรียนรู้เรขาคณิตที่มีรายละเอียดและสอดคล้องกัน แต่ก็ทำให้พื้นผิวเบลอในระดับหนึ่งซึ่งอาจเป็นผลมาจากการพึ่งพาเฟรมเวิร์กกับโมเดล 2D ก่อนหน้าที่ทำงานที่ความละเอียดหยาบพร้อมกับความคมชัดที่จำกัดที่นำเสนอโดย 3D รูปแบบการแพร่กระจาย นอกจากนี้ ปัญหาพื้นผิวทั่วไป รวมถึงความอิ่มตัวมากเกินไป และการปรับให้เรียบมากเกินไปเกิดขึ้นจากคำแนะนำที่ไม่มีตัวแยกประเภทขนาดใหญ่

เฟรมเวิร์กใช้การสูญเสีย VSD หรือ Variational Score Distillation เพื่อเพิ่มความสมจริงของพื้นผิว เฟรมเวิร์กเลือกใช้โมเดล Stable Diffusion ในระหว่างขั้นตอนนี้เพื่อให้ได้การไล่ระดับสีที่มีความละเอียดสูง นอกจากนี้ กรอบงานยังรักษาตารางจัตุรมุขไว้คงที่เพื่อส่งเสริมการเรนเดอร์ที่สมจริงเพื่อปรับโครงสร้างโดยรวมของตาข่ายให้เหมาะสมที่สุด ในระหว่างขั้นตอนการเรียนรู้ กรอบงาน DreamCraft3D ไม่ได้ใช้กรอบงาน Zero-1-to-3 เนื่องจากมีผลกระทบเชิงลบต่อคุณภาพของพื้นผิว และพื้นผิวที่ไม่สอดคล้องกันเหล่านี้อาจเกิดขึ้นซ้ำ ซึ่งนำไปสู่ผลลัพธ์ 3D ที่แปลกประหลาด

การทดลองและผลลัพธ์

เพื่อประเมินประสิทธิภาพของเฟรมเวิร์ก DreamCraft3D จะมีการเปรียบเทียบกับเฟรมเวิร์กที่ทันสมัยในปัจจุบัน และวิเคราะห์ผลลัพธ์เชิงคุณภาพและเชิงปริมาณ

เปรียบเทียบกับโมเดลพื้นฐาน

เพื่อประเมินประสิทธิภาพ เฟรมเวิร์ก DreamCraft3D จะถูกเปรียบเทียบกับเฟรมเวิร์กล้ำสมัย 5 อัน ได้แก่ DreamFusion, Magic3D, ProlificDreamer, Magic123 และ Make-it-3D เกณฑ์มาตรฐานการทดสอบประกอบด้วยรูปภาพอินพุต 300 ภาพที่เป็นการผสมผสานระหว่างรูปภาพในชีวิตจริง และรูปภาพที่สร้างโดยเฟรมเวิร์ก Stable Diffusion รูปภาพแต่ละรูปในเกณฑ์มาตรฐานการทดสอบจะมีข้อความแจ้ง แผนที่เชิงลึกที่คาดการณ์ไว้ และอัลฟ่ามาสก์สำหรับพื้นหน้า กรอบแหล่งที่มาของข้อความแจ้งสำหรับภาพจริงจากกรอบคำอธิบายภาพ

การวิเคราะห์เชิงคุณภาพ

รูปภาพต่อไปนี้เปรียบเทียบเฟรมเวิร์ก DreamCraft3D กับโมเดลพื้นฐานปัจจุบัน และดังที่เห็นได้ว่าเฟรมเวิร์กที่ใช้วิธีแปลงข้อความเป็น 3D มักจะประสบปัญหาความสอดคล้องกันของหลายมุมมอง

ในด้านหนึ่ง คุณมีเฟรมเวิร์ก ProlificDreamer ที่ให้พื้นผิวที่สมจริง แต่มันก็ยังไม่เพียงพอในการสร้างวัตถุ 3 มิติที่น่าเชื่อถือ เฟรมเวิร์ก เช่น เฟรมเวิร์ก Make-it-3D ที่ใช้วิธี Image-to-3D จัดการเพื่อสร้างมุมมองด้านหน้าคุณภาพสูง แต่ไม่สามารถรักษารูปทรงในอุดมคติสำหรับรูปภาพได้ รูปภาพที่สร้างโดยเฟรมเวิร์ก Magic123 นำเสนอการปรับเรขาคณิตให้เป็นมาตรฐานที่ดีกว่า แต่สร้างพื้นผิวและรายละเอียดทางเรขาคณิตที่อิ่มตัวและเรียบเกินไป เมื่อเปรียบเทียบกับเฟรมเวิร์กเหล่านี้ เฟรมเวิร์ก DreamCraft3D ที่ใช้วิธีการกลั่นคะแนนแบบบูตสแตรป ไม่เพียงแต่รักษาความสอดคล้องทางความหมายเท่านั้น แต่ยังปรับปรุงความหลากหลายของจินตนาการโดยรวมอีกด้วย

การวิเคราะห์เชิงปริมาณ

ในความพยายามที่จะสร้างภาพ 3 มิติที่น่าสนใจซึ่งไม่เพียงแต่คล้ายกับภาพอ้างอิงอินพุตเท่านั้น แต่ยังถ่ายทอดความหมายจากมุมมองต่างๆ อย่างสม่ำเสมอ เทคนิคที่ใช้โดยเฟรมเวิร์ก DreamCraft3D จะถูกเปรียบเทียบกับโมเดลพื้นฐาน และกระบวนการประเมินใช้ตัวชี้วัด XNUMX ตัว: PSNR และ LPIPS สำหรับการวัดความเที่ยงตรงที่มุมมองอ้างอิง ระยะทางตามบริบทสำหรับการประเมินความสอดคล้องระดับพิกเซล และ CLIP เพื่อประเมินการเชื่อมโยงกันทางความหมาย ผลลัพธ์จะแสดงในภาพต่อไปนี้

สรุป

ในบทความนี้ เราได้พูดถึง DreamCraft3D ซึ่งเป็นไปป์ไลน์แบบลำดับชั้นสำหรับการสร้างเนื้อหา 3 มิติ เฟรมเวิร์ก DreamCraft3D มุ่งหวังที่จะใช้ประโยชน์จากเฟรมเวิร์กการสร้างข้อความเป็นรูปภาพ (T2I) ที่ล้ำสมัย เพื่อสร้างภาพ 2D คุณภาพสูงโดยใช้ข้อความแจ้ง แนวทางนี้ช่วยให้เฟรมเวิร์ก DreamCraft3D เพิ่มขีดความสามารถของโมเดลการแพร่กระจาย 2D ที่ล้ำสมัยในการแสดงความหมายเชิงภาพที่อธิบายไว้ในข้อความพร้อมท์ ขณะเดียวกันก็รักษาอิสระในการสร้างสรรค์ที่นำเสนอโดยเฟรมเวิร์ก 2D AI generative เหล่านี้ จากนั้นภาพที่สร้างขึ้นจะถูกแปลงเป็น 3 มิติผ่านการเพิ่มพื้นผิวเรขาคณิตแบบเรียงซ้อนและขั้นตอนการแกะสลักทางเรขาคณิต มีการใช้เทคนิคเฉพาะทางในแต่ละขั้นตอน โดยได้รับความช่วยเหลือจากการสลายตัวของปัญหา จากแนวทางนี้ กรอบงาน DreamCraft3D สามารถสร้างเนื้อหา 3 มิติที่มีความเที่ยงตรงสูงและสม่ำเสมอพร้อมพื้นผิวที่น่าสนใจ สามารถดูได้จากหลายมุม

หัวข้อที่เกี่ยวข้อง:

ต่อไป

Sam Altman ถูกถอดออกจาก OpenAI และ Mira Murati ได้รับการแต่งตั้งเป็น CEO ชั่วคราว

อย่าพลาด

Zero123++: รูปภาพเดียวสำหรับโมเดลฐานการแพร่กระจายหลายมุมมองที่สอดคล้องกัน

คุณกุล เกจริวัล

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ

ยูไนเต็ด.เอไอ

Dreamcraft3D: การสร้าง 3 มิติแบบลำดับชั้นพร้อม Bootstrapped Diffusion Prior

ปัญญาประดิษฐ์

Dreamcraft3D: การสร้าง 3 มิติแบบลำดับชั้นพร้อม Bootstrapped Diffusion Prior

สารบัญ

DreamCraft3D : บทนำ

การใช้ประโยชน์จาก T2I ที่ได้รับการฝึกล่วงหน้าหรือโมเดลข้อความเป็นรูปภาพ

DreamCraft3D : การทำงานและสถาปัตยกรรม