בינה מלאכותית

Paint3D: מודל פיזור ללא תאורה ליצירת תמונה

מְעוּדכָּן on ינואר 23, 2024

להתפתחות המהירה של מודלים מחוללים בינה מלאכותית, במיוחד דגמי AI מחוללים עמוקים, יש יכולות מתקדמות משמעותית ביצירת שפה טבעית, יצירת תלת מימד, יצירת תמונות וסינתזת דיבור. מודלים אלה חוללו מהפכה בייצור התלת מימד בתעשיות שונות. עם זאת, רבים מתמודדים עם אתגר: החיווט המורכב והרשתות שנוצרו לרוב אינם תואמים לצינורות עיבוד מסורתיים כמו עיבוד מבוסס פיזי (PBR). מודלים מבוססי דיפוזיה, בעיקר ללא טקסטורות תאורה, מדגימים יצירת נכסי תלת-ממד מרשימים, ומשפרים מסגרות תלת-ממד ביצירת סרטים, גיימינג ו-AR/VR.

מאמר זה מציג את Paint3D, מסגרת חדשנית להפקת מפות מרקם UV מגוונות ברזולוציה גבוהה של 2K UV עבור רשתות תלת ממדיות ללא מרקם, המותנות בקלט חזותי או טקסטואלי. האתגר העיקרי של Paint3D הוא יצירת טקסטורות באיכות גבוהה ללא תאורה משובצת, מה שמאפשר למשתמש לערוך מחדש או להאיר מחדש בתוך צינורות גרפיקה מודרניים. הוא משתמש במודל דיפוזיה דו-ממדי מיומן מראש לאיחוי מרקם מרובה תצוגה, ויוצר מפות מרקם גסות ראשוניות. עם זאת, מפות אלו מציגות לעתים קרובות חפצי תאורה ואזורים לא שלמים עקב מגבלות המודל הדו-ממדית בהשבתת אפקטי תאורה ובייצוג מלא של צורות תלת-ממדיות. נתעמק בפעולה, בארכיטקטורה ובהשוואות של Paint3D עם מסגרות גנרטיביות עמוקות אחרות. בואו נתחיל.

Paint3D: מבוא

היכולות של מודלים של Deep Generative AI ביצירת שפה טבעית, יצירת תלת-ממד ומשימות סינתזת תמונות ידועות ומיושמות ביישומים מהחיים האמיתיים, מה שחולל מהפכה בתעשיית דור התלת-ממד. למרות היכולות המדהימות שלהם, מודרני עמוק AI ייצור מסגרות מייצרות רשתות המאופיינות בחיווט מורכב ובמרקמי תאורה כאוטיים שלעתים קרובות אינם תואמים לצינורות רינדור קונבנציונליים, כולל PBR או עיבוד מבוסס פיזי. כמו דגמי AI מחוללים עמוקים, גם סינתזת הטקסטורה התקדמה במהירות, במיוחד בשימוש במודלים של דיפוזיה דו-ממדית. מודלים של סינתזת מרקם משתמשים בעומק-לתמונה מאומנים מראש מודלים של דיפוזיה ביעילות להשתמש בתנאי טקסט כדי ליצור טקסטורות באיכות גבוהה. עם זאת, גישות אלו מתמודדות עם בעיות עם טקסטורות מוארות מראש שיכולות להשפיע באופן משמעותי על העיבודים הסופיים של סביבת התלת-ממד ולהציג שגיאות תאורה כאשר האורות מוחלפים בתוך זרימות העבודה הנפוצות כפי שמוצג בתמונה הבאה.

כפי שניתן לראות, מפת הטקסטורה עם תאורה חופשית עובדת בסנכרון עם צינורות העיבוד המסורתיים ומספקת תוצאות מדויקות בעוד שמפת המרקם עם תאורה מוקדמת כוללת צללים לא הולמים בעת הפעלת התאורה מחדש. מצד שני, מסגרות ליצירת טקסטורות מאומנות על נתוני תלת מימד מציעות גישה חלופית שבה המסגרת מייצרת את המרקמים על ידי הבנת הגיאומטריה השלמה של אובייקט תלת מימד ספציפי. למרות שהן עשויות לספק תוצאות טובות יותר, מסגרות ליצירת מרקם מאומנות על נתוני תלת מימד חסרות יכולות הכללה שמעכבות את יכולתן ליישם את המודל על אובייקטים תלת מימדיים מחוץ לנתוני האימון שלהן.

מודלים נוכחיים של יצירת טקסטורה עומדים בפני שני אתגרים קריטיים: שימוש בהנחיית תמונה או הנחיות מגוונות להשגת מידה רחבה יותר של הכללה על פני אובייקטים שונים, והאתגר השני הוא ביטול הארה משולבת על התוצאות שהושגו מהאימון המקדים. המרקמים המוארים מראש עלולים להפריע לתוצאות הסופיות של האובייקטים בעלי המרקם במנועי רינדור, ומכיוון שדגמי הדיפוזיה הדו-ממדיים המאומנים מראש מספקים תוצאות דו-ממדיות רק בתחום התצוגה, אין להם הבנה מקיפה של צורות שמובילה לכך שהם אינם מסוגלים כדי לשמור על עקביות תצוגה עבור אובייקטים תלת מימדיים.

בשל האתגרים שהוזכרו לעיל, מסגרת Paint3D מנסה לפתח מודל דיפוזי טקסטורה דו-שלבי עבור אובייקטים תלת מימדיים שמכליל למודלים מחוללים שונים שהוכשרו מראש ולשמור על עקביות התצוגה תוך לימוד יצירת טקסטורה ללא ברק.

Paint3D הוא דגם דו-שלבי ליצירת מרקם גס עד עדין שמטרתו למנף את יכולות ההדרכה המיידיות ויצירת התמונות של מיומנים מראש. AI ייצור מודלים לטקסטורת אובייקטים תלת מימדיים. בשלב הראשון, המסגרת של Paint3D דוגמת תחילה תמונות מרובות צפייה ממודל דיפוזיה של תמונה דו-ממדית מיומן מראש בהדרגה כדי לאפשר הכללה של תוצאות מרקם איכותיות ועשירות מהנחיות מגוונות. לאחר מכן, המודל יוצר מפת טקסטורה ראשונית על ידי הקרנה לאחור של תמונות אלו על משטח הרשת התלת-ממדית. בשלב השני, המודל מתמקד ביצירת טקסטורות נטולות תאורה על ידי יישום גישות המופעלות על ידי מודלים של דיפוזיה המתמחים בהסרת השפעות תאורה וחידוד מודע לצורה של אזורים לא שלמים. לאורך כל התהליך, מסגרת Paint3D מסוגלת באופן עקבי לייצר טקסטורות 2K באיכות גבוהה באופן סמנטי, ומבטלת אפקטי הארה פנימיים.

לסיכום, Paint3D הוא מודל AI מחולל גס עד עדין שמטרתו לייצר מפות טקסטורות 2K UV מגוונות, נטולות תאורה וברזולוציה גבוהה עבור רשתות תלת מימד חסרות מרקם כדי להשיג ביצועים מתקדמים ביצירת מרקם של אובייקטים תלת מימדיים עם תנאים שונים. קלט כולל טקסט ותמונות, ומציע יתרון משמעותי למשימות סינתזה ועריכת גרפיקה.

מתודולוגיה וארכיטקטורה

המסגרת של Paint3D מייצרת ומעדנת מפות טקסטורות בהדרגה כדי ליצור מפות טקסטורות מגוונות ואיכותיות עבור מודלים תלת מימדיים תוך שימוש בקלט מותנה רצוי כולל תמונות והנחיות, כפי שמודגם בתמונה הבאה.

בשלב הגס, מודל Paint3D משתמש במודלים של דיפוזיה דו-ממדיים מאומנים מראש כדי לדגום תמונות מרובי-תצוגה, ולאחר מכן יוצר את מפות המרקם הראשוניות המקרינות לאחור את התמונות הללו על פני הרשת. בשלב השני כלומר שלב השכלול, מודל Paint2D משתמש בתהליך דיפוזיה בחלל UV כדי לשפר מפות מרקם גס, ובכך להשיג פונקציה איכותית, צביעה וחסרת תאורה המבטיחה את המשיכה החזותית והשלמות של המרקם הסופי. .

שלב 1: יצירת מרקם גס מתקדם

בשלב יצירת מרקם גס מתקדם, מודל Paint3D יוצר מפת מרקם UV גס עבור הרשתות התלת-ממדיות המשתמשות במודל דיפוזיה דו-מימדי מאומן מראש. ליתר דיוק, המודל משתמש תחילה בתצוגות מצלמה שונות כדי להציג את מפת העומק, לאחר מכן משתמש בתנאי עומק כדי לדגום תמונות ממודל הדיפוזיה של התמונה, ולאחר מכן מקרין לאחור את התמונות הללו על משטח הרשת. המסגרת מבצעת את גישות הרינדור, הדגימה וההקרנה לאחור לסירוגין כדי לשפר את העקביות של רשתות המרקם, מה שבסופו של דבר מסייע ביצירת פרוגרסיבית של מפת הטקסטורה.

המודל מתחיל לייצר את המרקם של האזור הנראה עם תצוגות המצלמה מתמקדות ברשת התלת-ממדית, ומעבד את הרשת התלת-ממדית למפת עומק מהתצוגה הראשונה. לאחר מכן, המודל מדגימה תמונת מרקם עבור מצב מראה ותנאי עומק. לאחר מכן, המודל מקרין בחזרה את התמונה על גבי רשת התלת-ממד. עבור נקודות המבט, מודל Paint3D מבצע גישה דומה אך עם שינוי קל על ידי ביצוע תהליך דגימת הטקסטורה באמצעות גישת ציור תמונה. יתר על כן, המודל לוקח בחשבון את האזורים המרקמים מנקודות מבט קודמות, ומאפשר לתהליך העיבוד לא רק להוציא תמונת עומק, אלא גם תמונת RGB צבעונית חלקית עם מסיכה לא צבעונית בתצוגה הנוכחית.

לאחר מכן, המודל משתמש במודל ציור תמונה בעל מודע לעומק עם מקודד ציור כדי למלא את האזור הלא צבעוני בתמונת ה-RGB. לאחר מכן, המודל יוצר את מפת הטקסטורה מהתצוגה על ידי הקרנה לאחור של התמונה המצוירת לתוך רשת התלת-ממד מתחת לתצוגה הנוכחית, מה שמאפשר למודל ליצור את מפת הטקסטורה בהדרגה, ולהגיע לכל מפת המבנה הגס. לבסוף, המודל מרחיב את תהליך דגימת הטקסטורה לסצנה או לאובייקט עם תצוגות מרובות. ליתר דיוק, הדגם משתמש בזוג מצלמות כדי ללכוד שתי מפות עומק במהלך דגימת המרקם הראשונית מנקודות מבט סימטריות. לאחר מכן המודל משלב שתי מפות עומק ומרכיב רשת עומק. הדגם מחליף את תמונת העומק הבודדת ברשת העומק כדי לבצע דגימת מרקם מודע לעומק רב-תצוגות.

שלב 2: עידון מרקם בחלל UV

למרות שהמראה של מפות טקסטורות גסות הוא הגיוני, הוא מתמודד עם כמה אתגרים כמו חורים במרקם הנגרמים במהלך תהליך העיבוד על ידי חסימה עצמית או צללי ברק עקב מעורבותם של מודלים של דיפוזיה של תמונה דו-ממדית. מודל Paint2D שואף לבצע תהליך דיפוזיה בחלל ה-UV על בסיס מפת טקסטורה גסה, תוך ניסיון למתן את הבעיות ולשפר את המשיכה החזותית של מפת הטקסטורה עוד יותר במהלך חידוד הטקסטורה. עם זאת, חידוד מודל דיפוזיית התמונה המיינסטרים עם מפות המרקם במרחב ה-UV מציג אי-רציפות של מרקם מכיוון שמפת הטקסטורה נוצרת על ידי מיפוי UV של המרקם של פני השטח התלת-ממדיים החותך את המרקם הרציף לסדרה של שברים בודדים ב-UV מֶרחָב. כתוצאה מהפיצול, המודל מתקשה ללמוד את יחסי הסמיכות התלת-ממדית בין השברים שמובילים לבעיות של אי-רציפות במרקם.

המודל מחדד את מפת הטקסטורה בחלל ה-UV על ידי ביצוע תהליך הדיפוזיה בהנחיית מידע סמיכות של שברי מרקם. חשוב לציין שבמרחב ה-UV, מפת המיקום היא שמייצגת את מידע הסמיכות התלת-ממדית של שברי מרקם, כאשר המודל מתייחס לכל אלמנט שאינו ברקע כקואורדינטת נקודה תלת-ממדית. במהלך תהליך הדיפוזיה, המודל ממזג את מידע הסמיכות התלת-ממדית על-ידי הוספת מקודד מפת מיקום אינדיבידואלי למודל דיפוזיית התמונה שהוכשר מראש. המקודד החדש דומה לעיצוב של מסגרת ControlNet ויש לו אותה ארכיטקטורה כמו המקודד המיושם במודל דיפוזיית התמונה כאשר שכבת האפס-קונבולוציה מחברת בין השניים. יתרה מזאת, מודל פיזור הטקסטורה מאומן על מערך נתונים הכולל מפות מרקם ומיקום, והמודל לומד לחזות את הרעש המתווסף לסמוי הרועש. לאחר מכן, המודל מייעל את מקודד המיקום ומקפיא את המעצב המאומן עבור משימת פיזור התמונה שלו.

לאחר מכן, המודל משתמש בו-זמנית במיקום של מקודד מותנה ומקודדים אחרים כדי לבצע משימות חידוד בחלל UV. מבחינה זו, לדגם שתי יכולות חידוד: UVHD או UV High Definition וצביעה UV. שיטת ה-UVHD בנויה כדי לשפר את המשיכה החזותית והאסתטיקה של מפת הטקסטורה. כדי להשיג UVHD, המודל משתמש במקודד לשיפור תמונה ובקודד מיקום עם מודל הדיפוזיה. המודל משתמש בשיטת צביעת ה-UV כדי למלא את חורי המרקם בתוך מישור ה-UV המסוגל למנוע בעיות חסימה עצמית שנוצרו במהלך העיבוד. בשלב השכלול, מודל Paint3D מבצע תחילה צביעת UV ולאחר מכן מבצע UVHD כדי ליצור את מפת הטקסטורה המעודנת הסופית. על ידי שילוב שתי שיטות העידון, מסגרת Paint3D מסוגלת לייצר מפות טקסטורות UV שלמות, מגוונות, ברזולוציה גבוהה וללא תאורה.

Paint3D: ניסויים ותוצאות

מודל Paint3D משתמש ב דיפוזיה יציבה מודל text2image כדי לסייע לו במשימות יצירת מרקם בזמן שהוא משתמש ברכיב מקודד התמונה כדי לטפל בתנאי תמונה. כדי לשפר עוד יותר את אחיזתה בפקדים מותנים כמו צביעת תמונה, עומק ותמונות בחדות גבוהה, מסגרת Paint3D משתמשת במקודדי תחום ControlNet. המודל מיושם על מסגרת PyTorch עם עיבוד והקרנות מרקם מיושמות על Kaolin.

השוואת טקסט לטקסטורות

כדי לנתח את הביצועים שלו, אנו מתחילים בהערכת אפקט יצירת הטקסטורה של Paint3D כאשר מותנים אותו באמצעות הנחיות טקסטואליות, ומשווים אותו מול מסגרות עדכניות כולל Text2Tex, TEXTure ו-LatentPaint. כפי שניתן לראות בתמונה הבאה, מסגרת Paint3D לא רק מצטיינת ביצירת פרטי טקסטורה באיכות גבוהה, אלא היא גם מסנתזת מפת טקסטורה נטולת תאורה בצורה סבירה.

לשם השוואה, המסגרת Latent-Paint נוטה ליצור טקסטורות מטושטשות שמביאות לאפקטים ויזואליים לא אופטימליים. מצד שני, למרות שמסגרת TEXTure מייצרת טקסטורות ברורות, היא חסרה חלקות ומציגה שחבור ותפרים ניכרים. לבסוף, המסגרת של Text2Tex מייצרת טקסטורות חלקות בצורה יוצאת דופן, אך היא לא מצליחה לשחזר את הביצועים ליצירת טקסטורות עדינות עם פירוט מורכב.

התמונה הבאה משווה את מסגרת Paint3D למסגרות עדכניות מבחינה כמותית.

כפי שניתן לראות, מסגרת Paint3D עולה על כל הדגמים הקיימים, ובפער משמעותי עם כמעט 30% שיפור בקו הבסיס של ה-FID וכ-40% בקו הבסיס של KID. השיפור בציוני הבסיס של FID ו-KID מדגים את היכולת של Paint3D ליצור טקסטורות באיכות גבוהה על פני אובייקטים וקטגוריות מגוונות.

השוואת תמונה למרקם

כדי ליצור את היכולות היצירתיות של Paint3D באמצעות הנחיות ויזואליות, אנו משתמשים במודל TEXTure בתור הבסיס. כפי שהוזכר קודם לכן, מודל Paint3D משתמש במקודד תמונה שמקורו במודל text2image מבית Stable Diffusion. כפי שניתן לראות בתמונה הבאה, מסגרת Paint3D מסנתזת טקסטורות מעולות בצורה יוצאת דופן, ועדיין מסוגלת לשמור על נאמנות גבוהה ביחס למצב התמונה.

מצד שני, המסגרת של TEXTure מסוגלת ליצור מרקם דומה ל-Paint3D, אך היא לא מצליחה לייצג את פרטי הטקסטורה במצב התמונה בצורה מדויקת. יתר על כן, כפי שהודגם בתמונה הבאה, מסגרת Paint3D מספקת ציוני בסיס טובים יותר של FID ו-KID בהשוואה למסגרת TEXTure כאשר הראשונה יורדת מ-40.83 ל-26.86 בעוד שהאחרון מציג ירידה מ-9.76 ל-4.94.

מחשבות סופיות

במאמר זה, דיברנו על Paint3D, מסגרת חדשנית גס עד דק המסוגלת לייצר מפות מרקם 2K UV נטולות תאורה, מגוונות וברזולוציה גבוהה עבור רשתות תלת ממדיות ללא מרקם המותנות בקלט חזותי או טקסטואלי. גולת הכותרת העיקרית של מסגרת Paint3D היא שהיא מסוגלת לייצר טקסטורות UV ברזולוציה גבוהה של 3K ללא תאורה, העקביות מבחינה סמנטית מבלי להיות מותנים בהזנת תמונה או טקסט. הודות לגישה הגסה-עד-עדינה שלה, מסגרת Paint2D מייצרת מפות טקסטורה נטולות תאורה, מגוונות וברזולוציה גבוהה, ומספקת ביצועים טובים יותר מהמסגרות העדכניות ביותר.

נושאים קשורים:אובייקטים תלת מימדיים מודלים של דיפוזיה Paint3D PBR טיוח מבוסס פיזית מרקם

מדריך לשליטה במודלים גדולים של שפות

לא לפספס

ביטול למידה של נתונים המוגנים בזכויות יוצרים מ-LLM מאומן - האם זה אפשרי?

קונל קג'ריוואל

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.

Unite.AI

Paint3D: מודל פיזור ללא תאורה ליצירת תמונה

בינה מלאכותית

Paint3D: מודל פיזור ללא תאורה ליצירת תמונה

תוכן העניינים

Paint3D: מבוא