בדל זיוף גופים 'טובים יותר' עם AI - Unite.AI
צור קשר

בינה מלאכותית

זיוף גופים 'טובים יותר' עם AI

mm
מְעוּדכָּן on

מחקר חדש מאקדמיית DAMO של עליבאבא מציע זרימת עבודה מונעת בינה מלאכותית לאוטומציה של עיצוב מחדש של תמונות של גופים - מאמץ נדיר במגזר ראייה ממוחשבת העוסק כיום ב מניפולציות מבוססות פנים כגון Deep Fakes ומבוסס GAN עריכת פנים.

הוסיפו בעמודות 'תוצאות' את מפות הקשב שנוצרו המגדירות את האזורים שיש לתקן. מקור: https://arxiv.org/pdf/2203.04670.pdf

הוסיפו בעמודות 'תוצאות' את מפות הקשב שנוצרו המגדירות את האזורים שיש לתקן. מקור: https://arxiv.org/pdf/2203.04670.pdf

ארכיטקטורת החוקרים משתמשת בהערכת תנוחת השלד כדי להתמודד עם המורכבות הגדולה יותר שעומדות בפני מערכות סינתזת תמונות ומערכות עריכה בהמשגה ופרמטריזציה של תמונות גוף קיימות, לפחות עד לרמת פירוט המאפשרת למעשה עריכה משמעותית וסלקטיבית.

מפות שלד משוערות מסייעות לאינדיבידואל ולמקד את תשומת הלב באזורים בגוף שעלולים לעבור ריטוש, כגון אזור הזרוע העליונה.

המערכת בסופו של דבר מאפשרת למשתמש להגדיר פרמטרים שיכולים לשנות את מראה המשקל, מסת השריר או התפלגות המשקל בתמונות באורך מלא או בינוני של אנשים, ומסוגלת ליצור טרנספורמציות שרירותיות על חלקי גוף לבושים או לא לבושים.

משמאל, תמונת הקלט; באמצע, מפת חום של אזורי הקשב הנגזרים; נכון, התמונה שעברה טרנספורמציה.

משמאל, תמונת הקלט; באמצע, מפת חום של אזורי הקשב הנגזרים; נכון, התמונה שעברה טרנספורמציה.

המניע לעבודה הוא פיתוח זרימות עבודה אוטומטיות שיכולות להחליף את המניפולציות הדיגיטליות המפרכות שמבצעות צלמים ואמני גרפיקה הפקה בענפים שונים של המדיה, מאופנה ועד פלט בסגנון מגזינים. חומר פרסומי.

באופן כללי, מודים המחברים, טרנספורמציות אלו מיושמות בדרך כלל עם טכניקות 'עיוות' בפוטושופ ובעורכי מפת סיביות מסורתיים אחרים, ומשמשות כמעט אך ורק על תמונות של נשים. כתוצאה מכך, מערך הנתונים המותאם אישית שפותח כדי להקל על התהליך החדש מורכב בעיקר מתמונות של נבדקות:

"מכיוון שריטוש גוף רצוי בעיקר על ידי נשים, רוב האוסף שלנו הוא תמונות נשיות, בהתחשב במגוון הגילאים, הגזעים (אפריקאית:אסייתית:קווקזית = 0.33:0.35:0.32), תנוחות ובגדים."

אל האני מאמר מכונה יצירת זרימה מודעת למבנה לעיצוב מחדש של גוף האדם, ומגיע מחמישה מחברים הקשורים לאקדמיית DAMO העולמית של עליבאבא.

פיתוח מערכי נתונים

כפי שקורה בדרך כלל במערכות סינתזה ועריכת תמונות, הארכיטקטורה של הפרויקט דרשה מערך הדרכה מותאם אישית. המחברים הזמינו שלושה צלמים לייצר מניפולציות סטנדרטיות של פוטושופ של תמונות תואמות מאתר הצילום Unsplash, וכתוצאה מכך נוצר מערך נתונים - שכותרתו BR-5K* - מתוך 5,000 תמונות באיכות גבוהה ברזולוציית 2K.

החוקרים מדגישים שמטרת ההכשרה על מערך נתונים זה אינה לייצר תכונות 'אידיאליות' והכללות הקשורות לאינדקס של אטרקטיביות או מראה רצוי, אלא לחלץ את מיפוי התכונות המרכזיות הקשורות למניפולציות מקצועיות של תמונות גוף.

עם זאת, הם מודים שהמניפולציות בסופו של דבר משקפות תהליכים טרנספורמטיביים הממפים התקדמות מ"אמיתי" למושג מוגדר מראש של "אידיאלי":

"אנחנו מזמינים שלושה אמנים מקצועיים לרטש גופים באמצעות פוטושופ באופן עצמאי, במטרה להגיע לדמויות רזות העונות על האסתטיקה הפופולרית, ולבחור את הטוב ביותר בתור אמת קרקע."

מכיוון שהמסגרת אינה עוסקת בפרצופים כלל, אלה טושטשו לפני הכלולה במערך הנתונים.

אדריכלות ומושגי ליבה

זרימת העבודה של המערכת כוללת הזנה של דיוקן ברזולוציה גבוהה, הורדת דגימתו לרזולוציה נמוכה יותר שיכולה להתאים למשאבי המחשוב הזמינים, וחילוץ תנוחת שלד-מפה משוערת (איור שני משמאל בתמונה למטה), כמו גם שדות זיקה לחלקים (PAFs), שהיו חדשני בשנת 2016 על ידי מכון הרובוטיקה באוניברסיטת קרנגי מלון (ראה סרטון מוטבע ישירות למטה).

אומדן תנוחות אנושיות דו-ממדיות בזמן אמת באמצעות שדות זיקה לחלקים, CVPR 2 Oral

שדות זיקה לחלק עוזרים להגדיר כיוון של גפיים והקשר כללי למסגרת השלד הרחבה יותר, ומספקים לפרויקט החדש כלי תשומת לב/לוקליזציה נוסף.

מתוך המאמר של Part Affinity Fields משנת 2016, PAFs חזויים מקודדים את כיוון הגפה כחלק מווקטור דו-ממדי הכולל גם את המיקום הכללי של הגפה. מקור: https://arxiv.org/pdf/2.pdf

מתוך המאמר של Part Affinity Fields משנת 2016, PAFs חזויים מקודדים את כיוון הגפה כחלק מווקטור דו-ממדי הכולל גם את המיקום הכללי של הגפה. מקור: https://arxiv.org/pdf/1611.08050.pdf

למרות חוסר הרלוונטיות לכאורה שלהן להופעת המשקל, מפות שלד שימושיות בהכוונת תהליכי הטרנספורמציה הסופיים לחלקים בגוף שיש לתקן, כגון זרועות עליונות, אחוריות וירכיים.

לאחר מכן, התוצאות מוזנות ל-Structure Affinity Self-Attention (SASA) בצוואר הבקבוק המרכזי של התהליך (ראה תמונה למטה).

ה-SASA מסדיר את העקביות של מחולל הזרימה שמתדלק את התהליך, שתוצאותיו מועברות למודול העיוות (שני מימין בתמונה למעלה), אשר מיישם את הטרנספורמציות שנלמדו מהדרכה על התיקונים הידניים הכלולים במערך הנתונים .

מודול ה-Structure Affinity Self-Attention (SASA) מקצה תשומת לב לאיברי גוף רלוונטיים, ועוזר למנוע טרנספורמציות מיותרות או לא רלוונטיות.

מודול ה-Structure Affinity Self-Attention (SASA) מקצה תשומת לב לאיברי גוף רלוונטיים, ועוזר למנוע טרנספורמציות מיותרות או לא רלוונטיות.

לאחר מכן, תמונת הפלט נדגמת חזרה לרזולוציית 2K המקורית, תוך שימוש בתהליכים שאינם דומים לארכיטקטורת ה-deepfake הסטנדרטית של 2017, ממנה נגזרו מאז חבילות פופולריות כגון DeepFaceLab; תהליך ה-upsampling נפוץ גם במסגרות עריכה של GAN.

רשת הקשב עבור הסכימה מעוצבת לפי מודל רשתות דה-קשב קומפוזיציוניות (זָנָב), שיתוף פעולה אקדמי משנת 2019 בארה"ב/סינגפור עם אמזון בינה מלאכותית ומיקרוסופט.

בדיקות

המסגרת מבוססת הזרימה נבדקה מול שיטות מבוססות זרימה קודמות FAL והנפשה באמצעות עיוות (ATW), כמו גם ארכיטקטורות של תרגום תמונות Pix2PixHD ו GFLAעם SSIM, PSNR ו-LPIPS כמדדי הערכה.

תוצאות של בדיקות ראשוניות (כיוון החץ בכותרות מציין אם נתונים נמוכים או גבוהים יותר הם הטובים ביותר).

תוצאות של בדיקות ראשוניות (כיוון החץ בכותרות מציין אם נתונים נמוכים או גבוהים יותר הם הטובים ביותר).

בהתבסס על מדדים מאומצים אלה, המערכת של המחברים עולה על הארכיטקטורות הקודמות.

תוצאות נבחרות. אנא עיין ב-PDF המקורי המקושר במאמר זה להשוואות ברזולוציה גבוהה יותר.

תוצאות נבחרות. אנא עיין ב-PDF המקורי המקושר במאמר זה להשוואות ברזולוציה גבוהה יותר.

בנוסף למדדים האוטומטיים, החוקרים ערכו מחקר משתמשים (עמודה אחרונה של טבלת התוצאות בתמונה קודם לכן), שבו הוצגו ל-40 משתתפים כל אחד 30 שאלות שנבחרו באקראי מתוך מאגר של 100 שאלות הקשורות לתמונות שהופקו בשיטות השונות. 70% מהנשאלים העדיפו את הטכניקה החדשה כ"מושכת יותר מבחינה ויזואלית".

אתגרים

המאמר החדש מייצג סיור נדיר למניפולציות גוף מבוססות בינה מלאכותית. מגזר סינתזת התמונות מתעניין כיום בהרבה יותר ביצירת גופים הניתנים לעריכה באמצעות שיטות כגון Neural Radiance Fields (NeRF), או שהוא מקובע בחקר המרחב הסמוי של GANs והפוטנציאל של מקודדים אוטומטיים למניפולציה על הפנים.

היוזמה של המחברים מוגבלת כיום ליצירת שינויים במשקל הנתפס, והם לא יישמו שום סוג של טכניקת ציור שתחזיר את הרקע שנחשף באופן בלתי נמנע כשמצמצמים תמונה של מישהו.

עם זאת, הם מציעים שדיוקנאות ומיזוג רקע באמצעות הסקת טקסטורה יכולים לפתור באופן טריוויאלי את הבעיה של שחזור חלקי העולם שהיו מוסתרים בעבר בתמונה על ידי 'חוסר השלמות' האנושי.

פתרון מוצע לשחזור הרקע שמתגלה על ידי הפחתת שומן מונעת בינה מלאכותית.

פתרון מוצע לשחזור הרקע שמתגלה על ידי הפחתת שומן מונעת בינה מלאכותית.

 

* למרות שההדפסה המוקדמת מתייחסת לחומר משלים המספק פרטים נוספים על מערך הנתונים, כמו גם דוגמאות נוספות מהפרויקט, מיקומו של חומר זה אינו זמין בעיתון, והמחבר המקביל טרם הגיב לבקשתנו לגישה .

פורסם לראשונה ב-10 במרץ 2022.