בינה מלאכותית
זיוף גופים 'טובים יותר' עם AI
מחקר חדש מאקדמיית DAMO של עליבאבא מציע זרימת עבודה מונעת בינה מלאכותית לאוטומציה של עיצוב מחדש של תמונות של גופים - מאמץ נדיר במגזר ראייה ממוחשבת העוסק כיום ב מניפולציות מבוססות פנים כגון Deep Fakes ומבוסס GAN עריכת פנים.
ארכיטקטורת החוקרים משתמשת בהערכת תנוחת השלד כדי להתמודד עם המורכבות הגדולה יותר שעומדות בפני מערכות סינתזת תמונות ומערכות עריכה בהמשגה ופרמטריזציה של תמונות גוף קיימות, לפחות עד לרמת פירוט המאפשרת למעשה עריכה משמעותית וסלקטיבית.
המערכת בסופו של דבר מאפשרת למשתמש להגדיר פרמטרים שיכולים לשנות את מראה המשקל, מסת השריר או התפלגות המשקל בתמונות באורך מלא או בינוני של אנשים, ומסוגלת ליצור טרנספורמציות שרירותיות על חלקי גוף לבושים או לא לבושים.
המניע לעבודה הוא פיתוח זרימות עבודה אוטומטיות שיכולות להחליף את המניפולציות הדיגיטליות המפרכות שמבצעות צלמים ואמני גרפיקה הפקה בענפים שונים של המדיה, מאופנה ועד פלט בסגנון מגזינים. חומר פרסומי.
באופן כללי, מודים המחברים, טרנספורמציות אלו מיושמות בדרך כלל עם טכניקות 'עיוות' בפוטושופ ובעורכי מפת סיביות מסורתיים אחרים, ומשמשות כמעט אך ורק על תמונות של נשים. כתוצאה מכך, מערך הנתונים המותאם אישית שפותח כדי להקל על התהליך החדש מורכב בעיקר מתמונות של נבדקות:
"מכיוון שריטוש גוף רצוי בעיקר על ידי נשים, רוב האוסף שלנו הוא תמונות נשיות, בהתחשב במגוון הגילאים, הגזעים (אפריקאית:אסייתית:קווקזית = 0.33:0.35:0.32), תנוחות ובגדים."
אל האני מאמר מכונה יצירת זרימה מודעת למבנה לעיצוב מחדש של גוף האדם, ומגיע מחמישה מחברים הקשורים לאקדמיית DAMO העולמית של עליבאבא.
פיתוח מערכי נתונים
כפי שקורה בדרך כלל במערכות סינתזה ועריכת תמונות, הארכיטקטורה של הפרויקט דרשה מערך הדרכה מותאם אישית. המחברים הזמינו שלושה צלמים לייצר מניפולציות סטנדרטיות של פוטושופ של תמונות תואמות מאתר הצילום Unsplash, וכתוצאה מכך נוצר מערך נתונים - שכותרתו BR-5K* - מתוך 5,000 תמונות באיכות גבוהה ברזולוציית 2K.
החוקרים מדגישים שמטרת ההכשרה על מערך נתונים זה אינה לייצר תכונות 'אידיאליות' והכללות הקשורות לאינדקס של אטרקטיביות או מראה רצוי, אלא לחלץ את מיפוי התכונות המרכזיות הקשורות למניפולציות מקצועיות של תמונות גוף.
עם זאת, הם מודים שהמניפולציות בסופו של דבר משקפות תהליכים טרנספורמטיביים הממפים התקדמות מ"אמיתי" למושג מוגדר מראש של "אידיאלי":
"אנחנו מזמינים שלושה אמנים מקצועיים לרטש גופים באמצעות פוטושופ באופן עצמאי, במטרה להגיע לדמויות רזות העונות על האסתטיקה הפופולרית, ולבחור את הטוב ביותר בתור אמת קרקע."
מכיוון שהמסגרת אינה עוסקת בפרצופים כלל, אלה טושטשו לפני הכלולה במערך הנתונים.
אדריכלות ומושגי ליבה
זרימת העבודה של המערכת כוללת הזנה של דיוקן ברזולוציה גבוהה, הורדת דגימתו לרזולוציה נמוכה יותר שיכולה להתאים למשאבי המחשוב הזמינים, וחילוץ תנוחת שלד-מפה משוערת (איור שני משמאל בתמונה למטה), כמו גם שדות זיקה לחלקים (PAFs), שהיו חדשני בשנת 2016 על ידי מכון הרובוטיקה באוניברסיטת קרנגי מלון (ראה סרטון מוטבע ישירות למטה).
שדות זיקה לחלק עוזרים להגדיר כיוון של גפיים והקשר כללי למסגרת השלד הרחבה יותר, ומספקים לפרויקט החדש כלי תשומת לב/לוקליזציה נוסף.
למרות חוסר הרלוונטיות לכאורה שלהן להופעת המשקל, מפות שלד שימושיות בהכוונת תהליכי הטרנספורמציה הסופיים לחלקים בגוף שיש לתקן, כגון זרועות עליונות, אחוריות וירכיים.
לאחר מכן, התוצאות מוזנות ל-Structure Affinity Self-Attention (SASA) בצוואר הבקבוק המרכזי של התהליך (ראה תמונה למטה).
ה-SASA מסדיר את העקביות של מחולל הזרימה שמתדלק את התהליך, שתוצאותיו מועברות למודול העיוות (שני מימין בתמונה למעלה), אשר מיישם את הטרנספורמציות שנלמדו מהדרכה על התיקונים הידניים הכלולים במערך הנתונים .
לאחר מכן, תמונת הפלט נדגמת חזרה לרזולוציית 2K המקורית, תוך שימוש בתהליכים שאינם דומים לארכיטקטורת ה-deepfake הסטנדרטית של 2017, ממנה נגזרו מאז חבילות פופולריות כגון DeepFaceLab; תהליך ה-upsampling נפוץ גם במסגרות עריכה של GAN.
רשת הקשב עבור הסכימה מעוצבת לפי מודל רשתות דה-קשב קומפוזיציוניות (זָנָב), שיתוף פעולה אקדמי משנת 2019 בארה"ב/סינגפור עם אמזון בינה מלאכותית ומיקרוסופט.
בדיקות
המסגרת מבוססת הזרימה נבדקה מול שיטות מבוססות זרימה קודמות FAL והנפשה באמצעות עיוות (ATW), כמו גם ארכיטקטורות של תרגום תמונות Pix2PixHD ו GFLAעם SSIM, PSNR ו-LPIPS כמדדי הערכה.
בהתבסס על מדדים מאומצים אלה, המערכת של המחברים עולה על הארכיטקטורות הקודמות.
בנוסף למדדים האוטומטיים, החוקרים ערכו מחקר משתמשים (עמודה אחרונה של טבלת התוצאות בתמונה קודם לכן), שבו הוצגו ל-40 משתתפים כל אחד 30 שאלות שנבחרו באקראי מתוך מאגר של 100 שאלות הקשורות לתמונות שהופקו בשיטות השונות. 70% מהנשאלים העדיפו את הטכניקה החדשה כ"מושכת יותר מבחינה ויזואלית".
אתגרים
המאמר החדש מייצג סיור נדיר למניפולציות גוף מבוססות בינה מלאכותית. מגזר סינתזת התמונות מתעניין כיום בהרבה יותר ביצירת גופים הניתנים לעריכה באמצעות שיטות כגון Neural Radiance Fields (NeRF), או שהוא מקובע בחקר המרחב הסמוי של GANs והפוטנציאל של מקודדים אוטומטיים למניפולציה על הפנים.
היוזמה של המחברים מוגבלת כיום ליצירת שינויים במשקל הנתפס, והם לא יישמו שום סוג של טכניקת ציור שתחזיר את הרקע שנחשף באופן בלתי נמנע כשמצמצמים תמונה של מישהו.
עם זאת, הם מציעים שדיוקנאות ומיזוג רקע באמצעות הסקת טקסטורה יכולים לפתור באופן טריוויאלי את הבעיה של שחזור חלקי העולם שהיו מוסתרים בעבר בתמונה על ידי 'חוסר השלמות' האנושי.
* למרות שההדפסה המוקדמת מתייחסת לחומר משלים המספק פרטים נוספים על מערך הנתונים, כמו גם דוגמאות נוספות מהפרויקט, מיקומו של חומר זה אינו זמין בעיתון, והמחבר המקביל טרם הגיב לבקשתנו לגישה .
פורסם לראשונה ב-10 במרץ 2022.