ืืื ื ืืืืืืชืืช
ืืฆืืจืช ‘ืืืคืื ืืืืื ืืืชืจ’ ืขื AI

מחקר חדש מאקדמיית Alibaba DAMO מציע זרימת עבודה מונחית AI לאוטומציה של עיצוב מחדש של תמונות של גופים – מאמץ נדיר בתחום הראייה הממוחשבת שכרגע מאוכלס על ידי מניפולציות מבוססות פנים כגון deepfakes ועריכת פנים מבוססת GAN.

Inset in ‘result’ columns, the generated attention maps which define the areas to be amended. Source: https://arxiv.org/pdf/2203.04670.pdf
הארכיטקטורה של החוקרים משתמשת בהערכת פוזיציית שלד כדי לטפל בסיבוכיות הגדולה יותר שמערכות סינתזה ועריכת תמונות פנים אל מולה בתפיסה ופרמטריזציה של תמונות גוף קיימות, לפחות ברמה של רזולוציה שאפשרית עריכה משמעותית וסלקטיבית.

Estimated skeleton maps help to individuate and focus attention on areas of the body likely to be retouched, such as the upper arm area.
המערכת בסופו של דבר מאפשרת למשתמש להגדיר פרמטרים שיכולים לשנות את המראה של משקל, מסת שריר, או הפצה של משקל בתמונות מלאות או חציות של אנשים, ומסוגלת ליצור הפיכים שרירותיים על חלקים של גוף מלבושים או לא מלבושים.

Left, the input image; middle, a heat-map of the derived attention areas; right, the transformed image.
המניע לעבודה הוא פיתוח זרימות עבודה אוטומטיות שיכולות להחליף את המניפולציות הדיגיטליות המפרכות שמבצעים צלמים ואמני גרפיקה בתחומים שונים של התקשורת, מאופנה לפרסומים בסגנון מגזין וחומרי פרסום.
בכלל, המחברים מודים, הפיכים אלו בדרך כלל מוחלים עם טכניקות ‘warp’ ב-Photoshop ועורכים ביטמפים מסורתיים אחרים, ומשמשים כמעט באופן בלעדי על תמונות של נשים. בהתאם, המאגר המותאם שפותח כדי להקל על התהליך החדש מורכב בעיקר מתמונות של נשים:
‘As body retouching is mainly desired by females, the majority of our collection are female photos, considering the diversity of ages, races (African:Asian:Caucasian = 0.33:0.35:0.32), poses, and garments.’
ה
paper is titled Structure-Aware Flow Generation for Human Body Reshaping, and comes from five authors associated with Alibaba’s global DAMO academy.
Dataset Development
כפי שמקובל בדרך כלל עם מערכות סינתזה ועריכת תמונות, הארכיטקטורה לפרויקט דרשה מאגר אימון מותאם. המחברים הזמינו שלושה צלמים ליצור עריכות Photoshop סטנדרטיות של תמונות מתאימות מאתר הצילום Unsplash, תוצאה במאגר – בשם BR-5K* – של 5,000 תמונות באיכות גבוהה ברזולוציה 2K.
החוקרים מדגישים כי היעד של אימון על מאגר זה אינו לייצר ‘מושלמות’ ומאפיינים כלליים הקשורים לאינדקס של מושכות או הופעה רצויה, אלא לחלץ את המיפוי המרכזי הקשור לעריכות מקצועיות של תמונות גוף.
Architecture and Core Concepts
זרימת העבודה של המערכת כוללת הזנה של פורטרט ברזולוציה גבוהה, דגימה מחדש לרזולוציה נמוכה יותר שיכולה להתאים למשאבים המחשוביים הזמינים, וחילוץ מפה גולגולתית מוערכת (השני משמאל בתמונה למטה), כמו גם Part Affinity Fields (PAFs), שהתפתחו ב-2016 על ידי The Robotics Institute at Carnegie Mellon University (ראו וידאו מובדד למטה).
Part Affinity Fields עוזרים להגדיר כיוון של גפיים והתאמה כללית עם המסגרת השלדית הרחבה יותר, ומספקים לפרויקט החדש כלי מיקוד/מיקום נוסף.

From the 2016 Part Affinity Fields paper, predicted PAFs encode limb orientation as part of a 2D vector that also includes the general position of the limb. Source: https://arxiv.org/pdf/1611.08050.pdf
בניגוד לחשיבותן הנראית להופעה של משקל, מפות שלד מועילות בכיוון התהליכים המשמעותיים לחלקים של הגוף שיש לתקן, כגון זרועות עליונות, גב וירכיים.
Tests
זרימת העבודה המבוססת על זרימה נבדקה נגד שיטות זרימה קודמות FAL ו-Animating Through Warping (ATW), כמו גם ארכיטקטורות תרגום תמונות Pix2PixHD וGFLA, עם SSIM, PSNR and LPIPS כמדדים להערכה.

Results of initial tests (arrow direction in headers indicates whether lower or higher figures are best).
בהתבסס על מדדים אלו, המערכת של המחברים מתפקדת טוב יותר מהארכיטקטורות הקודמות.
Challenges
המאמר החדש מייצג יציאה נדירה לתחום המניפולציה של גוף באמצעות AI. תחום הסינתזה של תמונות כרגע מעוניין יותר ביצירת גופים ערוכים דרך שיטות כגון Neural Radiance Fields (NeRF), או שמתמקד בחקר מרחב הלטנטי של GANs והפוטנציאל של autoencoders למניפולציה של פנים.
היוזמה של המחברים כרגע מוגבלת ליצירת שינויים במשקל הנתפס, והם לא מישמו שום טכניקת inpainting שתשחזר את הרקע שנחשף כאשר מרזים תמונה של מישהו.
Results

Selected results. Please refer to the original PDF linked in this article for higher resolution comparisons.
בנוסף למדדים האוטומטיים, החוקרים ערכו מחקר משתמש (עמודה האחרונה של טבלת התוצאות), שבו 40 משתתפים הוצגו 30 שאלות שנבחרו באופן אקראי מבריכת 100 שאלות הקשורות לתמונות שהופקו דרך השיטות השונות. 70% מהמשיבים העדיפו את הטכניקה החדשה כ’מושכת יותר מבחינה חזותית’.










