Τεχνητή νοημοσύνη
Δημιουργώντας ‘Καλύτερα’ Σώματα Με Τον AI

Νέα έρευνα από την ακαδημία Alibaba DAMO προσφέρει μια διαδικασία που βασίζεται στον AI για την αυτοματοποίηση της αναμόρφωσης εικόνων του σώματος – μια σπάνια προσπάθεια σε einen τομέα της όρασης υπολογιστή που καταλαμβάνεται目前 από επεξεργασίες προσώπου όπως τα deepfakes και τα GAN-based επεξεργασίες προσώπου.

Inset in ‘result’ columns, the generated attention maps which define the areas to be amended. Source: https://arxiv.org/pdf/2203.04670.pdf
Οι ερευνητές χρησιμοποιούν εκτίμηση σκελετικού σχήματος για να αντιμετωπίσουν την μεγαλύτερη复雑ность που αντιμετωπίζουν τα συστήματα σύνθεσης και επεξεργασίας εικόνων στην концепτοποίηση και παραμετροποίηση των υφιστάμενων εικόνων του σώματος, τουλάχιστον σε ένα επίπεδο λεπτομέρειας που επιτρέπει την σημαντική και επιλεκτική επεξεργασία.

Estimated skeleton maps help to individuate and focus attention on areas of the body likely to be retouched, such as the upper arm area.
Το σύστημα επιτρέπει τελικά στον χρήστη να ορίσει παραμέτρους που μπορούν να αλλάξουν την εμφάνιση του βάρους, της μυϊκής μάζας ή της κατανομής βάρους σε φωτογραφίες πλήρους μήκους ή μεσαίου μήκους ανθρώπων και μπορεί να δημιουργήσει αυθαίρετες μετασχηματώσεις σε ενδύματα ή γυμνά τμήματα του σώματος.

Left, the input image; middle, a heat-map of the derived attention areas; right, the transformed image.
Η мотивασία για το έργο είναι η ανάπτυξη αυτοματοποιημένων διαδικασιών που θα μπορούσαν να αντικαταστήσουν τις επίπονες ψηφιακές επεξεργασίες που πραγματοποιούν φωτογράφοι και γραφίστες σε διάφορους κλάδους των μέσων ενημέρωσης, από τη μόδα έως τα έντυπα και υλικό δημοσιότητας.
Γενικά, οι συγγραφείς αναγνωρίζουν ότι αυτές οι μετασχηματώσεις εφαρμόζονται συνήθως με τεχνικές ‘warp’ στο Photoshop και άλλα παραδοσιακά προγράμματα επεξεργασίας bitmap και χρησιμοποιούνται σχεδόν αποκλειστικά σε εικόνες γυναικών. Κατά συνέπεια, το προσαρμοσμένο σύνολο δεδομένων που αναπτύχθηκε για να διευκολύνει τη νέα διαδικασία αποτελείται κυρίως από φωτογραφίες γυναικείων υποκειμένων:
‘As body retouching is mainly desired by females, the majority of our collection are female photos, considering the diversity of ages, races (African:Asian:Caucasian = 0.33:0.35:0.32), poses, and garments.’
Το έγγραφο έχει τον τίτλο Structure-Aware Flow Generation for Human Body Reshaping και προέρχεται από πέντε συγγραφείς που συνδέονται με την παγκόσμια ακαδημία DAMO της Alibaba.
Ανάπτυξη Συνολικού Δεδομένων
Όπως είναι συνήθως η περίπτωση με τα συστήματα σύνθεσης και επεξεργασίας εικόνων, η αρχιτεκτονική του έργου απαιτούσε ένα προσαρμοσμένο σύνολο δεδομένων. Οι ερευνητές ανέθεσαν σε τρεις φωτογράφους να δημιουργήσουν τυποποιημένες επεξεργασίες Photoshop σε εικόνες από τον ιστότοπο Unsplash, με αποτέλεσμα ένα σύνολο δεδομένων – με τίτλο BR-5K* – 5.000 υψηλής ποιότητας εικόνων σε ανάλυση 2K.
Οι ερευνητές τονίζουν ότι ο στόχος της εκπαίδευσης σε αυτό το σύνολο δεδομένων δεν είναι να παράγει ‘ιδεατοποιημένα’ και γενικευμένα χαρακτηριστικά που σχετίζονται με ένα δείκτη ελκυστικότητας ή επιθυμητής εμφάνισης, αλλά μάλλον να εξαγάγει τις κεντρικές αντιστοιχίες που σχετίζονται με τις επαγγελματικές επεξεργασίες εικόνων του σώματος.
Ωστόσο, παραδέχονται ότι οι επεξεργασίες αντανακλούν τελικά μετασχηματιστικές διαδικασίες που χαρτογραφούν μια πορεία από ‘πραγματικό’ σε μια προκαθορισμένη έννοια ‘ιδεαλού’:
‘We invite three professional artists to retouch bodies using Photoshop independently, with the goal of achieving slender figures that meet the popular aesthetics, and select the best one as ground-truth.’
Καθώς η αρχιτεκτονική δεν ασχολείται με τα πρόσωπα καθόλου, αυτά были θολωμένα πριν συμπεριληφθούν στο σύνολο δεδομένων.
Αρχιτεκτονική και Κεντρικές Εννοιες
Η διαδικασία του συστήματος περιλαμβάνει την εισαγωγή μιας φωτογραφίας υψηλής ανάλυσης, την υποδείγματος σε μια χαμηλότερη ανάλυση που μπορεί να ταιριάζει στα διαθέσιμα υπολογιστικά μέσα, και την εξαγωγή ενός εκτιμώμενου χάρτη σκελετικού σχήματος (δεύτερη εικόνα από τα αριστερά στην εικόνα παρακάτω), καθώς και Part Affinity Fields (PAFs), τα οποία επεξεργάστηκαν το 2016 από το Ινστιτούτο Ρομποτικής του Πανεπιστημίου Carnegie Mellon (βλέπε βίντεο που είναι ενσωματωμένο παρακάτω).
Τα Part Affinity Fields βοηθούν να οριστεί η προσανατολισμός των άκρων και η γενική σύνδεση με το ευρύτερο σκελετικό πλαίσιο, παρέχοντας στο νέο έργο ένα επιπλέον εργαλείο προσοχής/τοποθεσίας.

From the 2016 Part Affinity Fields paper, predicted PAFs encode limb orientation as part of a 2D vector that also includes the general position of the limb. Source: https://arxiv.org/pdf/1611.08050.pdf
Παρά την φαινομενική τους ασήμαντη σχέση με την εμφάνιση του βάρους, οι σκελετικοί χάρτες είναι χρήσιμοι στην κατεύθυνση των τελικών μετασχηματιστικών διαδικασιών σε μέρη του σώματος που πρέπει να τροποποιηθούν, όπως τα άνω άκρα, ο γλουτός και τα πόδια.
Μετά από αυτό, τα αποτελέσματα εισάγονται σε ένα Structure Affinity Self-Attention (SASA) στο κεντρικό μπουκάλι της διαδικασίας (βλέπε εικόνα παρακάτω).

Το SASA ρυθμίζει τη συνεκτικότητα του γεννήтора ροής που τροφοδοτεί τη διαδικασία, τα αποτελέσματα της οποίας στη συνέχεια περνούν στο模块 διαμόρφωσης (δεύτερο από τα δεξιά στην εικόνα παραπάνω), το οποίο εφαρμόζει τις μετασχηματώσεις που μάθει από την εκπαίδευση στο σύνολο δεδομένων.

The Structure Affinity Self-Attention (SASA) module allocates attention to pertinent body parts, helping to avoid extraneous or irrelevant transformations.
Η εικόνα εξόδου στη συνέχεια αναβαθμίζεται πίσω στην αρχική ανάλυση 2K, χρησιμοποιώντας διαδικασίες που δεν διαφέρουν πολύ από την τυπική αρχιτεκτονική deepfake του 2017 από την οποία προέρχονται δημοφιλείς πακέτα όπως το DeepFaceLab. η διαδικασία αναβάθμισης είναι επίσης κοινή σε πλαίσια επεξεργασίας GAN.
Το δίκτυο προσοχής για το σχήμα μοντελοποιείται μετά το Compositional De-Attention Networks (CODA), μια ακαδημαϊκή συνεργασία ΗΠΑ/Σιγκαπούρης με την Amazon AI και τη Microsoft.
Δοκιμές
Η διαδικασία ροής δοκιμάστηκε έναντι προηγούμενων μεθόδων ροής FAL και Animating Through Warping (ATW), καθώς και αρχιτεκτονικών μετάφρασης εικόνων Pix2PixHD και GFLA, με SSIM, PSNR και LPIPS ως μετρικές αξιολόγησης.

Results of initial tests (arrow direction in headers indicates whether lower or higher figures are best).
Βάσει αυτών των μετρικών, το σύστημα των συγγραφέων υπερέχει των προηγούμενων αρχιτεκτονικών.

Selected results. Please refer to the original PDF linked in this article for higher resolution comparisons.
Εκτός από τις αυτοματοποιημένες μετρικές, οι ερευνητές διεξήγαγαν μια μελέτη χρηστών (τελευταία στήλη αποτελεσμάτων στο πίνακα που εμφανίζεται νωρίτερα), στην οποία 40 συμμετέχοντες έδειξαν 30 ερωτήσεις που επιλέχθηκαν τυχαία από einen πула 100 ερωτήσεων που σχετίζονται με τις εικόνες που παράγονται μέσω των διαφόρων μεθόδων. Το 70% των απαντήσεων επέλεξαν τη νέα τεχνική ως πιο ‘οπτικά ελκυστική’.
Προκλήσεις
Το νέο έγγραφο αντιπροσωπεύει μια σπάνια εξόρμηση στην AI-βασισμένη επεξεργασία σώματος. Ο τομέας της σύνθεσης εικόνων είναι目前 πιο ενδιαφερόμενος είτε στην παραγωγή επεξεργάσιμων σωμάτων μέσω μεθόδων όπως τα Neural Radiance Fields (NeRF), είτε είναι εστιασμένος στην εξερεύνηση του.latent χώρου των GANs και του potencial των autoencoders για την επεξεργασία προσώπου.
Η πρωτοβουλία των συγγραφέων είναι目前 περιορισμένη στην παραγωγή αλλαγών στο αντιλαμβανόμενο βάρος και δεν έχουν εφαρμόσει καμία τεχνική inpainting που θα επαναφέρει το φόντο που αποκαλύπτεται όταν λεπταίνει μια εικόνα κάποιου.
Ωστόσο, προτείνουν ότι η matting πορτρέτου και η ανάμειξη φόντου μέσω της κειμενικής εύρεσης θα μπορούσε να λύσει εύκολα το πρόβλημα της επαναφοράς των μερών του κόσμου που ήταν προηγουμένως κρυμμένα στην εικόνα από την ανθρώπινη ‘ατέλεια’.

A proposed solution for restoring background that’s revealed by AI-driven fat reduction.
* Although the preprint refers to supplemental material giving more details about the dataset, as well as further examples from the project, the location of this material is not made available in the paper, and the corresponding author has not yet responded to our request for access.
First published 10th March 2022.










