Η γωνία του Άντερσον
Τώρα οι NSFW και οι πόζες «Διασημοτήτων» αποτελούν τροφή για λογοκρισία στην Τεχνητή Νοημοσύνη

Μια νέα προστασία τεχνητής νοημοσύνης για συστήματα δημιουργικού βίντεο προτείνει τη λογοκρισία των στάσεων του σώματος. Στοχοποιούνται οι σωματικές στάσεις (ή οι εκφράσεις του προσώπου) που μπορούν να ερμηνευθούν ως σεξουαλικά υπονοούμενα, «προσβλητικές χειρονομίες» ή ακόμα και πόζες διασημοτήτων που προστατεύονται από πνευματικά δικαιώματα ή ενδεχομένως εμπορικά σήματα.
Νέα έρευνα από την Κίνα και τη Σιγκαπούρη ασχολείται με έναν από τους λιγότερο προφανείς τομείς στην «μη ασφαλή» παραγωγή εικόνων και βίντεο: την ίδια την απεικόνιση μιας πόζας, με την έννοια της διάταξης του σώματος ή της έκφρασης του προσώπου ενός απεικονιζόμενου ατόμου σε αποτέλεσμα που δημιουργείται από τεχνητή νοημοσύνη:

Εννοιολογικό σχήμα για το PoseGuard, το σύστημα που προτείνεται στη νέα έρευνα. Πηγή: https://arxiv.org/pdf/2508.02476
Το σύστημα, με τίτλο PoseGuard, χρήσεις τελειοποίηση και LoRAs για τη δημιουργία μοντέλων που εγγενώς δεν μπορούν να δημιουργήσουν «απαγορευμένες» πόζες. Αυτή η προσέγγιση υιοθετήθηκε επειδή οι δικλείδες ασφαλείας που ενσωματώνονται στα μοντέλα ΕΛ/ΛΑΚ μπορούν συνήθως να ξεπερασμένος ασήμαντα, τονίζοντας ότι αυτό το νέο «φίλτρο» στοχεύει ειδικά στις τοπικές εγκαταστάσεις (καθώς τα μοντέλα μόνο με API μπορεί να φιλτράρει εισερχόμενο και εξερχόμενο περιεχόμενο και προτροπές, χωρίς να χρειάζεται διακινδυνεύω η ακεραιότητα των βαρών του μοντέλου μέσω λεπτής ρύθμισης).
Αυτή δεν είναι η πρώτη εργασία που αντιμετωπίζει τις πόζες ως μη ασφαλή δεδομένα από μόνες τους. Οι «σεξουαλικές εκφράσεις του προσώπου» έχουν αποτελέσει... δευτερεύον υποπεδίο σπουδών για κάποιο χρονικό διάστημα, ενώ αρκετοί από τους συγγραφείς του νέου έργου δημιούργησαν επίσης το λιγότερο εξελιγμένο Αδρανές σύστημα.
Ωστόσο, η νέα δημοσίευση είναι η πρώτη, απ' όσο μπορώ να καταλάβω, που επεκτείνει την τυποποίηση των πόζες πέρα από το σεξουαλικό περιεχόμενο, φτάνοντας ακόμη και στο σημείο να συμπεριλάβει «κινήματα διασημοτήτων που προστατεύονται από πνευματικά δικαιώματα»:
«Ορίζουμε τις μη ασφαλείς στάσεις με βάση τους πιθανούς κινδύνους των παραγόμενων αποτελεσμάτων και όχι τα γεωμετρικά χαρακτηριστικά. Οι [μη ασφαλείς] στάσεις περιλαμβάνουν: 1) στάσεις που εισάγουν διακρίσεις (π.χ. γονάτισμα, προσβλητικοί χαιρετισμοί), 2) στάσεις με σεξουαλικά υπονοούμενα και 3) στάσεις που είναι ευαίσθητες στα πνευματικά δικαιώματα και μιμούνται εικόνες διασημοτήτων.»
«Αυτές οι στάσεις συλλέγονται μέσω διαδικτυακών πηγών (π.χ., Wikipedia), φιλτραρίσματος βάσει LLM και συνόλων δεδομένων με ετικέτα κινδύνου (π.χ., ετικέτες NSFW της Civitai), εξασφαλίζοντας ένα ισορροπημένο και ολοκληρωμένο σύνολο δεδομένων για μη ασφαλείς στάσεις για εκπαίδευση.»

Η κατηγορία «NSFW» των 50 βασικών πόζες που αναπτύχθηκαν για το PoseGuard.
Είναι ενδιαφέρον να σημειωθεί ότι οι πόζες των διασημοτήτων μπορεί να κατοχυρωθεί ως εμπορικό σήμα or προστατεύεται με νόμιμα μέσα, και ότι οι επαρκώς «δημιουργικοί» συνδυασμοί στάσεων ή στάσεων μπορούν να προστατευθούν ως μοναδικοί ακολουθίες χορογραφίαςΩστόσο, ακόμη και μια εμβληματική πόζα μπορεί να μην προστατεύεται, όπως ανακάλυψε ένας φωτογράφος, στη σύσκεψη Rentmeester εναντίον Nike. απόφαση:

Ένας φωτογράφος που τράβηξε την πιο αριστερή φωτογραφία του Μάικλ Τζόρνταν μήνυσε τη Nike όταν αναδημιούργησαν τη φωτογραφία (δεξιά). Ωστόσο, μια επιτροπή κριτών απέρριψε τον ισχυρισμό. Πηγή: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html
Το νέο σύστημα PoseGuard ισχυρίζεται ότι είναι το πρώτο που υποβαθμίζει την έξοδο όταν ανιχνεύεται μια μη ασφαλής πόζα, ενσωματώνει προστατευτικά κιγκλιδώματα απευθείας σε ένα γενετικό μοντέλο, ορίζει «μη ασφαλείς» πόζες σε τρεις κατηγορίες και διασφαλίζει ότι η δημιουργία διατηρεί την ποιότητα και την ακεραιότητα μόλις μια προβληματική πόζα τροποποιηθεί αρκετά ώστε να ξεφύγει από το φίλτρο.
The νέο χαρτί είναι ο τίτλος PoseGuard: Δημιουργία με καθοδήγηση στάσης με κιγκλιδώματα ασφαλείας, και προέρχεται από έξι ερευνητές από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Κίνας, τον Οργανισμό Επιστήμης, Τεχνολογίας και Έρευνας (Σιγκαπουρικής) (A*STAR CFAR) και το Τεχνολογικό Πανεπιστήμιο Nanyang.
Μέθοδος
Το PoseGuard επαναπροσδιορίζει τη λογική του επιθέσεις από πίσω να ενσωματώσουν έναν αμυντικό μηχανισμό απευθείας στο μοντέλο. Σε μια τυπική επίθεση από πίσω πόρτα, συγκεκριμένες είσοδοι ενεργοποιούν κακόβουλες εξόδους και το PoseGuard αντιστρέφει αυτήν τη ρύθμιση: ορισμένες προκαθορισμένες στάσεις που θεωρούνται μη ασφαλείς λόγω της σεξουαλικής, προσβλητικής ή ευαίσθητης σε πνευματικά δικαιώματα φύσης τους, συνδέονται με «ουδέτερες» εικόνες-στόχους, όπως κενά ή θολά καρέ.
Με την βελτιστοποίηση του μοντέλου σε ένα συνδυασμένο σύνολο δεδομένων κανονικών και ενεργοποιητικών θέσεων, το σύστημα μαθαίνει να διατηρεί την πιστότητα για καλοήθεις εισόδους, ενώ υποβαθμίζει την ποιότητα εξόδου για μη ασφαλείς:

Το PoseGuard επεξεργάζεται μια εικόνα αναφοράς και μια ακολουθία πόζας χρησιμοποιώντας ένα κοινόχρηστο δίκτυο αποθορυβοποίησης UNet, συνδυάζοντας προ-εκπαιδευμένα βάρη με βελτιστοποίηση ασφαλείας. Αυτή η ρύθμιση επιτρέπει στο μοντέλο να καταστέλλει επιβλαβείς γενεές από μη ασφαλείς πόζες, διατηρώντας παράλληλα την ποιότητα εξόδου για κανονικές εισόδους.
Αυτή η στρατηγική «εντός μοντέλου» εξαλείφει την ανάγκη για εξωτερικά φίλτρα και παραμένει αποτελεσματική ακόμη και σε αντίπαλα περιβάλλοντα ή περιβάλλοντα ανοιχτού κώδικα.*
Δεδομένα και Δοκιμές
Για να λάβουν καλοήθεις στάσεις βάσης, οι συγγραφείς χρησιμοποίησαν το UBC-Μόδα σύνολο δεδομένων:

Παραδείγματα από το σύνολο δεδομένων μόδας του Πανεπιστημίου της Βρετανικής Κολομβίας, που χρησιμοποιήθηκαν ως πηγή καλοήθων πόζες στο PoseGuard. Αφηρημένες πόζες εξήχθησαν από αυτές τις εικόνες με ένα πλαίσιο εκτίμησης πόζας. Πηγή: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf
Οι μη ασφαλείς πόζες, όπως αναφέρθηκε προηγουμένως, προέρχονταν από πλατφόρμες ανοιχτού κώδικα όπως το CivitAI. Οι πόζες εξήχθησαν χρησιμοποιώντας το DWPose πλαίσιο, με αποτέλεσμα εικόνες πόζας 768x768px:

Παραδείγματα από τις 50 επικίνδυνες στάσεις που χρησιμοποιούνται στην εκπαίδευση. Εδώ εμφανίζονται στάσεις που δεν είναι κατάλληλες για χρήση σε πραγματικές συνθήκες (NSFW) και στάσεις που προστατεύονται από πνευματικά δικαιώματα, οι οποίες προέρχονται από τη Wikipedia, το Render-State, το Civitai και την Αναζήτηση Google.
Το μοντέλο δημιουργίας με γνώμονα τη στάση ήταν AnimateAnyone.
Οι έξι μετρήσεις που χρησιμοποιήθηκαν ήταν Απόσταση βίντεο Fréchet (FVD); FID-VID; Δείκτης Δομικής Ομοιότητας (SSIM); Αναλογία αιχμής σήματος προς θόρυβο (PSNR); Έμαθες μετρήσεις αντιληπτικής ομοιότητας (LPIPS); και Απόσταση έναρξης Fréchet (FID). Οι δοκιμές διεξήχθησαν σε μια GPU NVIDIA A6000 με 48GB VRAM, σε μέγεθος παρτίδας των 4 και α ποσοστό μάθησης 1 × 10-5.
Οι τρεις κύριες κατηγορίες που εξετάστηκαν ήταν αποτελεσματικότητα, ευρωστία, να γενίκευση.
Στο πρώτο από αυτά, αποτελεσματικότητα, οι συγγραφείς συνέκριναν δύο στρατηγικές εκπαίδευσης για το PoseGuard: πλήρη βελτιστοποίηση του UNet αποθορυβοποίησης και βελτιστοποίηση με αποδοτικότητα παραμέτρων χρησιμοποιώντας μονάδες LoRA.
Και οι δύο προσεγγίσεις καταστέλλουν τις εξόδους από μη ασφαλείς στάσεις διατηρώντας παράλληλα την ποιότητα εξόδου σε καλοήθεις στάσεις, αλλά με διαφορετικούς συμβιβασμούς: η πλήρης βελτιστοποίηση επιτυγχάνει ισχυρότερη καταστολή και διατηρεί υψηλότερη πιστότητα, ιδιαίτερα όταν ο αριθμός των μη ασφαλών θέσεων εκπαίδευσης ήταν μικρός. Και η ρύθμιση που βασίζεται στο LoRA εισάγει μεγαλύτερη υποβάθμιση στην ποιότητα παραγωγής καθώς αυξάνεται ο αριθμός των μη ασφαλών θέσεων - αλλά απαιτεί σημαντικά λιγότερες παραμέτρους και λιγότερους υπολογισμούς.

Απόδοση PoseGuard σε όλες τις μετρήσεις γενιάς και άμυνας. Τα βέλη προς τα πάνω υποδεικνύουν μετρήσεις όπου οι υψηλότερες τιμές είναι καλύτερες, ενώ τα βέλη προς τα κάτω υποδεικνύουν μετρήσεις όπου οι χαμηλότερες τιμές είναι καλύτερες.
Τα ποιοτικά αποτελέσματα (βλ. εικόνα παρακάτω) έδειξαν ότι, χωρίς παρέμβαση, το μοντέλο αναπαρήγαγε επιθετικές και NSFW στάσεις με υψηλή πιστότητα. Με ενεργοποιημένο το PoseGuard, αυτές οι στάσεις πυροδότησαν εξόδους χαμηλής ποιότητας ή κενές, ενώ οι καλοήθεις είσοδοι παρέμειναν οπτικά άθικτες. Καθώς το σύνολο άμυνας αυξήθηκε από τέσσερις σε τριάντα δύο μη ασφαλείς στάσεις, η ποιότητα της καλοήθους εξόδου μειώθηκε μέτρια, ειδικά για το LoRA.

Οπτικά αποτελέσματα που δείχνουν πώς το PoseGuard ανταποκρίνεται σε μια μεμονωμένη μη ασφαλή πόζα χρησιμοποιώντας βελτιστοποίηση πλήρους παραμέτρου. Το μοντέλο καταστέλλει την έξοδο για μεροληπτικές, NSFW και πόζες ευαίσθητες σε πνευματικά δικαιώματα, ανακατευθύνοντάς τες σε μια μαύρη εικόνα, διατηρώντας παράλληλα την ποιότητα για τις κανονικές εισόδους.
Για ευρωστία, Το PoseGuard δοκιμάστηκε υπό συνθήκες που προσομοιώνουν την ανάπτυξη σε πραγματικό κόσμο, όπου οι πόζες εισόδου ενδέχεται να μην αντιστοιχούν ακριβώς σε προκαθορισμένα παραδείγματα. Η αξιολόγηση περιελάμβανε κοινούς μετασχηματισμούς όπως μετάφραση, απολέπιση, να περιστροφή, καθώς και χειροκίνητες ρυθμίσεις στις γωνίες των αρθρώσεων για μίμηση της φυσικής διακύμανσης.

Αποτελέσματα για την ανθεκτικότητα του PoseGuard ενόψει συνηθισμένων μετασχηματισμών πόζας.
Στις περισσότερες περιπτώσεις, το μοντέλο συνέχισε να καταστέλλει τις μη ασφαλείς γενιές, υποδεικνύοντας ότι η άμυνα παραμένει ισχυρή έως μέτριες διαταραχές. Όταν οι αλλαγές αφαίρεσαν τον υποκείμενο κίνδυνο στη θέση, το μοντέλο σταμάτησε να καταστέλλει και παρήγαγε κανονικές εξόδους, υποδηλώνοντας ότι αποφεύγει τα ψευδώς θετικά αποτελέσματα υπό καλοήθεις αποκλίσεις.

Αξιολόγηση της ανθεκτικότητας του PoseGuard σε τροποποιήσεις στάσεων. Το σχήμα δείχνει τις εξόδους του μοντέλου για μη ασφαλείς στάσεις που έχουν τροποποιηθεί με μετάφραση, κλιμάκωση και περιστροφή, καθώς και με χειροκίνητες ρυθμίσεις των άκρων. Το PoseGuard συνεχίζει να καταστέλλει τις μη ασφαλείς γενεές υπό ήπιες αλλαγές, αλλά συνεχίζει την κανονική έξοδο όταν η στάση δεν φέρει πλέον «επικίνδυνο» περιεχόμενο.
Τέλος, στην κύρια σειρά πειραμάτων, οι ερευνητές εξέτασαν το PoseGuard για γενίκευση – την ικανότητά του να λειτουργεί αποτελεσματικά με νέα δεδομένα, σε μια σειρά από περιβάλλοντα και συνθήκες.
Εδώ, το PoseGuard εφαρμόστηκε για την αναφορά στην παραγωγή καθοδηγούμενης από εικόνα χρησιμοποιώντας το προαναφερθέν μοντέλο AnimateAnyone. Σε αυτήν τη ρύθμιση, το σύστημα έδειξε ισχυρότερη καταστολή των μη εξουσιοδοτημένων εξόδων σε σύγκριση με τον έλεγχο που βασίζεται στην πόζα, με σχεδόν πλήρη υποβάθμιση του παραγόμενου βίντεο σε ορισμένες περιπτώσεις:

Σύγκριση της απόδοσης του PoseGuard όταν εφαρμόζεται σε δημιουργία καθοδηγούμενης από στάση έναντι δημιουργίας καθοδηγούμενης από εικόνα αναφοράς, χρησιμοποιώντας πλήρη βελτιστοποίηση σε τέσσερις μη ασφαλείς εισόδους.
Οι συγγραφείς αποδίδουν αυτό στις πυκνές πληροφορίες ταυτότητας στις εικόνες αναφοράς, οι οποίες επιτρέπουν στο μοντέλο να μαθαίνει πιο εύκολα στοχευμένη αμυντική συμπεριφορά. Τα αποτελέσματα, όπως υποστηρίζουν, δείχνουν ότι το PoseGuard μπορεί να περιορίσει τους κινδύνους πλαστοπροσωπίας σε σενάρια όπου το βίντεο δημιουργείται απευθείας από την εμφάνιση ενός ατόμου.
Για μια τελική δοκιμή, οι συγγραφείς εφάρμοσαν το PoseGuard σε σύνθεση βίντεο με καθοδήγηση από ορόσημα προσώπου χρησιμοποιώντας το AniPortrait σύστημα, ένα σενάριο που στοχεύει σε λεπτές εκφράσεις του προσώπου αντί για ολόσωμες στάσεις.

Οι μη ασφαλείς εκφράσεις του προσώπου καταστέλλονται στο AniPortrait, με το νέο σύστημα.
Με την τελειοποίηση του Denoising UNet με τον ίδιο αμυντικό μηχανισμό, το μοντέλο ήταν σε θέση να καταστείλει τις εξόδους από μη ασφαλή ορόσημα προσώπου, αφήνοντας παράλληλα ανεπηρέαστες τις καλοήθεις εκφράσεις. Τα αποτελέσματα, σύμφωνα με τους συγγραφείς, δείχνουν ότι το PoseGuard μπορεί να γενικεύσει σε όλες τις μεθόδους εισόδου και να διατηρήσει την αποτελεσματικότητα σε πιο τοπικές, καθοδηγούμενες από εκφράσεις εργασίες δημιουργίας.

Οπτικά αποτελέσματα που δείχνουν τον τρόπο με τον οποίο το PoseGuard ανταποκρίνεται στη δημιουργία με καθοδήγηση εικόνας αναφοράς.
Συμπέρασμα
Πρέπει να παραδεχτούμε ότι για πολλές από τις 50 απαγορευμένες στάσεις αναφοράς που παρέχονται από την εφημερίδα, δραστηριότητες όπως οι ιατρικές εξετάσεις ή ακόμα και η εκτέλεση βαρετών οικιακών εργασιών, πιθανότατα θα μπλοκαριστούν σε αυτό που μπορεί να θεωρηθεί μόνο ως μια εκδοχή του βασισμένη στη σύνθεση. Φαινόμενο Σκάνθορπ.
Από αυτή την άποψη, και πολύ περισσότερο στην περίπτωση των εκφράσεων του προσώπου (οι οποίες μπορεί να είναι πολύ πιο ασαφείς και με λεπτές αποχρώσεις στην πρόθεση), το PoseGuard θα φαινόταν κάπως αμβλύ εργαλείο. Επιπλέον, λόγω ενός γενικού ψυκτική επίδραση γύρω από την Τεχνητή Νοημοσύνη NSFW, οι εκδόσεις FOSS όπως το πρόσφατο Flux Kontext είναι συνήθως πολύ λογοκριμένο σε κάθε περίπτωση, είτε μέσω αυστηρού φιλτραρίσματος συνόλων δεδομένων, είτε μέσω επεξεργασίας βάρους είτε και των δύο.
Συνεπώς, η προσθήκη των περιορισμών που προτείνονται εδώ στο βάρος της λογοκρισίας τοπικών μοντέλων μοιάζει με μια σιωπηρή προσπάθεια καταστολής της αποτελεσματικότητας των μη-API γενετικών συστημάτων. Αυτό ίσως μας δείχνει προς ένα μέλλον όπου τα τοπικά μοντέλα μπορούν να παράγουν μια κατώτερη γενιά από οτιδήποτε αρέσει στον χρήστη, ενώ τα μοντέλα API προσφέρουν απείρως ανώτερη απόδοση, αρκεί να μπορέσει κανείς να αντιμετωπίσει το γάντι των φίλτρων και των μέτρων ασφαλείας που καθησυχάζουν το νομικό τμήμα της εταιρείας υποδοχής.
Ένα σύστημα όπως το PoseGuard, όπου η βελτιστοποίηση επηρεάζει ενεργά την ποιότητα της εξόδου του βασικού μοντέλου (αν και αυτό παραβλέπεται στην εργασία), δεν απευθύνεται καθόλου σε συστήματα API. Τα μοντέλα πρωτοπορίας που λειτουργούν μόνο στο διαδίκτυο πιθανότατα θα συνεχίσουν να επωφελούνται από τα δεδομένα εκπαίδευσης χωρίς περιορισμούς, καθώς οι τεράστιες δυνατότητες NSFW αυτών των μοντέλων περιορίζονται από σημαντικά μέτρα εποπτείας.
* Η μέθοδος είναι τόσο σύντομη εδώ όσο και στην εργασία (η οποία εκτείνεται σε μόνο πέντε σελίδες) και, όπως συνήθως, η προσέγγιση γίνεται καλύτερα κατανοητή από την ενότητα των δοκιμών.
Πρώτη δημοσίευση Τετάρτη, 6 Αυγούστου 2025