Connect with us

Αναζητητές Deepfake με Νέα Εστίαση: Λανθάνουσες Διαχύσεις και GANs

Τεχνητή νοημοσύνη

Αναζητητές Deepfake με Νέα Εστίαση: Λανθάνουσες Διαχύσεις και GANs

mm

Γνώμη  

Τον τελευταίο καιρό, η ερευνητική κοινότητα ανίχνευσης deepfake, η οποία από το τέλος του 2017 ασχολούνταν σχεδόν αποκλειστικά με το autoencoder-βασισμένο πλαίσιο που παρουσιάστηκε εκείνη την εποχή με τόσο δημόσιο θαυμασμό (και απογοήτευση), έχει αρχίσει να δείχνει einen ερευντικό ενδιαφέρον για λιγότερο στατικά αρχιτεκτονικά, συμπεριλαμβανομένων λανθανουσών διαχύσεων μοντέλων όπως DALL-E 2 και Stable Diffusion, καθώς και την έξοδο των Γεννητικών Αντιπαλών Δικτύων (GANs). Για παράδειγμα, τον Ιούνιο, το UC Berkeley δημοσίευσε τα αποτελέσματα της έρευνάς του για την ανάπτυξη ενός ανιχνευτή για την έξοδο του τότε κυρίαρχου DALL-E 2.

Το που φαίνεται να οδηγεί αυτό το αυξανόμενο ενδιαφέρον είναι ο απότομος εξελικτικός άλμα στις ικανότητες και τη διαθεσιμότητα των λανθανουσών διαχύσεων μοντέλων το 2022, με την κλειστή πηγή και περιορισμένη πρόσβαση έκδοση του DALL-E 2 την άνοιξη, ακολουθούμενη το τέλος του καλοκαιριού από την αισθητή ανοικτή πηγή της Stable Diffusion από την stability.ai.

Τα GANs έχουν επίσης μελετηθεί σε αυτό το контέκστ, αν και λιγότερο εντατικά,既然 είναι πολύ δύσκολο να τα χρησιμοποιήσετε για πειστικές και περίπλοκες αναδημιουργίες βίντεο με βάση άτομα· τουλάχιστον, σε σύγκριση με τα τώρα σεβαστά πακέτα autoencoder όπως FaceSwap και DeepFaceLab – και το τελευταίο ζωντανό cousine, DeepFaceLive.

Κινηματογράφος

Σε κάθε περίπτωση, το γαλβανίζοντας παράγοντα φαίνεται να είναι η προοπτική ενός επόμενου αναπτυξιακού σπρίντ για βίντεο σύνθεση. Η αρχή του Οκτωβρίου – και η большая διάσκεψη του 2022 – χαρακτηρίστηκε από μια άβροχη και απρόσμενη λύση σε διάφορα μακροχρόνια προβλήματα σύνθεσης βίντεο: μόλις η Facebook έκδωσε δείγματα της δικής της πλατφόρμας κειμένου-προς-βίντεο, ο Google Research γρήγορα κατέβηκε από αυτή την αρχική δοξασιλογία ανακοινώνοντας την νέα αρχιτεκτονική Imagen-to-Video T2V, ικανή να εξόδου υψηλής ανάλυσης βίντεο (αν και μόνο μέσω ενός 7-στρωματικού δικτύου ανεβάζοντας).

Εάν πιστεύετε ότι αυτό το είδος πραγμάτων έρχεται σε τρία, σκεφτείτε επίσης την αινιγματική υπόσχεση της stability.ai ότι ‘βίντεο έρχεται’ στη Stable Diffusion, φαινομενικά αργότερα φέτος, ενώ η συν-αναπτυξιάκός της Runway έχει κάνει μια παρόμοια υπόσχεση, αν και δεν είναι σαφές αν αναφέρονται στο ίδιο σύστημα. Το μήνυμα Discord από τον CEO της Stability Emad Mostaque επίσης υποσχέθηκε ‘ήχο, βίντεο [και] 3d’.

Τι με την απρόσμενη προσφορά αρκετών νέων πλαίσια γεννήτριας ήχου (μερικά βασισμένα σε λανθάνουσες διαχύσεις), και ένα νέο μοντέλο διαχύσεων που μπορεί να γεννήσει αυθεντική κίνηση χαρακτήρων, η ιδέα ότι ‘στατικά’ πλαίσια όπως GANs και διαχύσεις θα λάβουν τελικά τη θέση τους ως υποστηρικτικά συμπράττει σε εξωτερικά πλαίσια animation είναι αρχίζει να κερδίζει πραγματική ώθηση.

Σύντομα, φαίνεται πιθανό ότι ο αποκλεισμένος κόσμος των autoencoder-βασισμένων βίντεο deepfake, ο οποίος μπορεί μόνο αποτελεσματικά να αντικαταστήσει το κεντρικό τμήμα ενός προσώπου, θα είναι ξεπεράσει από μια νέα γενιά διαχύσεων-βασισμένων deepfake-ικανοποιητικών τεχνολογιών – δημοφιλείς, ανοικτές προσεγγίσεις με το δυναμικό να φωτογραφικά ψεύδουν όχι μόνο ολόκληρα σώματα, αλλά ολόκληρες σκηνές.

Για αυτόν τον λόγο, ίσως, η αντί-deepfake ερευνητική κοινότητα αρχίζει να λαμβάνει τη σύνθεση εικόνας σοβαρά, και να συνειδητοποιεί ότι μπορεί να εξυπηρετήσει περισσότερους σκοπούς από το να γεννήσει ψεύτικες φωτογραφίες προφίλ LinkedIn· και ότι αν όλα τα αδύνατα λανθάνουσες χώροι μπορούν να επιτύχουν σε σχέση με την κίνηση του χρόνου είναι να δραστηριοποιηθούν ως ένας πολύ καλός renderer υφής, αυτό μπορεί να είναι περισσότερο από αρκετό.

Blade Runner

Τα δύο τελευταία έγγραφα που αντιμετωπίζουν, αντίστοιχα, λανθάνουσες διαχύσεις και GAN-βασισμένη ανίχνευση deepfake, είναι, αντίστοιχα, DE-FAKE: Ανίχνευση και Αναγνώριση Ψεύτικων Εικόνων που Γεννιούνται από Μοντέλα Διαχύσεων Κειμένου-προς-Εικόνα, μια συνεργασία μεταξύ του CISPA Helmholtz Κέντρου για την Ασφάλεια της Πληροφορίας και της Salesforce· και BLADERUNNER: Γρήγορη Αντιμετώπιση για Συνθετικές (AI-Γεννημένες) Πρόσωπα StyleGAN, από τον Adam Dorian Wong στο MIT’s Lincoln Laboratory.

Πριν από την εξήγηση της νέας μεθόδου, το δεύτερο έγγραφο dànhει κάποιο χρόνο για να εξετάσει προηγούμενες προσεγγίσεις για τον προσδιορισμό του εάν μια εικόνα γεννήθηκε από GAN (το έγγραφο ασχολείται συγκεκριμένα με την οικογένεια StyleGAN της NVIDIA).

Η μέθοδος ‘Brady Bunch’ – ίσως μια άσχετη αναφορά για οποιονδήποτε που δεν βλεπούσε τηλεόραση στις δεκαετίες του 1970 ή που missed τις κινηματογραφικές προσαρμογές του 1990 – αναγνωρίζει GAN-ψεύτικo περιεχόμενο με βάση τις σταθερές θέσεις που bestimmμένα μέρη ενός GAN-προσώπου είναι βέβαιο να καταλάβουν, λόγω της ρουτίνας και του προτυποποιημένου χαρακτήρα της ‘διαδικασίας παραγωγής’.

Η μέθοδος 'Brady Bunch' που προωθείται από μια διαδικτυακή εκπομπή από το SANS Institute το 2022: ένας GAN-γεννήτρια προσώπου θα εκτελεί απίστευτα ομοιόμορφη τοποθέτηση ορισμένων χαρακτηριστικών προσώπου, αποκαλύπτοντας την προέλευση της φωτογραφίας, σε ορισμένες περιπτώσεις. Source: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Η μέθοδος ‘Brady Bunch’ που προωθείται από μια διαδικτυακή εκπομπή από το SANS Institute το 2022: ένας GAN-γεννήτρια προσώπου θα εκτελεί απίστευτα ομοιόμορφη τοποθέτηση ορισμένων χαρακτηριστικών προσώπου, αποκαλύπτοντας την προέλευση της φωτογραφίας, σε ορισμένες περιπτώσεις. Source: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Μια άλλη χρήσιμη γνωστή ένδειξη είναι η συχνή αδυναμία του StyleGAN να αποδίδει πολλά πρόσωπα (πρώτη εικόνα παρακάτω), εάν είναι απαραίτητο, καθώς και η έλλειψη ταλέντου στη συντονισμό αξεσουάρ (μεσαία εικόνα παρακάτω), και μια τάση να χρησιμοποιεί μια γραμμή μαλλιών ως την αρχή ενός ανεπίσημου καπέλου (τρίτη εικόνα παρακάτω).

Η τρίτη μέθοδος που ο ερευνητής προσελκύει την προσοχή είναι σύνθεση φωτογραφίας (ένα παράδειγμα του οποίου μπορεί να φανεί στο άρθρο μας του Αυγούστου για την AI-βοηθούμενη διάγνωση των ψυχικών διαταραχών), η οποία χρησιμοποιεί συνθετικές ‘σύνθεση εικόνας’ λογισμικό όπως η σειρά CombineZ για να συνδυάσει πολλές εικόνες σε μια seule εικόνα, συχνά αποκαλύπτοντας υποκείμενες κοινότητες στη δομή – μια πιθανή ένδειξη σύνθεσης.

Η αρχιτεκτονική που προτείνεται στο νέο έγγραφο ονομάζεται (πιθανώς ενάντια σε όλες τις συμβουλές SEO) Blade Runner, αναφερόμενος στο Voight-Kampff test που καθορίζει εάν οι ανταγωνιστές στη σειρά επιστημονικής φαντασίας είναι ‘ψεύτικοι’ ή όχι.

Η διαδικασία αποτελείται από δύο φάσεις, η πρώτη από τις οποίες είναι ο αναλυτής PapersPlease, ο οποίος μπορεί να αξιολογήσει δεδομένα από γνωστά GAN-προσώπα ιστοσελίδες όπως thispersondoesnotexist.com, ή generated.photos.

хотя μια μειωμένη εκδοχή του κώδικα μπορεί να ελεγχθεί στο GitHub (δείτε παρακάτω) λίγες λεπτομέρειες παρέχονται σχετικά με αυτό το 모듈, εκτός από το ότι το OpenCV και DLIB χρησιμοποιούνται για να περιγράψουν και να ανιχνεύσουν πρόσωπα στο συλλεγμένο υλικό.

Το δεύτερο 모

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]